面向差分隐私保护的频繁项集挖掘算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zyx_xingfu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着数据挖掘、机器学习、深度学习等技术的兴起与发展,企业从普通用户处收集到了大量的数据,并对这些数据进行分析处理来了解用户的习惯和喜好,从而向用户提供更加个性化的服务。但是用户在日常生活中产生的数据包含了大量的个人敏感信息,直接发布或者进行分析会使得不法分子收集到用户的隐私,从而对个人进行网络诈骗、电话诈骗、木马攻击等等。作为一种有着严格数学理论证明的隐私保护机制,差分隐私假设攻击者拥有最大背景知识,在算法每一步的执行过程中添加精心设计的噪声使得最终的输出结果能够保护用户的隐私,而且可以通过调整隐私预算的大小来调整隐私保护级别。目前,差分隐私已经应用于数据挖掘的许多领域,例如主成分分析,聚类,频繁模式挖掘等等。差分隐私直接对数据添加噪声来达到隐私保护的目的,添加噪声的大小与数据集的维度密切相关,直接影响频繁项集挖掘结果的可用性,因此如何兼顾安全性和效用性是差分隐私算法面临的一大挑战。论文从提高挖掘结果的可用性及提高算法效率两个出发点,提出了两种新的满足差分隐私保护的频繁项集挖掘算法。论文对现有的一些频繁项集挖掘算法进行了研究和分析,发现降低数据集中最长事务的长度是提高频繁项集挖掘算法挖掘结果可用性的关键手段,如何对数据集进行处理来平衡加噪引入的误差和数据集可用性降低引入的误差,是频繁项集挖掘算法面临的挑战。针对这一问题,论文提出了一种按支持度截断数据集的频繁项集挖掘算法Trun Super,通过对事务数据集进行截断以降维,将事务中的项按支持度从大到小进行排序,剔除支持度较小的项,从而提高挖掘结果的可用性。由于满足差分隐私保护的频繁项集挖掘算法需要多次遍历数据集,减少遍历一次数据集所需要消耗的时间是提高频繁项集挖掘算法挖掘效率的关键手段,而采用取样数据集必定会影响最后挖掘结果的准确性,如何在使用取样数据集提高算法效率的同时,尽可能保证挖掘结果的可用性是频繁项集挖掘算法面临的挑战。论文针对这一方向,提出了一种利用中心极限定理计算取样数量的频繁项集挖掘算法Sample Trun,该算法的创新主要体现两点,首先使用中心极限定理计算出一个合理的取样数量,其次对算法各个步骤进行分析,提出了最适合采用取样数据集的几个步骤。最后,通过在三个数据集上的实验,验证了论文提出的两个算法的优越性。
其他文献
为缓解工业化、城市化快速发展带来的人地矛盾,我国于20世纪90年代末有序开展了大规模的未利用地开发整理,荒草地作为未利用地开发占比较大且土质较好的地类,是耕地后备资源的主要来源。荒草地的开发利用,增加了有效耕地面积,对实现耕地占补平衡,确保粮食安全起到重要作用。大规模的荒草地开发,改变了土壤立地条件的和土地利用方式,从而影响了土壤的理化性状、肥力状况和生态功能等。土壤理化性状特征以及水源涵养能力是
贷款是金融机构的重要产品之—。每—家机构都在尝试制定有效的商业策略,以鼓励更多的客户申请贷款。但是银行的资产有限,尽管许多人正在申请银行贷款,只能授予其中的少数人。因此,银行能否选择出风险更低的贷款人是—个值得深究的问题。其中—些客户在其申请获得批准后无力偿还贷款。因此,金融机构将面临—项决定,即是否增加评定贷款人风险的议案。同样,传统的机器学习技术也不是非常有效和高效,例如支持向量机(SVM),
目的:通过剖析“脾主运化”理论内核,联系中医功能脾脏与实质小肠与机体痰浊血瘀证形成关系,将脾、心、小肠关联阐明小肠现代生物学改变与AS发生发展关系。在此基础上,建立脾
本研究的目的在于结合航空发动机中介球轴承可靠性验证需求及现有相关标准,分析验证需求、规划试验项目、改进试验设备,以试验器为平台、以试验为手段,实现航空发动机中介球
无线通讯和传感器技术的发展以及移动智能设备的普及,使得以设备为中心的无线传感网络转为以人为中心的移动群智感知。移动群智感知将感知任务以众包的方式外包给一群拥有智
航空轴承作为支撑发动机转子系统的核心部件,其可靠性是整个发动机转子系统可靠工作的保证,直接影响到发动机的整体性能和寿命。根据国军标要求,航空轴承在装机前必须要在地
与传统主机游戏在我国的发展糟糕境遇不同,我国在智能手机时代的发展初期,便显现出优势,随着智能硬件设备价格被小米等国产厂商拉低,和人民日益增长的可支配收入,中国成为了全球智能手机最大的生产国和消费国,与之而来的是我国移动游戏产业的井喷式发展。借助智能移动支付产业的发展,移动游戏企业出现了与传统行业不同的交易模式和业务特点,进一步影响其收入确认的方式。在新收入准则发布后,由于不同企业财务管理人员对新准
由于天文望远镜各方面性能的提高,天文学的研究和发现有了飞速的发展,人类对宇宙的认识也随之有了很大的提高。随着数据的不断积累,天文学已经到了一个“数据雪崩”的时代。
如今,超高压电网采取集中监控、统一调度的模式统筹管理,变电设备隐患、缺陷的排查很大程度上依赖于设备状态监视系统。这种工作模式下,设备的指标示数往往是在“临界”、甚至“越限”才会被运维人员发现,工作前瞻性不足、贻误“苗头性”缺陷治理时机,工作效率、操作精度受到很大制约,极易造成“小恙成疾”、“小病成灾”的被动局面。当前,社会经济的飞速发展对电网安全提出更高需求,尤其对供电的可靠性、稳定性要求更为严格
感知识别技术是将硬件设备与数据处理技术相结合,从而感知识别周围环境。随着物联网技术的发展,感知识别技术逐步应用于人类生活,如基于雷达的人群密度估计方法、基于RFID的