满足差分隐私的频繁序列挖掘算法的设计与研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:a595420725
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息科学技术的快速发展,如何从信息的海洋中及时发现有用的知识已经成为人们亟待解决的问题。频繁序列模式挖掘是指从序列数据(时间序列数据、空间序列数据等)中寻找高频出现的序列作为模式的知识发现过程。虽然频繁序列模式挖掘技术已经成为一种有效的知识发现方法,但是如果数据中包含敏感信息,直接发布挖掘得到的频繁序列可能造成用户隐私信息的泄露。针对上述问题,本文提出了一种能够在提供高可用性挖掘结果的同时有效保护数据隐私的算法——PFS (differentially Private Frequent Sequences mining algorithm)。在PFS算法中,为了解决由于数据库中可能存在的长事务给差分隐私保护带来的挑战,本文提出了三种应对策略——数据集采样策略、事务长度限制策略、以及阈值下降策略。通过上述策略,算法有效控制了为保证差分隐私所添加的噪音量,从而同时达到即保证数据可用性又保护数据隐私的双重目标。实验结果表明,PFS算法比现有的满足差分隐私的频繁序列挖掘算法具有更好的性能。同时,为了证明数据集事务长度限制策略中的事务截断机制具有广泛的适用性,本文将该策略应用到频繁项集挖掘中,提出了一种新的满足差分隐私的频繁项集挖掘算法——DAT (Differentially private algorithm Apriori based of transaction Truncating)。算法DAT同样也显现了良好的性能优势。
其他文献
Internet技术的发展使得基于网络的应用得到了迅速的发展。鉴于基于Internet的应用是一种分布式应用系统,需要解决安全、可靠性等方面的问题,分布式对象技术成为解决这些问题的
随着Internet的飞速发展和用户的剧烈增长,传统而单一的Web服务器已不能满足客户端访问能力的需求,因而如何提高Web服务器的性能成为Web技术领域的一个研究热点。Web Server集