基于隐私保护的分类规则挖掘问题研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:wangxinyu999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是数据库研究领域中最活跃的分支之一,在科学研究和银行、电信、保险、零售等应用领域都取得了很多的成果。但数据挖掘也带来了一些社会问题,尤其是信息安全和隐私保护问题得到了广泛的关注。因此,如何在保证隐私的情况下挖掘出有用的信息已成为近年来数据挖掘领域研究的热点之一。 本文主要探讨基于隐私保护的分类规则挖掘问题,根据数据分布方式,分类规则挖掘所用到的数据集可分为集中式数据集和分布式数据集,本文分别对这两种情况进行了研究。 首先,针对不同的数据分布方式,本文分别分析和介绍了当前几种典型的隐私保护分类规则挖掘算法。 其次,针对集中式数据集,本文提出了一种有效的基于随机投影的数据扰乱方法,并基于此方法提出了两种具体的算法:PBB分类算法和PBP分类算法。通过分析和实验可以看出,本文提出的数据扰乱方法,由于在维数上进行了压缩,所以对所有的数据类型都能提供有效的隐私保护,并且经此方法扰乱后的数据适用于多种分类算法,且这些算法具有计算开销小、精度高的优点。 本文还针对分布式数据集,给出了一种基于投影的分类规则挖掘模型,再基于此模型提出了一种具体的针对数据水平分布的隐私保护分类规则挖掘算法PBHPD,并给出了一种隐私保护程度的评价标准。分析和实验证明,该算法可以防止恶意攻击,在隐私保护程度和精度之间可以达到一个较好的平衡,与现有的多种算法相比,运行效率高,计算和通讯开销都比较小。
其他文献
近年来,随着分布式计算技术的深入研究,网格计算和Web服务都得到了飞速发展。在网格计算方面,网格的概念已经从传统的利用分散的计算资源进行高性能计算,转变为整合资源共享
随着网格研究的不断深入以及网格基础设施的迅速发展,越来越多功能强大的网格应用不断出现。网格工作流系统是众多网格应用中非常具有发展前景的一个领域。网格工作流系统协调
对象存储是存储领域新兴的发展趋势,它综合了SAN和NAS的优点,同时具有SAN的高速直接访问和NAS的数据共享等优势。与传统存储系统比较,实验证明对象存储是一种具有高性能、高
在信息检索过程中,在选择相关信息结果时,摘要常被用来支持用户快速、准确得进行判断。一种强调简洁(较短的长度)和简单(比较少的复合句)的指示性摘要被提出来,称之为“一瞥
随着我国经济实力的不断增强,大量的私家车进入了普通群众的生活中,机动车辆的管理工作也成为城市发展亟待解决的问题。传统的人工管理方式不但成本高而且效率差,在交通管理
随着高校后勤社会化改革的不断深入,绝大多数的高校餐饮部门已经走上了市场化的道路。作为一个经营实体,高校餐饮部门不仅要为全校师生提供高质量的餐饮服务,还要维持其自身的生
大数据时代最重要的不在于“大量的数据”,而在于思维的变革,变革之一即是从注重因果关系到注重相关关系。因果关系即是“为什么”,是导致事物发生的根本原因,而这常常是难以捉摸
数字水印作为一种有效的数字产品版权保护和数据安全维护的技术,是国际上信息安全领域内的一个前沿课题。目前的数字水印技术在水印嵌入过程中,大都改变了原始数字作品的信息
计算机软件、硬件技术以及网络技术的快速发展,不断地为各行各业带来新的契机。同时人们也意识到大量的计算资源、存储资源闲置不用造成的浪费不利于社会的发展。因此人们将目
企业应用集成(EAI)技术是一个非常广泛的议题,它主要是实现并简化异构系统间的互连,解决目前大型企业各类应用迅速增加但应用之间缺乏有效通信的问题。EAI技术在许多行业如电信