论文部分内容阅读
数据挖掘是数据库研究领域中最活跃的分支之一,在科学研究和银行、电信、保险、零售等应用领域都取得了很多的成果。但数据挖掘也带来了一些社会问题,尤其是信息安全和隐私保护问题得到了广泛的关注。因此,如何在保证隐私的情况下挖掘出有用的信息已成为近年来数据挖掘领域研究的热点之一。
本文主要探讨基于隐私保护的分类规则挖掘问题,根据数据分布方式,分类规则挖掘所用到的数据集可分为集中式数据集和分布式数据集,本文分别对这两种情况进行了研究。
首先,针对不同的数据分布方式,本文分别分析和介绍了当前几种典型的隐私保护分类规则挖掘算法。
其次,针对集中式数据集,本文提出了一种有效的基于随机投影的数据扰乱方法,并基于此方法提出了两种具体的算法:PBB分类算法和PBP分类算法。通过分析和实验可以看出,本文提出的数据扰乱方法,由于在维数上进行了压缩,所以对所有的数据类型都能提供有效的隐私保护,并且经此方法扰乱后的数据适用于多种分类算法,且这些算法具有计算开销小、精度高的优点。
本文还针对分布式数据集,给出了一种基于投影的分类规则挖掘模型,再基于此模型提出了一种具体的针对数据水平分布的隐私保护分类规则挖掘算法PBHPD,并给出了一种隐私保护程度的评价标准。分析和实验证明,该算法可以防止恶意攻击,在隐私保护程度和精度之间可以达到一个较好的平衡,与现有的多种算法相比,运行效率高,计算和通讯开销都比较小。