分布式的隐私保护特征选择研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:BBP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅速发展,计算能力与存储能力的不断提高,数据集的规模也有了飞速的增长。为了从大量数据中获取有价值的信息,需要对采集到的数据进行数据挖掘。而特征选择又是数据挖掘中一个重要而且经常采用的预处理过程。它可以减少特征数目,去除不相关的、冗余的噪声数据,带来明显的应用效果:加速数据挖掘算法,提高挖掘算法性能,如增强预测准确性及结果的可理解性。隐私保护是数据挖掘中的一个重要研究方向,正是由于数据挖掘的广泛使用,使得隐私保护受到了极大的关注。如何在保护个人隐私的同时有效地进行特征选择是当今的一个研究热点。然而,现有的特征选择算法大都没有考虑保护个人隐私的问题,如医疗与财政记录等,这使得特征选择日后将面临严峻的信息安全问题。另外,各类应用产生的大量数据可能存储在多个站点上,为了挖掘如此庞大而且分布式存储的数据,分布式计算技术孕育而生。本文从保护特征的隐私和保护数据集的隐私两方面出发,提出了基于隐私保护的分布式特征选择算法。保护特征隐私方面,本文将PCA与SVM-RFE相结合,通过对SVM-RFE中评价准则的三种优化方法,提出基于PCA与SVM-RFE的隐私保护算法。仿真实验表明,该算法具有较好的性能,能够在保证一定准确率的同时,尽可能的降低所选特征子集的信息量之和,从而保护特征的隐私。保护数据集隐私方面,本文将基于统计理论(基尼指数、误分类增益、熵)的特征选择方法与差分隐私相结合,应用于分布式的Map-Reduce框架下,实现了分布式环境下的差分隐私特征选择算法,并从理论上证明了该算法满足差分隐私的定义。通过对UCI数据集与人工合成数据集的仿真实验结果分析可以得知,该算法能够在保护一定程度隐私信息的同时,选取出重要的特征。同时,一些对比实验也表明该算法的准确性以及分布式环境较集中式环境的优越性。
其他文献
互联网及计算机技术的普及与飞速发展,使得多媒体、商务政务、工业控制、社会经济生活等方方面面都呈现着信息化和数字化。然而,信息的安全传输一直是世界范围人们关注的焦点
社会的发展对信息安全的要求越来越高,而密码是信息安全的基石,受到学术界广泛的关注。自ZORRO算法提出之后,已经有很多人对ZORRO算法进行过密码分析。吴文玲等人发现ZORRO算
近年来,随着车联网(VANETs, Vehicular Ad hoc Networks)理论的深入研究及其在智能交通、安全、娱乐等方面的应用,车联网在提升道路交通管理水平,进行主动事故告警、事故隐患
随着物联网应用的推广,出现了更多的低功耗高速率实时通信技术需求。IEEE802.15.4是当前低功耗通信的标准,但不适用于高速实时传输。它不能解决多于七个设备需要实时服务、时延
随着物联网概念提出和其相关技术的应用以及近年来可信计算技术的发展和进步,可信计算将是未来物联网以及信息平台得以进行安全通信和信息交换的基础。国际可信计算组织TCG (
当前,大部分面向终端用户的软件采用的是图形用户界面(Graphic User Interface, GUI)技术。随着软件工程体系的不断规范和标准化,人们对软件质量的要求也越来越高。软件测试
肿瘤细胞图像作为一种常用的医学图像和自然图像,具有细胞结构复杂、图像冗余度高和图像高阶统计特性服从非高斯分布的特点。不少研究学者通过提取图像的几何特征来实现肿瘤
无线传感器网络(Wireless Sensor Networks,WSNs)主要由大量微型传感器节点构成,具备感知、采集并传输信息的功能。由于节点自身携带电池能量有限,因此,实现节点能耗均衡、延长网络
麦长管蚜是我国大多数麦区的主要害虫,对小麦的危害严重。准确预测麦长管蚜的发生量,是进行正确防治决策和减少农药用量的前提。目前麦蚜的预测多为发生级别而非发生量的预测
随着云计算的迅速发展,越来越多的数据被存放在云服务器中。云存储作为一种新型的存储服务,所具有的高可扩展性、高可靠性、价格低廉和可随时随地接入访问的特点,为海量数据