保护隐私的数据挖掘方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hjx1000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代给我们带来了数据在数量和复杂性上的爆炸性增长,也催生了富有挑战性的研究领域——数据挖掘。在很多情况下,数据由不同的组织持有、分布于不同的地理位置,而且持有者可能出于数据安全性和敏感性等原因不愿意直接共享他们的数据。怎样跨越数据挖掘和数据机密性之间的这道鸿沟进行各种研究和应用,是当前数据挖掘的一大研究方向,称为保护隐私的数据挖掘(Privacy-Preserving Data Mining,PPDM)。 保护隐私的数据挖掘方法有两大类,随机化方法和基于密码学的方法,本文关注前者,它有两种模式,基于随机数据扰乱以及基于随机响应的方法。 随机数据扰乱方法及重构技术难以消除由于属性变量本身相关性引起的数据泄露。本文介绍了一种利用主成分分析进行属性精简的增强随机化方法,降低了参与数据挖掘的属性数据间相关性,更好的保护了隐私数据,同时对此方法实施条件下数据遗失率及隐私保护性能进行了量化研究,得出隐私保护性能与属性精简程度和随机量数学特征之间的关系。 基于随机响应的隐私保护技术则借鉴了统计学研究中的经典方法,模拟调查者在尽量不侵犯被访者隐私情况下搜集有意义的统计数据的过程。本文介绍了随机响应技术与ID3决策树分类算法结合进行数据分类的过程,并将其引入关联规则挖掘应用环境中,构建了基于随机响应技术保护隐私数据的关联规则挖掘框架,并讨论了一个具体算例。
其他文献
在数据挖掘及其它研究领域,k-近邻算法k-NN是一种广泛用于不同分类用途的算法。然而,k-NN倾向于处理数值类型的数据集,这就限制了它用于科学及工程领域的许多问题。而且,随着其知
在信息内容安全技术中,保证信息内容的安全性和完整性是重要的研究内容,也是当前国内外信息安全领域重点研究和发展的信息安全技术。在电子政务网、企业信息网等各种内部网中
随着计算机技术的飞速发展,嵌入式系统在各行业获得了日益广泛的应用。为了满足工业控制领域对于嵌入式系统的需求,某国际知名IT企业自主研制了一款8位RISC结构的嵌入式微处理
心血管病已发展成为我国居民疾病死亡的第一大杀手,对中国国民健康和国家经济发展造成了难以估量的危害。易损斑块则是头号致死心血管疾病——冠心病的一种主要病因。由于OCT
随着可视电话/电视会议、数字电视、VCD/DVD等应用的发展,视频压缩编码技术已经成为学术界和产业界普遍关注的热点。本文对视频压缩编码中的关键技术——运动估计和补偿方法
在点对点(P2P)网络中,每个节点可以同时作为客户端和服务器,且一个节点上传信息以及获取响应的目标节点是随机选择的。P2P网络的这种信息交互模式导致跨域和域内链接所传输的信
信息隐藏分为水印和隐写术两种技术,论文重点研究隐写术。隐写术的主要特点是伪装影像并将信息隐藏在多媒体文件外表下,这样就可以防止入侵者在多媒体文件中找到嵌入的信息。而
进程间通信是所有分布式系统的核心功能。随着Internet及其应用的飞速发展,分布式应用系统间的通信面临巨大的挑战。尤其是随着现代管理的多部门协作和领域间协作越来越广泛,
城市道路的实时交通状态分析,不但能为城市交通管理部门科学地监控路网车辆提供有效的参考,还能为城市交通管理规划部门提供决策的依据。同时,实时的城市交通状态分析是实现交通
随着科技的发展,传统的身份验证已很难适应人们的需求。基于虹膜和指纹的生物特征验证对采集条件要求高,很难大范围推广。基于人脸检测的生物特征识别具有友好、方便、对硬件