数据挖掘和隐私保护的分析研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:dellson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全球互联网技术、网络通信技术、计算机技术的高速发展,全球网络信息化系统已经成为现在各行各业持续发展的基础设施,网络信息系统对整个社会发展做出了巨大的贡献。由于数据挖掘技术能够从海量数据中挖掘出对人们有用的信息,所以说数据挖掘是通向知识发现的重要一步。单独使用数据挖掘技术可能导致发现无意义甚至令人误解的模式,必须在对应用范围有正确理解的情况下使用数据挖掘。通过关联规则挖掘,可以得到隐含于海量数据中具有应用价值的有用信息。伴随着网络通讯技术的发展,数据挖掘技术在给人们提供知识和信息的同时也暴露了隐私信息。保护私有数据或者是敏感数据在数据挖掘过程中不被泄露,同时能挖掘出较为准确的结果已经成为数据挖掘技术中研究的重点和焦点。本文的主要研究工作包括以下几个方面:(1)系统的阐述数据挖掘技术的基本理论和应用前景。(2)详细的阐述关联规则挖掘算法的工作原理和实现方法,并对典型的Apriori算法进行详细的分析。Apriori算法产生的候选集过大,算法必须耗费大量的时间处理候选项集,根据分段可连接性,在算法设计上使用段标识来记录本段后续项集可匹配的个数使得连接得到优化。根据先验知识k-项集如果是频繁项集,那么它的所有(k-1)-项子集均是频繁项目集来减少k-项集中非频繁项集。再通过对项集出现频度的升序排列,减少3-项集的项数。利用空间交换时间的方法,用布尔矩阵来记录数据库的各项交易记录,只需要一次扫描数据库,大大提高算法的执行效率。(3)在序列分割挖掘时,所有的记录被多个参与方所拥有,多个参与方在不想泄露各自隐私信息的同时联合进行对各个参与方的时序序列进行分割。本文将联合计算时序规则各频度问题转化成秘密比较大小的问题,并对现有的算法和协议利用秘密比较协议和同态加密协议进行改进,提出新协议。
其他文献
指代消解是自然语言处理的重点和难点之一,在信息抽取,文本摘要等应用中都涉及到指代消解问题。待消解项识别是指代消解的一个子任务,是制约指代消解性能的关键要素之一,也是
随着网络的快速发展,网络资源和信息也呈爆炸性增长。对于这些海量的信息,越来越多的人都愿意通过使用搜索引擎从网络上查找自己需要的信息。但是基于关键词匹配的传统检索系
网络安全问题日益严峻,已有的传统方法已经不再能够满足日益增长的网络安全问题的需要,单CPU双总线安全计算机体系结构(简称sCPU-dBUS)从改变计算机体系结构的角度来保障计算
Web服务和语义Web是WWW发展的两个重要趋势,两者具有很好的互补性,这两种技术的结合产生了另一个新兴的研究课题——语义Web服务。语义Web服务指的是用语义Web标记语言来描述
Web已经成为人类获取信息和得到服务主要方式之一,Internet技术的高速发展使它成为了一个庞大的知识库,但同时也带来了许多问题。首先,Web规模的膨胀使得整个Web上的有用信息
随着因特网信息量的爆炸式增长,搜索引擎已经是有效获取信息的一种必要手段。为了满足专门学科领域和特定主题的搜索用户要求,主题搜索引擎在数据挖掘及信息检索领域变得越来
本文结合东莞电信实业管理系统的开发,提出了基于SOA (Service-Oriented Architecture)的连锁业务系统的解决方案,分析了该方案的原理和优势,并采用WCF (Windows Communicati
流体仿真以及大规模的人群行为模拟一直是计算机图形学的难点与重点,经过研究者的大量的数据分析与钻研,提出了各种各样的理论与算法。本文将流体仿真以及大规模人群行为模拟
生物信息学是一门新兴的交叉学科,它需要生物学、计算机科学以及数学三门学科的高级研究人员通力合作来完成。生物信息学以计算机、网络为工具,用数学和信息科学的理论、方法和
当今社会,随着信息技术的不断发展,企业为了适应彼此间日趋频繁的业务活动和提高自身竞争力,投入大量资源研发针对各部门需求的业务系统。然而这些业务系统功能各异,彼此之间