论文部分内容阅读
随着网络、通信和信息技术的突破性进展,电子商务作为一种新颖的商务模式受到人们广泛关注。电子商务给人们带来了价廉物美的商品和快速便捷的网上交易,同时,由于电子商务本身存在着安全问题以及移动网络环境的开放性给电子商务活动带来的潜在安全问题,也给人们带来了隐私可能被泄露的问题。很多大型电子商务网站为了系统的安全和稳定,一些大型的数据库以分布式形式存放在不同的站点上,这在一定程度也增加了隐私保护的难度。分布式环境中基于隐私保护的数据挖掘技术是近年来数据挖掘领域中的研究热点之一,如何在保证高质量数据挖掘结果的同时达到隐私保护的目的是本文所要研究的重点。基于以上问题,在前人研究的基础上,本文首先分析了电子商务快速发展的形势下分布式数据挖掘引发的隐私问题,如何在不泄露个人隐私的前提下建立一个较为精确地模型来完成数据挖掘的任务,是数据挖掘隐私保护算法主要讨论的问题。本文分析了前人提出的一些经典关联规则算法,比如被修改用于实现数据挖掘中的隐私保护的Apriori算法、MWFI算法等,和一些广泛用于挖掘前的原始数据变换的重构原始数据分布和离散化属性数据的方法。另外本文也分析了安全多方计算理论在隐私保护数据挖掘中的应用。在对已有研究成果分析的基础上,本文研究了用户访问Web网站可能带来Web日志泄露个人隐私的问题,用户访问电子商务网站的Web页面,所访问网站的Web服务器日志自动记录了用户的访问足迹,访问足迹成为泄露隐私的重要途径。针对这类问题,本文首先研究了将电子商务网站Web服务器记录的日志信息转换成二维表,采用随机化回答方式生成干扰数据,然后提供给数据使用者进行频繁项集以及强关联规则的挖掘算法,从而得到实现隐私保护的网上购物篮商品间的关联规则。针对Web日志中包含的隐私信息,本文研究了采用填充信息对原始数据进行干扰的方法,结合列置换的伪随机化回答方式先对原始日志信息进行变换,在此基础上研究了基于位运算的频繁项集生成算法,实现对原始数据及挖掘结果均进行隐私保护的关联规则挖掘。最后,本文分析和评价了已做的研究工作,并提出了日后改进的方向。