【摘 要】
:
频繁项集挖掘已经成为数据挖掘领域的一个热门研究,被广泛应用于商业决策、经济学、医疗学和生物信息学等领域。人们在做决策时可以通过挖掘频繁项集来获取许多有价值的信息,但在频繁项集挖掘和发布的过程中难免会带来隐私泄漏的风险。因此,如何在不泄漏隐私的前提下高效地进行频繁项集挖掘是目前的一个研究热点。与此同时,考虑到目前无论线上还是线下的实时数据也正在呈指数级别的增长的情况,本文还研究了如何在动态场景下隐私
论文部分内容阅读
频繁项集挖掘已经成为数据挖掘领域的一个热门研究,被广泛应用于商业决策、经济学、医疗学和生物信息学等领域。人们在做决策时可以通过挖掘频繁项集来获取许多有价值的信息,但在频繁项集挖掘和发布的过程中难免会带来隐私泄漏的风险。因此,如何在不泄漏隐私的前提下高效地进行频繁项集挖掘是目前的一个研究热点。与此同时,考虑到目前无论线上还是线下的实时数据也正在呈指数级别的增长的情况,本文还研究了如何在动态场景下隐私地进行频繁闭项集挖掘的问题,而这也是目前大多数研究人员关注的另一个研究热点。针对以上两个问题,本文提出以下两种算法:(1)本文提出了一种基于差分隐私的垂直式频繁项集挖掘算法DP-Eclat。与以往那些使用水平挖掘方式的解决方案不同,DP-Eclat算法首先会将数据集转换为垂直的表现形式,然后通过构建频繁项集树将整体根据层次划分为多个子问题来分别进行频繁项集挖掘,这样可以在只扫描一次数据集的情况下快速识别所有的频繁项集。另外,为了在保证隐私的同时尽可能地提高数据的效用性,本文还设计了一个新的隐私预算分配策略和一个多重剪枝策略,通过为每一个子问题分配更加合理的隐私预算以及限制候选集合的尺寸来提高算法的有效性和准确性。最后,多个真实数据集上的实验结果表明,相对于现有的解决方案,DP-Eclat算法具有更好的效用性。(2)本文提出了一种数据流中的差分隐私频繁闭项集挖掘算法DPES(Differential Privacy Eclat Stream),通过在每个滑动窗口中使用一种垂直的挖掘方式快速地的进行频繁闭项集的识别,然后通过简单的交集操作获取后续窗口中的频繁闭项集。另外,针对事务型数据集在数据流中的特点,本文还提出了一种自适应隐私预算分配策略,通过计算两个连续时间戳之间的差异来决定当前时间戳是发布带有低噪声的统计结果还是近似的统计结果。本文最后在多个真实数据集上对DPES算法进行了实验评估,实验结果表明了DPES算法可以在保证数据满足差分隐私的同时高效地在数据流中进行频繁闭项集挖掘。
其他文献
目前,人们习惯用手机相机记录生活,而且图片是记录信息的一种重要媒介,因此图片在手机相册内大量存在,开发一款辅助用户拍照的相机和能够高效管理手机相册内大量图片的系统有着积极意义。手机应用商店内相机类应用的主要功能都是美颜和滤镜角度,优化用户拍摄的照片,很少有涉及到提示用户如何拍照的功能。部分图片管理类应用只是基于图片的时间和地点分类,也有基于图片内容进行分类的应用,但是该类应用大多数都会要求用户将图
物联网(Internet of Things,IoT)是日常物理对象或事物的网络,物联网设备之间的数据获取和传输是物联网通信和网络技术的基本前提。在物联网中由于网络本身以及数据的特点,针对物联网的路由协议研究尤为重要。传统的路由协议进行路径选择时一般只考虑路由度量,鲜有考虑过数据包属性(例如:大小、编码等)。针对上述问题,本论文提出了一种路由度量和数据包属性相结合的物联网路由选择策略,并设计与实现
随着科技的不断发展和人们对电商的认可度日益升高,网上购物已逐渐成为生活中不可或缺的一部分。淘宝、京东等平台深耕C2C领域,自身壮大的同时也改变了传统商业营销模式,推动国内电商业务持续蓬勃发展。行业的进步带来了极大的利润和便利,但其面临的挑战也日益严峻。第一,“数据过载”问题。电商业务的蓬勃使得相关用户及商品数据呈爆发性增长,用户越来越难以从繁杂的数据中及时、精确地找到所需信息。第二,“冷启动”问题
随着互联网技术的发展,Web服务的数量飞速增长,各种类型的服务推荐系统层出不穷。尽管各大服务推荐系统都展现了高效的数据处理、服务推荐等性能,但现有的服务推荐系统大都基于中心化平台开发,功能与数据集中于中心服务器,这种过于中心化的权限存在着诸多问题,例如数据被篡改、数据泄露等。针对上述问题,本文利用区块链技术在去中心化、数据不可篡改等方面的优势,结合智能合约技术,开发了一种基于区块链智能合约技术的服
为解决时间序列方法对弹性时机点的预测中步长固定、考虑指标单一、预测结果不包含临界点等问题,为弹性策略提供更充足的准备时间,本文考虑访问量和特殊日期对弹性时间点(临界点)的影响,提出临界点预测与实时监测结合的资源预警模型。该模型以历史匹配数据库作为核心,使用长周期的历史数据训练临界点预测模型,并构建历史匹配数据库。将数据中心视为黑盒,通过黑盒监控指标实时监测来为预测模型提供输入数据和完成历史匹配数据
区块链技术和物联网访问控制结合,解决单点故障问题并实现去中心化的访问控制是当前物联网访问控制的研究趋势。本文设计并实现了一种基于区块链的物联网访问控制系统,使用区块链中的智能合约技术进行访问控制决策,访问控制权限仅在用户与区块链之间流动,以保证访问控制的可靠性。本文针对基于区块链的访问控制中因访问控制策略粒度过粗,出现越权访问、过度授权等问题,设计了一个访问控制策略模型FACPM(Fabric A
蛋白质组学研究在生物学研究中始终占据着重要地位,蛋白质复合物的研究也在不断深入且已取得了突破性进展。蛋白质复合物由多个蛋白质结合形成,是探索复杂生命过程的基础。蛋白质相互作用PPI网络可看作是由多个蛋白质复合物构成,但由于PPI数据存在噪声等问题,导致识别准确率不高。因此,识别蛋白质复合物并理解其功能特性成为生物学中的热点问题。构建PPI加权网络并设计蛋白质复合物识别算法可用以解决这一问题。本文主
移动通信技术、全球定位技术和物联网技术的蓬勃发展,催生了海量的交通数据。通过采集道路运输过程中“人-车-环境”的状态数据,利用机器智能对这些数据进行深度挖掘和融合分析,有利于发现车辆隐含的交通行为特征,特别是检测驾驶人可能存在的交通违法行为,对于防范和减少交通事故的发生具有非常重要的意义。为此,本文综合考虑驾驶人、车辆和环境三方面的交通数据,利用仿生神经网络技术对轨迹数据进行异常检测,利用机器视觉
随着信息技术的快速发展,数据存储的需求也在快速增长。虽然云存储技术的出现解决了数据存储需求快速增长的问题,但与此同时云存储技术用户与数据物理分离的特点也带来了诸多的数据安全问题。在数据存储安全方面,云存储服务器的硬件故障、系统的软件问题以及人为操作不当等问题威胁着数据完整性安全。在数据使用安全方面,用户在上传数据后就失去了数据的物理访问控制权,转由云存储服务提供商掌握,数据在使用过程中存在非法拷贝
在计算机视觉任务中,基于图像的人体行为识别研究是一项非常具有挑战性的工作。由于其缺少时域信息以及极易受到人体姿态、场景和光照等因素的干扰,因此如何有效地提取图像中的空间线索信息来表征人体行为是目前基于图像人体行为识别研究所重点关注的问题。近些年来,随着深度学习的快速发展,以卷积神经网络为代表的深度学习模型在计算机视觉领域中取得了巨大的成功,进一步促进了图像行为识别研究的发展。本文基于深度学习方法对