不确定数据的重复检测及清洗研究

来源 :南京航空航天大学 | 被引量 : 2次 | 上传用户:wcz741335565
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,不确定数据的管理吸引了来自工业界和学术界的极大关注,特别在诸如无线传感器网络、生物技术和生物数据库、基于位置的服务和数据流等新兴的领域中。为了准确获取不确定数据中的信息,本文在前人研究成果的基础上,研究了不确定数据的重复检测和清洗问题。首先,基于不确定数据的相关理论和现有的研究成果,给出了不确定数据重复检测的改进模型,引入了优先权重和属性阈值的概念,并通过优先计算概率大的候选元组的相似度,提高了重复检测效率。其次,围绕属性不确定数据的清洗问题,为概率范围查询给出了一种基于熵的查询回答质量度量,同时讨论了一种提高有限资源下查询质量的解决方案,并将方案扩展到多查询共享资源预算的情况。接着,针对元组不确定数据的清洗问题,为基于实体的查询给出了一种基于不确定世界语义的查询结果质量度量(PWS-EQ),讨论了高效评估PWS-EQ的方法,给出了在多项式时间内获得最优查询质量的算法,并进一步研究了在清洗后的数据库中再次评估查询的问题。最后,针对所提出的解决方案和算法,分别通过实验对其性能和效率做了详细的分析。
其他文献
软件系统在长期不间断的运行过程中,会产生一系列能够导致软件性能下降的现象,例如系统内存泄露、舍入误差的积累、未释放的文件锁以及大量的存储空间碎片等,这种现象被称为软件
随着全球信息化的不断发展,对地理信息系统(GIS)的应用也越来越广泛,例如电力GIS系统等。如今的GIS系统,不仅需要处理二维空间的数据,还要对三维或者更高维空间的数据进行处
伴随着科技的发展,大量的手持可摄像电子设备已经走进到广大群众的日常生活中,人们虽然在享受方便,快捷,丰富的各种多媒体信息,但是同时也感受到了对多媒体信息处理的各种困
随着信息技术的迅猛发展,人们可以通过互联网从世界各地接收和发送信息,而信息交换过程中的一个突出问题就是数据格式的异构性,这将极大地阻碍对信息进行有效地使用。XML的出现
社会网络是指社会个体成员之间因为互动而形成的相对稳定的关系体系,其中联系较为紧密的团体称为社区,处在同一社区中的个体更易于受到社区内其他人的影响,而社区挖掘技术就是挖
肺癌是严重威胁人们生存的疾病,目前,已经跃居成为世界恶性肿瘤病例的第一位。而计算机辅助诊断系统(CAD)对早期肺癌的发现和诊断有十分重要的价值。肺区域分割作为基于医学影
网络游戏现在已经进入三维网络游戏的时代,它以逼真的画面,巨大的游戏场景赢得了玩家的认可。由于游戏规模越来越大,在线人数增多,使得网络延时、丢包和集群的负载均衡等问题越来
支持向量机是由Vapnik等人基于统计学习理论提出的一种新型的机器学习方法。支持向量机基于结构风险最小化原理,综合考虑了经验风险和置信风险,具有良好的泛化能力和较高的分
随着互联网的迅速发展,网络上的信息成爆炸式增长。自从Tim Berners-Lee提出Web2.0的概念之后,用户从被动的接受信息逐渐转变成信息发布的参与者。社会标签是Web2.0的众多应用
随着计算机网络技术的发展,为了满足视频点播、网络会议、网络实时游戏等多媒体应用这些当今因特网的主流业务,急需建立一种高效的、有QoS保障的数据通信机制。建立这种机制主