【摘 要】
:
近几年互联网信息技术的飞速发展给个人、企业、政府部门以及社会的方方面面带来的极大的便利,大量的电子数据随之产生,数据在各个领域的作用也变得更加显著。XML类型数据作
论文部分内容阅读
近几年互联网信息技术的飞速发展给个人、企业、政府部门以及社会的方方面面带来的极大的便利,大量的电子数据随之产生,数据在各个领域的作用也变得更加显著。XML类型数据作为代表性的半结构化形式的数据,因其自身的可扩展性、自我描述性等特性在各个领域具有巨大的应用前景,已成为信息系统中数据交换和传输的标准。由于XML数据的数据表现形式灵活自由,当多个不同的用户或者程序以XML格式来描述现实实体对象时,就会出现同一实体对象的不同XML数据描述,造成了相似重复数据问题广泛的存在于XML数据领域中,进而产生了大量的冗余信息,使得数据的可用性变差,浪费存储空间。目前针对XML数据质量问题研究最多的是XML数据的相似重复数据的清洗,而XML重复数据清洗的重点是重复数据的检测和清除,现有的工具方法对XML重复数据的检测效率和清洗准确性有进一步的提升空间。本文以此为切入点,针对XML数据的相似重复问题进行了研究,研究重点是XML重复数据的检测和清洗算法,提高对XML重复数据的检测准确性和清洗效率,主要研究如下:针对重复数据的清除问题,优化了传统的邻近排序算法(Sorted Neighborhood Method,SNM),提出了窗口大小自适应的ICSNM方法。通过模拟实验证明ICSNM比原始的SNM方法在效率和评价指标上都有部分提高,使数据清洗更加准确高效。针对XML数据的重复检测,设计了基于贝叶斯网络的识别方法,为XML数据构造贝叶斯网络,在识别两个XML对象是否重复时,该方法不仅考虑了子节点的重复概率,而且还考虑了所有后代的重复概率。通过实验证明,基于贝叶斯网络的重复数据检测方法在检测准确率上有一定的提高,可以更好的检测出数据集中的相似重复数据。基于前面的研究工作成果,设计了针对XML相似重复数据的检测清洗工具XSNM,通过与DogmatiX方法进行对比实验,验证了X-SNM在查准率、查全率和时间效率三方面比DogmatiX方法具有明显的优势。
其他文献
无线通信的飞速发展,激发了人们对高速数据传输速率的急切需求。通常情况下,无线通信系统通过在基站配备较多数量的天线来提升系统的数据传输速率,并且不会额外增加系统的带
图像去雾是数字图像处理的重要内容之一,是图像增强的一种。传统的去雾方法只能去除图像中的雾霾,却忽略了图像中噪声的存在。在去除雾霾的同时,原来被雾霾覆盖的噪声却凸显
互联网、物联网、云计算等信息技术把我们带到了多元智能的网络化大数据时代。然而,大量的资源共享和实时的交流探讨使网络空间中的数据呈爆炸式增长,其规模巨大且形式多样,
湖北在建设文化强省的过程中,电影产业的持续健康发展是题中应有之意。对湖北电影进行定量研究,经过统计分析来描述湖北电影的特征,不仅可为其他电影产业研究者提供详实的数据,也是认识湖北电影的现状、推动湖北电影未来发展的基础。引言部分陈述了本研究的背景及意义,梳理了部分国内外电影产业研究的相关文献。正文第一章首先介绍了SCP理论的发展沿革,对哈佛学派产业组织理论、芝加哥学派和新奥地利学派产业组织理论、新产
近年来国家大力践行绿色发展理念,地震勘探领域中依靠炸药产生地震波信号的方法受到严格限制,已经越来越不能适应实际工程需要。电火花震源作为一种绿色环保震源,可以代替炸
随着移动通信的不断发展,越来越复杂的网络结构使得信息安全传输更容易受到威胁。基于密钥体制的高层安全协议和加密算法等方法虽然可以在一定程度上提升信息安全性,但无法克
本文主要研究沟道宽度缩小到5nm和6nm的新型U形沟道场效应晶体管,由于在亚十纳米级尺寸下,制造结型的半导体器件十分困难,且掺杂等相关工艺很难实现,故主要致力于制造工艺相
为了提高新一代高效视频编码标准(High Efficiency Video Coding,HEVC)的传输鲁棒性,使视频经互联网或无线通信网络等不可靠信道传输后还能获得高质量的重建,本文开展了第一
图像去噪问题可以分为加性噪声去除和乘性噪声去除。之前对加性噪声的研究更为广泛,后来随着图像中乘性噪声的普及,大家开始加深对乘性噪声的研究。随着变分方法在加性噪声方
近年来,云计算作为新兴产业,得到了迅速发展。外包计算作为云计算的一种重要形式,也得到了人们的广泛关注。在外包计算中,资源受限的终端能够将本地计算昂贵的任务交付给云来