【摘 要】
:
近年来,互联网上涌现出大量结构化的表格数据,网络表格的价值不仅在于数据本身,还在于数据之间的关系。只有探测出表格之间潜在的关系,方能更好地利用这些结构化的数据。然而
论文部分内容阅读
近年来,互联网上涌现出大量结构化的表格数据,网络表格的价值不仅在于数据本身,还在于数据之间的关系。只有探测出表格之间潜在的关系,方能更好地利用这些结构化的数据。然而,网络表格的异构性和不确定性给网络表格间的关联关系发现带来很大的挑战。本文提出发现网络表格间的快照关系和参照关系,用于优化查询,在大数据环境下实时地返回部分查询结果,以及帮助实现数据融合系统中的开放式查询。论文提出快照关系发现的理论模型和算法,给出基于实体和属性重合度的评分方法,并引入实体新鲜度的概念,使得算法在快照关系的发现过程中更多地关注能提供新鲜实体的表;与此同时,基于Bayes模型的表格内容增强算法能更加准确地判断属性列上值的一致性,达到提高快照关系检测准确率的目的。大量实验表明,本文设计的发现快照关系的评分模型能发现高质量的快照表,且在快照表上的查询精度和召回率上表现较好。论文提出基于概率模型的评分方法用于网络表格之间的参照关系发现,引入实体对给定表的权重,使得算法在参照关系发现的过程中更多地关注参照列内多次重复的实体。此外,由于引入实体对概念的权重,使得算法可以用概率判断一个实体是否是该概念下的噪声数据,进而降低网络表格上噪声数据带来的影响。大量实验结果表明,本文提出的检测参照关系的算法不仅能够在数据集中发现较高质量的参照表,同时也表现出较高的降噪效果,且发现的参照表在面对失效查询时召回效果较为明显。
其他文献
网络带宽和网络用户的不断增加,对网络管理和网络监测提出了越来越高的要求,而网络测度对网络管理和监测具有重要意义。网络测度研究存在两大难点:一是定义有意义的测度,二是
随着企业信息化的不断扩展,企业业务流程趋于更加复杂,需要引入工作流技术支撑业务流程的信息化。在经济全球化的大趋势下,企业之间的重组和合并成为企业发展和壮大的必然的趋势
本文从保证企业分布式组件信息系统资源的安全角度,分析和跟踪了国外分布式安全和应用服务器的最新进展,研究了基于J2EE的分布式组件系统的安全机制,剖析分布式组件系统的网络编
随着数学地质学科和计算机技术的发展,以二维等值线图为代表的二维显示方法得到了很大的提高。其他种类的二维图形,如张贴图、影像图、基面图、渐变地形图和矢量图等,也到了长足
产品数据管理(PDM)技术以软件为基础,是一门管理所有与产品相关的信息(包括电子文档、数字化文件、数据库记录等)和所有与产品相关过程的技术。它提供产品全生命周期的信息管
Web应用是全球信息基础组织的重要组成部分,因此,必须保证其行为的正确性,彻底检测其功能。已有一些辅助自动检测错误的工具,如VeriWeb等。此外,研究者也提出很多方法,用来验证其功
计算机断层成像技术作为一种无损检测技术已在众多领域得到应用。与传统的二维CT相比,锥束CT具有射线利用率高、扫描时间短以及Z轴方向分辨率高等诸多优点,成为当今国际CT研
随着数字音视频及多媒体技术的发展,迫切需要压缩巨大的视频信号数据量,适用于不同应用领域的MPEG-1、MPEG-2、MPEG-4、H.26x等国际编码标准应运而生。码率控制作为一项重要
油藏特性识别在油藏描述中扮演着重要的角色。传统的油藏描述方法有多种,但大部分都是基于统计学及经验公式;而且参数数量多、维数高,存在很大的随机性和不确定性等。为了克服这
应急资源调度问题是灾害应急管理中的关键问题,主要研究如何让分散的资源尽快到达应急地点。而随着应急资源调度不断在灾害应急、联盟形成、智能计算、智能决策等领域的广泛