【摘 要】
:
实体解析是一种在结构化和非结构化数据中抽取、匹配与合并代表着同一现实世界实体的数据的处理过程。尤其在大数据时代,实体解析问题是数据库管理、信息检索、机器学习、自
论文部分内容阅读
实体解析是一种在结构化和非结构化数据中抽取、匹配与合并代表着同一现实世界实体的数据的处理过程。尤其在大数据时代,实体解析问题是数据库管理、信息检索、机器学习、自然语言处理与统计等领域的一个长期存在的挑战。实体解析具有很多别名,如记录链接、去重、交叉引用解析、引用调解、对象巩固等。精确与快速的实体解析在商业、科学、安全等领域的诸多方面具有重大的实际意义。反之,低质的实体解析通常会带来诸多问题。比如,实体解析不好,会导致重复数据的存在,它会扭曲从数据中获取的信息,也为后续的数据挖掘、建立决策支持系统、应用商务智能等带来隐患。由于面向非结构化的实体解析通常都特定于应用,而本文旨在研究更具有通用性的实体解析方法,所以本文将关注点放在面向结构化的实体解析。此外,匹配与合并函数均被视为黑盒,不关注其内部实现细节,关注的是如何尽可能少地减少匹配与合并函数的调用次数。具体而言,(1)针对无置信度的数据集,通过训练提取出匹配核,然后对匹配核进行统计学习,再依据学习结果对数据集分块。分块的目的是隔离块与块之间的记录,将记录的比较限制在块内,从而减少了匹配与合并函数的调用,提高了实体解析的效率。(2)针对带置信度的数据集,因为记录的合并顺序不同可能导致最终结果不同,所以实体解析需要考虑记录的所有合并方案并从中选取最佳方案。本文通过训练获得置信度合并词典,在判断哪种合并方案最佳时,通过置信度合并词典就可以大大减少合并函数的调用,从而使得实体解析的性能得到了提升。此外,本文提出了一种带置信度的实体解析的框架思想。最后通过实验表明了记录分块的有效性、置信度合并词典带来的性能提升以及带置信度的实体解析的框架思想的可行性。
其他文献
随着网络技术的高速发展,Internet用户飞速增长,网络拥塞、服务器负载过重、访问延时过大等问题一直困扰着用户。CDN(Content Distribution Network内容分发网络)的出现极大
随着高校信息化建设的不断深入,作为高校后勤部门的重要组成部分的房产管理部门也急需一套辅助办公软件系统,使得他们能够从繁重的房产管理工作中解放出来。采用软件系统,不
随着企业网应用的不断发展,企业网的范围也不断扩大,从一个本地网络发展到跨地区跨城市甚至是跨国家的网络,企业如何利用现有的公共网络组建安全的企业内部网成为研究的一个热点
计算网格环境下基于多QoS约束的任务调度问题是目前网格任务调度算法研究领域的热点问题,存在克服资源异构性、协调管理策略分布性以及有效协同多QoS约束等难点。对这一问题
随着Internet的广泛应用和网络技术的迅速发展,网络主机数量呈指数级增长,可分配的IPv4地址即将枯竭,于是使用下一代互联网协议IPv6替代IPv4是解决地址不足问题的根本方法。
群机器人追捕目标问题作为群机器人系统的一类典型协作问题,它研究的是一群机器人如何通过合作去有效地捕获另一群逃跑的机器人。群机器人追捕目标问题是研究多智能体机器人系
随着数字地球的不断推进,数字矿山也在不断的发展和完善,在数字矿山的建设中,其中一项重要的任务就是需要根据煤矿地层数据、巷道数据、钻孔数据以及图像数据,综合模拟创建出符合
为了在现代战争中大批次平台作战的背景下保证数据融合系统的实时性,本文讨论了如何将基于MPI的并行计算应用于数据融合系统中的目标识别模块的问题。其中,特别就目标识别模块
逻辑编程(Logic Programming)是知识表示中常见的陈述性方法,它是上世纪70年代在自动化推理研究的基础上发展起来的。虽然经典逻辑编程已经成功地解决了很多领域的问题,尤其
社交网络是人们在日常生活中的必不可少的一部分,彼此之间可以分享信息。因此,在社交网站中用户隐私信息的保护问题是不容忽视的。社会网络中包含着大量的用户信息,传统的隐