基于Web文本和知识图谱的实体摘要

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:sophia115416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在物联网、互联网和云计算深度融合的背景下,半结构化、非结构化的Web数据暴增。用户在进行信息检索时,很容易迷航在海量异构的碎片化数据中,如何快速、精准地帮助用户定位到他们感兴趣的Web实体或者知识成为亟待解决的问题之一。一方面,传统的信息检索系统旨在获取海量与查询相关的Web文本,而缺乏对文本语义的概括能力。另一方面:为探索非结构化文本中的语义信息,许多知识图谱整合了亿万级实体、属性以及关系。然而,面对如此庞大和异构的碎片化信息,如何帮助用户进行知识导航仍然是一个挑战。所以,本文以文本和知识图谱上实体摘要技术为研究对象,以应对信息过载和用户迷航问题。本文针对海量Web文本的动态特征,首先提出了基于文本的事件实体摘要的算法;其次,针对用户个性化需求,设计了知识图谱中上下文感知的实体摘要方法;最后,针对碎片化信息的异构性和不完备性,提出了跨知识图谱的实体摘要算法。主要贡献包括以下几个方面:·针对文本数据的海量性和动态性,提出了基于文本的事件实体摘要算法。Web2.0时代,不仅同一事件的描述碎片化地分散在不同的Web数据源中,而且在事件的不同发展阶段信息碎片化现象更为严重。本文利用主题聚类模型挖掘这些事件,针对每个事件,将事件摘要建模成集合覆盖问题,设计并实现了贪心算法解决这个NP-hard问题,以生成对事件的摘要。·针对用户的智能化需求,在知识图谱上设计了上下文感知的实体摘要算法。为应对知识图谱上知识过载和迷航的问题,本文基于用户查询历史,利用主题模型生成用户偏好,并以此为基础响应用户智能化知识导航的需求,基于Markov模型设计了上下文感知的实体摘要算法。·针对知识图谱的异构性和不完备性,提出了跨知识图谱的实体摘要算法。不同知识图谱对实体的描述不仅可能相互补充,而且可以相互佐证,帮助用户获取到更为准确的查询结果。本文基于词向量技术实现了知识图谱间实体匹配和融合技术,并在此基础上响应用户的实体摘要需求。本文提出的算法不仅能整合多个知识图谱,而且提高了实体摘要算法的知识覆盖率和摘要质量。·针对数据碎片化特点,设计并实现了一个实体摘要演示系统。基于本文设计并实现的三个实体摘要算法,以及其他文本挖掘和自然语言处理工具,构建了一个以实体摘要为中心、分布式和四层架构的的Web演示系统EntitySum-marizer。它能够分析用户给定的查询,识别用户感兴趣的Web实体,并根据本文提出的技术生成多种实体摘要。此外,它还支持对摘要关键词生成和事件时间线生成等生成摘要的文本分析。本文所提出的实体摘要方法不仅能够缓解信息碎片化带来的信息过载和知识迷航问题,设计并实现的演示系统为研究用户多样化的实体摘要需求提供了数据准备和示范作用。
其他文献
在现代集团企业制度中,加强资金集中管理,构建科学的资金管理系统,提高资金运营效率是企业财务管理的重中之重,也是使得资金管理成为企业财务管理的一个永恒主题。
资金管理作为一项企业财务控制活动,集中管理更有利于监督资金的使用效率,确保资金安全。随着铁路跨越式发展步伐的加快,如何加强资金管理,防范资金风险,提高资金利用效率,是
基础架构借鉴了ITU-T网络分层和分割的概念,建议将本地网进行垂直分层和水平分区,梳理基础资源和通信网络的对应关系,规范网络建设。基础架构是一个概念,组成要素包括通信机
随着中国汽车行业的快速发展和国家对物联网、汽车信息服务业务的高度重视与政策支持,汽车信息服务业务开始蓬勃发展起来。概要介绍了汽车信息服务业务的形态和发展情况,并对系
人口老龄化高峰即将到来,在我国正积极采取多方举措应对养老这一普遍性社会问题时,面对养老产业巨大的市场,在相关政策大力引导和支持下,一些房地产开发企业、保险公司、投资机构
报纸
<正>诸帝对养心殿情有独钟养心殿建于明代,《世宗实录》记:「(嘉靖十六年六月)丙子,新作养心殿成。」养心,出自《孟子·尽心下》曰:「养心莫善于寡欲。」养心殿南是无梁殿,是