论文部分内容阅读
在物联网、互联网和云计算深度融合的背景下,半结构化、非结构化的Web数据暴增。用户在进行信息检索时,很容易迷航在海量异构的碎片化数据中,如何快速、精准地帮助用户定位到他们感兴趣的Web实体或者知识成为亟待解决的问题之一。一方面,传统的信息检索系统旨在获取海量与查询相关的Web文本,而缺乏对文本语义的概括能力。另一方面:为探索非结构化文本中的语义信息,许多知识图谱整合了亿万级实体、属性以及关系。然而,面对如此庞大和异构的碎片化信息,如何帮助用户进行知识导航仍然是一个挑战。所以,本文以文本和知识图谱上实体摘要技术为研究对象,以应对信息过载和用户迷航问题。本文针对海量Web文本的动态特征,首先提出了基于文本的事件实体摘要的算法;其次,针对用户个性化需求,设计了知识图谱中上下文感知的实体摘要方法;最后,针对碎片化信息的异构性和不完备性,提出了跨知识图谱的实体摘要算法。主要贡献包括以下几个方面:·针对文本数据的海量性和动态性,提出了基于文本的事件实体摘要算法。Web2.0时代,不仅同一事件的描述碎片化地分散在不同的Web数据源中,而且在事件的不同发展阶段信息碎片化现象更为严重。本文利用主题聚类模型挖掘这些事件,针对每个事件,将事件摘要建模成集合覆盖问题,设计并实现了贪心算法解决这个NP-hard问题,以生成对事件的摘要。·针对用户的智能化需求,在知识图谱上设计了上下文感知的实体摘要算法。为应对知识图谱上知识过载和迷航的问题,本文基于用户查询历史,利用主题模型生成用户偏好,并以此为基础响应用户智能化知识导航的需求,基于Markov模型设计了上下文感知的实体摘要算法。·针对知识图谱的异构性和不完备性,提出了跨知识图谱的实体摘要算法。不同知识图谱对实体的描述不仅可能相互补充,而且可以相互佐证,帮助用户获取到更为准确的查询结果。本文基于词向量技术实现了知识图谱间实体匹配和融合技术,并在此基础上响应用户的实体摘要需求。本文提出的算法不仅能整合多个知识图谱,而且提高了实体摘要算法的知识覆盖率和摘要质量。·针对数据碎片化特点,设计并实现了一个实体摘要演示系统。基于本文设计并实现的三个实体摘要算法,以及其他文本挖掘和自然语言处理工具,构建了一个以实体摘要为中心、分布式和四层架构的的Web演示系统EntitySum-marizer。它能够分析用户给定的查询,识别用户感兴趣的Web实体,并根据本文提出的技术生成多种实体摘要。此外,它还支持对摘要关键词生成和事件时间线生成等生成摘要的文本分析。本文所提出的实体摘要方法不仅能够缓解信息碎片化带来的信息过载和知识迷航问题,设计并实现的演示系统为研究用户多样化的实体摘要需求提供了数据准备和示范作用。