论文部分内容阅读
话题检测与跟踪是(Topic Detection and Tracking, TDT)是一项针对新闻报道进行信息识别、数据挖掘和组织的技术,其目的是对互联网上的信息进行有目的的筛选、过滤,从而提高人们获取有用信息的效率。在话题跟踪任务中,文本表示模型是话题跟踪的基础。而传统的文本表示模型主要是基于词频统计的,这种方法有两个主要缺点:1.基于词频统计的方法缺乏必要的语义信息,而文本的语义表示是目前进一步提高判定效果的瓶颈;2.在实时新闻的话题跟踪中,话题的重心随着时间而变化,传统的话题模型难以对话题模型进行有效地更新。通过对新闻报道的分析发现,事件是贯穿一篇文章和话题的主要线索。若把事件作为文章描述的基本单位,事件与事件之间的关系看作描述事情发展的脉络关系,则可以用它们建立的事件网络结构来表示文本和话题内容。相对于传统的词频统计方法,事件网络使用形式化的方法来表示文本。一方面网络中的事件节点具有一定的语义表达,其包含了人物、时间、地点等要素信息,另一方面事件关系能够从多个角度建立语义单位之间的关系,描述整篇文章的内容。在话题更新上,事件网络能够通过事件和事件要素的相关性,将事件节点添加或者删除来进行网络结构更新,以有效解决话题中心偏移问题。本文在分析已有文本表示模型和话题跟踪方法所存在问题的基础上,建立了一个基于事件网络的文本表示模型,将其运用于话题跟踪任务中。重点包括基于事件本体的文本事件信息抽取方法,事件要素抽取和事件关系的建立;事件、子话题、话题所组成的三层话题结构和子话题的划分算法;以及基于事件网络的话题跟踪模型的建立。本文的主要贡献如下:(1)建立一种基于事件的本体层次结构和相关的突发事件本体库,其是对事件类和事件类关系的形式化表示。在此事件本体的基础上,提出了基于事件本体的事件要素抽取算法。其中包括了事件本体中事件类的划分、事件要素的填充规则,以及事件要素推理的算法。(2)提出了一种基于事件网络的文本和话题表示模型,并把话题分为三层:事件、子话题、话题,并给出了一个基于事件网络的子话题划分算法。此划分算法运用了最小生成树的生成方法来提取出模型中较为重要的事件关系,设计了一个用于评价划分结果的目标函数,根据事件在最小生成树的分枝关系和边介度的最优解来得到最终的子话题划分结果。(3)提出了一个基于事件网络的话题跟踪方法。文本的粒度大小与本文的三层话题模型中子话题的粒度相当,通过子话题的相似度来判定话题跟踪结果。在这种子话题相似度计算的基础上,通过事件要素来建立话题和新闻报道的关联,使用这种关联来解决话题模型的自动更新问题。以上工作运用事件网络来代替传统的文本表示方法,使得在文本表示上考虑到文章的语义信息,有效地组织文章的结构;把话题模型分成事件、子话题、话题三层结构,将话题和报道的相似度在子话题层上进行比较可以解决两者描述粒度不一致的问题;运用图论或网络计算方法对重要事件进行提取,建立事件向量来进行相似度计算,以及网络模型的更新使事件网络模型在上有效解决话题跟踪中的话题中心偏移问题。