基于事件网络的话题跟踪研究

被引量 : 0次 | 上传用户:muyue3122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题检测与跟踪是(Topic Detection and Tracking, TDT)是一项针对新闻报道进行信息识别、数据挖掘和组织的技术,其目的是对互联网上的信息进行有目的的筛选、过滤,从而提高人们获取有用信息的效率。在话题跟踪任务中,文本表示模型是话题跟踪的基础。而传统的文本表示模型主要是基于词频统计的,这种方法有两个主要缺点:1.基于词频统计的方法缺乏必要的语义信息,而文本的语义表示是目前进一步提高判定效果的瓶颈;2.在实时新闻的话题跟踪中,话题的重心随着时间而变化,传统的话题模型难以对话题模型进行有效地更新。通过对新闻报道的分析发现,事件是贯穿一篇文章和话题的主要线索。若把事件作为文章描述的基本单位,事件与事件之间的关系看作描述事情发展的脉络关系,则可以用它们建立的事件网络结构来表示文本和话题内容。相对于传统的词频统计方法,事件网络使用形式化的方法来表示文本。一方面网络中的事件节点具有一定的语义表达,其包含了人物、时间、地点等要素信息,另一方面事件关系能够从多个角度建立语义单位之间的关系,描述整篇文章的内容。在话题更新上,事件网络能够通过事件和事件要素的相关性,将事件节点添加或者删除来进行网络结构更新,以有效解决话题中心偏移问题。本文在分析已有文本表示模型和话题跟踪方法所存在问题的基础上,建立了一个基于事件网络的文本表示模型,将其运用于话题跟踪任务中。重点包括基于事件本体的文本事件信息抽取方法,事件要素抽取和事件关系的建立;事件、子话题、话题所组成的三层话题结构和子话题的划分算法;以及基于事件网络的话题跟踪模型的建立。本文的主要贡献如下:(1)建立一种基于事件的本体层次结构和相关的突发事件本体库,其是对事件类和事件类关系的形式化表示。在此事件本体的基础上,提出了基于事件本体的事件要素抽取算法。其中包括了事件本体中事件类的划分、事件要素的填充规则,以及事件要素推理的算法。(2)提出了一种基于事件网络的文本和话题表示模型,并把话题分为三层:事件、子话题、话题,并给出了一个基于事件网络的子话题划分算法。此划分算法运用了最小生成树的生成方法来提取出模型中较为重要的事件关系,设计了一个用于评价划分结果的目标函数,根据事件在最小生成树的分枝关系和边介度的最优解来得到最终的子话题划分结果。(3)提出了一个基于事件网络的话题跟踪方法。文本的粒度大小与本文的三层话题模型中子话题的粒度相当,通过子话题的相似度来判定话题跟踪结果。在这种子话题相似度计算的基础上,通过事件要素来建立话题和新闻报道的关联,使用这种关联来解决话题模型的自动更新问题。以上工作运用事件网络来代替传统的文本表示方法,使得在文本表示上考虑到文章的语义信息,有效地组织文章的结构;把话题模型分成事件、子话题、话题三层结构,将话题和报道的相似度在子话题层上进行比较可以解决两者描述粒度不一致的问题;运用图论或网络计算方法对重要事件进行提取,建立事件向量来进行相似度计算,以及网络模型的更新使事件网络模型在上有效解决话题跟踪中的话题中心偏移问题。
其他文献
<正>本报讯近日,国土资源部、农业部在京联合召开视频会议,部署耕地保护重大行动——落实永久基本农田划定和规范设施农用地管理工作。中共中央政治局常委、国务院总理李克强
8月1日,国务院新闻办召开例行吹风会,对近日发布的《治理高值医用耗材改革方案》进行政策解读。国家医疗保障局副局长李滔在吹风会上表示,集中采购是降低高值医用耗材价格最
对称性是现代物理的一个重要概念,在物理学问题的研究中占有重要地位。结合对称性分析在电磁学中的若干应用举例,判断场源的对称性,从而得到场分布的对称性。阐述了对称性分
高折射率差亚波长光栅(HCG)作为一种新型的亚波长光栅,具有周期小于入射波长且光栅层等效折射率与周围媒介折射率相差很大的结构特点,经过简单的结构设计就能获得宽反射谱、
"大数冠小数"约数表示法是指汉语中一大一小两个数目字前后相连表示约数的一种方法。这种约数表示法在先秦至近代的文献中都不乏用例,曾先后出现过三冠二(两)、四冠三、五冠
为研发更为合理有效的断奶仔猪保温设备,提高养猪效益,采用远红外碳纤维发热板加热,温控器控温以及木箱箱体和聚氯乙烯门帘保温组合方式对普通仔猪保育箱进行了改进,并通过对
近年来,有机激光受到越来越多的关注,已经成为有机电子领域的研究热点,这是由于它具有可柔性、易制作和低成本等特性。而且有机激光的应用前景不仅在显示领域上,在集成光学方面也
大型FPGA设计要花费很长时间才能将硬件描述语言转化为比特流文件,其中布局和布线最为耗时。GPU可以支持高度并行计算,具有良好的通用性,因此本课题选用GPU设计实现并行FPGA布线
研究了1Cr15Mn12NiN低镍含氮奥氏体不锈钢在不同试验温度下的热塑性及微观组织变化,并对实验钢相组成进行了计算。结果表明:在650~1000℃,实验钢易析出σ相、Cr2N相及M23C6相
在无线通讯技术迅速发展的今天,微波滤波器作为一个重要的选频器件,对于微波电路的性能起着十分关键的影响作用。在用户需求不断增长的要求下,微波滤波器的设计也向着高性能低损