论文部分内容阅读
随着Internet技术的迅速发展,在线新闻己成为人们获取信息的主要途径。然而互联网上的新闻杂乱无序、增长迅速,人们很难从如此庞大的信息库掌握有用的信息,特别是最新的消息动态。本文的研究对象一一新事件检测的主要任务是从以时间顺序到来的新闻报道中识别出一个新闻话题未知种子事件的第一篇报道。本文主要针对新闻的四要素:时间、地点、人物和内容在新事件检测中的作用进行研究,把地名、人物和内容作为衡量报道和事件相似度的标准;并对支持向量机进行研究,探讨了它在新事件检测中的应用;进而提出了一种基于新闻要素的自动在线新事件检测方法。本文主要工作如下:第一,构建基于新闻要素的报道和事件表示模型,该模型包括新闻报道时间、地点、人物和内容等要素,使用多维要素的优越性在于可以区别相似事件;第二,为了解决事件中心随时间的漂移问题提出了事件中心模板动态更新算法,让事件中心模板随着新闻报道的不断加入而改变;第三,为计算报道和事件各部分对应特征的相似度提供了对应的相似度算法:使用基于地理本体树的地名相似度算法计算地点相似度,使用基于维基百科的语义相似度计算方法计算报道内容之间的相似度;第四,为了衡量报道和事件各部分的重要性,使用SVM模型训练得出各要素的权值;第五,以single-pass聚类算法为基础,同时在新事件检测中使用滑动的时间窗口以减少因处理大量不活跃事件引起的时间消耗。最后,设计了一个实验系统,并从丢失率、误报率、标准化代价和时间复杂度四方面对本文采用的方法进行评测。通过与基准算法比较表明,使用基于新闻要素的方法能有效提高算法的性能。当报道向量大小为50、事件向量大小为200、使用计算得到事件质心的方法以及滑动时间窗口为4时,算法能够得到最优结果。使用基于手动调节参数的方法虽然也能得到很好的实验结果,但是需要频繁的进行参数调节且难以取得最优值;使用基于SVM的方法能得到更加优越的结果并且不影响算法效率。