基于新闻要素的在线新事件检测

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:hongyanzhiji761112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的迅速发展,在线新闻己成为人们获取信息的主要途径。然而互联网上的新闻杂乱无序、增长迅速,人们很难从如此庞大的信息库掌握有用的信息,特别是最新的消息动态。本文的研究对象一一新事件检测的主要任务是从以时间顺序到来的新闻报道中识别出一个新闻话题未知种子事件的第一篇报道。本文主要针对新闻的四要素:时间、地点、人物和内容在新事件检测中的作用进行研究,把地名、人物和内容作为衡量报道和事件相似度的标准;并对支持向量机进行研究,探讨了它在新事件检测中的应用;进而提出了一种基于新闻要素的自动在线新事件检测方法。本文主要工作如下:第一,构建基于新闻要素的报道和事件表示模型,该模型包括新闻报道时间、地点、人物和内容等要素,使用多维要素的优越性在于可以区别相似事件;第二,为了解决事件中心随时间的漂移问题提出了事件中心模板动态更新算法,让事件中心模板随着新闻报道的不断加入而改变;第三,为计算报道和事件各部分对应特征的相似度提供了对应的相似度算法:使用基于地理本体树的地名相似度算法计算地点相似度,使用基于维基百科的语义相似度计算方法计算报道内容之间的相似度;第四,为了衡量报道和事件各部分的重要性,使用SVM模型训练得出各要素的权值;第五,以single-pass聚类算法为基础,同时在新事件检测中使用滑动的时间窗口以减少因处理大量不活跃事件引起的时间消耗。最后,设计了一个实验系统,并从丢失率、误报率、标准化代价和时间复杂度四方面对本文采用的方法进行评测。通过与基准算法比较表明,使用基于新闻要素的方法能有效提高算法的性能。当报道向量大小为50、事件向量大小为200、使用计算得到事件质心的方法以及滑动时间窗口为4时,算法能够得到最优结果。使用基于手动调节参数的方法虽然也能得到很好的实验结果,但是需要频繁的进行参数调节且难以取得最优值;使用基于SVM的方法能得到更加优越的结果并且不影响算法效率。
其他文献
随着时代的发展,云计算引起信息技术的获取与服务模式发生革命性变革,它提供高性能计算资源服务和大规模的廉价共享资源,通过虚拟化技术为众多用户构建虚拟资源环境,在当前各
随着地理科学和计算机科学的不断发展,地理信息系统(GIS)的应用领域也在不断扩展。空间数据的存储是GIS系统的组织基础,空间数据的存取效率在很大程度上影响着GIS系统的性能
第三代合作伙伴计划(3rd Generation Partner Project,3GPP)考虑到未来用户对多媒体业务的迫切需求,因此引入了基于SIP协议的IMS (IP Multimedia Subsystem,IP多媒体子系统)