论文部分内容阅读
近几年,伴随着网络基础设施的不断完善,互联网技术取得了跨越式发展,各种互联网服务给人们带来了很大的方便,互联网已经成为人们日常生活中不可缺少的一部分,是人们获取信息的重要途径之一。网络技术的进步提高了信息采集、传播的速度,信息的数量越来越大,向着海量的方向发展,面对互联网上纷繁复杂的海量信息,人们陷入了“数据海量,知识稀少”的困境。人们常常上网获取新闻资讯,但是和同一事件相关的报道往往孤立的分布在各个新闻站点中,仅仅通过这些相互孤立的信息,人们很难从海量信息中对一个事件有全面的了解。如何构建面向互联网的事件自动识别系统,将与同一事件相关的报道聚合在一起是一个很重要的研究课题。话题识别与跟踪技术是一种研究如何识别新发生的新闻事件并跟踪事件后续发展动态的智能信息获取技术,主要利用数据挖掘和自然语言处理技术,把分散在各信息孤岛上的信息有效的汇聚并按照事件组织,从而让人们在一处能够对某个事件有全面的了解。首先,本文介绍了互联网事件自动识别研究的背景及意义以及话题识别与跟踪技术的国内外研究现状;其次,研究话题识别与跟踪理论及与其相关的话题表示模型、文本特征选择方法及文本相似度计算方法等技术,着重研究传统Single-Pass聚类算法,针对互联网事件自动识别系统对文本聚类算法的实际要求,优化传统Single-Pass聚类算法,使其适用于实时的新闻流聚类。最后,以互联网上的新闻流为处理对象,改进后的Single-Pass聚类算法为主要方法构建和研发互联网事件自动识别系统。本课题的研究涉及自然语言处理、数据挖掘等多方面的内容,面向互联网的事件自动识别系统的构建对目前Web数据挖掘有一定的参考价值,在实际的互联网中也具有巨大的应用价值。