论文部分内容阅读
随着网络的迅猛发展,网络已成为广大网民获取与发布信息不可或缺的渠道,因此网络舆情信息的舆论导向作用愈来愈大。如何及时并有效的发现舆情热点,并对关注热点跟踪分析,保障信息安全,监控舆论,已成为舆情研究领域中的一个重点和难点,也是一个挑战。本文综合分析了国内外话题识别与跟踪的研究现状,针对新闻报道形式的网络舆情语料,利用网络舆情分析处理技术,自动识别舆情热点话题。本文的核心工作包括舆情信息采集、舆情信息预处理、话题发现、热点话题识别。首先,网络舆情信息获取,针对传统的网络爬虫的两大缺陷,采取一定的网页分析策略,过滤无关网页,提高了舆情信息采集的效率及质量。另外,分析网页模板,设计一种基于模板与正则表达式结合的web信息抽取方法,进行网页清洗,将抽取到的有用信息保存到数据库服务器中。其次,舆情信息预处理,对采集的新闻报道正文进行新闻特征提取,利用向量空间模型表示新闻报道标题及正文内容,引入了命名实体识别对新闻特征权重计算的改进,设计了不同新闻报道间的相似度计算公式。再次,舆情话题发现,针对传统的话题发现算法Single-pass增量聚类算法存在的几个不足之处,引入了K-means方法和种子新闻报道的概念,提出了改进算法-增量K-means聚类算法。通过实验分析与比较,表明改进后的增量K-means聚类算法对于网络舆情话题发现还是有效可行的。最后,热点话题识别处理中,通过对舆情热点话题的特征分析,并结合媒体关注度与网民关注度设计了话题的“热”度计算公式,进行热点排序,找出热点话题。引入“Topic Index”的方法,探讨热点话题的产生及其演变过程。