论文部分内容阅读
随着互联网的飞速发展,人们对各类新闻的获取越来越快捷,在网络提供给我们丰富信息资源的同时,也给我们带来了极大挑战。面对日益膨胀、杂乱无章的网络新闻信息,用户如何快速准确的从海量新闻数据中找到个人感兴趣、有价值的话题已成为一个亟待解决的难题,因此新闻热点话题发现已成为人们当下研究的热点。为使人们快速便捷的发现互联网中的新闻热点话题,本文对互联网新闻热点话题发现的整个过程及相关技术进行详细研究,整理出热点话题发现的流程框架,分析各个环节的具体实现,对出现的问题进行了有效解决。所做的主要工作如下:第一,对文本相似度比较时加入average-link策略,利用多个文档的质心向量作为话题簇代表,在特征选择时对新闻标题增加权重设置,使聚类效果更优。第二,在新闻热点话题发现中,文本聚类是关键步骤,本文针对典型的单遍历增量式聚类算法对数据输入次序敏感、存在相似度公式计算代价大和特征值代表选择不够准确的三点不足提出改进方案,既有效的降低了运算开销又使聚类结果更加准确。第三,对新闻文本进行聚类,通过对报道频率的研究,利用其热度公式计算得到新闻热点话题TOP排行榜,给用户了解焦点信息提供了方便。本文利用爬虫技术抓取中新网、网易新闻、新浪等几大网站在一定时间段内的新闻数据构成新闻语料库,基于语料库数据对改进算法进行实验验证与分析,通过正确率和召回率等话题检测评价指标测试改进算法的性能,证明了本文算法能有效地发现网络新闻中的热点话题。