论文部分内容阅读
随着互联网的快速发展,网络上的信息量变得极其庞大,而作为Web1.0时代就已经出现的传统应用,网络新闻仍然有着很高的使用率。为了方便用户有效地发现自己想要的信息,需要对新闻报道按事件进行组织。话题发现的目标是将讨论同一事件的文档划分到一起。相对其它领域,科技新闻有以下两个特点:话题的范围相对较窄,事件之间相关性更强。在科技新闻中进行话题发现时需要充分考虑这些特点。此外,为了方便用户对当前的热点话题获得一个全面的了解,进而更加准确地获取自己感兴趣的信息,需要对事件产生一个直观的描述。针对以上分析,本文主要研究内容包括以下三个方面:第一,对新闻文档进行建模。首先为了以关键词组合的形式对当前的热点话题进行描述,需要进行关键词抽取;其次在接下来的处理过程中,需要计算文本之间的相似度。根据以上需要,本文采用主题模型PAM(Pachinko AllocationModel)对对文档进行建模,完成关键词的抽取并将得到的文档主题分布向量用于相似度计算。接下来通过与TFIDF和HHMM的对比实验对关键词抽取的有效性进行了验证并对主题模型的优越性进行了分析。第二,对新闻文档进行聚类。首先需要将文档按相关性进行划分,便于接下来的进一步处理;其次产生以关键词组合表示的事件描述复杂度较高,需要减少计算量。本文通过对典型聚类算法K-means、K-means++和AffinityPropagation的对比分析,选择了更适合本文具体应用的Affinity Propagation聚类算法;并进一步比较了不同相似度度量对聚类结果的影响,从另一个角度验证了主题模型的有效性。第三,产生以关键词组合表示的事件描述。因为聚类结果召回率较高而准确率和纯度较低,所以需要对聚类结果进行进一步的加工处理;而聚类产生的簇中关键词数目相对整个文档集合有了明显地减少,因此可以采用频繁项集挖掘算法。本文通过一个时间段的新闻文档上的实验对算法的有效性进行了验证。接下来通过对不同时间点的关键词组合进行比较以发现报道侧重点的变化,给出了在演变趋势追踪方面的初步应用。