论文部分内容阅读
热点话题是某段时间内各个领域发生的引起人们较大关注的话题。发现并监控热点话题有助于让大众知晓某段时间内的社会焦点、及时地发现社会舆情。每年都会有一些机构通过媒体发布当年的热点话题,但通常都是由人工筛选得到的,结果的客观性和实时性有一定的局限性。而一些搜索引擎公司发布的焦点新闻只是短期内的热点,用户无法了解整个话题的经过和发展。互联网上巨大的信息量和不易监管性,使得如何从众多的网络信息源中发现热点话题的研究变得越来越重要。本文主要研究如何从网络新闻语料中及时自动地发现热点话题。主要工作包括以下方面:第一,提出了一种在多策略优化基础上的增量多层聚类的话题发现算法。对从门户网站上下载下来的新闻网页预处理后,进行了命名实体识别,引入增量df方案和时间衰减函数等多策略的优化措施,以向量空间模型为基础进行增量多层聚类从而得到话题列表。该算法能够实时动态地发现一段时间内门户网站上各个领域的新话题。第二,设计了一个热点话题识别模型。通过分析历年热点话题的特点和走势曲线图,把话题关注度分为媒体关注度和用户关注度两部分,并得出了影响话题关注度的一些特征,进而量化这些特征得到话题关注度计算公式。按照话题关注度分值和话题发展曲线筛选热点话题。第三,根据上述研究工作设计并实现了热点话题发现系统。该系统能够发现任一时间段内各个领域的热点话题,并从话题标题、话题描述、话题的相关词群、话题的相关文档四个方面为用户提供更多的相关信息。