论文部分内容阅读
网络技术的不断发展,使得人们越来越多的通过网络媒体发表言论和获取信息,网络舆情也就越来越受到人们的重视。由于网络舆情是通过互联网传播,所以它继承了互联网隐蔽、开放和渗透的特点,同时通过互联网传播网络舆情也使它包含的信息非常丰富,信息量非常大。正是由于这些原因,使得人工收集网络舆情信息非常困难,所以人们就开始研制网络舆情监控系统了。网络舆情系统实时的在互联网上采集信息,对信息进行处理与分析,并将最终结果以一种容易理解的形式展示给用户,有利的辅助用户正确的处理舆情危机。本文首先总结了目前存在的网络舆情热点发现与追踪的实现方法,对其中一些关键技术,如话题发现与追踪技术进行了研究。通过了解这些技术,掌握开发热点发现与追踪系统的关键知识。接下来研究了网页内容解析技术,根据不同新闻网络博客的特点进行定制,利用这些特点提取下一步工作中需要利用到的信息并将这些信息保存以便以后使用。最后详细说明了话题发现、话题热度评估以及话题追踪技术。在信息文本表示中使用了空间向量模型(VSM),包括设置特征项,改进权重计算公式以及确定特征维数等,在进行聚类时,使用改进后的Single-Pass算法,这样得到的聚类结果更加准确。在话题热度评估的研究中,通过统计话题的报道数量以及话题的评论数量,分别从媒体关注度和用户关注度计算出话题的热度,然后将两者综合考虑获得最终的话题热度。最后在话题追踪的研究中,通过分析话题报道数量、评论数量随着时间的变化趋势,展示出话题受关注度变化,通过分析话题下的每个子话题中的报道数量随着时间的变化趋势,展示出话题中心随着时间的迁移情况。本文最终初步实现了一个网络舆情热点话题发现与追踪的应用系统。该系统包括网页规格化与预处理、话题发现与热度计算、话题追踪以及主题搜索等功能,具有一定实际意义。