论文部分内容阅读
Web舆情表达快捷、信息多元和方式互动的特点,从根本上改变了传播者与受传者之间的关系,具有传统媒体无法比拟的优势。事件通过网络的快速传播和热烈讨论进而产生一定的舆论压力,负面的舆论,轻则影响企业和政府形象,重则可能引发危机,造成公众对企业和政府的抵制。因此如何提前预测网络舆情的发展趋势去积极化解网络舆论危机显得越来越重要。目前数据挖掘中的趋势分析与预测技术已经在商业、金融、医疗、气象、电信等领域得到了广泛的应用,具体应用如股票交易数据趋势分析、汽车销售的数据挖掘趋势预测、洪水的预报等。在信息网络传输快速的今天,对舆情事件的识别并做出较长一段时间内的趋势预测,这给研究者和工程人员提出了新的挑战。目前需要考虑的主要问题是:如何较快的识别舆情事件并根据有限的信息对该事件做出较为合理的长期趋势预测。为解决此问题,本课题主要通过介绍一个Web舆情的社会网络关系挖掘项目对以下提出的技术和算法进行具体分析和详细介绍并以真实的数据进行了实验来验证其有效性。1、网页信息提取根据指定的URL爬取网页信息和根据项目所需内容从网页中提取相应的信息是本课题web舆情趋势预测的主要前提条件,因此在文本获取和预处理阶段,首先研究了国内外现有的web信息提取技术,在分析了其优缺点的基础上提出了一种基于模糊高斯混合模型的网页信息提取方法。本文提出的方法充分利用了网页的DOM结构,在分析每个路径中标签的均值和方差从而确定提取到的信息内容,在一定程度上减少了人工参与的程度。2、时间序列预测通过研究发现,同类舆情事件的发展趋势具有较高的相似性和明显的周期性,同时针对传统预测方法无法有效预测趋势发展拐点的不足,提出了一种基于类模型的长期趋势预测方法。并且在获取实验数据时,突破了传统的基于内容提取网页主题回复数的方式,提出了另外两种时间序列的获取方式:构建一层社会主题网络,获取相应参数的时间序列;通过Google trends获取某个事件的时间序列。