论文部分内容阅读
食品安全是一个关系公众安全的社会性问题。近年来,我国食品安全事件频发,其传播之迅速,影响之深,引起了公众对于食品安全事件的关注和对于食品安全的担忧。食品安全事件引发了大量网络舆论,进行食品安全网络舆情监测研究具有重要的意义。当前互联网产生的数据特点是:数据量在迅速膨胀的同时,数据类型也越来越多元化和复杂化。因此,需要在不提高话题漏检率和错检率的情况下提高话题检测速率并结合多类数据源进行话题舆情监测。本文主要研究内容为食品安全网络舆情监测方法,包括食品安全话题检测方法的改进、话题情感倾向研究和食品安全网络舆情监测系统的设计与实现。主要工作如下:1、基于Single-Pass的话题检测方法的缺点是:随着话题数量的增加,会极大的降低数据处理速度和话题检测准确率。为提高话题检测的速度和准确率,本文结合食品安全领域的特点对基于Single-Pass的话题检测算法进行改进,包括制定按食品类别分类聚类策略,改进相似度计算方法和设定话题淘汰策略。2、目前话题监测和舆情监测多使用单一数据源,本文从多元化数据角度进行食品安全话题舆情监测,对IRI网络舆情指标体系进行细化,以有效结合新闻数据和微博数据,为话题预警提供数据支持。3、微博情感分析是食品安全网络舆情研究的重要部分,微博文本向量化后存在特征稀疏的问题,给基于机器学习的微博情感分析方法带来不利影响。研究基于语义的微博情感分析方法,以降低特征稀疏带来的不利影响,提高微博情感分析准确率。在基于语义的微博情感分析方法中,语义最终体现在词语相似度上,针对目前的词语相似度计算方法存在的问题,提出一种基于潜在狄里克雷分布(Latent Dirichlet Allocation, LDA)的词语相似度计算方法。4、将上述的食品安全话题检测方法、话题舆情监测方法、基于语义的情感分析方法应用于食品安全网络舆情监测系统中,建立食品安全网络监测系统,使用真实数据证明了系统的有效性。