论文部分内容阅读
随着互联网的迅猛发展,网络这一新兴媒体逐渐成为公众获取与发布信息的主要渠道。由于网络的便捷性、自由性、虚拟性、开放性和渗透性等特点,某些社会事件经常迅速演化为舆论热点问题,进而可能影响社会治安稳定。因此,对网络舆情信息进行快速聚类分析,及时发现热点话题,并对其进行及时监测、有效引导,对维持社会稳定、保障信息安全具有重大意义。同时,互联网上的舆情信息以海量模式存在,并呈现出快速、持续增长趋势。传统聚类方法难以集中式处理大规模的网络数据,存在时空复杂度高、效率低、机器内存不足等缺点,为了解决上述问题,本文对基于MapReduce的并行化聚类算法进行了深入研究,实验表明,并行化可以有效地解决上述问题。由于网络舆情信息大多以文本形式存在,所以本文主要研究的是网络舆情文本聚类的并行化,主要贡献体现在聚类算法的改进及其并行化实现这两个方面:第一,聚类算法的改进。本文选取了Birch算法作为舆情文本聚类方法,通过分析Birch算法的不足,提出了一种改进的Birch算法,改进点主要为以下三点:(1)提出了合理的离群点检测和删除步骤及动态迷你簇门限设置方法;(2)对CF-tree基于可重建理论的新树构造过程进行了优化,提出了一种连续优化方案,以代替Birth算法触发式离散优化方案;(3)通过仿真对改进的Birch算法与传统Birch算法进行了比较,实验表明,当选取合适的噪声检测函数参数和迷你簇门限扩大系数时,改进后的Birch算法在聚类效果和运行效率两方面均优于传统Birch算法。第二,结合Hadoop项目下的MapReduce分布式并行计算框架,对文本处理和文本聚类两个阶段分别进行了并行化设计与实现,通过Java编程从加速比、效率及可扩展性三个方面对搜狗实验室的文本分类语料库并行化Birch聚类的性能进行了测试,实验结果间接地验证了并行化文本聚类算法在性能和有效性上明显优于传统的文本聚类算法,大大提高了聚类效率,减少了数据处理的时间。综上,本文以网络舆情文本为研究对象,重点研究如何实现基于MapReduce编程模型的网络舆情文本的并行化聚类。本论文的主要工作是在深入研究聚类算法的基础上,提出改进的Birch聚类算法,并将改进的Birch聚类算法与MapReduce结合,实现网络舆情文本的并行化聚类,得出并行舆情文本聚类在性能和有效性两方面均优于传统舆情文本聚类,更适合对海量网络舆情信息进行聚类处理的结论;同时,快速、高效地对网络舆情文本进行类别划分,为进行更深层次的趋势预测、话题发现、热点追踪和监控打下坚实的基础。