基于MapReduce的分布式网络舆情聚类方法的研究

被引量 : 7次 | 上传用户:gmglass
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,网络这一新兴媒体逐渐成为公众获取与发布信息的主要渠道。由于网络的便捷性、自由性、虚拟性、开放性和渗透性等特点,某些社会事件经常迅速演化为舆论热点问题,进而可能影响社会治安稳定。因此,对网络舆情信息进行快速聚类分析,及时发现热点话题,并对其进行及时监测、有效引导,对维持社会稳定、保障信息安全具有重大意义。同时,互联网上的舆情信息以海量模式存在,并呈现出快速、持续增长趋势。传统聚类方法难以集中式处理大规模的网络数据,存在时空复杂度高、效率低、机器内存不足等缺点,为了解决上述问题,本文对基于MapReduce的并行化聚类算法进行了深入研究,实验表明,并行化可以有效地解决上述问题。由于网络舆情信息大多以文本形式存在,所以本文主要研究的是网络舆情文本聚类的并行化,主要贡献体现在聚类算法的改进及其并行化实现这两个方面:第一,聚类算法的改进。本文选取了Birch算法作为舆情文本聚类方法,通过分析Birch算法的不足,提出了一种改进的Birch算法,改进点主要为以下三点:(1)提出了合理的离群点检测和删除步骤及动态迷你簇门限设置方法;(2)对CF-tree基于可重建理论的新树构造过程进行了优化,提出了一种连续优化方案,以代替Birth算法触发式离散优化方案;(3)通过仿真对改进的Birch算法与传统Birch算法进行了比较,实验表明,当选取合适的噪声检测函数参数和迷你簇门限扩大系数时,改进后的Birch算法在聚类效果和运行效率两方面均优于传统Birch算法。第二,结合Hadoop项目下的MapReduce分布式并行计算框架,对文本处理和文本聚类两个阶段分别进行了并行化设计与实现,通过Java编程从加速比、效率及可扩展性三个方面对搜狗实验室的文本分类语料库并行化Birch聚类的性能进行了测试,实验结果间接地验证了并行化文本聚类算法在性能和有效性上明显优于传统的文本聚类算法,大大提高了聚类效率,减少了数据处理的时间。综上,本文以网络舆情文本为研究对象,重点研究如何实现基于MapReduce编程模型的网络舆情文本的并行化聚类。本论文的主要工作是在深入研究聚类算法的基础上,提出改进的Birch聚类算法,并将改进的Birch聚类算法与MapReduce结合,实现网络舆情文本的并行化聚类,得出并行舆情文本聚类在性能和有效性两方面均优于传统舆情文本聚类,更适合对海量网络舆情信息进行聚类处理的结论;同时,快速、高效地对网络舆情文本进行类别划分,为进行更深层次的趋势预测、话题发现、热点追踪和监控打下坚实的基础。
其他文献
构建新农村建设是多元化世界发展和构建和谐社会的必要需求,自“构建社会主义新农村”的概念被提出以来,随着社会经济的发展,对社会主义新农村建设有更为细致的要求和需要。而将
以膜渗透理论为基础,建立了中空纤维膜的渗透微分方程,之后以HYSYS为计算平台,结合其Spreadsheet功能,对中空纤维膜分离器调节氢碳比进行了模拟。研究中首先以富甲烷含氢气为
在居家养老服务中由谁来供给已成为各地居家养老服务实践面临的核心问题。以老年人的期望为视角,利用实地调研数据分析了老年人所期望的居家养老服务供给主体。基于数据分析,
随着改革开放的发展以及对台湾的合作交流日益密切,台湾休闲农业的发展路程与前景一片光明,同时,台湾休闲农业发展的理论研究成果也日益丰厚。文章选取以台湾休闲农业为研究
本文指出了现行规范计算钢筋混凝土梁挠度的“最小刚度法”的不足之处,并利用泰勒公式推导出了在一集中荷载作用下的钢筋混凝土简支梁的挠度的函数解。通过比较分析可知,该方法
目前《体育(与健康)课程标准》计划在全国范围已经推行与实施,其中明确界定了新体育课程的性质,提出体育与健康课程以身体练习为主要手段,体育教师应面向全体学生,选择能激发
X射线断层成像(Computed Tomography, CT)是利用射线对物质的衰减特性,无损地获取物体内部结构信息的一种技术手段。该技术在医学诊断和工业无损检测中得到了广泛应用。近年
本实验针对电子技术方向、嵌入式方向专业学生,以STC51系列单片机综合设计性实验为例,阐述了实验实施的条件、实验的目标、实验的内容与工作原理、实验的方法与步骤、实验结
无线传感器网络(Wireless Sensor Network,WSN)由于其功耗低、成本低并且具有独立感知、数据存储、处理以及无线通信能力而被广泛应用于军事、农业、健康、环境等多个方面,但
云计算是当下炙手可热的技术之一,由之衍生发展的云存储也迅速流行并深入应用于各个领域,但其具有数据管理权和所有权分离的特点,即云存储服务提供商并不是完全可信的,由此导致的