基于Spark的社交主题分析与应用

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:nofengy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理被认为是大数据时代十分关键的技术之一,尤其对于互联网上的“用户生成内容”进行文本分析蕴含着巨大的商业价值。主题模型是一类无监督的文本处理方法,其发展经历了从LSI模型到p LSI模型,再到LDA模型的研究阶段。尽管用LDA模型进行主题挖掘已经得到了广泛的实际应用,但数据规模变大后效率明显降低,在数据处理过程中,有效数据覆盖度和执行效率难以兼顾。随着分布式系统的发展,大规模数据计算已经得到广泛的运用。近两年发展起来的Spark平台凭借着基于内存计算的优势,在大规模数据机器学习领域受到了广泛的青睐。原因是将中间计算结果保留在缓存,这种做法非常适合运用到机器学习模型的反复迭代过程之中。这一技术为解决大规模数据主题挖掘的低效率问题奠定了基础。但LDA模型中Gibbs采样的每一步执行都强依赖于其他步的执行结果,如果简单地将其分块后并行处理,过程中并行修改同一统计量直接破坏了变量的一致性,而若将变量异步更新则失去了并行化的意义。可见,强依赖每步执行状态的算法模型较难并行化,这也是为何发展迅速的Spark平台上,机器学习库MLlib中的算法依然十分稀少的主要原因。因此,LDA模型的并行化过程存在较大的难度。为了解决上述问题,本文利用LDA模型中各文档及各词语独立分布的假设条件,和Gibbs采样过程各变量依赖更新的特点,创新性提出了解决方案,降低了LDA模型并行化过程中不一致性带来的影响,明显的提高了LDA模型的效率。该解决方案包含:(1)对原始数据集重构方法;(2)对执行过程的阶段性划分方法;(3)阶段内计算和阶段间变量同步的策略。具体的做法是:根据设定的并行度P和建立的词汇表,将数据集分块,进而将其划分到计算过程的P个阶段之中,保证每一个阶段选择P个依赖度最小的数据块,然后阶段内并行采样,阶段间变量同步。通过以上的方案计算直至模型收敛,得到主题分布结果。本文工作有效的解决了LDA模型在并行化中遇到的理论瓶颈,极大地改善了并行运算中数据块间的变量不一致性情况,为LDA模型的并行化提供了理论依据。该方法也给同类强依赖每一步状态的算法实现并行化提供了思路。此外,本文利用Spark平台实现了LDA主题模型的并行化。在这基础之上,考虑新浪微博文本内容特征,采用以用户为单元将微博内容聚合为长文本、清洗转发内容、TF-IDF过滤无效词等多种处理方法提升模型效果,最终形成了一套高效的社交主题分析系统,其性能与使用标准LDA模型进行主题分析相比大幅提升,可供企业进行高效的微博社交数据主题挖掘。进一步地,可泛化用以分析其他社交平台数据。该分析系统的主题产出结果在品牌营销的应用场景中也能提供数据支持,助力品牌商企业科学发展。
其他文献
频繁Web访问模式发现是Web使用挖掘的关键内容,能够从海量Web数据中发现有用的用户访问信息,从而帮助企业改善站点和服务器设计,提升用户服务质量。语义Web为当前Web上的内容
随着互联网的发展,网络中的用户和商品都越来越多。传统的推荐算法由于混入了过多干扰和无用信息,在为每个用户进行推荐时得到的准确率并不高。而流行性预测是一种利用商品在
近年来,信息安全日益引起人们的重视,网络攻防能力已成为信息化时代人们关注的焦点。然而,传统的防火墙、入侵检测等防护手段在现代网络对抗中使防守方显得十分被动。跳频技
学位
全过程计算机辅助动画自动生成技术是由中科院数学所的陆汝钤院士提出的,结合了人工智能理论与现代多媒体技术的全新动画制作过程。它形成了一套自顶向下、逐步求精的方法,以
学位
随着移动计算设备和无线传感器的大量出现,网络将成为人与周围物理世界交互信息的接口。Internet和移动通信技术的发展,移动IPv6为连接到Internet的主机用户提供了移动性支持
随着信息技术的发展,越来越多的图像数据需要被秘密传输,图像秘密共享改变传统单一加解密模式,将秘密共享技术应用于处理图像数据,能够分担责任,提高系统安全性和健壮性,在银
随着我国网民规模接近7亿,互网联页面数突破2000亿,信息爆炸般增长,从中获取有效信息也变得愈加困难。因此也有了许多个性化解决方案来对互联网信息进行筛选提供给人们符合所
现代高层建筑设计逐渐朝着快速、集约的方向发展,建筑公司为了进一步完善建筑施工系统,利用计算机辅助设计技术通过可视化的方式,来模拟仿真建筑工程施工的过程。借助这些技术的
随着国民经济的飞速发展,汽车的数量急剧增加,城市交通管理现代化水平的提高势在必行。汽车牌照识别系统作为智能交通系统中的重要部分,被广泛应用于智能停车场管理、违规车
随着数字化技术和互联网的发展,各种信息资源迅速膨胀,数据呈现出多样化的新特点。这些多样的数据已不再适合存储在单一的数据模型或传统的关系数据库系统中,因此人们引入一个新