【摘 要】
:
随着互联网和计算机技术的快速发展,世界各个行业的数据量呈爆炸式增长。超大规模的数据已经远远超出了现有计算技术和信息系统的处理能力。寻求有效且高效的文本主题模型来
论文部分内容阅读
随着互联网和计算机技术的快速发展,世界各个行业的数据量呈爆炸式增长。超大规模的数据已经远远超出了现有计算技术和信息系统的处理能力。寻求有效且高效的文本主题模型来挖掘信息成为大数据时代背景下人们的迫切需求。LDA是文本挖掘领域较为主流的主题挖掘模型,AD-LDA主题模型是采用Gibbs采样的LDA在分布式平台上的并行化实现。本文针对分布式环境下AD-LDA主题模型运行效率不高的问题,提出了一种基于权重采样的WAD-LDA的主题模型,该模型以并行AD-LDA主题模型为基础,以Spark为分布式计算平台,旨在减少AD-LDA并行算法在分布式平台上总的Gibbs采样时间。为了能准确给特征词计算影响因子,本文采用了 TF-IDF统计方法来计算特征词的权值,降低了高频词对本文影响程度,准确提取出特征词,控制采样词数,在保证模型精度不损失太多的情况下,减少单次迭代时间,提高了算法的效率。本文以根据网络中心一周日志抓取到的文本子集作为实验数据集,选取了标准AD-LDA、Spark-LDA和WAD-LDA三个主题模型,先做了主题数选取和阈值选取的参数优化实验确定参数,最后在困惑度和采样时间方面做了相关的对比实验。实验结果证明,通过针对AD-LDA主题模型采样算法的改进,可以在保证模型精度不损失太多的情况下,主题模型不仅运行效率得到了大部分提升,而且主题模型的主题质量也会比原来的更好。
其他文献
近年来,有众多的学者对算子的谱性质进行了一系列深入的研究,使得算子谱理论的内容得到了极大地丰富.在这一背景之下,本学位论文对Banach空间上有界线性算子的谱性质的相关内
仿生偏振光导航是一种基于自然偏振特性的自主导航方法,在较大范围内难以受到人为干扰,对不依赖无卫星的自主导航的研究具有重要意义。本文提出了一种利用大气偏振模式获取经
本篇论文以泰山南麓的王母池为主要研究对象。王母池作为泰山文化的有形载体,反映了不同历史时期泰安的经济发展、历史变迁、民族融合、社会发展和建筑工艺水平。然而对王母
谱理论一直是算子理论研究中的一个热点问题,而Weyl型定理是近几年谱理论研究中比较活跃的一个方向.本学位论文深入研究了 Banach空间上有界线性算子的Weyl型定理的相关内容,
江南造山带位于扬子地块与华夏地块碰撞结合部位,其在加里东时期叠加了复杂的构造变形。弄清江南造山带加里东期构造特征对研究华南大陆早古生代构造演化具有重要制约意义。
近年来,在互联网环境下,大部分复杂软件系统的实现主要采用一种基于构件的软件实现技术,各种基础构件独自完成开发,分散在网络的不同节点上提供各种各样的服务,这些构件通过
地震是一种很严重的自然灾害,全世界每年因地震造成的破坏和财产损失不计其数。破坏性地震通常发生在构造区和活动断裂带上。由于大陆板块内部存在块体之间的相对运动,且活动
大气偏振模式蕴含丰富的信息,通过对大气偏振模式分布特征的检测和演算,可获得空间方位、地表特性以及大气成分等信息,对偏振光导航、生物偏振感知机理、大气光学特性分析以
本文主要研究在空间Cn内单位球Bn上退化的二阶椭圆偏微分方程解的刚性与正则性问题.带有光滑系数的一致椭圆微分方程解的正则性已经得到解决,可参考(Evans’ book[2]and Trud
本学位论文研究Comma范畴的投射盖、(半)完全性与AR序列的保持问题,广义Comma范畴的粘合问题.在全面阐述与本学位论文有关的研究方向:范畴理论,粘合理论,范畴的扩张与完全性