论文部分内容阅读
近几年来,文本数据量随着自媒体时代的到来呈现爆炸式的增长。基于关键字的百度搜索引擎新闻数据是各家新闻媒体或网站的汇总数据。当人们得到或者看到这些数据的时候,通常不清楚这些数据涉及几个主题,LDA主题模型可以提取文本数据中的语义主题信息,但是文本数据中潜藏的语义主题信息被LDA主题模型提取的时候,主题数目需要人为指定,通常情况下需要用户自己根据经验指定。当人们得到这些数据的时候,通常也不清楚这些数据的重点词汇,词云(标签云)可视化可以有效地突出重点词汇,但是现有的词云可视化技术大多需要用户自己按一定的格式排版并导入固定位置,效率特别低下。针对这些问题,本文主要做了如下几方面的工作:(1)提出了一种评价LDA主题模型的指标Perplexity,通过该指标可以得到LDA主题模型的最优主题数目。通过实验显示,当评价指标Perplexity最小的时候,LDA主题模型达到最优,得到的结果最贴近实际情况。(2)设计并实现了基于LDA主题模型的可视化。该功能的实现,首先通过网络爬虫得到文本数据,然后进行中文分词并对分词后的数据去停用词,再用LDA主题模型得到去停用词之后数据的语义主题信息并在Web端进行词云可视化。(3)设计并实现了基于词频的词云可视化和基于时间分类的词云可视化。该功能的实现,首先对去停用词后的数据进行统计词频和按时间分类,再将统计和分类后的数据在Web端进行词云可视化。以上各项功能的研究与实现,解决了LDA主题模型选取最优主题数目的问题并为LDA主题模型自适应选取最优主题数目的研究打下了坚实的基础,实现了文本数据基于LDA主题模型、词频和时间分类的词云可视化,系统具有操作简便易懂的优点。