面向新闻文本的话题发现研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:ken142560
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的进步,人类进入了大数据时代。随之产生了大量杂乱无序的网络信息,如何从这些信息中找到用户感兴趣的内容是文本挖掘研究领域的一个热点和难点。近年来,对于新闻热点话题发现的研究基本都依据向量空间模型(Vector Space Model,VSM)和LDA(Latent Dirichlet Allocation)模型进行,而如何提高聚类的效果一直是新闻话题发现研究领域存在的基本问题。所以本文将不同的模型-向量空间模型(VSM)、二元共现潜在语义向量空间模型(Co-occurrence Latent Semantic Vector Space Model,CLSVSM)和LDA主题模型应用到话题发现领域进行研究分析。首先,针对VSM模型存在的缺点,依据词性提取关键词来构造VSM模型。然后基于TF-IDF权值法利用K-means、凝聚式层次聚类方法进行聚类的分析比较。其次,二元CLSVSM模型挖掘了关键词之间的潜在的语义信息而比VSM模型的聚类精度更高。所以本文将二元CLSVSM模型应用到话题发现领域,从聚类效果和主题识别等方面与另外两种模型进行了对比讨论。最后,对本文的数据集-搜狗新闻语料库中的部分新闻文本进行实验,用F1值进行聚类评价。结果显示,在VSM模型中,结合词性提取关键词的方法的聚类效果更加的准确,但仍没有LDA主题模型和二元CLSVSM模型的聚类效果好。而且,LDA模型和二元CLSVSM模型的聚类质量不存在明显的差别。从而验证了结合词性构造VSM模型的有效性,以及基于二元CLSVSM模型进行话题发现研究的合理性和有效性。另外,结合三种模型的特点依据不同的方法分别提取聚类结果中每一类别的主题词,根据这些提取的主题词了解新闻文本所要表达的主要内容,并发现蕴含在这些新闻内容中的主要话题。
其他文献
目的:观察加味五苓散治疗膀胱过度活动症(OAB)对尿流动力学的影响。方法:100例患者随机分为实验组与对照组各50例。对照组口服琥珀酸索利那新治疗,实验组服用加味五苓散治疗
[编者按]畜牧业发展的最终目的是供人类消费,经济越发达,人与动物关系越密切.近年来,人畜共患病多发乃至致人死亡的事件在世界各地屡屡发生:禽流感在东南亚一些国家感染人,并
介绍了利用CAS-OB装置在惰性气体保护下进行顶渣精炼工艺过程。该工艺能有效降低钢液中氧,有较好的脱硫效果,可显著提高钢液洁净度、减少夹杂物,使用较低的成本取得较好的精炼效
显现编辑的主体性编辑工作是一种创造性的智力劳动,这种劳动的有效与否是由广大读者来评价的.要获得良好的效果,编辑必须充分发挥其主体性.它不仅体现在审稿上,还体现在策划
人体寄生虫学是一门应用性强的基础医学课程,教学内容多,涉及近百种人体寄生虫。但教学时数少(30学时),教学难以完成,学生接收困难。因此,人体寄生虫学的教学内容,教学方法和