基于词三角的短文本主题模型算法

来源 :南京大学 | 被引量 : 0次 | 上传用户:ericshen81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络和问答网站的兴起,短文本已成为网络上信息传递的主要方式,例如传统网页的标题、各类新闻和博客的标题等都是短文本形式的。同时,微博、知乎、Twitter、Facebook等网站的主要数据形式也是短文本。因此,从短文本中挖掘主题信息有着广泛的应用场景,例如从微博中发现突发性话题,利用文本主题信息进行个性化推荐等等。主题模型是有效的从文本中挖掘潜在主题信息的方法,然而由于短文本中"文档-词"的数据过于稀疏,传统的主题模型在短文本主题挖掘方面的效果并不理想。针对传统主题模型在短文本领域的局限性,本文提出了一种新的短文本主题模型——网络词三角主题模型(WTTM),克服了数据稀疏性的问题,并在试验中取得了较理想的效果。本文的主要工作如下:1)针对普通词网络无法指示不同文档子网络交汇部分的问题,对词网络构建策略做出了改进,利用词对出现的文档序号集合作为对应边的标签,使得可以通过对比两条边的标签来判断对应的两个词对是否来自同一文档,从而判断其是否处于文档交汇处;2)针对普通"词-词"共现关系语义关联较弱的问题,提出了从词网络中寻找特定词三角结构的策略,挖掘词网络中代表着词之间更强主题关联性的词三角结构,词三角中的词有着更强的语义关联性,和更强的主题集中性;3)以词三角为文本主题的基本单元,提出了网络词三角主题模型(WTTM),并与LDA和BTM进行了对比实验,实验结果表明,在短文本主题挖掘方面,WTTM相对于LDA和BTM都具有一定优势;4)在词三角结构的基础上进行词团结构的拓展,分析词团中的节点个数对主题挖掘效果的影响。随着词团中节点个数的增加,词团主题模型主题聚合度的实验结果也取得了一定提升。
其他文献
多媒体技术和网络技术近年来得到迅猛发展。随之而来的数字媒体的信息安全、知识产权保护和认证等问题也变得日益突出,这已成为数字世界中的一个非常紧迫的重要议题。数字水
信息化技术已经逐步深入到政府管理工作中的各个环节,以信息化技术为基础的电子政务2,已经成为政府提高管理水平和办事效率、促进政务公开和廉正建设的重要手段。 传统的面
随着移动互联网和社交网络的大规模普及,越来越多的用户每天会产生数以亿计的用户产生内容(UGC)。然而,由于用户发表内容的门槛的降低,任何用户在任何时间都可以发表自己的想