基于词网络和词向量的短文本主题模型研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:dabei008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型是一种对文本数据挖掘行之有效的方法,其应用领域包括文本挖掘、个性化推荐等。随着近年来互联网的迅猛发展,短文本数据迅速增加。对短文本数据加以利用,进行组织和总结显得至关重要,传统的主题模型例如pLSA和LDA都是为长文本而设计的,这些主题模型在遇到短文本的场景时会遭受由于缺乏词语而产生的稀疏性问题。最近的研究如BTM、WNTM等表明,利用词共现关系可以有效缓解短文本的稀疏问题,但它们都忽略了词语间的语义信息。基于以上思想,本文提出了一种名为SEREIN的短文本主题模型,它在语料库上构建词网络,并利用词向量来学习词语的语义相似信息。本文的主要工作有:(1)针对短文本的稀疏性问题,提出了一个简单而有效的短文本主题模型SEREIN。与现有的短文本主题模型不同的是,本文在构建伪文档的时候利用词向量的特性,引入了词语的语义信息,实验结果表明SEREIN对比现有模型有了很大提升;(2)为了解决BTM、WNTM只考虑词语共现关系的局限性,本文在构建伪文档过程中引入了词语的语义表示,包括用相似度度量词语之间的共现关系、通过词向量的算术关系发现语义上相似度高但是并不存在共现关系的词语以及向伪文档中引入用词向量计算的语义相似度较高的词语,实验结果表明引入语义信息对于提升主题模型性能很有意义;(3)基于词向量的质量评价思想,针对提高词向量的质量,本文对SEREIN作出了有效改进,实验结果证实了词向量的有效性,同时也表明SEREIN具有良好的扩展性和灵活性。
其他文献
近年来,随着科技的进步,增材制造已经是一种非常重要的制造技术,该技术涉及范围比较广泛,如生物学、航天领域和建筑领域等。增材制造的提升不仅仅是依靠设备的发展,同时也需
自从第六次大提速之后,高速铁路的建设得到了充分的发展,道岔结构也从原来的普通单开道岔,变成现在的可动心轨道岔,消除了有害空间,保证了高速列车通过道岔时的稳定性和安全
汽油发动机(简称汽油机)燃油的不完全燃烧会导致环境污染和能源浪费,从而使其经济性能和排放性能下降。通过使用三元催化转化器可以减少有害气体排放量,但其有效转化要求空气
考虑在不确定因素对工业机械臂轨迹跟踪控制的问题,将轨迹跟踪问题视作为对系统的约束,基于受约束动力学界Udwadia-Kalaba(UK)方程获取其所需跟踪的伺服控制力。当考虑不确定
在铜阳极板生产过程中,铜阳极板圆盘浇铸机在运行过程中对铜液造成的晃动影响铜阳极板的质量。因此,研究铜阳极板圆盘结构特性和伺服驱动控制系统对铜阳极板质量的提升具有现
由于静态破碎剂的主要原料成本低、来源广、施工简单,应用过程中无噪音、无飞石等优点十分明确,因此其应用广泛,对于某些破碎工程,尤其是一些局部破裂的工程,要求静态破碎剂
随着能源安全问题和环境问题的日益突出,节能减排成为内燃机发展的必然趋势。本文利用一台能够实现汽油进气道喷射、氢气/汽油缸内直喷的复合喷射汽油机进行对比试验,探究点
丘陵山区果园果树的冠层嫁接目前主要依赖人工踩高,攀爬进行嫁接作业,危险性较高且劳动强度大。果树冠层嫁接区域具有复杂空间形状,需要一种机械化辅助装置在冠层嫁接过程中
时间表达式识别是自然语言处理领域中,命名实体识别技术的一个重要组成部分。时间表达式的识别和对时间信息的获取和使用,在信息检索、自动问答等诸多领域有着重要的作用。本
SLAM技术在无人驾驶、机器人、AR等领域有着广泛的应用,如何精准地定位相机姿态并完成高质量的地图绘制一直都是学者们不断探索的问题。目前多数SLAM系统主要还是以单目相机