基于主题模型和句向量的文本语义挖掘研究

来源 :兰州交通大学 | 被引量 : 1次 | 上传用户:flash_chen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,各种信息数据以指数级别的速度增加,海量杂乱无章的文本数据分布在各行各业,而文本挖掘中用户特征分析、推荐系统、舆情监控等任务的实现均依赖于高质量文本数据的获取。如何从这些复杂混乱的文本中快速有效地挖掘出有意义的语义信息成为自然语言领域内的一项重要任务。主题模型是一种有效的文本主题挖掘方法,它将文本按照主题划分成若干个有意义的簇,且同一类别内的所有文档能够共享同一主题,该方法在文本挖掘领域取得了广泛应用。但是网络中的短文本大多存在数据稀疏问题且在不同语境下的词语拥有不同的含义。对于具有高稀疏性且非结构化等特点的高维文本数据,传统的文本主题提取方法难免会造成上下文语义的缺失,进而影响到文本语义挖掘的效果。因此,论文将句向量模型引入到主题模型,在LDA模型和Doc2vec模型的基础上,从以下两个方面展开了研究:1.针对主题模型中上下文语义缺失问题,论文提出了Doc-LDA算法。即将包含上下文特征信息的Doc2vec向量和具有文本全局信息的LDA模型相结合来处理文本。在Doc-LDA模型中,首先将语料库中的文本通过Doc2vec训练得到文档向量,再用LDA模型得到的每个主题中的高概率词语用于表示主题,并将主题词语映射到向量空间得到主题向量,最后通过计算主题向量与文档向量之间的余弦距离来进行文本表示。本文在爬取的摘要语料上对Doc-LDA模型进行了准确率、召回率以及F值的测试,实验结果表明,基于LDA和Doc2vec的文本表示模型相比传统的基础模型以及同类方法有了进一步的改善。2.针对不同向量空间下的表示缺乏准确性问题,论文提出了DBOW-LDA算法。即将LDA得到的全局主题融入到DBOW中,首先采用LDA主题模型训练得到主题分布,再对经过LDA得到的主题分布向量化处理后与DBOW中的文本向量进行求平均值,文本的主题向量表示为文本中所有词的向量矩阵与该文本的主题分布的乘积,最后输出含有主题语义信息的给定文本的句向量表达。DBOW-LDA模型在同一语义向量空间进行文本向量和主题向量的训练,进一步提高了算法的准确性。在与其他基础文本表示方法进行聚类结果的对比实验中可以得出,论文提出的DBOW-LDA算法性能更优。
其他文献
差分故障分析是一种经典的故障分析方法,攻击需满足对相同明文多次加密和精确注入故障等条件。本课题旨在克服上述不足,探索S盒被注入故障、唯密文分析条件下的密钥恢复方法,
根据雷达装备列装和应用情况,目前定义的雷达保障装备主要包括雷达抢修车和雷达综合修理车,主要由各种类型的通用电子仪器组成,这些仪器需要定期进行基准溯源,以确保计量规范
近几年,随着深度学习理论与技术的发展,计算机视觉领域的相关研究也越来越深入,在图像分割领域则细化出语义分割和实例分割两个分支。实例分割的任务就是利用计算机将人感兴
文化创意产业作为提升一国及地区整体软实力的重要新兴产业,其发展势头和前景备受瞩目。人才资源作为产业发展中最核心要素,对以人为本的创新能力为基础的文化创意产业来说更
软件开发不是一蹴而就的,软件将长期处于运行且持续演化的阶段。在软件演化过程中,对源代码进行修改可能会导致缺陷的产生,软件演化的过程其实就是软件不断引入缺陷和消除缺
本论文对中阶梯光栅分层厚铝膜的硬度测试及影响因素进行了深入研究。由于中阶梯光栅具有高衍射次级、极高的光谱分辨本领、宽光谱范围和高色散率等优点,因此被广泛的应用在
与传统量子点材料相比,全无机钙钛矿(CsPbX3,X=C1,Br,I)具有发光可调、量子产率高及制备简单等特性,在光电器件上具有极大的应用潜力,是当下研究的热点。但是源于纳米晶自身
本文从持股特征出发,研究共同机构投资者如何影响公司高管超额薪酬。共同机构投资者是指同时持股多家同行公司的机构投资者。相较于一般投资者,这类机构投资者,能够获取多家
垂直发射井筒是潜艇导弹发射的重要装置,通过嵌入到发射井筒设备内的光电编码器反馈到筒盖系统控制单元实现其开关盖运动控制,垂直发射井筒的传感器故障对潜艇的导弹发射将造
人博卡病毒1型(Human bocavirus 1,HBo V1)是细小病毒科细小病毒亚科博卡病毒属的成员之一。HBo V1的感染部位是人体呼吸道,会引起严重的呼吸道疾病,最常见的症状是急性哮喘,