面向文本情感分析和主题分类的词向量训练方法

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:shuanghu1000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征工程一直是机器学习任务的基础工作,特征的质量将直接影响整个模型和系统的性能。自然语言处理任务通常是以词为单元来进行,因此词的特征表示就成为了展开各类任务和研究的基础工作。传统的独热编码因其特征稀疏性的缺点而无法广泛适用于自然语言处理任务,因此基于分布式假说的词向量表示应运而生。常用的词向量训练方法都是基于分布式假说的模型,其原理是通过大规模语料对词的语义进行学习,所获得的词向量能够在低维空间中表达语义,因此在文本挖掘领域中得到了广泛使用。无监督的模型训练得到词向量在语义上具有普适性和通用性,但是缺点在于无法完全契合具体的语料,在关键词提取、情感分类、主题分类等具体问题中,词向量还有一定的提升空间。本文将词向量与主题发现和文本分类任务相结合,在关键词、情感词和主题词表示三个方面进行了研究,主要研究内容如下:(1)提出一种结合主题模型的关键词提取和表示方法。该方法基于词的分布式表示,将文本中的词语转化为向量形式,同时使用主题模型对文本进行主题聚类,将主题表示为单词的概率分布,以获得单词与主题的相关性。然后在每个主题中,利用词向量之间的相似度构建关键词网络,并通过计算每个主题网络的核心节点来获得主题关键词。(2)提出了一种面向文本情感分类的词向量训练方法。该方法首先使用预训练的词向量,通过两种不同的线性加权方法对文档特征进行表示,然后将文档向量作为分类的输入特征,训练一个基于神经网络的文本情感分类器,并通过梯度下降和反向传播过程,将文本的情感极性传播到词向量中,最终获得的情感词向量能够在文本情感预测、文本相似度计算和词的情感表达等任务上取得较好的表现。(3)提出了一种面向文本主题分类的词向量训练方法。该方法是在情感词向量的训练方法上进行了一定的拓展,首先使用预训练的词向量,通过两种线性加权方法对文档特征进行建模,并将其作为分类器的输入,然后使用多个二分类(One vs.Rest)方法替代多分类进行主题分类任务,即训练多个基于神经网络的文本主题分类器,通过梯度下降和反向传播的过程将文本的主题性传递给词向量。最终的主题词向量是多个分类器中词向量的加权线性组合。实验结果表明,这种主题词向量能够在文本主题类别预测、文本相似度计算等任务上获得很好的效果。
其他文献
背景:最近的研究表明,血清镁水平与血液透析患者死亡风险增加之间存在关联;但是,评估差异较大,而且结果不一致。因此,有必要阐明血液透析人群中血清镁对死亡的相对危险度。方法:计算机检索PubMed,Embase,Web of Science和Cochrane Library(建库至2018年4月29日)中收录的队列研究,评估血清镁与血液透析患者死亡率之间的关联。我们使用随机效应模型计算了全因死亡率和心
在桥梁运营模态参数识别研究中,环境干扰、模型简化、测试误差、识别算法等因素会引入不确定性,使得桥梁模态参数识别值与真实值之间不可避免地存在偏差。为了提高桥梁模态参数识别结果的可信性与鲁棒性,有必要对桥梁模态参数不确定性识别进行研究。常用的结构模态参数不确定性识别方法有两大类,经典频次方法和贝叶斯方法。因具有理论完善和运算高效的特点,贝叶斯方法中的FB-FFT法逐渐得到推广应用。然而,大跨复杂桥梁具
国无德不兴,人无德不立。中国共产党人历来高度重视德育工作,习近平总书记结合我国当前德育工作的现状,立足新时代国情、社情的实际,在各种会议、活动、考察和出访等公开场合多次谈及立德树人的重要论述,提出了一系列关于立德树人的新观点和新思想。对于发展马克思主义德育思想,促进人的全面发展、培育新时代社会主义建设者和接班人具有重要的理论和现实意义。论文在广泛查阅有关文献和资料的前提下,重点梳理习近平有关立德树
智能电网的概念近年来受到了研究人员和公共电力公司极大地关注。随着智能电网的普及,传统公共电力公司需要处理的电力计量数据不断增加。将电力计量数据上传至分布式的云服务器上,可以有效地提高对数据的访问效率,但是却给用户的数据隐私安全造成了隐患。为了有效地保护用户用电数据的安全,电力计量数据在上传之前需要先进行加密,但是如何在不可信的云服务器上高效地查询用户的用电数据却成为当前面临的挑战之一。针对智能电网
动态步行稳定性一直是双足机器人研究领域中的一个关键性问题。在双足机器人的二维步行实验中冠状面的平衡常被忽略,而实际应用到复杂环境中时,冠状面的平衡控制却尤为重要。
夜间捕获的图像受外界不可控因素的影响,往往质量明显下降,因此,图像去夜的目标是基于输入的夜晚图像,生成一张相同场景下的质量更优、包含细节信息更加丰富的白天图像。面向监控场景的图像去夜是一个非常值得探索的研究课题,它可以使更多的夜晚图像资源应用到依赖高质量输入的计算机视觉任务,诸如图像分割、目标跟踪和行人检测等;同时也能满足人们将拍摄的质量较差的夜晚图像转换为质量更好,内容更丰富的白天图像的日常需求
TNT红水是用亚硫酸钠法精制TNT过程中产生的碱性废水,呈深红色,成分异常复杂,毒性大,且不可生物降解。TNT红水渗漏,造成了土壤污染,给当地生态环境和人体健康带来了极大的风险。因此,对TNT红水污染土壤进行治理就很有必要。本研究以TNT红水污染土壤为处理对象,先采用热分解技术,研究了热分解温度,热分解时间,污染土壤的样品质量对TNT红水污染土壤的处理效果的影响,并根据热分解后土样的残余总耗氧量选
淮河是我国七大河流之一,淮河流域是我国重要的农业生产地区。淮河本是一条独流入海的河流,但南宋绍熙五年(1194年)黄河长期南侵夺淮之后,黄淮并流入海。1855年黄河北徙之后,淮河下游因入海河道被泥沙淤积难以畅泄,需要借助长江水道入海且泄量有限。淮河流域水患频繁,人民饱受其苦。治理淮河主要需要解决其入海河道问题,明清以来对淮河也有治理,但效果不佳。近代以来关于淮河治理的主张甚多,主要围绕着入海河道线
目的:探讨IL-22在发热待查(fever of unknown origin,FUO)中的诊断价值,并分析IL-22与其它炎症指标的相关性。方法:以2016年2月至2018年11月于武汉同济医院感染科就诊的548例发热患者为研究对象,根据出院诊断及跟踪随访结果,将诊断明确的FUO患者进行病因分组,纳入细菌组62例,结核组27例,NIID组31例;根据快速序贯性器官衰竭评分系统及血培养结果,将细菌
我国是世界大国之一,土地面积约960*104平方公里,在这片辽阔的国土上,地理环境复杂多样,自然气候分布多种。与之相对应的是我国也是人口大国,2019年国家统计局发布我国人口已超过14亿,约占联合国2019年世界人口数据77亿人口的18.18%。近些年来我国进入人口老龄化,许多城市的老龄化程度越来越高。在老龄化态势愈演愈烈的当下,人们对老年人的关注也越来越多、越来越细致。随着小的家庭组合型式逐渐普