面向短文本情感分析的方法及应用研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:beakerzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本有着较强的时代属性,互联网的发展使得短文本逐渐具有实时性强,传播范围广,更新速度快,碎片化明显,用词无约束且特征稀疏等特点,因此传统的算法很难从短文本中获取有效地特征。短文本情感分析存在着大量的需求,且已经成为人工智能领域的一个重要的分支。但是短文本情感分析存在着大量的问题,如词向量的表示能力有限;有标签的短文本数据难以扩充;对短文本的潜在变量细分不够,隐含意义不易挖掘,难以在少量有标签的短文本数据完成情感分析;短文本情感分析对编程能力要求高导致不易推广等。1、针对词向量模型表示能力有限的问题,本文提出了面向情感分析的词向量模型,在学习的词向量中加入情感先验(sentiment prior),根据加入方式的不同,分别设计了DLJT1、DLJT2、DLJC1、DLJC2、WLJT以及WLJC等模型,通过对这几种模型的比较与分析,发现当利用情感的比值作为情感先验,且情感先验来源于当前词语时,得到的词向量最好,也即模型DLJT2。在短文本情感分析中,DLJT2也取得了最优的结果。2、针对有标签的短文本数据难以扩充的问题,本文提出了基于生成对抗网络的数据扩充模型CS-GAN。该模型结合条件LSTM、增强学习等模块能够生成带有标签属性的短文本数据。除了生成器、判别器以外,CS-GAN还增加了分类器做为标签属性约束,保证生成的文本样例具有标签属性。通过对比实验,验证了生成文本样例的内向一致性与外向一致性,并验证了GAN与增强学习等模块在模型中起到的作用,最后证明了生成的有标签数据能够大大增强有监督模型的泛化能力。文本分类的实验结果表明,CS-GAN能够在训练样例少以及标签信息多的数据集上发挥很好的效果,证明了CS-GAN能够较好地解决有标签短文本的数据扩充问题。3、针对短文本的潜在变量细分不够,隐含意义不易挖掘,难以在少量有标签的短文本数据完成情感分析等问题,本文从半监督的角度直接利用少量有标签的短文本进行情感分析,提出了半监督的可细分变分自编码模型SDVAE。该模型的核心思想是在ELBO上添加基于短文本情感先验的等式约束,把抽取得到的潜在变量划分为可细分量以及不可解释量这两部分,并假设这两部分的相互独立性,使得模型减少了分类器的参数,提升了模型的训练效率。根据等式约束的添加方式的不同,分别设计了模型SDVAE-I与SDVAE-II,并借助逆回归流IAF将模型扩展为SDVAE-I&IAF与SDVAE-II&IAF。为了可视化展示不可解释量与可细分量起到的作用,本文采用了t-SNE算法。实验结果验证了可细分量只包含数据的类别信息,且很难通过该变量实现数据的重构,而不可解释量虽然不含有数据的类别信息,但是却包含着数据重构特征。与此同时,SDVAE对短文本抽取的潜在变量进行了细分,有效地解决了短文本的隐含意义难以挖掘的问题。短文本情感分析实验结果表明,SDVAE本身就能够较好地实现短文本的情感分析。在逆回归流模块的帮助下,SDVAE-II&IAF取得了最优的分类结果。4、针对短文本情感分析对编程能力要求高导致不易推广等问题,本文设计了深度学习平台原型系统,该原型系统融合了不同深度学习组件,用户可通过搭积木的方式实现神经网络模型的构建,并将本文提出的模型作为系统的模板供用户直接使用。在原型系统上,以情感分析为案例,设计了基于情感分析的敏感信息识别模型DS,该模型能够有效地识别具有敏感信息的微博短文本,和传统方法对比,该模型在敏感信息识别的准确性方面总体提升20%左右。最后在原型系统上对短文本的敏感性及其包含的情感倾向做了可视化展示。
其他文献
<正>中国已成为决定全球天然气消费的中坚力量。除2013~2016年受经济增长放缓和新一轮天然气价格改革的影响增速有所减缓,自2000年以来,中国天然气消费量都是以年均两位数的速
以盐雾硫化腐蚀试验作为加速腐蚀试验,对不同时效制度下1420合金的表面腐蚀形貌进行观察。以最大腐蚀深度为腐蚀损伤衡量指标,研究双级时效合金模锻件腐蚀的统计规律。结果发现
立足于"为每一个孩子创造成功发展的机会"这一理念,立足于办更接近教育本质的教育的美好理想,觅渡教育集团冠英校区进行了"小班化教育"研究的大胆实践和深层次变革。几年来,我们
1915年,胡适先生在美国留学时的日记中有过这样一段话:“国无海军,不足耻也;国无陆军,不足耻也!国无大学,无公共藏书楼,无博物院,无美术馆,乃可耻耳。我国人其洗此耻哉!”文化与一个社
随着计算机技术的不断发展,在计量管理中应用计算机越来越普及,计算机能够提高计量的准确性和效率,本文对目前计算机在计量管理中的应用进行分析,介绍计量数据库、网络远程计
采用盆栽生物试验,研究了缓释复合肥对大白菜产量、品质的影响。结果表明,与普通复合肥(CCF)处理相比,非包膜缓释复合肥(SRF)处理能够显著提高白菜产量(生长35 d和45 d产量分别提
古井贡酒产地——古城亳州,土地肥沃,盛产小麦、高梁、大麦、豌豆等优质酿酒原料。考古证实,亳州的酿酒业至少有3000多年历史。据《亳州志》记载,历史上亳州大小酒坊林立,仅减店集
国内对英语口语(尤其是日常口语)各种特点的忽视已影响了我们正常有效的交际。本文拟对英语日常口语中的模糊词语进行探讨,以期弥补空白。
将被动时间反转镜(PTRM)技术与双向判决反馈均衡器(DFE)相结合,设计并实现了高可靠性的单载波水声通信解码方案。接收端采用PTRM压缩信道多途结构,聚焦信号能量;利用双向DFE将传
今湖北襄阳市,汉水北岸为樊城,汉水南岸为襄阳城。东汉末年,刘表当荆州刺史后,将治所移到襄阳城。襄阳城北的邓县,当时属南阳郡管辖,诸葛亮隐居的隆中,在邓县境内。所以,诸葛亮的《出