论文部分内容阅读
短文本有着较强的时代属性,互联网的发展使得短文本逐渐具有实时性强,传播范围广,更新速度快,碎片化明显,用词无约束且特征稀疏等特点,因此传统的算法很难从短文本中获取有效地特征。短文本情感分析存在着大量的需求,且已经成为人工智能领域的一个重要的分支。但是短文本情感分析存在着大量的问题,如词向量的表示能力有限;有标签的短文本数据难以扩充;对短文本的潜在变量细分不够,隐含意义不易挖掘,难以在少量有标签的短文本数据完成情感分析;短文本情感分析对编程能力要求高导致不易推广等。1、针对词向量模型表示能力有限的问题,本文提出了面向情感分析的词向量模型,在学习的词向量中加入情感先验(sentiment prior),根据加入方式的不同,分别设计了DLJT1、DLJT2、DLJC1、DLJC2、WLJT以及WLJC等模型,通过对这几种模型的比较与分析,发现当利用情感的比值作为情感先验,且情感先验来源于当前词语时,得到的词向量最好,也即模型DLJT2。在短文本情感分析中,DLJT2也取得了最优的结果。2、针对有标签的短文本数据难以扩充的问题,本文提出了基于生成对抗网络的数据扩充模型CS-GAN。该模型结合条件LSTM、增强学习等模块能够生成带有标签属性的短文本数据。除了生成器、判别器以外,CS-GAN还增加了分类器做为标签属性约束,保证生成的文本样例具有标签属性。通过对比实验,验证了生成文本样例的内向一致性与外向一致性,并验证了GAN与增强学习等模块在模型中起到的作用,最后证明了生成的有标签数据能够大大增强有监督模型的泛化能力。文本分类的实验结果表明,CS-GAN能够在训练样例少以及标签信息多的数据集上发挥很好的效果,证明了CS-GAN能够较好地解决有标签短文本的数据扩充问题。3、针对短文本的潜在变量细分不够,隐含意义不易挖掘,难以在少量有标签的短文本数据完成情感分析等问题,本文从半监督的角度直接利用少量有标签的短文本进行情感分析,提出了半监督的可细分变分自编码模型SDVAE。该模型的核心思想是在ELBO上添加基于短文本情感先验的等式约束,把抽取得到的潜在变量划分为可细分量以及不可解释量这两部分,并假设这两部分的相互独立性,使得模型减少了分类器的参数,提升了模型的训练效率。根据等式约束的添加方式的不同,分别设计了模型SDVAE-I与SDVAE-II,并借助逆回归流IAF将模型扩展为SDVAE-I&IAF与SDVAE-II&IAF。为了可视化展示不可解释量与可细分量起到的作用,本文采用了t-SNE算法。实验结果验证了可细分量只包含数据的类别信息,且很难通过该变量实现数据的重构,而不可解释量虽然不含有数据的类别信息,但是却包含着数据重构特征。与此同时,SDVAE对短文本抽取的潜在变量进行了细分,有效地解决了短文本的隐含意义难以挖掘的问题。短文本情感分析实验结果表明,SDVAE本身就能够较好地实现短文本的情感分析。在逆回归流模块的帮助下,SDVAE-II&IAF取得了最优的分类结果。4、针对短文本情感分析对编程能力要求高导致不易推广等问题,本文设计了深度学习平台原型系统,该原型系统融合了不同深度学习组件,用户可通过搭积木的方式实现神经网络模型的构建,并将本文提出的模型作为系统的模板供用户直接使用。在原型系统上,以情感分析为案例,设计了基于情感分析的敏感信息识别模型DS,该模型能够有效地识别具有敏感信息的微博短文本,和传统方法对比,该模型在敏感信息识别的准确性方面总体提升20%左右。最后在原型系统上对短文本的敏感性及其包含的情感倾向做了可视化展示。