论文部分内容阅读
随着经济的高速发展,我国与国际社会的接轨越来越紧密,国内的文化产业得到了充分的发展,产生了大量高活跃度的线上新闻媒体,线上的新闻文本数据量也逐年增长,而且逐渐呈现出主观化多元化的趋势,这使新闻文本的情感倾向分析,尤其是正负面新闻的识别变得越来越火热。为了帮助人们对新闻文本进行更好的了解与分析,本文运用了自然语言处理的最新技术,提出用了一种分析新闻文本正负面情感倾向的新模型,主要研究的内容如下:(1)深入了解文本信息处理的过程和方法,研究了传统的文本信息特征构造技术,分析了文本情感分类经典模型——长短期记忆神经网络模型(Long Short-Term Memory)的特点和缺陷,深入分析了预训练模型作为特征提取技术的必要性和先进性。(2)本文在利用预训练模型提取文本特征信息的基础上,结合数据集文本的数据特点,提出了一种新的特征构造方法:将BERT(Bidirectional Encoder Representations from Transformers)模型输出输入到双向GRU(Gated Recurrent Unit)中,对上下文语义进行进一步提取,并将双向GRU的输出作为特征向量的第一部分,使用了预训练模型最后四层编码器的CLS位作为整个文本语义表征,将四位CLS位(Classification)进行拼接组成了特征向量的第二部分。两部分的特征向量进行拼接,作为最后的特征向量。(3)设置了三组实验,使用三种模型进行训练,分别是:传统特征构造+LSTM经典模型、标准使用的预训练模型、使用新型特征构造方法搭建的模型。进行合理对照试验后,发现三个模型的准确率、Macro-F1值等方面都具有较为明显的提升,证明了加强特征构造新模型的有效性。本次研究的特点在于加强了预训练模型的特征提取,能够有效的提高新闻文本情感分类模型的分类效果,同时也发现了该方法对于长文本处理不足等缺陷,为后续的研究提供了有力参考。