基于预训练的正负面新闻识别算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:sky007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济的高速发展,我国与国际社会的接轨越来越紧密,国内的文化产业得到了充分的发展,产生了大量高活跃度的线上新闻媒体,线上的新闻文本数据量也逐年增长,而且逐渐呈现出主观化多元化的趋势,这使新闻文本的情感倾向分析,尤其是正负面新闻的识别变得越来越火热。为了帮助人们对新闻文本进行更好的了解与分析,本文运用了自然语言处理的最新技术,提出用了一种分析新闻文本正负面情感倾向的新模型,主要研究的内容如下:(1)深入了解文本信息处理的过程和方法,研究了传统的文本信息特征构造技术,分析了文本情感分类经典模型——长短期记忆神经网络模型(Long Short-Term Memory)的特点和缺陷,深入分析了预训练模型作为特征提取技术的必要性和先进性。(2)本文在利用预训练模型提取文本特征信息的基础上,结合数据集文本的数据特点,提出了一种新的特征构造方法:将BERT(Bidirectional Encoder Representations from Transformers)模型输出输入到双向GRU(Gated Recurrent Unit)中,对上下文语义进行进一步提取,并将双向GRU的输出作为特征向量的第一部分,使用了预训练模型最后四层编码器的CLS位作为整个文本语义表征,将四位CLS位(Classification)进行拼接组成了特征向量的第二部分。两部分的特征向量进行拼接,作为最后的特征向量。(3)设置了三组实验,使用三种模型进行训练,分别是:传统特征构造+LSTM经典模型、标准使用的预训练模型、使用新型特征构造方法搭建的模型。进行合理对照试验后,发现三个模型的准确率、Macro-F1值等方面都具有较为明显的提升,证明了加强特征构造新模型的有效性。本次研究的特点在于加强了预训练模型的特征提取,能够有效的提高新闻文本情感分类模型的分类效果,同时也发现了该方法对于长文本处理不足等缺陷,为后续的研究提供了有力参考。
其他文献
大闸蟹奶茶、鲍鱼柠檬茶、鸭血粉丝奶茶……这些听名字就让人一激灵、刷新消费者认知的奶茶,为何频繁出现?又究竟能给新茶饮带来什么?rn奇奇怪怪的茶饮创新rn前段时间,一则“生腌大闸蟹奶茶”的视频在社交平台爆火.视频中,博主展示了奶茶全貌,还演示了喝法:先喝奶茶,再把大闸蟹对折大口地嚼.虽说大闸蟹真的很香,但加到奶茶里,属实是惊吓大于惊喜了.打开这名博主的视频合集,发现他还尝试过油泼辣子奶茶、辣炒芹菜柠檬茶、卤蛋螺蛳粉奶茶、臭豆腐奶茶等.
期刊