论文部分内容阅读
随着互联网技术的快速向前发展,网络平台充斥着大量的用户发表的评论,甚至出现一些被利益驱使的网络谣言,影响着网民对事件的决策与意见。本课题提出一种基于长短期记忆网络的特定领域的社交网络评论文本生成模型,来产生语言描述性能可与真实社交网络评论相媲美的评论,从而为舆情引导提供大规模的语料库。使用应用场景复杂多变的Twitter作为示例平台,锁定政治、健康、教育、娱乐、科技五大领域,对其评论文本进行采集、分类、生成与处理,主要工作如下:首先,对评论文本按照句式结构进行分类,设计了一种基于随机森林模型的评论文本分类器,并结合英语语法提取出6种特征,输入分类器,将评论文本分成主系表、主谓宾、祈使句等七种类型。其次,针对句式结构不同的类别,根据其句法结构上的特点,建立了参数不同的融合Attention机制的LSTM模型,来学习不同句式结构的语言风格,从而初步生成对应分类的初始评论文本集。再次,观察初始评论集,针对其中与现实偏差显著的文本,提出了三种基于领域知识的偏差修正算法,分别为文本替换、文本复述、基于模板定制的算法,来对这些初始评论进行修正,生成与主题相贴近与事实相符合的最终评论文本集。最后,对本文提出的模型进行了多维度的实验与验证,证明了本模型的有效性。此外,对各个模块的功能进行了验证,证明了各功能模块的不可或缺性与高效性。并对所生成评论的跨平台适应性、领域匹配性、重复率进行了分析。