论文部分内容阅读
互联网社交平台的迅速崛起,极大提升了网络信息传播的效率,但传播途径的便捷也助长了虚假新闻的生成和传播。假新闻不仅会使媒体的可信度减弱,还可能危害政治和经济等领域,造成社会秩序的混乱,影响人们的正常生活。从繁杂的网络内容中自动检测出假新闻是一个亟需解决的实际自然语言处理问题,具有减轻甚至消除假新闻负面影响的积极意义。假新闻是指带有不真实成分的言论或报道,事件的实情往往与描述有所出入,常因政治或经济利益被发布,较难对其进行准确识别。由于推特、微博等社交平台的新闻内容较为简短,仅考虑新闻内容及其语言特征,无法取得令人满意的检测效果,需高效准确的模型对该类新闻进行检测识别。利用有限的信息进行虚假新闻的自动检测识别是目前假新闻检测领域的一个重大挑战。为利用有限的信息提升检测性能,已有的大部分研究基于样本间的独立性假设开展,将文本与其他非本文特征同时输入模型编码学习,通常忽略了新闻间的相似性,这一可能提升分类表现的因素。本文主要研究了新闻内容较为简短的情况下,有效利用丰富的非文本信息辅助假新闻检测的问题。由于网络社交平台的文本更为简短,具有信息内容含量少、表达形式多样和结构成分不完整的特点,为充分利用新闻的非文本辅助信息提升检测性能,本文提出了一种利用新闻在不同上下文特征的相似性进行假新闻检测的半监督学习框架。该框架从新闻样本的关系入手,将新闻样本视作图网络中的独立节点,利用丰富的非文本辅助信息确定边权,构建多维关系图网络结构。针对图卷积网络在结合邻居信息及学习表示方面的不足,提出改进的多粒度图卷积网络充分结合不同距离邻居的特征,捕获单个关系图中不同粒度的信息;通过显式保留节点丰富的多粒度信息的方式,提高每个节点表示的多样性。最后通过注意力机制进行信息融合,提升不同粒度信息表达的一致性,融合生成泛化能力更强的节点表示。在假新闻检测领域最大的公开基准数据集LIAR上进行的实验表明,基于多粒度图卷积网络的假新闻检测框架能够利用新闻节点的不同粒度相似性区分新闻的真假程度,提出的M-GCN模型取得了较好的分类表现,验证了该检测框架的有效性。