论文部分内容阅读
在实际的应用中,无论是科研人员还是用户,都希望能够了解模型做出判断的依据和过程,以信任模型的决策结果。当模型做出了错误判断后,了解模型判断错误的原因,也对模型的进一步改进和提升有很大帮助。人们在不断应用和创新各种模型并解决了一个又一个问题的同时,机器学习模型缺乏可解释性的矛盾日益尖锐起来。在一些对模型和精度要求较高的领域如医疗专家系统、虹膜身份识别、工业互联网等,可解释性的缺失会给任务带来严重威胁,更有甚者可以通过制造对抗数据对模型进行进攻,使模型的决策失效或做出错误决策。因此,了解模型的决策依据尤为重要。实际上,对深度学习的解释是一项很困难的工作。这种端到端的黑盒模型将学习到的知识保存在了网络的参数矩阵中,并直接应用于决策过程。因此,人们无法准确的分辨出模型决策所采用的知识是什么。目前,人们还没有对可解释性形成一个统一的定义,更缺乏对解释方法性能的评价方法。随着深度学习技术的发展,为了适应更复杂的任务需要或进一步提升性能,越来越多结构复杂的模型被提出,越来越多复杂的技术被应用在模型结构中,这对模型的可解释性研究造成了更大的困难。相较于侧重感知的计算机视觉领域,自然语言中相同的词语在不同的语境环境和情况下,所表达的意思都可能不同,不同单词间的组合可能表达出不同的涵义,因此需要模型去认知数据。从这种层面上来说,提取文本数据中决定模型决策的显著性特征更加困难。对文本领域的深度学习模型的可解释性研究一直是该领域的一个难题。随着注意力机制的广泛应用,深度学习模型在各项任务上的性能有了显著的提升。注意力机制模拟了人在认知事物过程中的方式,计算出模型应该对样本集中注意力的范围并给予高权重,而对于无关的部分则分配较低的权重。这种方式在提升了模型性能的同时,也为模型的可解释性研究带来了新的方法。通过基于注意力机制的显著性特征提取方法对模型进行可解释性研究已经是很普遍的做法。但相应的,注意力机制在显著性特征可视化方面有着无法弥补的缺点。首先,在普遍情况下,注意力机制被应用于将文本以序列形式输入的模型中,例如RNN及其变形的LSTM和GRU,以及只依赖self-attention进行特征抽取的Transformer。因此,以注意力机制进行显著性特征可视化也只能应用于这些模型中。但是,很多工业和学术界常用的文本分类模型例如fastText、CNN等,在模型的结构中,文本位置信息丢失,无法或只能有限的应用注意力机制,这种情况下就无法有效的进行解释。其次,这种通过引用模块对模型进行解释的方法,对所引用的模块,即注意力模块,仍然无法解释。最后,经过训练的注意力参数仍有可能存在误差,相应的,进行显著性解释也会出现误差。本文基于自然语言处理领域中的文本分类任务,针对fastText与CNN这种非序列的模型提出了一种新的显著性特征可视化方法。同时,本文对应用了注意力机制的LSTM和Transformer模型进行了注意力权重参数提取,分别进行了基于注意力机制的可视化方法研究。最后,本文设计了可解释性方法性能评价方法,并对以上四种不同的方法进行了有效性评估,在证明了本文提出的方法有效的同时,分析了基于注意力机制的提取方法的缺陷以及模型做出错误判断的原因。