论文部分内容阅读
基于Web的开放域问答系统结合了搜索引擎和问答系统的优势,在移动互联网时代具有广泛的发展前景。开放域问答需要从大量网络文本中找出正确答案,任务较为复杂,目前尚不完善,其面临的主要挑战之一是人工标注大量文本代价高昂,通常只能利用远程监督的方式进行标注。而远程监督标注带来的噪声问题,已经严重限制系统的准确率提升。本文针对开放域问答系统的远程监督去噪问题,展开研究:当前存在的模型忽视了标签层面去噪的作用,针对该问题,本文提出了一种基于动态软标签的级联式开放域问答算法Cascade-Denoising。一方面,该模型基于深度学习技术,使用预训练语言模型进行编码,并结合排序算法对段落重新排序。另一方面,对重排序的高分段落,模型使用动态软标签技术在训练阶段不断更新远程监督标签权重,在标签层面达到去噪的目的。实验结果表明,模型比其它基准模型在中文和英文两个数据集上均取得了更好的准确率指标。进一步,为了减少级联式开放域问答系统的级联误差,本文探究了远程监督标签对迭代式系统的影响,并提出了 一种基于分层强化学习的迭代式开放域问答算法Iterative-Denoising。该模型首次将“包”的概念引入了开放域问答系统,基于分层强化学习的思路设计了一种多层次的奖励机制。实验结果表明该模型能够有效缓解远程监督带来的噪声问题,相较于基准模型,所提模型在多个数据集上的准确率均获得了提升。最后,本文设计开发了一套基于Web的级联式开放域问答系统。该系统包括数据构建模块、答案生成模块以及展示应用模块,能以对话框的形式回答用户问题。