论文部分内容阅读
随着信息技术、人工智能技术、互联网技术的发展,人类与智能系统交互的技术不断完善,互联网蕴含了海量的知识信息,相关智能应用迅速发展。智能系统内含的自然语言处理领域任务通常需要处理大量语料文本蕴含的知识信息。寻找一种较好的方式实现基于大量知识信息的智能人机交互系统是十分有研究价值与应用价值的。本文旨在基于信息提取的思想,从语句包含的实体、关系信息出发,研究与构造以开放域知识图谱为知识库的智能问答系统。对于问答系统中的智能处理模块,本文基于迁移学习方法将BERT(Bidirectional Encoder Representations from Transformers)模型应用于命名实体识别子任务与实体关系抽取子任务中,得到了较好的结果。本文主要工作有如下4点:1.构建了包括基于文本增强过滤方法的语料数据预处理模块、基于WebSocket的用户问题录入模块、基于BERT迁移模型的序列标注方法的命名实体识别模块、基于同义词语料的实体链接模块、基于HBase thrift2服务的实体关系检索模块、基于BERT迁移模型的语句对分类的实体关系抽取模块、基于答案排序与模式匹配相结合的Top-k答案生成模块等7个模块的基于BERT迁移学习的开放域知识图谱智能问答系统。2.基于NLPCC2018-KBQA语料,提出并应用了基于远程监督的问答对问句的实体标注算法、基于知识图谱的关系抽取负采样算法,分别自动构造了智能问答系统中命名实体识别模块与实体关系抽取模块所需监督样本。3.当前传统命名实体识别任务通常基于循环神经网络、卷积神经网络、注意力机制、条件随机场等机器学习算法实现。为减少当前传统命名实体识别任务在特征工程阶段的信息损失和语言嵌入学习阶段中因与下游自然语言处理任务过于独立而带来的信息损失,基于BERT模型迁移学习,分析并构建了BERT-BiLSTM-CRF、BERT-BiGRU-CRF、BERT-CRF 3种迁移模型。其中BERT-BiLSTM-CRF模型在《人民日报》命名实体识别数据集上取得了94.94%的F1值,BERT-BiLSTM-CRF模型在本文基于NLPCC2018-KBQA所构命名实体识别数据集上得到了94.92%的F1值。同时BERT-CRF迁移模型在处理人名类实体识别任务上表现良好,在《人民日报》数据集人名类实体上得到96.71%的F1值。4.当前传统实体关系抽取方法,通常将实体关系抽取任务分为命名实体识别阶段与关系抽取阶段两个阶段处理,导致两个处理阶段间存在信息损失与误差传播。本文基于BERT迁移模型,直接将自然语言问句和问句相关实体一阶关系名构成语句对,并基于所构语句对训练实体关系抽取任务模型,后运用基于答案排序与模式匹配相结合的答案生成算法生成Top-k答案,并在基于NLPCC2018-KBQA语料所构数据集上得到了97.68%的Top-5值。