基于BERT迁移学习的开放域知识图谱智能问答系统研究与实现

来源 :河北大学 | 被引量 : 4次 | 上传用户：yryr0804

【摘要】

：

【作者】

：

党圣

【出处】

：

河北大学

【发表日期】

：

2020年01期

【关键词】

：

知识图谱问答命名实体识别 BERT 实体关系抽取远程监督

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术、人工智能技术、互联网技术的发展,人类与智能系统交互的技术不断完善,互联网蕴含了海量的知识信息,相关智能应用迅速发展。智能系统内含的自然语言处理领域任务通常需要处理大量语料文本蕴含的知识信息。寻找一种较好的方式实现基于大量知识信息的智能人机交互系统是十分有研究价值与应用价值的。本文旨在基于信息提取的思想,从语句包含的实体、关系信息出发,研究与构造以开放域知识图谱为知识库的智能问答系统。对于问答系统中的智能处理模块,本文基于迁移学习方法将BERT(Bidirectional Encoder Representations from Transformers)模型应用于命名实体识别子任务与实体关系抽取子任务中,得到了较好的结果。本文主要工作有如下4点:1.构建了包括基于文本增强过滤方法的语料数据预处理模块、基于WebSocket的用户问题录入模块、基于BERT迁移模型的序列标注方法的命名实体识别模块、基于同义词语料的实体链接模块、基于HBase thrift2服务的实体关系检索模块、基于BERT迁移模型的语句对分类的实体关系抽取模块、基于答案排序与模式匹配相结合的Top-k答案生成模块等7个模块的基于BERT迁移学习的开放域知识图谱智能问答系统。2.基于NLPCC2018-KBQA语料,提出并应用了基于远程监督的问答对问句的实体标注算法、基于知识图谱的关系抽取负采样算法,分别自动构造了智能问答系统中命名实体识别模块与实体关系抽取模块所需监督样本。3.当前传统命名实体识别任务通常基于循环神经网络、卷积神经网络、注意力机制、条件随机场等机器学习算法实现。为减少当前传统命名实体识别任务在特征工程阶段的信息损失和语言嵌入学习阶段中因与下游自然语言处理任务过于独立而带来的信息损失,基于BERT模型迁移学习,分析并构建了BERT-BiLSTM-CRF、BERT-BiGRU-CRF、BERT-CRF 3种迁移模型。其中BERT-BiLSTM-CRF模型在《人民日报》命名实体识别数据集上取得了94.94%的F1值,BERT-BiLSTM-CRF模型在本文基于NLPCC2018-KBQA所构命名实体识别数据集上得到了94.92%的F1值。同时BERT-CRF迁移模型在处理人名类实体识别任务上表现良好,在《人民日报》数据集人名类实体上得到96.71%的F1值。4.当前传统实体关系抽取方法,通常将实体关系抽取任务分为命名实体识别阶段与关系抽取阶段两个阶段处理,导致两个处理阶段间存在信息损失与误差传播。本文基于BERT迁移模型,直接将自然语言问句和问句相关实体一阶关系名构成语句对,并基于所构语句对训练实体关系抽取任务模型,后运用基于答案排序与模式匹配相结合的答案生成算法生成Top-k答案,并在基于NLPCC2018-KBQA语料所构数据集上得到了97.68%的Top-5值。

其他文献

产业链视域下革命老区达州城市品牌建设探究——以定位理论为支撑

定位是城市品牌建设的关键,定位理论主张占领客户心智、寻找细分领域第一。基于定位理论,分析发现革命老区四川省达州市城市品牌建设存在定位不清、内涵挖掘不足等问题。根据

期刊

产业链定位理论城市品牌建设革命老区达州市industrial chainpositioning theorycity brand buildingol

基于现金流量的SH公司财务风险预警体系构建与评价研究

随着我国资本市场的发展进入经济新常态,行业竞争的加剧与消费者不断变化的需求,使得公司外部经营融资环境日趋复杂,内部财务管理压力日益增大。在这种局面下,更加凸显了企业

学位

现金流量财务风险财务预警

撒路灯

在我的家乡，过年时有一件值得一提的活动，那就是“撒路灯”．“送会”．撒路灯是家乡的一种习俗，三年一撒，连撤三年．今年，我正好赶上他们撒路灯，看到了这神奇、壮观的景象．

期刊

中学作文语文教学《撒路灯》

基于Logit模型的村镇银行涉农贷款行为影响因素分析

我国党中央提出的“乡村振兴”战略,针对农村经济发展又有了全新规划。而银行作为合理分配资源的重磅武器,“乡村振兴”战略需银行业坚定不移地真实执行。村镇银行的发起是以带动村镇经济为目的,然而在设立村镇银行的十多年后,乡村经济中依然存在融资难、融资少等问题,村镇银行也随之出现涉农贷款不良率占比高等困难。这些都是制约乡村经济以及村镇银行发展的直接因素。目前涉农贷款在地域性、产业性、风险补偿、产业性统计等方

会议

涉农贷款问卷调查YF村镇银行Logit分析

江阴罗莱商贸公司客户满意度研究

在我国正式加入WTO后,面临的国际竞争日益加剧,如何提高企业的竞争力成为企业关注的焦点。客户是产品以及服务的直接受用对象,充当市场裁判的角色,直接决定着企业未来的生存

学位

罗莱商贸公司客户满意度结构方程模型实证研究

试论警察执法的道德困境及其破解路径

警察执法道德困境不是警察在执法中对道德进行判断和认定的问题,而是对执法中多善取其一的情形左右为难的境况。道德困境来自于警务实践,其产生的原因包括执法执勤规范不够具

期刊

警察执法道德困境policelaw enforcementmoral dilemma

地方环境立法的孱弱与纾解

地方环境立法从来都不是中央环境立法的仆从和附庸,其在化解区域性、特殊性的生态环境问题等维度发挥着不可或缺的巨大功用和独特价值。若不彻底扭转现有孱弱、“隐性缺位”

期刊

生态文明地方立法环境立法ecological civilizationlocal legislationenvironmental legislation

基于高时空分辨率数据的冬小麦播期遥感监测

播期(播种日期)是影响小麦产量与品质的一个重要因素,在冬小麦生长早期实现播期监测对于遥感估产和农业生产分类管理具有重要意义。针对已有的遥感监测播期方法主要存在的不

学位

冬小麦播期监测模型时空数据融合算法时间序列曲线S-G滤波去包络线

基于分形理论的接触体互馈机理及力学模型研究

外界荷载的作用驱使接触体之间相互作用。接触面在荷载作用下动态变化的过程即为互馈作用,相应的接触面即为互馈面。互馈是工程界的重要任务,也是一项具有重要理论和实用意义

会议

接触体互馈力学模型分形维数

仓储物流的货位作业优化算法及系统研究

仓储物流的管理是一个历史悠久的领域,近年来对仓储性能和总体物流性能的关注度逐渐增加,主要包括以下三个方面:精简的供应链分离需要减少库存和更短的仓储作业响应时间;越来

学位

货位优化差分进化多帧时间窗B样条参数化

基于BERT迁移学习的开放域知识图谱智能问答系统研究与实现

与本文相关的学术论文