【摘 要】
:
随着互联网的高速发展,社会已经进入大数据时代,以关键字组合进行检索的传统搜索系统,无法解析用户问句的语义信息,只是简单返回相关的答案供用户参考。因此基于知识图谱的智能问答系统应运而生,根据自然语言问句能够快捷准确的得到答案,更好的满足现代社会的需求。本文基于NLPCC-ICCPOL 2018提供的中文领域知识图谱公共数据和清华大学提供的基于基础教育类知识图谱数据进行智能问答系统的研究,将智能问答系
论文部分内容阅读
随着互联网的高速发展,社会已经进入大数据时代,以关键字组合进行检索的传统搜索系统,无法解析用户问句的语义信息,只是简单返回相关的答案供用户参考。因此基于知识图谱的智能问答系统应运而生,根据自然语言问句能够快捷准确的得到答案,更好的满足现代社会的需求。本文基于NLPCC-ICCPOL 2018提供的中文领域知识图谱公共数据和清华大学提供的基于基础教育类知识图谱数据进行智能问答系统的研究,将智能问答系统分为实体识别、属性抽取、系统搭建三个子任务,本文围绕这三个子任务主要研究工作如下:(1)提出一种基于多字-句(Multi-Character-Sentence,MCS)向量特征融合的多模态MCS_ERNIE+Bi_LSTM+CRF实体识别模型。首先使用ERNIE预训练语言模型学习自然语言问句的关系,进行向量映射;然后将字级别向量和句级别向量进行特征融合;再将其然后引入Bi_LSTM模型对问句中的实体进一步的特征提取;最后使用CRF进行序列标注识别出与自然语言问句最相关的实体,作为答案选择中的实体部分;实验表明该实体识别模型F1值达到98.62%。(2)提出一种基于注意力机制(Attention)的ERNIE+Att_Bi_LSTM属性抽取模型。首先在实体识别模型中获取到的相关实体,通过知识图谱找出与其相关的属性,作为自然语言问句的候选属性集;然后通过ERNIE预训练语言模型对自然语言问句和候选属性集共同进行词向量映射,再使用基于注意力机制的Att_Bi_LSTM模型进一步学习自然语言问句和候选属性集中的特征。最后抽取与自然语言问句最相关的属性,作为答案选择中的属性部分;实验表明该属性抽取模型的准确率达到95.75%。(3)通过上述两个模型首先获取自然语言问句相关的实体以及表示自然语言问句语义信息的属性;然后根据知识图谱的特征查询到自然语言问句的答案;最后将整个自然语言问句进行解答的过程整合成一个完整的系统,并利用Python中Web轻量级框架Flask以及相关的前端技术搭建可视化界面与用户进行交互。
其他文献
拉鲁湿地作为西藏高寒湿地比一般湿地更具有特殊经济、社会、保护功能。基于拉鲁湿地三期修复工程需要,本文以拉鲁湿地为对象,分别于枯水期、丰水期和平水期从湿地中采集了水体和底泥,分析其污染物含量并评价其污染现状,另外通过样方调查统计生物多样性与重要值,分析植物多样性变化及影响因素。主要结论如下:(1)拉鲁湿地不同时期底泥的氮磷综合污染指数排序为枯水期(3.645)>平水期(3.034)>丰水期(2.67
本文通过两个试验探究注射新型鹅细小病毒(NGPV)JS1株对樱桃谷肉鸭生产性能和骨骼质量的影响及饲粮25(OH)D3和钙水平对感染NGPV肉鸭生产性能和骨骼质量的影响。为进一步认识NGPV对肉鸭骨骼质量的影响提供理论依据,为生产上采用营养手段缓解短喙侏儒综合征提供数据支持。试验一:饲粮添加25(OH)D3对感染NGPV肉鸭的生产性能和骨骼质量的影响本试验探究NGPV对肉鸭生产性能和骨骼质量的影响及
多年生饲草玉米为禾本科高大禾草,其植株直立、似玉米、分蘖多、株高2.5~3.5m,因生物产量高、适应性强、青饲品质优、多年生等优点,而被广泛种植。植物花青素具有一定的抗氧化性,可以清除自由基,具有提高动物免疫力、增强机体抗氧化能力、提升奶制品质量等功能,花青素作为饲料添加剂和富含花青素植物作为青饲饲料备受关注。本研究以玉米-摩擦禾-大刍草三元杂种MTP(2n=74)和MTPP(2n=94)为母本,
量子相干性是一种重要的物理资源,因其是实现量子通讯和量子信息的重要前提,所以随着人们对微观世界探索经验的积累,被广泛应用于现代各类信息处理任务.在最近几年里,量子相干性资源理论已经成为量子力学、量子光学、量子信息中的重要研究课题,这一方向引起了国内外量子信息专家的广泛关注.在量子理论中,纯态和混合态的刻画已有成果,但是关于相干性的概念、性质和刻画并不完善,这也是本文主要解决的问题.本文一共分为四章
高强度聚焦超声(high intensity focused ultrasound,HIFU)凭借微创、高效等优点逐渐盛行于临床中肿瘤的治疗。其主要原理是将超声波能量聚焦到病灶区域瞬时产生65℃以上高温,使得肿瘤组织迅速变性、凝固坏死,同时对病灶区域以外的组织损伤很小。因而,在HIFU治疗过程中,治疗区域的损伤状况、形状大小的监测占据重要地位,能有效指导医生进一步治疗。本文以新鲜离体猪肉组织作为实
本文主要考虑Heisenberg群上的非线性散度型次椭圆方程组和抛物方程组,在不同增长条件下建立弱解的H(?)lder连续性.具体内容如下:第一章简要介绍次椭圆方程组的研究背景,研究内容和方法,以及本文的创新点.第二章介绍本文的基础知识,包括Heisenberg群,水平仿射函数及相关估计,和函数空间及相关嵌入定理的介绍.第三章研究Heisenberg群上一类具有VMO系数的非线性次椭圆方程组,利用
发电机定子是发电机组的关键部件,也是最容易发生绝缘故障的部件,定子绕组发生绝缘故障如不及时发现和处理,将会导致更严重的接地或短路故障,甚至产生发电机无法修复的严重后果。发电机定子绕组的寿命主要取决于其绝缘水平,而局部放电是定子绕组绝缘损坏的主要原因。因此,对发电机定子绕组局部放电在线监测关键技术进行深入研究具有重要的工程意义。本文选择高频电流传感器作为获取局部放电信号的传感器,对发电机局部放电在线
支原体是可以在无生命培养基中培养的最小的原核细胞微生物,在人体主要存在于口腔、呼吸道和泌尿生殖道,与多种疾病相关。近年来,随着抗生素的广泛使用,支原体的耐药性也日益严重,从传统中药中筛选、研究、开发新的抗支原体的药物,充分发挥中医药在预防与治疗疾病的作用,不仅是对“健康中国”国家战略的积极响应,同时也有较大的可行性和较好的应用价值。目的:了解湖南长沙地区泌尿生殖道支原体感染的流行病学特征和药物敏感
目的:本研究通过建立iPSCs向内皮分化模型,探讨HDACs在内皮分化过程中的表达变化,以及初步了解HDAC抑制剂对于内皮分化的影响,优化内皮诱导策略。方法:1.本研究首先使用CHIR99012将iPSCs诱导至中胚层,再通过VEGF、BMP4、FGF2三种生长因子将中胚层细胞向血管母细胞诱导,最后在VEGF的继续诱导下得到成熟内皮细胞。Real-time PCR和免疫荧光检测内皮标志CD31、C
李代数是一类重要的非结合代数,任何李代数都可以看作是单点流形上的李代数胚.本文基于李代数胚对的Atiyah class的理论,主要研究了李代数L及其子代数A组成的李代数对(L,A)的Atiyah class.通过应用李代数模和李代数的上同调理论,定义了李代数对的Atiyah class,证明了 Atiyah class为零的判定定理.作为应用,计算了实数域上四维李代数对的Atiyah class.