基于中文知识图谱的问答系统研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:liutingkaoyanhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,人们在网上获取知识的渴望越来越高。传统的基于搜索引擎的信息检索方式会返回大量与问题相关的网页,这不仅对网页的排序准确率有较高的要求,还需要人工的去点击链接筛选信息,这无疑会耗费一定时间。因此,问答系统应运而生。问答系统可以直接理解用户的问题,返回简洁正确的答案,降低用户查询成本。知识图谱是一种新型的数据库,可以看作是巨大的语义关系网,表示客观世界实体之间的关系,其以图结构存储知识。因而知识具有关联性高、结构性好、准确性高的特点。基于知识图谱的问答系统结合了上述两者的优点受到学术界和工业界广泛关注。目前,基于英文知识图谱的问答已经形成了一定体系,主要包括问题分类、实体链接、关系预测、答案生成等关键技术。但中文知识图谱问答研究起步较晚,还有许多问题亟待解决。尤其是中文单词很多具有一词多义的特点,实体链接效果往往不尽如人意。因此,本文结合启发式规则和序列标注模型实现候选实体生成来尽可能提升候选实体的召回率,并设计实体的统计特征和实体的语义特征对实体消歧得到问题中的主题实体。实验结果表明本文方法不仅能考虑到实体的不同表现形式,同时保证实体链接结果的准确率。知识图谱中的关系数量较多,且训练集规模有限,在问答测试时往往会出现不可见关系的情况。因此,本文基于预训练语言模型预测简单问题关系,提高对不可见关系的预测。并对不同的预训练语言模型在中文知识图谱问答任务上的表现进行探索,对结果加以比较分析。针对多跳关系和多实体的复杂问题,本文提出查询图生成的方法。设计查询图特征对候选查询图排序打分,不断迭代,选出分数最高的查询图转化成查询语句检索答案。最终有效地解决了这两类复杂问题。尽管基于中文知识图谱问答在学术界的研究不断发展,但在落地应用方面的工作还尚有不足。本文结合上述两方面的研究,构建了面向大连理工大学基础信息的知识图谱,并在此基础上开发了大工问答系统(DUTQA),为中文垂直领域知识图谱问答设计和实现提供思路。同时,在中文开放域知识图谱问答实现方面,使用PKUBase图谱,构建了可同时回答事实类和是否类问题的CKBQA。为了充分利用知识图谱中的信息,问答系统会预测问题答案类型,与答案实体类型比对提高结果准确率。本文还对多约束条件问题提出了解决方法。最终,本文将两个系统封装成网页展示,并将答案结果实现图形方式展示。
其他文献
雾霾是一种常见的大气现象,是空气中悬浮的微小颗粒物(灰尘、烟、微小水滴等)组成的气溶胶系统。在户外拍摄图像时,雾霾的存在常常会使得拍摄的图像出现对比度降低、整体色彩变淡等现象,导致图像的可视化效果变差,影响到后续的高层计算机视觉任务。因此,去除图像中雾霾的影响是一项很有意义的研究。对于图像去雾问题的研究,主要有基于图像增强、基于物理模型和基于深度学习这三种类型的方法。基于增强的方法属于较早期的研究
随着政务系统信息化程度的不断提高,各级政府机关在日常工作中积累了大量的数据。一方面,这些宝贵的数据资源有助于提高各职能机构的运转效率,促进社会经济发展;另一方面,由于政务数据的专业性和复杂性,使得人工提取数据中蕴含的海量信息变得难以实现。近年来自然语言处理技术的飞速发展,为信息自动化提取和数据高效利用奠定了坚实基础。然而政府机关对数据精度的要求较高,现有的算法未能充分利用该领域的文本特征,不能很好
神经机器翻译系统在双语句对齐资源丰富的场景下可以提供最先进的翻译性能。然而,对于医疗领域,域内语料资源的稀缺严重影响了翻译系统的性能。同时,医疗领域存在着大量的医学术语,机器翻译系统在低频术语的翻译上也往往表现不佳。面向双语句对齐资源丰富的新闻领域,提出了一种融合数据增强与多样化解码的神经机器翻译方法。首先,对语料中不同种类的未登录词进行泛化以缓解词汇稀疏的现象。其次,采用数据增强中的正向翻译技术
随着国内土木工程结构向着高度更高、跨度更大、结构形式更加复杂的方向发展,对大型复杂结构进行模态测试,获取结构的动力学特征,并以此进行状态评估与安全预警,已成为学界关注的热点问题。如何从大型复杂工程结构上采集到更加准确完整的结构响应,是模态测试首先需要解决的问题。国内外学者为此提出了一系列测点优化布设评价准则,用以指导测点位置的选择,提升模态测试中信息采集的准确性。但是利用这些准则选取测点需要以结构
人体运动识别作为计算机领域的前沿方向,具有十分重要的研究意义,相关算法可以被应用到许多领域,例如动作内容分析、人机交互、视频合成、视频检索等。特别是近几年来短视频平台的高速发展,使得相关的人体动作视频越来越多,对于这些视频信息的处理研究都需要有高效准确的识别算法作为支撑,因此研究人体动作识别算法在计算机领域势在必行。在人体动作识别的算法研究中,有很多经典的视频分类数据集,例如UCF101、HMDB
脑肿瘤分为恶性脑肿瘤和良性脑肿瘤,前者是癌性的,容易扩散到大脑的其他部位,后者则不然。然而,在这两种情况下,脑肿瘤在刚性脑部空间的生长都可能导致人体功能障碍,甚至危及生命。脑肿瘤的发病率正在逐年增加,对公共卫生造成了极大的负担。诊断脑肿瘤的主要方法为利用脑部核磁共振成像图(MRI)对脑肿瘤区域进行分割,然而目前对脑肿瘤进行分割仍由脑外科医生手动进行。以这种方式分割需要花费脑外科医生大量的时间进行标
图像语义分割技术是计算机视觉领域中的一项重要的研究内容,在无人驾驶、医学影像、场景理解等领域中都有着不可或缺的作用。近几年随着深度学习的飞速发展,图像语义分割技术的整体性能得到了巨大提升,但深度学习模型对于大规模高精度数据集的依赖也成为了很多算法在泛化性和鲁棒性上的主要瓶颈。高精度的语义标注需要大量的人力和时间成本,如何在短时间内实现准确的数据标注,是图像语义分割技术面临的主要挑战之一。针对这一问
随着科学技术的不断发展,无人机航拍技术被广泛应用到农业、工业、军事等领域。但是受到相机视角的限制,单张航拍图像中所涵盖的内容,无法满足研究人员对信息获取的需要,因此,为了获得大比例尺、信息全面的图像需要对采集的航拍图像进行拼接。针对航拍图像具有易受光照、尺度和旋转等特性变化影响,以及图像不连续、存在视差的特点,本文以特征提取和图像扭曲变形两个阶段为切入点,致力于研究能够适应航拍图像特点的特征提取算
由于司法流程公开与共享的不断推进,我国的司法大数据公开化已趋于成熟,蕴含于法律文书中的丰富法律信息成为了值得深入研究的珍贵资源。但由于法律文书以自然语言形式进行记录,机器难以直接对文档内容进行理解和分析。因此,通过文本挖掘技术对非结构化的司法领域文本进行信息提取和结构化存储,对司法领域信息化发展以及司法效率的进一步提高都具有积极意义和深远影响。文本挖掘中的实体识别和关系抽取技术对于法律文书中关键信
随着软硬件技术的飞速发展,大规模知识图谱的构建和存储成为了可能,并为问答系统、药物发现等人工智能应用提供了知识基础。问答系统作为人工智能领域一项前景广阔的落地应用受到人们的广泛关注。与通过搜索引擎获取知识的方式相比,问答系统能更加智能和高效地给出确切的答案。基于知识图谱的问答系统(Knowledge Based Question Answering,KBQA)结合二者的优势,将用户的查询解析为逻辑