论文部分内容阅读
近几年随着中国经济的快速发展,人们越来越重视自身的健康情况,并且互联网的广泛普及也极大的促进了互联网医疗的发展,同时互联网也在多年的发展过程中,积累了大量的行业数据,包括医疗相关的科技论文、医院的医嘱、病例等数字化的医疗数据。众多相关的数据资源分布在不同的平台上,形成了数据孤岛,当人们搜索相关的资料时,需要自己去从不同的搜索结果中整理总结出相关的信息,这将会耗费人们很大的精力。而谷歌最早提出的服务于智能搜索的知识图谱技术,可以用于整合不同来源的异构数据。本文将利用知识图谱的相关技术,构建一个糖尿病相关的知识图谱,一方面希望能帮助科研工作者或医疗从业人员快捷方便的查询相关的知识,另一方面也希望能为糖尿病相关的各种智能服务提供数据支撑。本文的主要研究内容有以下几点:首先设计了糖尿病知识图谱的整体构建流程,该图谱一共包含15种实体类别和10种关系类别,并使用ArangoDB数据库进行图谱的存储,可以为各种智能服务提供了数据层面的支持。其次,在糖尿病知识图谱的构建过程中,针对实体识别任务,本文在常用的算法模型的基础上,引入了多级别的词向量特征。实验结果表明本文提出的多级别的词向量和字符向量相结合的方法,比之前基础模型的性能表现稍微有所提高。针对实体之间关系的识别,本文首先在两个基础模型上进行实验,并将多级别词向量的思想也融入模型之中,另外本文提出在关系识别过程中引入实体的类别信息。经过一系列的对比实验,最终显示实体的类别信息这一特征能明显的提高模型的准确率,其准确率的提升在6%-9%之间。其中实验得分最高的模型分别利用了文本信息的字符特征、多级别词特征、实体的位置特征以及实体的类别特征。最后,本文依据构建出的糖尿病知识图谱,提出了一个语义识别模型,此模型的任务有两个,识别用户搜索文本的意图和句子中的关键实体。基于这两个目的,分别阐述了级联语义识别模型和联合语义识别模型的思想与构建流程。级联语义识别模型首先需要进行实体的识别,采用的方法与知识图谱构建过程实体识别任务的算法相似,然后再进行意图的识别,该模型用于表明用户最终想搜索的中心话题是什么,最后将实体识别的结果和意图识别的结果进行知识的一致性检测。联合的语义识别模型是将上述两个任务合并在一个模型中进行,需要将实体识别的损失函数和意图识别的损失函数进行加权求和,从而去不断修正模型的参数,并且该联合模型使用N-best的思想,通过对实体识别的结果和意图识别的结果进行笛卡尔乘积运算,并对所有的笛卡尔乘积重新进行排序,将排序的结果作为模型最终的输出,保证了实体识别结果和意图识别结果的一致性。本文同时对于该语义识别模型在语义搜索中的两个应用场景进行了举例说明,并给出了结果展示。