基于古籍的阴虚证知识图谱构建及其关键技术研究

来源 :中国中医科学院 | 被引量 : 0次 | 上传用户:yjnter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究目的证候是中医学对人体病理状态认识的特有概念,是联系中医学理论和临床实践的核心。阴虚证作为最重要的基本证候之一,在历史的长河里不断发展,积累了大量的知识和经验。本研究旨在以中医古籍为数据来源,以阴虚证为核心,探索开发适用于中医古籍语义的知识表示方法和中医证候知识图谱构建的关键技术,构建集“医籍医家、理法方药、辨证论治”为一体的能够较为完整反映阴虚证特点的大型知识图谱,实现阴虚证知识资源的有效整合,优化中医证候古籍知识图谱构建路径。研究方法(1)通过全面收集整理历代医家关于阴虚的论述,考辨“阴”“阴虚”“阴虚证”的内涵源流,并通过梳理分析其病因病机、临床表现、处方用药等在中医古籍中的具体表达,明确阴虚证相关古籍知识的研究范畴及数据筛选标准。(2)通过对阴虚证相关古籍文献进行内容分析,梳理阴虚证知识体系,提取概念类型及概念关系,并复用《健康信息学中医药学语言系统语义网络框架》《中医临床术语系统分类结构》中的概念与关系,探索构建适用于阴虚证的知识图谱模式层。(3)基于多个来源且结构完全不同的中医术语词表,首先进行文本提取、数据清洗和人工校对,然后用《中医临床诊疗术语》等对其进行标准词校正,最后合并多源数据的同义词,构建基于阴虚证的知识图谱模式层的自动标注词表和同义词表,以用于数据自动标注和知识融合。(4)分析从《中华医典》提取的古籍文本数据特征,基于Java、MATLAB和HTML语言设计具备多种格式文本数据处理、可嵌套标注、标准词可视化修改、关系标注、自动提取标注实体功能的文本标注系统。(5)基于建立的模式层、自动标注词表及文本标注系统,采用正则表达式与人工核对相结合的方式,对用于深度学习的命名实体识别训练数据进行分类标注;使用人机结合标注的训练数据对ERNIE(Enhanced Representation throughKnowledge Integration)+CRF(Conditional Random Fields)模型进行微调训练,将其用于阴虚证古籍文本的实体抽取;最后用同义词表结合人工的方式对实体抽取结果进行知识融合。(6)对阴虚证古籍文本进行语法语境分析,结合对古代医家论述辨证论治过程和方剂合用、加减的语义特征分析,提出基于辨证论治实体组合与合用方组合双模式特征组合,结合阴虚证知识图谱模式层,基于双模式特征组合的实体组合抽取、基于知识图谱模式层概念关系的实体关系抽取、基于其他来源关系数据信息补充三个阶段递进式抽取和补充古籍文本的实体关系,有效提升知识图谱构建效率。(7)提取知识抽取和知识融合的结果,进行实体和关系去重,使用图数据库Neo4j对知识进行存储;并通过查询进行知识的可视化展示。研究结果(1)厘清“阴”“阴虚”“阴虚证”内涵,明确阴虚证相关古籍知识的研究范畴。通过对不同历史时期医家有关阴虚证的论述进行系统的梳理和辨析,确定了本研究阴虚证的研究范畴是指在人体阴阳整体层面,与阳虚证相对应,病机上有阴液亏虚不能制约阳气的特点,症状上有五心烦热、潮热盗汗等虚热表现。(2)基于阴虚证构建具有中医证候知识表达特色的模式层。本研究共制定了“疾病”“症状”“舌象”“脉象”“病因病机”“病性要素”“病位要素”“分期”“时间”“治则治法”“中药”“方剂”“合用方”“体质”“年龄”“性别”“预后”“医家”“地理名称”“中医古籍”“成书朝代”“成书年”“条文ID”共23种概念类型;“治疗”“现象表达”“包含”“发生于”“引起”“影响”“相关”“使用”“处于”“适用于”“禁忌”“有预后”“记载于”“活动于”“论述”“组成是”“作者为”“著于”“基础方是”“基础方组成是”“基础方加”“基础方减”“加药依据”“减药依据”“合方依据”“引用”“条文来源是”“条文ID是”共28种概念关系;“中药剂量”1个关系属性。(3)完成阴虚证相关知识的筛选和梳理。通过对《中华医典》导出的阴虚证相关条文进行筛选与补全,共得到阴虚证古籍条文21568条。(4)构建阴虚证同义词表和自动标注词表。阴虚证同义词表包含疾病、症状等12种概念类型的标准词与同义词,共收录标准术语词15936个;阴虚证自动标注词表包含15种概念类型共100448个术语词。(5)设计开发可处理多种格式文本数据的文本标注系统。采用词句标注与区间标注方式支持嵌套标注功能,并可在同义词表的支持下进行标准词提示、修改,具备单文本或条文内关系标注能力,并可自定义标签、配色等。基于文本标注系统,完成了本研究中命名实体识别训练语料的标注、知识融合和关系抽取结果校正等工作。(6)基于ERNIE预训练模型,结合使用条件随机场CRF作为输出层,用人工标注语料进行命名实体识别微调训练,最高评价指标F1值达到0.94,完成了 2万余条古籍文本中4万8千余个不重复实体的抽取。(7)提出基于双模式特征组合的递进式实体关系抽取方法。根据中医辨证论治过程和合用方特征,限制条文内实体关系的表达范围,避免不必要的错误关系占用知识图谱空间,提高有效知识利用率,实现古籍条文中113万余条不重复关系的抽取。(8)构建包含12万余个实体及118万余条关系的阴虚证古籍知识图谱。将实体抽取、关系抽取、知识融合的结果提取并进行实体和关系去重,用Neo4j图数据库进行中医古籍知识图谱库构建,将人机结合抽取的阴虚证关系数据以及同义词表的关系数据存储到Neo4j中,构建包含12万余个实体及1 1 8万余条关系的阴虚证古籍知识图谱。(9)运用Cypher语言对知识图谱进行病因病机、疾病、症状、中药、方剂等内容的查询,并对查询结果进行了可视化表示和解读,说明了知识图谱在知识组织和表示上的可行性和便捷性。研究结论(1)完成了阴虚证知识图谱构建,实现了阴虚证知识资源整合。制定包含23种概念类型、28种概念关系和1个关系属性的模式层,通过实体抽取、关系抽取,补充医籍医家信息、同义词表关系数据等,最终构建了包含12万余个实体及118万余条关系的阴虚证古籍知识图谱。实现了阴虚证古籍知识的可视化,提高了阴虚证知识的查询效率和准确性。(2)构建了具有阴虚证知识特点的知识图谱模式层。基于对阴虚证概念的深度梳理和辨析,明确了本文研究的范围,通过对阴虚证相关古籍内容的分析,构建了覆盖阴虚证知识特点的概念类型和概念关系,在知识图谱构建过程中,有效支持了同义词表制定、训练语料标注、知识融合和关系抽取,准确表示了阴虚证知识体系框架。(3)设计开发了适用于古籍的文本数据标注系统“CNLP文本标注系统”,在训练数据标注、实体标准化、关系抽取结果审核等过程中提供了稳定的可视化操作能力,提高了数据处理的效率。(4)研究了基于预训练模型ERNIE+CRF的命名实体抽取方法,验证了基于深度学习进行阴虚证古籍命名实体识别的可行性,实现了从大批量文本数据中抽取多类型、具有复杂构词特征的古籍文本实体,并用同义词表对抽取实体进行了知识融合,提高了阴虚证古籍知识图谱构建的效率。(5)创新了实体关系抽取方法。对阴虚证古籍文献的语法语境和著述特征进行分析,提出了基于双模式特征组合的递进式实体关系抽取方法,避免了大量错误关系和重复关系占用知识图谱空间,提高了知识图谱中正确知识的占比和知识的可利用率。结果表明本研究构建的知识图谱模式层和提出的关系抽取方法在关系抽取中结合使用效果良好,本研究知识抽取方法在构建中医药证候古籍知识图谱中是可行的。
其他文献
学位
随着教育改革的不断推进,美术教学越来越受到重视与关注。美术教学不但能培养学生审美能力与观察能力,还能提升学生鉴赏水平,为培养高素质复合型人才奠定基础。美术教学具有很强的艺术性与实践性,仅靠理论教学,并不能培养学生综合全面成长。因此必须在教学中贴近生活,这样不但能培养学生观察能力,还能提升学生实践能力,对学生成长具有重要帮助。本文首先,讲述美术教学现状;其次,阐述如何合理应用加减法模式,提升美术教学
梨果是我国的主要水果之一,由病原菌侵染引起的采后病害是梨果采后损失的主要原因之一。系统地总结了梨果采后最常发生的病害与侵染机制,并综述了梨果采后病害的主要防治措施(化学防治、物理防治和生物防治)。
目的 探讨影响慢性乙型肝炎(CHB)患者发生肝硬化的因素。方法 2010~2016年我科住院的CHB患者135例,均接受肝活检,并随访5(7,11)年。随访结束时,临床诊断肝硬化。应用Logistic回归分析并建立预测模型,应用受试者工作特征(ROC)曲线下面积(AUC)评估诊断效能。结果 入组时肝组织学检查显示,非肝纤维化组81例,显著纤维化组54例;随访结束时,临床诊断非肝硬化组111例,肝硬
海绵城市建设是当前市政给排水工程建设的中心思想,其中雨水渗井系统是实现城市“海绵”功能的重点,能够全面提升城市“渗、滞、蓄、净、用、排”一系列能力。本文根据某市部分辖区的工程实例,阐述海绵城市建设的设计思路,说明给排水工程各环节的施工要点,最后重点说明雨水渗井系统的施工策略。
随着通信与传感技术的快速发展,无线医疗传感器网络(WMSN)在现代的医疗体系中得到了快速的普及。然而,由于WMSN中传输的数据大多都是与病人相关的敏感信息。如果这些敏感信息不能得到妥善保护,将造成病人的隐私泄露或病理数据被恶意修改,更严重的将造成医生误诊使患者有生命危险。因此,数据的完整性与隐私性是WMSN中的两个非常重要问题。文章提出了一种基于双线性对的保护数据安全和隐私的用户认证协议以及数据安
<正>为提高新时期美术课堂教学质量这一共同理想,2019年10月28日至30日,来自四川省21个市、州的1500名美术教师汇集于泸州市,参加了四川省第十一届中小学美术优质课展评活动。此次活动共展示了来自全省的24节美术课,覆盖了《义务教育美术课程标准(2011年版)》所涉四个学习领域中二至六年级的学习内容和高中一年级美术鉴赏模块。
期刊
大学生健康行为,即人的行为,是指个体对内外环境做出的能动反应。行为的发生、发展和改变的过程由不同的要素组成,其中有:谁(行为主体),对谁(行为客体或行为的指向目标),在什么情况下(行为环境),使用什么(行为手段、工具或方法),产生了什么结果(行为结果)。从行为的产生来看,可把人的行为分为不同环境下的作为,比如我们最为关注的饮食习惯,进而形成健康的、不健康的行为现状。大学生的健康行为,即行为干预,是