论文部分内容阅读
网络上存在着大量的、宝贵的临床医疗信息,仅专业医疗网站就几十个。但从网络上提取医学知识并结构化、建立医学知识图谱,进而实施医学诊断一直是WEB挖掘领域非常具有挑战的工作。在以往的研究中,很多学者通过命名实体识别技术从网页文本信息中识别疾病、症状、诱因、化验指标、治疗措施等相关术语,并建立起各类词语间的相互关系。由于症状实体的表述有很多俗语表示,至今还没有标准、完善的症状库。对症状实体的识别,也一直没有较好的途径。为解决这一问题,本文使用JAVA语言开发了一个基于症状实体构成规则的Web文本中症状实体识别系统。并针对症状实体识别过程中的具体问题设计了相应的策略:(1)识别、提取专业医疗网站中的结构化症状信息。策略1给出了通用网站中提取症状实体的流程。策略2给出了爬取过程中断点续传的功能途径,用于解决程序中断问题。系统运行结果表明,共获取症状实体18114个。(2)从症状列表中提取部位词和强症状词,为之后的部位词+强症状词组合成症状提供基础数据。根据大部分症状是由部位词+强症状词组合而成的特点,设计了策略3,从策略1、策略2中已获取的症状实体18114个中提取部位词。系统运行后,共获取部位词1209个,强症状词1111个。(3)从症状列表中提取生理能力词、以及与之搭配的强症状词。策略4实现了该功能。系统运行后共提取生理能力词268个,与之搭配的强症状词374个。生理能力词诸如“呼吸”,与之搭配的症状词诸如“困难”,二者组合后的症状即为“呼吸困难”。(4)从症状列表中提取方位词。策略5实现了该功能。系统运行后共提取方位词47个。(5)从症状列表中提取前缀修饰词和后缀修饰词。策略6实现了该功能,系统运行后共提取前缀修饰词706个,后缀修饰词320个。(6)提出了一种基于症状构成规则的症状命名实体识别方法。结合组建的症状构成单元词表,分析症状实体的构成模式,提出了“部位词+症状词”、“方位词+部位词+症状词”、“前缀+部位词+症状词”、“部位词+症状词+后缀”等多种症状实体构成模式。并在此基础上研制了一种症状实体识别方法,将组合后的新症状实体作为关键词获取相关Web文本数据,根据符合规则的包含该症状实体数据的概括性文本数量作为衡量新症状合理性的标准,设计了6个方法判断新症状的合理性。对于系统运行后的获得的症状,人工验证其合理性。(7)症状实体中的部位词在Web文本中的位置之前很少有介词,可以应用这一发现删除不合理的症状。方法7实现了该功能。症状实体中的强症状词在Web文本中的位置之后大部分没有有名词或代词,应用这一发现可以去除不合理的症状。方法8实现了该功能。去除症状实体中的部位词或症状词在Web文本中与上下文有关联的数据,策略9实现了该功能。去除症状实体在Web文本中为一个不完整症状的数据,方法10实现了该功能。去除相关数据的网站来源部分后去除内容相同的数据,方法11实现了该功能。去除相似度较高的相关数据,方法12实现了该功能。本文在其他作者症状三元组构成模型的基础上提出了症状构成的五元组模型,即<前缀修饰词、方位词、部位词、强症状词、后缀修饰词>,并研制了相应的系统进行了各种元组的提取。本文还提出了各种元组组合成新症状后,判断新症状的合理性策略6个,系统运行后综合去除不合理症状词汇大约97%。