论文部分内容阅读
随着医疗卫生信息化建设不断深入,数字化改造使得各类医疗信息管理系统所维护的医疗数据呈爆炸性增长,预计到2025年医疗数据量将超过10ZB,当前医疗信息化工作已经在绝大多数医院内全面开展并已略见成效,而其中实现数据互通的医院却不到3%。即各系统产生的数据彼此独立,难以在系统之间交流共享,“数据孤岛”现象日益严重。因此通过多源异构医疗数据集成逐步实现医疗机构内以及机构之间的数据共享,成为实现医疗信息化建设的关键。不同于其他行业的信息系统的数据集成,医疗卫生领域交叉学科类型众多,涉及到的专业内容繁杂,数据集成难度更大,存在系统更新同步困难、表达各异、交换方式复杂、以及非结构化数据难以有效利用等问题,使得现阶段采用传统ETL工具支持的数据仓库技术进行医疗数据集成很难满足医疗需求。本文立足智慧医院建设中的数据集成过程,针对现有数据集成待解决问题展开相关研究工作,主要有:(1)为解决医疗文本信息抽取问题,提出基于双向最大匹配的医疗文本分词技术的算法,设计出更加适合医疗领域的实体抽取组合;(2)为防止语义异构现象,提出基于本体的综合相似度算法和MSA相似度检测算法,屏蔽因为片面评价而遗漏的语义异构问题,提高匹配准确性;(3)为提高数据仓库集成质量,结合待集成的医疗异构数据特点和医疗机构的业务数据需求,构建面向医疗领域的分布式本体概念模型,解决医疗数据异构问题,指导ETL工作,完成医疗数据仓库的搭建。综上,本文主要针对智慧医院建设中的数据集成阶段进行相关技术的研究与改进。结合中文分词相关技术,制定基于医疗文本的命名实体识别方案进行医疗文本数据信息的提取,改善医疗文本信息的存储和集成效率。整合各个业务系统的医疗数据,结合本体理论和相关映射算法,使医疗数据集成更加高效准确,方便各业务系统之间异构数据交互共享。优化智慧医院数据集成过程,为院内辅助诊疗、疾病预测、决策分析等多种业务需求提供数据支撑,同时提高医疗数据资源管理共享效率。