论文部分内容阅读
随着数据库技术的飞速发展以及人们获取数据手段的多样化,人类所拥有的数据急剧增加,随着大容量、高速度、低价格的存储设备相继问世,当今数据库的容量越来越大,已经达到TB,甚至PB的水平。但是大多数存储在其中的数据只是做为一般的操作数据被人们使用,而没有真正的体现出这些历史的、海量的数据信息的价值。为了能够得到隐藏在这些海量数据背后的具有决策价值的知识,数据挖掘应运而生。利用这项技术可以从大量的数据信息中挖掘出一些隐藏在其中的知识,从而为人们提供有价值的、科学的信息,以便为企业管理人员或其他决策者提供信息参考和决策支持,最终使得企业管理科学化,经济效益最大化。经过几十年的蓬勃发展,数据挖掘技术产生了丰硕的理论和应用成果。作为一门应用性较强的学科,数据挖掘技术已经渗透到国民经济的各个领域,引起学术界和产业界的极大关注,取得了广泛的应用,为各行各业的管理者提供了有价值的决策依据。国内对于数据挖掘的研究还处于起步阶段,其应用也仅仅集中于一些大行业(如:电信、保险、金融等)。在医学信息的数据挖掘方面,国外的研究和应用相对国内也更多,在国外不仅把数据挖掘应用于辅助医生诊疗方面,而且也广泛的应用于病人及医院的管理方面。因此,数据挖掘在我国医疗行业的研究有着重要的实际应用价值。本文在研究数据挖掘技术的基础上,结合医院的信息管理系统,开展了基于关联规则的医学数据的挖掘分析与研究,主要内容包括:1、根据实际应用需求对HIS数据进行分析,确定挖掘分析所需要的维度与摘要。建立适用于医院信息系统的数据仓库,根据实际需求建立对应的事实表并确定维度表和粒度,运用多维分析方法对所需数据进行数据准备操作,经过数据集成和数据清洗后作为数据抽取的数据源。2、对数据挖掘中关联规则的Apriori算法进行分析,并进行优化,利用这些算法来对患者数据进行数据挖掘。3、通过对胆结石患者住院情况及住院费用的分析,寻找胆结石患者住院费用的影响因素,实现对其医疗费用数据内在结构特征的理解和预测。得到的相关结论可为合理控制费用提供参考,同时提高医院管理人员的工作效率和管理水平。