论文部分内容阅读
目的本研究探讨数据挖掘技术在病案信息管理中的应用,以两个应用范例描述如何应用。一个是在医保费用管理中影响住院费用相关因素的数据挖掘,以便有效控制医保费用。一个是使用Microsoft时序模型预测医院未来的门诊工作量,以便为合理安排人、财、物资源提供科学依据。如此不但是为医院管理者提供了良好分析方法,还为医院科研人员提供了新的手段。材料与方法本文使用青岛市市立医院的HIS系统中2008年至2011年上半年的病案数据(包括住院和门诊)作为数据源。具体使用了住院患者信息,包括姓名、性别、出生日期、年龄、入院日期、出院日期、ICD-10编码、住院费用、住院天数等;门诊患者信息,包括挂号科室、挂号日期、挂号人次等。将病案数据信息经过数据的提取、变化、净化,最后生成病案信息数据数据仓库。具体过程为对数据噪点进行处理,错误、空项的数据通过找到原始病案进行修改,保证数据准确。进行数据的离散化,年龄字段、费用字段和住院天数属于连续性数据,不利于对数据进行分析,对它们进行离散化处理,年龄离散化为年龄段,0-5,6-15等,费用分为费用段,5000元以下,5000-10000元,10000元以上,住院天数分为住院天数段,15天以下、16-30天、31-45天等9个段。门诊患者信息将挂号日期按照年、季度、月进行离散化处理。在建立好的数据仓库上,使用OLAP技术可进行数据的切片、切块、钻取、旋转分析。使用Microsoft决策树,对2011年上半年住院病人数据进行数据挖掘,共抽取28723条病例记录,先将选取的数据随机分成两个部分,其中训练集占70%,测试集占30%,采用决策树建模,然后对测试集进行检验和比较,得出影响住院费用的相关因素。从病案信息数据仓库中筛选出2008年至2011年上半年的各门诊挂号数据,采用Microsoft时序挖掘模型预测2011年7月的门诊工作量。结果通过决策树挖掘模型,发现与住院费用关联强度大小的顺序为:科室名称>诊断名称>住院天数段>年龄段>费用类别>治疗结果。采用Microsoft时序挖掘模型预测2011年7月的门诊就诊人次,东院风湿科门诊、东院神经内科门诊、东院肝胆外门诊的预测值非常的接近实际值,其他专业门诊实际值保含在预测的偏差范围内,仅东院泌尿外科的预测值偏离实际值,这是因为此科室更换了科主任,病人慕名而至。结论基于决策树的算法和基于时序模型对挂号信息的预测,能较好地应用到医院管理中。住院费用10000元以上所占比重较高的科室有东院干部保健三东院血液科等,作为住院费用重点关注科室,用来控制医保费用。时序挖掘模型能够满意地完成预测任务,为门诊部安排大夫和资源提供可靠的依据。