论文部分内容阅读
随着计算机应用技术的日益发展与普及,各行各业生成和收集数据的能力大为提高。数据量与日俱增,大量的数据被描述为“数据丰富,但信息贫乏”。快速增长的海量数据收集并存放在数据库、数据仓库或其他信息库中,没有强有力的工具,理解它们已经远远超出了人的能力。结果,收集在这些数据存储源中的数据变成了数据“坟墓”。这样,重要的决定常常不是基于数据存储源中信息丰富的数据,而是基于决策者的直觉,因为决策者缺乏从海量数据中提取有价值知识的工具。此外,考虑当前的专家系统技术,通常系统依赖用户或领域专家人工地将知识输入知识库。不幸的是,这一过程常常有偏差和误差,并且耗时、费用高。用数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科学和医学研究做出巨大的贡献。总之,数据与信息之间的鸿沟要求系统地开发数据挖掘工具,将数据“坟墓”转化为知识“金块”。目前,作为解决企业信息系统中普遍面临的“数据爆炸”而“信息缺乏”状况的最有效的手段之一,数据挖掘受到了学术界和企业界的极大关注。近来,医疗工程研究有了迅猛发展。测量仪器技术的提高使得大量医疗信息可以被精确地记录下来,从而导致医疗数据资料爆炸性增长。尤其随着医疗信息系统在各大医院逐渐投入使用,收集到的病人信息不仅包括医疗影像、各项生理指标,而且还有病人年龄、性别、身高、体重、既往病史等大量详细的背景资料。而且各大医院收集到的数据又进一步汇总,这样汇总的数据是相当庞大的,而且都是病人的真实数据。从这样的数据集中运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究都是非常有价值和发展前途的。与仅限于某一专项领域知识的医疗专家系统不同,医疗数据挖掘是面向整个医学数据库或医学信息集合提供知识和决策,是医疗决策支持系统的重要组成部分。由于医疗数据自身具有的特殊性和复杂性,与常规的数据挖掘相比,医疗数据挖掘在挖掘对象的广泛性、挖掘算法的高效性、提供知识或决策的准确性方面有着更高的要求。在医疗数据挖掘方法中,人工神经网络、粗糙集理论、进化计算、模糊逻辑和支持向量机等计算智能方法显示出了独特的优越性,并得到了广泛的应用。本文对基于神经网络的医疗数据挖掘技术进行了较为深入的研究,主要的工作如下: <WP=6>1)在阅读并消化大量相关的国内外文献的基础上,综述了医疗数据挖掘的主要特点、基本过程、关键技术、计算智能方法及发展方向,并给出了几个医疗数据挖掘的应用示例。2)回顾了粗糙集理论的几个基本概念,总结出了基于粗糙集的规则获取步骤,并用一个实例验证了算法的有效性和准确性。3)介绍了神经网络的发展历史、基本要素、神经元模型、基本特性以及基本原理,探讨出了基于神经网络的数据挖掘步骤,并对各个步骤涉及的算法进行了比较分析。4)根据基于神经网络的数据挖掘步骤和粗糙集理论在规则获取中的作用,提出了一种基于神经网络和粗糙集的分类规则挖掘新算法。并结合VC++6.0和MATLAB6.5两种语言编程环境的优势,以从加利佛尼亚大学FTP上下载得到的Wisconsin Breast Cancer Database医疗数据库为研究实例,实现了新算法,验证了新算法的准确性和有效性,开发出了一个医疗分类规则挖掘的演示系统,为以后开展医疗数据挖掘的研究工作提供了示例。