论文部分内容阅读
传统中医学作为世界医学的一个宝库,两千多年来为中国及世界人民健康做出了不可磨灭的贡献,但是由于传统中医诊断学体系具有很多的不确定性、模糊性的内容,严重阻碍了中医的普及、推广和发展,如何将充满模糊性的中医辨证过程进行规范化和客观化是本文研究的主要问题。本课题通过应用基于属性筛选的决策树分析技术,从中医肝硬化病例数据中发现症状与证候之间的规律并提取出相应的辨证规则,作为一种辅助工具供给医务工作者参考,为实现中医诊断的数字化和客观化提供了一条途径。属性筛选作为一项重要的数据预处理技术,主要目的是识别和消除样本的属性集中与预测结果不相关的或冗余的属性。对于中医病例数据样本,由于采集数据代价较高,因此中医数据分类是典型的小样本分类问题。而且中医病例数据的维数相对来说较大,导致数据中的冗余和无关部分也会相应的增多。为得到更准确的辨证结果和辨证规则,在辨证前对数据进行属性筛选十分必要。中医辨证的本质是证候分类。现有的分类方法很多,其中决策树算法是一种以实例为基础的归纳学习算法。它具有易于提取显式规则、适合处理非数值型数据、可以显示重要的决策属性和较高的分类准确率等优点,从而成为辨证模型构建及辨证规则提取的有效工具。本文将围绕特征属性筛选算法和决策树分类模型进行研究,通过学习和总结前人的研究成果,提出一种结合属性筛选的决策树分析方法,并应用于中医肝硬化的辨证,旨在提供一种中医客观化诊断的新途径。本文主要工作包括以下方面:首先,对属性筛选算法进行研究,分析了属性筛选的主要目的和过程,以及基于相关度信息为评价依据的属性搜索方式和属性组合评价策略,提出了一种自适应属性筛选算法A-FCBF(Adaptive Fast Correlation-Based Filter),该算法通过对不同筛选阀值所对应的筛选结果进行属性组合优劣性评定,能够自适应的找出最优筛选阀值与特征属性子集,降低了由于人为干预所可能引入的误差,提升了数据约简过程的操作性和准确性。其次,对常用决策树算法的优缺点进行了总结,并从数据约简、决策属性选择和预剪枝策略等方面对传统算法进行了改进,提出了E-ID3(Enhanced Iterative Dichotomiser 3)决策树算法。以该算法进行决策树建模,首先将对原始训练数据进行特征属性约简;其次以相关信息增益度CIG(Correlated Information Gain)作为评估标准选定决策树各节点的分裂属性;在决策树的构建过程中,一旦树节点满足预剪枝标准,则停止对该节点继续分裂,并令该节点成为叶子节点。与传统算法相比,新算法提高了执行效率、预测精度,以及分类规则可理解性。最后,将本文提出的分析算法应用到中医肝硬化证候辨证问题上,通过总结清晰的辨证规则为中医客观化诊断提供参考依据,同时为中医智能化辨证提供了一条可行性途径。