论文部分内容阅读
随着计算机科学技术和信息技术的发展,中医药学也顺应潮流逐渐实现信息化和现代化。其中,中医症状-证型的辩证分类技术获得广泛关注并取得相应发展,是当前中医药领域主要的研究课题之一。由于中医病案数据具有复杂性、模糊性和不确定性等问题,使得传统单一的分类挖掘无法确保对所有信息的综合考量。而考虑到集成学习具有较高分类准确率和较好的泛化性能,因此本课题针对合作医院所提供的中医哮喘病病案数据采用集成学习模型进行分类研究,以获得中医哮喘病数据的辨证规律。首先对中医病案进行量化处理,并根据改进的特征选择算法IHCFS(Improved Hierarchical Clustering Feature Selection Algorithm)获取中医哮喘病的主症状。为了更加客观的描述中医病案症状,对病案症状信息进行分级量化,并采用数据库编程实现自动批量文本数字化处理以用于后续研究;对于中医病案数据特征存在繁多的症状和冗余信息等问题,主要对层次聚类特征选择算法的评价函数以及终止准则进行改进得到IHCFS算法,以更好的剔除冗余信息从而获取哮喘病的主症状。仿真实验证明所获取的主症状更有利于后续辩证分类。然后提出一种基于多模态扰动策略的集成学习算法ELSFS(Ensemble Learning Based on Sampling and Future Selection)用于中医病案的辩证分类。其中利用随机抽样法进行样本空间扰动,利用IHCFS算法进行特征空间扰动以获得差异性更大的基分类器。在UCI数据集上仿真验证,结果显示ELSFS算法具有更好的分类性能。最后考虑基分类器数目过多时所产生的冗余基分类器对模型预测性能的影响,提出一种基于加权贪心策略的选择性集成学习算法SELGS(Selective Ensemble Based on Weighted Greedy Strategy)以减少预测阶段的存储空间、降低运算开销,以提高加快预测速度。通过仿真证明SELGS算法具有更好的辩证分类性能。