基于集成学习的中医病案数据挖掘方法研究

来源 :青岛科技大学 | 被引量 : 0次 | 上传用户:jjjdddlll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学技术和信息技术的发展,中医药学也顺应潮流逐渐实现信息化和现代化。其中,中医症状-证型的辩证分类技术获得广泛关注并取得相应发展,是当前中医药领域主要的研究课题之一。由于中医病案数据具有复杂性、模糊性和不确定性等问题,使得传统单一的分类挖掘无法确保对所有信息的综合考量。而考虑到集成学习具有较高分类准确率和较好的泛化性能,因此本课题针对合作医院所提供的中医哮喘病病案数据采用集成学习模型进行分类研究,以获得中医哮喘病数据的辨证规律。首先对中医病案进行量化处理,并根据改进的特征选择算法IHCFS(Improved Hierarchical Clustering Feature Selection Algorithm)获取中医哮喘病的主症状。为了更加客观的描述中医病案症状,对病案症状信息进行分级量化,并采用数据库编程实现自动批量文本数字化处理以用于后续研究;对于中医病案数据特征存在繁多的症状和冗余信息等问题,主要对层次聚类特征选择算法的评价函数以及终止准则进行改进得到IHCFS算法,以更好的剔除冗余信息从而获取哮喘病的主症状。仿真实验证明所获取的主症状更有利于后续辩证分类。然后提出一种基于多模态扰动策略的集成学习算法ELSFS(Ensemble Learning Based on Sampling and Future Selection)用于中医病案的辩证分类。其中利用随机抽样法进行样本空间扰动,利用IHCFS算法进行特征空间扰动以获得差异性更大的基分类器。在UCI数据集上仿真验证,结果显示ELSFS算法具有更好的分类性能。最后考虑基分类器数目过多时所产生的冗余基分类器对模型预测性能的影响,提出一种基于加权贪心策略的选择性集成学习算法SELGS(Selective Ensemble Based on Weighted Greedy Strategy)以减少预测阶段的存储空间、降低运算开销,以提高加快预测速度。通过仿真证明SELGS算法具有更好的辩证分类性能。
其他文献
基于虹膜的生物特征识别技术具有识别精度高、无法伪造以及非侵犯性等优点,在门禁系统、海关出入境、机场和金融等许多领域中具有广泛的应用。现代虹膜识别系统为了适应各种复
宽带多媒体卫星通信系统是我国新一代多媒体通信系统,它采用先进的星上处理技术,以及波束合成区域的覆盖方式,并且通过ATM交换来提高频率复用能力,有着广阔的研究价值和社会效益
程序切片技术是一种重要的程序分析和理解技术,对程序进行切片的过程就是删除无关代码的过程,程序切片技术在程序调试、回归测试、软件维护、程序理解以及逆向工程等方面有着
机器翻译简单地说就是用计算机将一种自然语言翻译为另一种自然语言。作为信息的主要承载者,命名实体的翻译质量对译文的整体翻译质量具有十分重要的影响,命名实体的翻译也成
随着自动化测试技术的发展,自动化测试技术应用到越来越多的软件测试中,如何将自动化测试技术应用到数据库管理系统功能测试成为一个新课题。可扩展标记语言(XML)以其自身的
目前,图像信息的处理、存储和传输在社会生活中的作用已越来越突出,人们对图像信息的需求也越来越迫切。尽管数码相机和扫描仪传感器的分辨率不断增加,但是新的应用将永远需
随着信息技术的不断发展,企业的信息化管理水平在不断提高。作为一种对员工进行考核和评价的方式,传统的纸质考试已经不能满足信息化管理的需求。越来越多的企事业单位开始使
随着人民生活水平的提高,用电户的不断增加使供电部门抄表工作量大幅增长。传统的人工抄表由于存在诸多弊端已经越来越不能适应现代化管理的需要。自动抄表系统因其效率高、差
生物信息学是由生物学、应用数学、计算机科学相互交叉所形成的学科,而数据挖掘作为一个崭新的计算机应用领域在生物信息学中有着广泛的应用。空间环境生物信息学数据的分析
经典粗糙集理论是上世纪八十年代初由波兰数学家Pawlak[1]首先提出的一种处理不确定性的数学工具。该理论的特点是不需要任何先验知识,或任何附加信息,就能有效地分析和处理