数据挖掘中两种典型分类算法的改进研究及应用

来源 :华北水利水电大学 | 被引量 : 0次 | 上传用户:liongliong553
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘中一种重要的方法,通过在给定数据基础上,构建分类函数或分类模型为待分类的数据或对象找到精确的类别。关于分类的研究,本文做了以下主要工作:针对kNN算法在多参数进行分类时造成分类准确率低的问题,本文提出了多参数下的kNN分类算法。对于定量数据,通过构建综合指数模型,结合水文干旱方面的实例进行验证,结果表明,它能够将干旱、正常或者洪涝等类属进行准确划分;对于带有模糊信息的数据,如区间数据,提出了构造区间贴近度的方法,结合医疗诊断数据进行实例验证,结果表明,该方法能对病人的病情给出准确的诊断。针对经典C4.5分类算法在分裂属性选择时未考虑条件属性与决策属性间的关联性问题,本文提出了基于相关系数和PCA相结合的CP-C4.5分类算法。首先,根据相关系数原理,得出条件属性与决策属性之间的相关系数,确定条件属性对分类的重要性;其次,运用PCA算法,消除属性之间相关性的影响;最后,利用UCI数据集对算法进行实验对比,结果表明,本文所提出的CP-C4.5算法在保证分类准确率的前提下,提高了分类速度。综上,本文先介绍了与分类有关的基本理论知识。接着,对数据挖掘中kNN分类算法和C4.5决策树分类算法进行研究。重点对数据挖掘中两种典型的分类算法提出了改进,并运用实例验证了改进方法的合理性和有效性,但关于分类算法中距离度量,能否定义一种新的度量来提高分类的精度和速度的问题有待进一步研究。
其他文献
在立井井筒施工中,根据不同的地质条件采取相对应的施工技术是实现井筒安全、优质、高效掘砌的前提。据此,根据红一煤矿主井井筒工程地质特点,针对大断面深立井井筒冻结段和基岩
开发了一种将物理过滤和生物处理相结合的水生植物滤床 (APFB)技术 .在太湖陈东港入湖口处进行APFB处理河水的试验结果表明 ,APFB的最佳水力负荷为 4 0m3/(m2 ·d) ,此时总氮
首先介绍了校地合作和校企合作的案例,其次对学校和旅游管理系与御温泉和华发喜来登酒店之间的合作进行了深层次的分析,最后提出了合作办学和人才培养模式中存在的问题以及今后
“互联网+”经济形态的产生,对现今社会各个行业都有很大的影响。我国汽车维修行业要抓住这个历史机遇,克服困难,运用“互联网+”高新技术和管理理念实现汽车维修行业更好的发展,引
国家大宗淡水鱼产业技术体系广州综合试验站清远养殖示范片利用国家大宗淡水鱼产业技术体系的长丰鲢、鳙鱼和光倒刺鲃混养南美白对虾技术,与之前南美白对虾池塘单养技术相比
2015年2月8日,羊年一开年三亚市人民政府办公室便发布了《三亚市2015年大气污染防治实施计划》,三亚市人民政府这一计划的出台与几年来三亚市逐渐变差的大气环境有着直接的关系
目的:分析妇科急腹症腹部B超、阴道B超检查、腹部B超联合阴道B超检查在诊断中的应用价值。方法:随机将我院2015年5月—2017年5月撷取的180例妇科急腹症患者,分为A组、B组、C
针对整机条件下主燃烧室的性能参数测量问题,运用现阶段改装手段和试验设备,提出了1种适合在整机上进行主燃烧室参数测量的方法,得到了主燃烧室进、出口及内外环等位置上的温
调查发现,高职学生的生活困扰突出地表现在“课程学习有困难”、“人生发展规划与职业选择上有困难”等方面,这些困扰可以归纳为四种:基本需求性困扰、适应性困扰、发展性需求困
《格尔尼卡》是艺术家毕加索创作于西班牙内战期间的一件石破天惊具有划时代意义的杰作。独特历史背景决定了《格尔尼卡》的特殊意义。毕加索用这幅扭曲变形夸张的巨作将格尔