【摘 要】
:
以数据的爆炸式增长为根本,以信息技术和计算机网络等高新技术发展为标志,人类社会已经步入了一个崭新的数据时代.如何在这些海量数据中挖掘出有价值的信息并将其分门别类显得尤为重要.尽管机器学习与数据挖掘技术逐渐成熟并用于解决复杂的实际问题,但仍面临着诸如数据类分布不平衡和数据属性缺失等问题的挑战.为了获得完整且易于分类的数据,数据重采样技术应运而生.模糊分类规则作为模糊集合理论的一个重要研究内容,可以较
论文部分内容阅读
以数据的爆炸式增长为根本,以信息技术和计算机网络等高新技术发展为标志,人类社会已经步入了一个崭新的数据时代.如何在这些海量数据中挖掘出有价值的信息并将其分门别类显得尤为重要.尽管机器学习与数据挖掘技术逐渐成熟并用于解决复杂的实际问题,但仍面临着诸如数据类分布不平衡和数据属性缺失等问题的挑战.为了获得完整且易于分类的数据,数据重采样技术应运而生.模糊分类规则作为模糊集合理论的一个重要研究内容,可以较好地表示数据的分布特征和因果特性,在分类问题中有重要的应用.传统的重采样技术难以显式地表示出数据属性之间的相关性,且合成的新数据也不能判定处在合理的区域.因此,本文通过模糊规则学习训练数据的结构特征,以甄别出少数类数据和多数类数据的分布区域.进一步地,为了有效解决数据的类不平衡问题,本文提出一种新的数据重采样技术以增加少数类数据.其基本思想是先通过模糊规则刻画少数类数据的分布,每个模糊规则对应一个模糊置信区域,然后在此区域中合成新的数据.为了验证本文提出的过采样技术的有效性,在55个公共不平衡数据集上与其他六种过采样技术进行对比分析,实验结果表明新的算法在统计意义上明显优于其他方法.对于包含缺失值的不平衡数据,本文提出了一种类模糊推理方法用以恢复缺失数据.该方法与传统模糊推理方法的主要区别在于前者是用于产生新的数值属性值而不是预测类标签.其基本思想是在模糊规则集中找到与每条缺失数据最匹配的模糊规则,再利用该规则填补缺失的属性值.最后我们仍然进行了大量的实验验证该方法的性能,实验结果表明该推理模型设计合理,具有良好的填补效果.本文提出的过采样算法中包含特定参数——模糊划分粒度.结合实验对比分析和遗传算法的寻优结果,该算法具有较强的鲁棒性,对参数选择的依赖性不强,且得到了一个合理的参数值.为进一步利用模糊知识研究多类或者多标签数据提供了成功的实践经验.
其他文献
【正】 1987年5月14日,我会收集到一批青铜器,经查,这批青铜器出于越溪乡前珠村东部的圩田内,这一带原系东太湖北部的浅水区域,俗称:“白洋湾”.1971年围湖成田.1985年3月,当
铁路是人类工业文明时代重要的交通设施,和社会发展紧密相关。在城市发展下旧铁路成为切割侵占城市肌理的存在,如何对城市中的这一段特殊用地进行改造将成为城市规划的热点之
前苏联马克思主义伦理学萌芽于上个世纪初至20年代中期。马克思主义伦理学这一术语最初在俄罗斯是以对道德进行本体论否定的方式出现的。在20世纪20年代后期互30年代初期进行
分别用桉树糠、桉树皮培养基栽培平菇和灵芝,并以棉子壳培养基为对照,分析平菇和灵芝的含水量、粗蛋白质、粗脂肪、总糖等营养成分。结果表明:桉树糠、桉树皮具有更好的持水性,作
在智能电网中,电力公司根据消费者的具体用能信息为用户提供需求响应方案,以优化配电系统的运行,从而提高电能消耗效率。居民用户用电负荷作为电力负荷的重要组成部分,其能耗结构与用电细节对优化电力消费模式、提高电网可靠性具有重要意义。负荷监测是获得住宅内各个用电设备能耗的关键。非侵入负荷监测在住宅供电入口安装一套电流和电压传感器,并对测量到的电信号进行负荷识别,即可得到单个电器的电能消耗。目前的非侵入负荷
目的:研究使用数码相机双侧闪光灯摄影比色技术对上颌中切牙进行比色的可行性,并了解青年人上颌左右中切牙的颜色差异。方法:采用数码相机和双侧闪光灯获取155例志愿者的两侧
喷灌是采用喷灌机将压力水喷射到低空,经雾化后像雨滴一样均匀地降落到作物和地表面。喷灌的用途很多,主要用于农作物、林业苗圃、牧业草场、蔬菜果树、经济作物、园林草皮、
在中央经济工作会议重点强调的乡村振兴、区域协调发展、对外开放以及保障和促进民生等方面旅游业都是重要的着力点,可以发挥重要作用。应充分发挥旅游业优势,积极应对经济形势
淄博陶瓷自古以来就有着辉煌的成就,在中国陶瓷发展史上占有一席之地。淄博民间陶瓷是淄博陶瓷不可分割的重要组成部分,它以其鲜明的地域特色和制作风格,受到陶瓷研究界越来越多