基于熵差和核的过采样技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ak19820701
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以数据的爆炸式增长为根本,以信息技术和计算机网络等高新技术发展为标志,人类社会已经步入了一个崭新的数据时代.如何在这些海量数据中挖掘出有价值的信息并将其分门别类显得尤为重要.尽管数据挖掘与机器学习技术日益趋向成熟并且被广泛应用于实际问题的处理中,但该领域仍面临着诸多挑战,如不平衡数据集分类问题.过采样技术通常是处理不平衡数据集的首选方法.具体地说,过采样技术通过生成额外的人工少数类实例来平衡多数类和少数类之间的训练实例数量.然而,很多过采样技术只考虑数量的不平衡,而不考虑数据分布是否平衡.本文提出了一种基于熵差和核的过采样算法(EDKS),它利用熵差从分布上考虑数据集的不平衡程度,通过在支持向量机分类器的特征空间进行过采样,克服了SMOTE对非线性问题的局限性.首先,EDKS方法将输入数据映射到特征空间中,以提高数据的可分性.然后EDKS计算核空间的熵差,确定多数类和少数类,并找出少数类中的稀疏区域.此外,该方法通过合成新实例并评估其保留能力来平衡数据分布.该算法能有效地区分不平衡率相同但分布不同的数据集.为了验证该模型的有效性,EDKS算法在19个公开的不平衡数据集上与其他七种经典的过采样算法进行了竞争性的对比实验.实验结果表明,本文提出的方法在多个基准不平衡数据集上的性能明显优于其他算法.另外,本文从基于熵的局部密度信息入手,提出了危险集的概念和它的三种使用策略,即基于熵的危险集过采样算法(EDg S)、基于熵的安全集过采样算法(ESS)和基于熵的自适应过采样算法(EAS).实验结果表明,这些算法可以有效提升经典过采样算法的性能,为进一步利用熵信息理论研究不平衡数据集提供了成功的实践经验.
其他文献
随着互联网技术和数据挖掘技术的发展,数据在不断的被生成、发布共享和使用,然而人们在享受着数据共享带来的便利的同时,也面临着隐私泄露的风险。如何保证发布数据的可用性及安全性是学术界不断研究的问题。本文围绕多敏感属性数据发布的匿名隐私保护问题展开研究,通过对研究现状的分析,指出现有模型的不足。第一,现有模型忽略了属性间的相关性,泛化所有非敏感属性导致数据隐匿率过高,信息损失量过大,数据可用性差;第二,
车载自组织网络(VANET,Vehicular Ad hoc Network)作为智能交通系统的重要载体之一,是未来智能驾驶和智慧交通的发展方向,通过为车辆节点和路侧基础设施之间搭建通信网络实现交通信息的实时共享。由此衍生的路况报道、自主决策和远程指挥等辅助功能不仅能够提高交通效率,更能减少甚至消除交通事故的发生,增加社会稳定。娱乐游戏的车载化也改善了驾驶员的出行体验。同时,5G技术的高速率、低时
随着现代工业、交通运输业的快速发展,城市中的噪声污染问题也日渐突显出来。汽车作为常用的交通工具,在带给人们方便的同时也成为噪声污染的一种重要来源。声子晶体作为一种
离岸网箱养殖已成为未来海水养殖产业的主要发展趋势。但是离岸网箱养殖区覆盖范围广且远离岸边,在进行海水取样检测等管理工作时仅仅依靠传统的人工方式难以满足现代化大规模养殖的需求。针对这一问题,提出借助自主式水下潜器(AUV,Autonomous Underwater Vehicle)协助离岸网箱养殖区管理,通过配备水质检测传感器和无线通信系统,实现定时自主巡航监测。本课题主要研究AUV路径规划算法,具
青年一代有理想、有本领、有担当,国家就有前途,民族就有希望。一直以来,中国共产党始终牢牢抓住青年群体在国家社会发展中所发挥的这一重要作用,党的优良传统就是团结青年、依赖青年,仰仗青年。十八大至此,习近平把中国的实践发展需要作为出发点,以中国梦为中心,连系青年本身具有的特点,针对如何有效推动青年教育工作,实现立德树人的根本任务,在许多重要场合发表了一系列重要讲话,形成了关于青年教育系统、科学的观点,
日益严重的环境问题引发人类对清洁能源的迫切需求,电动汽车随之应运而生且迅速发展,同时带来了对充电桩的迫切需求。目前,传统的充电桩频繁接入电网,对电网的稳定性和电能质量产生影响。光伏充电桩的出现解决了上述问题的同时,还避免了对电缆资源和土地资源的浪费,其借助储能电池可以实现独立运行。因此在独立光伏发电系统中,储存能量的储能电池是不可缺少的组成部分。储能电池受环境温度变化、过充放电等因素的影响等,使其
本文研究了一个与三阶矩阵谱问题相联系的非线性演化方程的Darboux变换及其精确解.首先根据已知的Lax对得到与谱问题相联系的非线性方程,然后构造了一个关于谱参数的一次幂的规范变换,并在此规范变换下找出并证明了方程的Darboux变换,最后选取合适的种子解,利用线性代数系统和Darboux变换得到方程的一组精确解.
近年来,随着5G的发展应用,车联网和自动驾驶受到广泛关注,车辆雾计算也因可充分利用车辆闲置的通信和计算资源而被提出。作为车联网典型应用场景和自动驾驶车辆必备应用之一,实时情景感知地图可帮助车辆实现精准定位、路径规划等功能。实时情景感知地图构建主要分两部分:从云端获取地图数据和完成本地传感器数据处理。对于车辆雾计算环境而言,这两部分分别需要借助数据卸载和计算卸载技术实现更加高效的地图构建。但是,目前
乳腺癌作为女性最常见的一种癌症,每年因乳腺癌致死的女性人数仅次于肺癌。乳腺癌病理检测可以尽早发现癌症,采取及时的治疗措施,能够大幅度降低乳腺癌的死亡率。基于Patch图像的乳腺癌病灶区域识别方法被广泛应用于乳腺癌检测中。本文主要对训练数据不平衡问题,裁剪导致的空域信息丢失和推断加速这三个方面展开研究,在提高模型检测性能的同时,实现乳腺癌病灶区域的快速检测。乳腺癌训练数据中存在大量的正负样本不平衡和
目的通过观察虚寒型鼻鼽患者的临床特点,探索穴位敷贴与水针疗法在三伏天联合运用的近远期疗效,证明该法在缓解症状,提高免疫力、降低复发率等方面具有优势,为临床进一步推广提供依据。方法选择符合纳入标准的108例鼻鼽(虚寒型)患者,随机分为观察组(敷贴+水针组)、对照1组(敷贴组)、对照2组(水针组),每组36例。敷贴组取院内敷剂黄芩咳喘散(批审文号:沪药制字Z05190753)于大椎、肺腧、脾腧、肾腧穴