基于Hubness的高维度不平衡数据分类算法

来源 :湖南大学 | 被引量 : 0次 | 上传用户:ttjjgogogo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据采集技术的发展和互联网应用的深入,越来越多的应用领域的数据呈现高维化趋势。相较于低维数据,各种机器学习方法和任务在高维度数据上面临严重的挑战。此外,在现实世界中,许多高维数据往往也是类不平衡的,如文本分类、生物医疗和图像分类等。目前,针对高维不平衡数据的k最近邻算法的研究尚未多见,本文在分析了高维数据特有的Hubness现象在不平衡数据出现的特异性偏向情形下,对高维不平衡数据的Hubness相关算法进行研究,主要工作包括以下两个方面。(1)针对高维不平衡数据中维数灾难和类不平衡分布这两个挑战性问题,提出一种基于Hubness和类加权的k最近邻分类算法(HWNN)。该算法考虑样本的k发生分布作为其在预测时对各个类的支持度,以此减少高维不平衡数据Hubness现象对于kNN分类带来的潜在负面影响。此外,通过类加权的方式,对少数类样本赋予更高的权重,增加少数类在所有样本的k发生中的分布比率以提升对少数类样本的预测精度。最后,在16个不平衡的UCI数据集上的实验结果表明,HWNN优于其他几种比较的k最近邻分类算法。(2)在基于Hubness的类加权k最近邻分类算法基础上,针对HWNN算法中全局类权重存在的过加权和欠加权问题,提出一种基于Hubness和动态加权的k最近邻分类算法(HDWNN),该算法考虑样本对各个类支持度受测试样本自身环境影响的因素,通过测试样本与类分布关系增加动态权重因子。对每个可提供支持度的样本,采用常规k近邻计算样本正确率,以此作为在预测时对各个类支持度的置信度。从而减少误分率较高的样本对于各个类的支持度,同时也减少了全局类权重所带来的过加权和欠加权。在16个不平衡的UCI数据集上的实验结果表明,在MAUC值和MG值评价指标上,HDWNN优于其他几种比较的k最近邻分类算法和HWNN算法。
其他文献
物权变动的主S有三:其一是法律行为,其二是事件和事实行为,其三是公法上的原因,如征收和没收。而基于法律行为的物权变动在大陆法系国家又分为三种不同的模式,分别是意思主义
随着信息技术的不断发展,我们正处在一个数据量爆炸增长的时代,同时也是一个越来越依靠数据进行决策的时代。传统的存储技术在面对海量数据的挑战时已经露出疲态,其扩展性差
心脏是哺乳动物的胚胎发育过程中最早出现的重要器官之一,它的正常发育包括多个步骤,首先从未成熟的中胚层细胞分化成心脏中胚层细胞,接着再由心脏中胚层细胞发育成心肌细胞
随着我国社会经济的飞速发展,人口老龄化程度不断加深,越来越多的老年人利用自己的闲暇时间加入志愿服务活动,投身社区建设,推动社区发展,实现“老有所为”。但老年志愿者在
研究背景:骨质疏松(OP)发病的病理机制为破骨细胞(OC)骨吸收的速率超过成骨细胞(OB)骨生成能力,从而导致负性骨平衡。人体骨骼持续不断地进行更新和重建,从而维持骨的新旧交
桩基础以其承载力高、适应性强、强度大和沉降稳定等优点,被广泛应用于高层建筑、大型厂房、桥梁、铁路和海上采油平台等大型项目中,是常见最实用的深基础。在高层建筑、海上
随着煤炭行业黄金十年的一去不复返,煤炭行业企业面临的市场形势日益严峻。国内煤炭产能急剧释放,国外进口煤炭数量节节攀高。在如此煤炭价格骤降的市场态势下,煤炭企业该向
社会主义和谐社会建设需要合格的公民,而合格公民的培育离不开教育。公民教育力图通过学校、社会及其他有效途径,有目的、有计划地培养全体社会成员具有广博公民知识、健全公
随着竞技健美操的蓬勃发展,各国顶尖选手的运动水平差异日益减小,在比赛中的竞争愈演愈烈,并朝着“难、新、美、稳、准”的方向前进。各国参赛选手为了增强与同伴的竞争力,高
“说不上X”构式是现代汉语中常见的一个结构,如“说不上漂亮”。本文运用构式语法理论,对其构式意义、构件特征进行考察,在此基础上探讨该构式的功能以及形成的机制与动因,