论文部分内容阅读
随着数据采集技术的发展和互联网应用的深入,越来越多的应用领域的数据呈现高维化趋势。相较于低维数据,各种机器学习方法和任务在高维度数据上面临严重的挑战。此外,在现实世界中,许多高维数据往往也是类不平衡的,如文本分类、生物医疗和图像分类等。目前,针对高维不平衡数据的k最近邻算法的研究尚未多见,本文在分析了高维数据特有的Hubness现象在不平衡数据出现的特异性偏向情形下,对高维不平衡数据的Hubness相关算法进行研究,主要工作包括以下两个方面。(1)针对高维不平衡数据中维数灾难和类不平衡分布这两个挑战性问题,提出一种基于Hubness和类加权的k最近邻分类算法(HWNN)。该算法考虑样本的k发生分布作为其在预测时对各个类的支持度,以此减少高维不平衡数据Hubness现象对于kNN分类带来的潜在负面影响。此外,通过类加权的方式,对少数类样本赋予更高的权重,增加少数类在所有样本的k发生中的分布比率以提升对少数类样本的预测精度。最后,在16个不平衡的UCI数据集上的实验结果表明,HWNN优于其他几种比较的k最近邻分类算法。(2)在基于Hubness的类加权k最近邻分类算法基础上,针对HWNN算法中全局类权重存在的过加权和欠加权问题,提出一种基于Hubness和动态加权的k最近邻分类算法(HDWNN),该算法考虑样本对各个类支持度受测试样本自身环境影响的因素,通过测试样本与类分布关系增加动态权重因子。对每个可提供支持度的样本,采用常规k近邻计算样本正确率,以此作为在预测时对各个类支持度的置信度。从而减少误分率较高的样本对于各个类的支持度,同时也减少了全局类权重所带来的过加权和欠加权。在16个不平衡的UCI数据集上的实验结果表明,在MAUC值和MG值评价指标上,HDWNN优于其他几种比较的k最近邻分类算法和HWNN算法。