属性选择算法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:watersss1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不管是科学研究还是工业领域,都已经与各式各样的数据密不可分。随着精度要求的提高,高维数据变得愈加普遍。然而,高维数据不仅带来存储成本和计算开销的大幅增加,其中存在的大量冗余会给机器学习模型带来干扰,并最终导致获取知识的不准确。内在的认知模型往往仅存在于少数属性之中,意味着高维数据存在大量冗余,而用来决策的属性只占少数。因此,在进行数据挖掘或者知识发现之前,需要对高维数据进行预处理,即通过降低数据维度,避免冗余干扰,从而有效提高分类、回归、聚类等数据处理手段的准确性。数据降维技术作为重要的数据预处理方法在机器学习、模式识别、工业生产、科研领域都扮演着极其重要的角色。子空间学习和属性选择是两种主要的数据降维方法,子空间学习是鲁棒性的投影模型,而属性选择是解释性的选择模型,本文旨在稀疏属性选择框架中嵌入子空间正则化因子提出新的属性选择算法,使算法同时具有鲁棒性和解释性。具体来说:1.提出基于自表达和双稀疏惩罚的无监督属性选择算法。通过利用属性自表达损失函数对数据进行重构,然后同时利用l1范数正则项和l2,1范数正则项对重构系数矩阵进行稀疏惩罚,从而实现对冗余属性的双重筛选,使保留下来的属性均为最重要属性。2.提出基于自表达和主成分分析(PCA)正则项嵌入的无监督属性选择算法。通过将经典的子空间学习算法PCA嵌入到稀疏属性选择框架中,在保持数据主信息量不变的前提下学习各属性重要性,从而剔除冗余属性。3.提出基于自适应结构学习和低秩约束的属性选择算法。利用低秩正则项在充满噪声的高维数据中捕捉数据隐藏的全局结构,且利用动态图结构学习捕捉数据的真实局部结构特性,从而为模型的训练提供充足信息并最终提高属性选择的准确性。利用真实公开数据集对提出算法进行验证,在不同的评价指标下,本文提出的算法优于最新的属性选择算法。
其他文献
云计算、视频会议、高清电视、物联网的快速发展,对现有骨干网的传输能力提出了巨大的挑战。传统采用波分复用技术的骨干网络是将一根光纤划分若干个波长子信道,因此提高了每
目的:细胞凋亡的异常与癌症的发生发展密切相关,对其机制的探究对于癌症的治疗具有深远意义。肿瘤坏死因子(Tumor Necrosis Factor,TNF)相关凋亡诱导配体(TNF-related apopto
随着人们生活水平的提高,我国居民越来越重视个人的生活质量,也因为改革开放的伟大成就,我国人民的消费能力也不断增强,尤其是女性消费者对于化妆品的需求也越来越大。随着消
绿色移动通信技术是未来蜂窝移动通信系统可持续发展的关键,毫微微基站由于具有发送功率小、频谱效率高,且支持高速率的移动用户接入并提供更高的服务质量等优点,已成为移动
目的腹壁切口疝是腹部手术后常见的并发症之一,手术修补是唯一有效的治疗方式。目前腹膜前间隙补片置入术(Sublay)是开放切口疝修补术中最有效的手术方法。随着技术的发展,腹
近年来随着智能手机和移动互联网应用的快速发展,基于位置的服务(Location-Based Service,LBS)吸引了越来越多的关注。实时定位技术已经成为交通、商业、物流、个性服务等多
全球卫星导航系统(GNSS,Global Navigation Satellite System)的应用逐渐成熟普及,然而GNSS信号本身的脆弱性容易导致其受到干扰造成定位精度下降甚至不可以用,因此具有干扰
结直肠癌是发生在结肠或者直肠内壁的恶性肿瘤,在癌症中全世界致死数排名第二。因此,找出敏感性、特异性较好的生物标志物对于提高结直肠癌的诊断精度、监测结直肠癌患者预后
对高速率数据传输的急剧需求一直是多天线宽带无线通信的主要推动力。然而,许多无线信道呈现出频率选择性,这导致性能显著下降。正交频分复用(Orthogonal Frequency Division
随着信息技术的高速发展与广泛应用,互联网与计算机已完全融入人们的生活。但是相应的,网络入侵的风险也急剧增加。IDS作为重要的信息安全辅助系统,能够应对网络蠕虫及部分恶