【摘 要】
:
随着信息技术的飞速发展和网络的普及,大量的高维数据在我们日常生活中变得随处可见,成为人们生活的重要组成部分。然而,由于数据维数过高,如何准确且快速的从高维数据中获得
论文部分内容阅读
随着信息技术的飞速发展和网络的普及,大量的高维数据在我们日常生活中变得随处可见,成为人们生活的重要组成部分。然而,由于数据维数过高,如何准确且快速的从高维数据中获得对我们有用的信息变得至关重要。而特征选择在对高维数据进行降维处理中有着极其广泛的应用,因此特征选择方法呈现了它巨大的价值,越来越受到人们的关注,对特征选择方法的研究也非常有意义。本文将基于相似性的特征选择方法作为研究对象,首先介绍了特征选择方法的基本概念,并根据数据是否带有标签将特征选择方法分为三类:监督、无监督和半监督。通过介绍五种传统的基于相似性的特征选择方法,发现此类特征选择方法在选择过程中存在一个共同的现象,即会重复选择高度相关的特征。已知冗余特征可能对分类和聚类的性能产生不利地影响,因此应当通过高效的特征选择去除冗余特征以提高学习性能。基于以上提出的问题,我们介绍了有关保留相似性特征选择算法框架SPFS的概念,通过理论分析,展示了所介绍的框架与相似性保持相关的现有特征选择算法之间的联系。在此基础上,基于SPFS框架提出了三个优化算法:SPFSSFS、SPFS-NES和SPFS-LAR,以克服它们在冗余特征方面的缺点。最后,在监督学习和无监督学习环境下比较不同算法的优劣性。实验结果表明,基于SPFS框架的优化算法在分类准确率上提高了7个百分点,在冗余率上降低了16个百分点。实验结果表明该类算法在多种学习任务中有较好的性能。最后,针对只含有少量标签的大量数据,为了更好的将少量标签运用在数据预处理中,我们提出了一种基于属性依赖的半监督特征选择算法,将保留相似性的无监督特征选择算法Laplacian score与成对约束的特征选择算法Constraint score相结合,并在数据重构过程中引入了一个属性依赖矩阵。在成对约束条件下,计算每一维特征之间的平均互信息以及该特征对其他特征互信息的影响,从而得到每一维特征得分的目标函数。同时考虑每个样本点的K近邻局部保持能力对特征选择的影响,并不断优化目标函数。最后根据目标函数计算每一维特征的得分,从而选出最有用、最相关的特征。实验对比结果表明我们提出的半监督特征选择方法具有较高的准确率,并且比监督以及无监督特征选择方法有较低的计算复杂度以及更高的准确率。
其他文献
空间能力是数学认知能力的一个基本要素,它还渗透于数量概念表征、应用题解决等思维过程中。我国在2011年发布的《全日制义务教育数学课程标准》(以下简称新课标)指出:在“图
当前,政务新媒体(政务微博、微信公众号、政务头条号、短视频政务号、政务App等)应运而生,已然成为政府部门联系、服务、凝聚群众的重要平台,有效推进了政府职能的转变,并在建设服务型政府工作中扮演重要角色。为了促进政务新媒体健康可持续发展,近年来,各地出台了一系列文件来规范其运维管理,但实践效果却参差不齐,“僵尸”“雷人雷语”“不互动无服务”等现象仍时有发生,这说明当前政务新媒体在运维管理方面仍有短板
随着城市化、工业化和市场化的冲击,乡村地区正在进行社会经济形态和地域空间格局重构。各乡村通过调整地域空间结构和产业结构,谋求新的乡村转型发展模式,揭示乡村地域功能演变特征对于地域空间重构和发展模式优化具有重要意义。目前关于地域功能的研究区域和研究尺度多集中于沿海发达地区省域和县域,但对于新疆兵地乡村聚落微观尺度(团场和乡镇)地域功能研究较少。本研究以新疆典型“兵地”乡村聚落136团和小拐乡为例,依
表面微观几何轮廓的规则化程度和形貌特征会产生多种微观物理学行为,进而在宏观上表现出不同的使用性能。而电化学机械复合光整加工作为一种同时具备机械弱力刮擦作用和电化学溶解作用实现去除基体表面材料和改变表面微观形貌分布,并以工件达到光整表面和提高表面性能为目的的表面改形技术,其表面微观几何轮廓的形成与分布受诸多加工参数的影响。本文通过将有限元分析与试验相结合,研究了阴极复制效应、机械作用以及电解液百分比
随着科学技术的迅速发展,对于人才的需求急剧增加,科技人才已经成为各国竞相追逐的对象。博士生是国家科研人才的后备军,其培养质量关系着国家未来科技水平的发展与竞争。然
本文主要工作是设计并且实现了在多媒体联络系统(即新一代呼叫中心系统)当中的多模式高扩展的录制服务系统。针对的问题与场景是在呼叫中心系统当中用户与坐席通话时的录制需
目前,机器人同时定位与建图问题(SLAM)是移动机器人领域的一个重要研究方向,其目的主要是使机器人能够在未知环境下能够自主定位、记录自身运动轨迹并构建地图。SLAM是一个完
近年来,互联网技术的快速发展给汽车工业带来了革命性的变化。从1886年第一台汽车的发明起到今天,传统汽车产业的发展发生了不小的变革。伴随着汽车产量与保有量的提高,人们
本课题主要研究的是一类各向异性外尔半金属的电学性质。在外尔半金属的材料系统中,其低能准粒子的本征费米速度vF是一个通常远小于光速的材料参数。这些材料中的狄拉克锥可以相对于能量轴倾斜,有两种类型。其中,对于倾斜参数C小于费米速度VF,锥体倾斜不足(Ⅰ型);对于C>vF,为过度倾斜(Ⅱ型)。本文仅讨论Ⅰ型外尔半金属。在线性响应模型中,其带间光吸收部分纵向电导率的实部在2(1-2ξ)μ0处突然变化
目的:评价标准一、二线治疗失败后改良FOLFOXIRI方案对比其他系统化疗方案三线及以上治疗不可切除的转移性结直肠癌患者的疗效及安全性。方法:我们系统地搜索了从2011年01月至2019年06月杭州市第一人民医院和杭州市肿瘤医院的转移性结直肠癌患者。共59例患者纳入研究并接受了随访,其中试验组共20例患者后线应用了改良三药方案(m FOLFOXIRI/m XELOXIRI)(5-氟尿嘧啶/亚叶酸钙