基于集成学习的特征选择算法的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:purelife100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着计算成本和存储成本的降低,集成学习成为机器学习领域的一个热门方向,通过模型的组合,能同时获得模型在计算能力和计算准确度这两个方面的巨大突破。集成方法根据基学习器和训练数据的不同,主要分为异质集成和同质集成。目前,将集成学习的思想应用在特征选择上的相关算法较多,但大多数集成特征选择方法都赋予了基学习器相同的权重,事实上,不管是异质集成和同质集成,在训练过程中均会产生不同的基学习器,各个基学习器对于训练集的适应程度不同,因此,我们针对集成特征选择方法在该方面的不足,提出了不同的基于权重调节的集成特征选择方法。针对同质集成,本文提出了基于softmax的集成特征选择方法,我们利用softmax函数,结合每个基学习器对数据集的适应度,对基学习器的投票权重进行调节,对于适应度较好的基学习器,其投票权重较高,同时,本文对该方法相比于无权重调节的集成特征选择方法在泛化能力上的提升进行了理论分析,并通过实验验证了基于softmax函数的集成特征选择方法在泛化性能上要优于无权重调节的集成特征选择方法。针对异质集成,本文提出了基于遗传算法的集成特征选择方法,该方法利用遗传算法对基学习器权重向量进行评估、迭代以及优化,得到最优的权重向量。针对返回的权重向量的类型,该方法分为两种——基于最优权值的集成特征选择方法和选择性集成特征选择方法,其中基于最优权值的集成特征选择方法返回的权重向量为连续型,选择性集成特征选择方法返回的权重向量为离散型,最后通过实验验证了这两种方法相比于无权重调节的集成方法在泛化能力上更具优势。此外,在基于遗传算法的集成特征选择的基础上,针对遗传算法不擅长处理连续问题以及计算复杂度高的缺陷,本文提出了基于粒子群算法的集成特征选择方法,最后通过实验验证了该方法在速度上的优势。
其他文献
中职护理教学的目的就是培养护生临床思维、职业道德、动手能力以及让学生养成科学严谨的学习态度和优良的工作作风。在中职护理教学中,采用科学的、创新的教学方法培养出了
加拿大是一个多民族和多文化国家。多元文化形成过程既造成了加拿大文化丰富的多样性未来,同时也产生了不同文化间的矛盾和冲突。20世纪60年代,随着魁北克问题①的凸显,魁北
利用概率收缩的概念,在比文献[1]条件弱的情况下,重新探讨了MengerPN空间中非线性算子方程解的存在性.
对于上隅角瓦斯积聚问题,除采用通风、抽放等措施外,世界各主要产煤国均在引排设备方面进行了研究。负压引排是一种行之有效的方法。笔者提出采用大功率抽出式风机直接引排上
本文采用半结构化开放式问卷了解灾难对人们的思想产生了哪些积极的影响。结果:灾难改变了人们对人与自然关系的认识;灾难改变了人们对个人与社会关系的认识;灾难改变了人们
随着互联网经济的到来,"互联网+城市商业综合体"正创造着商业地产运营模式的新格局.传统城市商业综合体呈现出网络化、智能化、整合化等新的市场特征,通过"互联网+"创新技术
播州宣慰司地处偏僻,杨氏借其列祖余威经略播州,自洪武至万历历经九代,多次受赐服,所赐之服不仅有品官的官服,还有麒麟服、蟒衣、飞鱼服。赐服制在明中后期形成滥赐的局面,表
新形势下,加强离退休干部党建工作是一项艰巨任务,鉴于离退休干部队伍在组织结构上出现改变,离退休干部党建工作转型是实现科学发展的重要前提,发挥着重要作用。本文将对离退
近年来,社会发展所带来的环境问题已经得到了人们和相关政府部门的重视,其中交通设施影响环境的问题更是得到了重点关注。因此,绿色汽车的概念也相继被提出,文章就结合了绿色
目的分析肺炎患儿的住院费用及其影响因素,为有效减轻儿童肺炎经济负担提供参考依据。方法选择北京市某三甲医院2015年1月至2017年5月住院的肺炎患儿病例资料,对数据进行描述