多标记分类中的半监督降维和集成学习

被引量 : 0次 | 上传用户:justinviva
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标记分类及其应用是当前机器学习和数据挖掘领域的热点问题,其中多标记维度约减和多标记集成分类是非常值得研究和探讨的两个方向。传统机器学习的研究对象是数据样本仅具有一个标记的单标记问题,而本文主要研究样本同时具有多个标记的多标记问题。论文研究了多标记分类、半监督学习、维度约减和集成学习的基本方法及其在各种数据集上的应用,并分别从数据预处理和分类器集成两个角度,研究了如何结合半监督学习对高维多标记数据进行维度约减和如何利用集成学习提高多标记分类的性能。实际中常遇到高维多标记数据仅有少量标记样本而大部分样本却没有标记的情况,为了有效去除冗余特征并使用未标记样本提供的潜在信息,将半监督学习引入到多标记维度约减中,提出基于半监督判别分析的多标记维度约减算法(MSDA)。该算法利用标记样本的属性图加权矩阵和部分标记的相似关联矩阵,最大化不同类别样本之间的分离度,同时使用未标记样本估计原始高维数据在低维数据流行上的内在几何结构。实验表明,MSDA算法在多个分类评价指标上的平均性能均优于其他方法,证实了算法的有效性。针对多标记数据的分类性能不理想的问题,将集成学习引入到多标记分类中,提出一种基于软成对约束投影的多标记集成算法(SPACME)。该算法通过重采样训练样本提供的软成对约束信息建立初始基分类器,利用获得的cannot-link集合和must-link集合构建约束投影矩阵,并将原始数据映射到新的数据空间表示,然后在转换后的数据集上使用权重更新策略迭代地训练一组基分类器以增加差异性,最后对多个基分类器的结果使用多数投票的方法输出标记集。实验表明,SPACME算法利用软成对约束信息明显提高了多标记数据的分类准确率等各项性能,且算法具有良好的健壮性。
其他文献
药用植物内生真菌在植物生长发育、抵御不良环境甚至繁育生殖过程中都扮演着重要的角色,尤其在宿主的次生代谢产生中具有十分重要的作用。内生真菌的代谢产物具有多种生理活
满新颖《中国近现代歌剧史》一书以深刻总结的"中国歌剧思维"作为全书的理论基础,借鉴文献学和史学研究方法记述了明清以来到新中国成立前中国歌剧的孕育、发生和形成的演进
浙江省良好的老年服务体系建设为老年服务教育事业奠定了坚实的发展基础,为满足省内养老机构高级养老护理员和管理人才的市场需求,老年服务与管理专业必须切实推进"工学结合"
<正>太阳周日视运动轨迹图是以观测点为中心,太阳在天球上运行所形成的轨迹示意图。通过太阳周日视运动轨迹图能直观形象地反映出任一地点任意一天内的正午太阳高
男高音,高音难,这是声乐界一个公认的事实。但同时男高音也是所有声部中最辉煌、最具魅力也最激动人心的声部。尤其是当我们聆听一些中外著名男高音歌唱家的演唱,他们那漂亮
能引起家禽发生副伤寒的病原体是沙门氏菌属的细菌,种类很多,已超过1000种。对人类及很多动物均能致病,其中常见的且危害较大的细菌达30多种。随着养鸡效益的提高,本地养鸡数
颅骨钻孔引流术是治疗老年慢性硬膜下血肿的首选方法,本研究对其围手术期集束化的病情评估、护理方法进行总结,为提高手术效果、减少并发症提供临床证据及线索.
<正>虽然我国开发利用石材的历史悠久,但作为一个产业,与国外石材工业发达国家相比,石材工业在我国应该算是一个新兴的工业产业。将科学建设、机械化和环保化开采理念引入石
<正> 城镇是一定区域范围内的经济活动的产物,是区域的中心,是区域经济联系的焦点。无论过去、现在或将来,城镇基本影响区(也称腹地)都是支持城镇存在和发展的基本地区,是决