论文部分内容阅读
在模式识别领域,有很多问题需要获取大量的有标记数据以训练出高精度的分类器,但有标记数据的获取却是非常困难的,甚至要消耗大量的人力物力。随着数据收集和存储技术的飞速发展,未标记数据的获取变得相对容易。因此如何挖掘未标记数据携带的信息,辅助少量的有标记数据进行半监督学习,成为近年来国内外研究的一个热点问题。在现有半监督学习算法的基础上,如何更好的结合集成学习技术,训练多个分类器互相协作进行半监督学习,是一个值得深入研究的方向。本文在该方向上进行了研究,取得的主要成果有:(1)提出了一种半监督学习算法—Vote-Training。在UCI数据集上的大量实验表明,Vote-Training算法可以有效地利用未标记样本训练出识别率更高的分类器,与已有的半监督学习算法—Tri-Training相比,该算法耗费的时间较少,结构更为灵活,可以针对不同的问题调整投票策略,选取最合适的方式来解决具体的问题。在实验中,还对实验数据做了进一步的分析,指出了Vote-Training算法有效的前提条件。(2)分析了传统的协同训练算法存在的不足之处,通过加入更多的分类器和引入主动学习技术,提出了改进的协同训练算法—CTA,在UCI数据集上的实验验证了该算法的优越性。半监督学习算法存在着选择优越性的问题,没有一种算法能够解决所有的半监督学习问题。深入分析现有的算法,运用相关原理和技术,探寻一个统一的原则来指导具体的半监督学习问题是一个很有意义的研究方向,本论文即是对此的一个有益尝试。