论文部分内容阅读
传统的监督学习中,学习器只对标记样本进行训练。然而标记样本的获取常常是困难的、昂贵的、费时的。同时获取大量未标记样本相对较为容易,但是有效使用未标记样本的方法并不多。半监督学习用来解决这个问题:给定一个来自某未知分布的少量有标记示例集以及大量的未标记示例集,期望学得一个更好的函数可以准确地预测示例的标记。由于半监督学习需要很少的人工标记样本,并且能够给出更高的精度,它在理论上和实践上引起了极大的兴趣。
本文介绍了半监督学习的相关背景知识;给出了半监督学习在一些特定的模型假设下的推广误差界;介绍了流形上的半监督学习方法和基于图的半监督学习方法,并给出了相关的正则化算法;提出了一种解决核参数选择困难的核(图)组合方法;将半监督学习与图论相关知识联系起来,考虑到推广误差可以分为样本误差和正则误差,着重讨论了基于图拉普拉斯组合的半监督学习算法的推广性能,并证明了在组合图拉普拉斯空间中基于图的半监督正则化算法的推广误差与数据图本身的结构变量紧密相关。主要内容如下:
第1章介绍半监督学习的背景、意义和主要研究方法。
第2章给出了半监督学习的一些理论结果。介绍了拉普拉斯特征映射(Laplacian Eigenmaps)学习算法、流形上的半监督学习和图上的半监督学习,给出了相关的正则化算法;对于基于图的半监督学习,介绍了转导学习界并且通过最优化这个界得到了最优核表示;对于半监督分类,在聚类假设的前提下,给出了推广误差界。
第3章主要讨论基于图拉普拉斯组合的半监督学习算法的推广能力。考虑基本图的正线性组合,通过最优化线性组合中权值系数,可以得到一个最优图组合方式。在组合图核空间中,探讨半监督学习方法的推广误差界。由于推广误差可以分为样本误差和正则误差,文中利用Rademacher复杂度来研究样本误差,引入图分割(graph cut)来研究正则化误差,证明了在组合图Laplacian空间中基于图的半监督正则化算法的推广误差与数据图本身的结构变量紧密相关。
第4章是对本文工作的总结和展望。