论文部分内容阅读
模式分类是机器学习的一个重要研究分支。传统模式分类包括监督分类和无监督分类两种方法,其训练数据集要么是带标签数据,要么是无标签数据。随着新应用的不断出现,训练数据集中同时包含带标签数据和无标签数据,无标签数据数量非常多且获得新的无标签数据非常容易代价低廉,而带标签数据数量非常少且获得新的带标签数据非常困难代价昂贵;并且还出现了一种新现象,无标签数据和带标签数据来自不同但相关的领域。针对该现象,本文以最小包含球、核向量机、特征扩维和共享隐空间等理论为指导思想,结合支持向量机,针对监督分类、半监督分类和迁移分类三种不同研究场景,提出了几种带标签和/或无标签数据综合利用的模式分类新方法,主要研究成果如下:1)针对监督分类场景,将以稀有带标签数据为训练数据的分类问题应用到推荐系统中,提出了针对异质空间大数据相似性问题的推荐算法及其快速算法,算法本质上是基于监督分类模型的个性化推荐算法。具体来说,该算法将传统推荐方法和最小包含球、核向量机等理论相结合,以支持向量机理论为基础,将传统推荐方法转化为中心约束的最小包含球问题,从而使其具备大样本快速处理能力。实验中将所提方法应用到电影推荐系统中,验证了所提方法的有效性。2)针对半监督分类场景,从传统半监督分类自标记过程中由于带标签数据标签受到攻击产生误标而扩大类标签错误着手,以支持向量机为分类模型,从数据特征角度提出了一种基于特征扩展的半监督支持向量机分类算法。该方法首先以带标签数据和无标签数据间概率分布积分均方误差最小为原则,通过一个行正交变换将数据原始特征进行扩展;然后以分类器最大间隔原理为指导,在扩展的特征空间中对带标签数据进行训练得到最终模式分类器。相关实验结果验证了所提半监督模式分类器的有效性。3)针对半监督分类场景,以基于特征扩展的半监督支持向量机分类算法为基础,在运行时间和安全使用无标签数据方面对其进行改进,提出了一种基于过取样技术和共享隐空间理论的半监督分类方法。该方法首先使用过取样技术以带标签数据和无标签数据为基础生成新的带标签的合成数据;然后以原始带标签数据和合成数据间概率分布积分均方误差最小为原则,寻找原始带标签数据和合成数据间的共享隐空间;最后在原始特征空间和共享隐空间组成的扩展空间中对原始带标签数据进行训练得到最终模式分类器。相关实验结果验证了所提半监督模式分类器的有效性。4)针对迁移分类场景,为充分挖掘不同但相关领域间的共性“知识”,从特征变换角度出发提出了一种新的基于特征的迁移分类方法。该方法充分考虑领域原始特征空间和领域间共享低维隐空间的约束,具体来说:首先引入一个特征变换参数矩阵作为领域间的共享隐变量,通过该共享隐变量将源域和目标域数据映射到一个公共的低维子特征空间上;进一步地,基于原始特征空间和公共低维子特征隐空间构造联合决策函数,把领域原始特征空间和领域间公共低维子特征隐空间同时嵌入到支持向量机的训练中,从而学习到一个在目标域中泛化性能更好的分类器。相关实验结果验证了所提迁移分类方法的有效性。5)针对迁移分类场景,为充分挖掘不同但相关领域间的共性“知识”,避免“负迁移”现象发生,从训练数据属性角度出发假设不同领域间数据存在某些共享的隐特征,提出迁移共享特征支持向量机算法。该方法以分类器最大间隔原理为指导思想,通过最大化源域无标签数据和目标域带标签数据的联合概率分布,来构建源域和目标域间的共享隐特征;为充分考虑目标域带标签数据的分布情况及其类标可能受到攻击情况,在目标域原始特征和共享隐特征组成的扩展特征空间中对目标域中的带标签数据进行训练得到目标域的最终分类模型。相关实验结果验证了该迁移学习分类器的有效性。