论文部分内容阅读
模式识别(PR)是机器学习中的一个重要研究任务,而分类是模式识别中的一个基本的研究课题。目前,虽然面向大规模数据集的模式识别技术得到了较深入的研究,也获得了许多重要的研究成果并广泛地应用于实际生产中,但仍有许多问题需要进一步的探索和研究。本课题主要是面向大规模数据集,从学习效率、决策效率和隐私保护等3个方面给予重大关注,并进行深入研究。主要贡献有:(1)从分类间隔方面探讨分类技术,并结合相关技术提高分类器的学习速度。基于一种新的分类间隔概念,提出了最大向量夹角间隔分类器(MAMC),而MAMC的核化形式等价于中心约束最小包含球(CC-MEB),从而利用核心集向量机(CVM)将其扩展为MAM-CVM,实现了对大样本的快速训练。另外,利用样本间的密度差(DoD)构造分类间隔,提出了最大间隔对数向量机(MMLVM),给出的一般化误差界能保证算法在大样本数据集上获得更好的性能。真实数据集上的实验结果验证了算法的有效性。(2)从隐私保护方面探讨分类技术,提出具有隐私保护功能和快速决策方法。证明了ISE准则下的高斯核密度估计与最小包含球(MEB)等价,在此基础上提出了一种隐私团校准的MEB学习方法,并引入模糊隶属度函数解决二类及多类问题中的区域不可分问题。此外,鉴于一类支持向量数据描述(SVDD)决策速度较慢和模型隐私泄露问题,从样本的核特征空间出发,利用核超球球心在原始样本特征空间中的原像,提出一种SVDD的快速决策方法(FDA-SVDD),使得SVDD的决策复杂度从O(n)降低到O(1)并保护了模型隐私。(3)提出一种适合解决非线性问题的线性支持向量机(LSVM)快速集成模型FMELSVM。LSVM具有算法简单,训练和测试速度快等优势,但不能解决线性不可分问题。鉴于此,在LSVM基础上,提出了LSVM的快速集成模型FMELSVM,该模型运用径向基函数RBF的非线性组合来拟合非线性的决策函数。利用梯度下降法最大化训练样本的交叉熵对数似然函数,可以有效快速的获得优化解。真实数据集上的实验结果表明,此模型改善了LSVM的非线性能力和提高了训练和决策效率。(4)实现了一般化超球方法的快速学习。以一般化软间隔MEB模型为切入点,提出一般化MEB的快速学习方法(FL-GMEB)。一般化MEB模型对偶问题的不等式约束条件的变化,使其不能视为MEB问题,进而不能方便地使用CVM。鉴于此,FL-GMEB放松不等式约束条件,使其等价于CC-MEB,从而利用CVM获得其核心集(CS);然后利用局部线性嵌入(LLE)的逆思想将CS扩充为拓展核心集(ECS);最后利用ECS的优化权作为一般化MEB模型的逼近解。结果,FL-GMEB获得了一个保持样本边界局部结构的软超球,提高了对边界离群信号的鲁棒性。