论文部分内容阅读
随着高性能计算机的普及,利用计算机协助人工来处理日常的信息已经成为当前计算机科学发展的重要方向。模式识别作为主要的智能信息处理技术已经越来越广泛地被应用到日常生活中。对于复杂的模式识别问题,单一的分类方法已经无法给出准确的分类结果。多分类器系统利用一组分类器和一种融合算法,通常能给出比单一成员分类器更好的性能,因此已经成为解决复杂模式识别问题的主要途径。 本文研究了并行结构多分类器系统设计、分级串行结构多分类器系统设计以及多分类器系统新应用中的关键技术及应用问题。对于并行结构多分类器系统设计,主要研究了分类器选择和融合算法;对于分级串行结构多分类器系统设计,主要研究了在有伪模式出现的识别问题中设计串行多分类器系统的问题并给出了一个有效的串行系统;对于新应用,主要通过一个应用来倡导研究多种途径应用多分类器系统。 具体包括: 1.研究了并行结构多分类器系统设计中的分类器选择问题,提出了分类器空间占有差异以及决策边界曲率差异的分类器几何特性及其比较方法。并提出了基于分类器几何特性比较的分类器选择策略。分类器几何特性比较直接在训练样本集上进行,方法的有效性在公开测试数据集上进行了验证。实验结果表明,所提出的比较分类器几何特性的方法可以有效的比较分类器决策区域形状的差异。所提出的分类器选择策略总可以选出一组分类器来构建性能优于平均性能的多分类器系统,甚至是构建性能最佳的多分类器系统。 2.研究了并行结构多分类器系统设计中的分类器融合问题,提出了度量层次输出空间的概念,并提出了在此空间上的输出邻域交割模型ONI(Output Neighborhood Intersection)。该模型将基于度量层次输出的多分类器融合问题转化为在度量层次输出空间中寻找最近正确融合点NCCP(Nearest Correct Combination Point)的过程。在ONI模型的基础上,本文提出了一个可训练的融合分类器度量层次输出的多分类器融合算法。本文从几何角度上比较了该算法与常用的加权平均值算法的差异,并用公开测试数据库验证了该算法的有效性。实验结果表明,所提出的基于ONI模型的多分类器融合算法性能最好,它和加权平均法一样健壮。 3.研究了在有伪模式出现的识别问题中的串行多分类器系统设计,提出了一个设计框架,并基于此框架提出了基于多层感知机(MLP)和正交高斯混合模型(OGMM)的可靠识别技术。该技术可以被应用到存在与正常样本差异较大的伪模式的识别问题中。通过 MLP进行快速、准确的识别,利用OGMM来拒绝差异较大的伪模式。该技术的有效性在从真实金融票据中收集到的印刷体数字、印刷体汉字、手写体汉字以及模拟的印刷体英文字母和印刷体符号测试集上进行了测试。实验结果表明,MLP-OGMM技术可以有效地拒绝诸如汉字及大部分英文字母、符号等伪模式,提高了金融票据印刷体数字识别的可靠性。 4.研究了多种途径应用多分类器系统,提出了间接应用多分类器系统改善性能的思想。给出了应用多分类器系统参与训练 MLP的新应用。该方法利用多分类器系统对于测试样本集样本的融合识别结果作为该样本的类别隶属度,并用这样的样本集来训练 MLP。进一步提出了利用多分类器训练一组 MLP来构成多 MLP团体。该方法利用每一个分类器对于训练样本的识别结果作为该样本的类别隶属度,从而产生了多个具有不同类别隶属度的样本集。分别用这些样本集训练出多个 MLP,并从这些 MLP中选择一些来组建多 MLP团体。实验结果表明,经过这样训练后,MLP的输出可以作为一种有效的可信度度量值,基于特定的阈值后,这样的MLP可以成功的拒识大部分易混的样本以及易混的伪模式,大大提高了MLP的可靠性。本文提出的方法产生的多 MLP团体形成的决策区域在各类别决策区域间存在着较大的空白区域,因此它能够拒识更多的位于该空白区域的易混淆的样本。这种多 MLP团体比其他如 Bagging、Boosting等方法产生的多 MLP团体更加可靠,并且多MLP团体比单一的MLP可靠。