论文部分内容阅读
脱机手写体汉字识别技术是模式识别领域的一个研究课题,具有广泛的应用前景。脱机手写体汉字不仅具有字符集庞大、字体类别多、字型变化多、相似字多的共性,还具有书写风格众多、书写不规范和随意性较大等特点。本文在对脱机手写体汉字笔划密度特征分析研究的基础上,研究了一种基于汉字笔划密度特征的二叉树SVM的脱机手写体汉字多级粗分类与“一对多”SVM细分类相结合的汉字识别方法,论文的主要研究工作如下:1、在研究汉字结构特征与统计特征的基础上,定义了脱机手写体汉字整体笔划密度特征和细节笔划(横、竖、斜)密度特征,用作脱机手写体汉字多级粗分类依据。2、在统计分析脱机手写体汉字像素密度特征分布的基础上,建立了汉字粗分类类别;根据粗分类类别的划分,构造不同粗分类策略的二叉树结构形式,并对二叉树SVM进行训练;给出了用于剪枝二叉树SVM粗分类的相似度定义和粗分类算法,仿真实验表明,脱机手写体汉字多级粗分类达到了预期效果。3、在粗分类的基础上,提取脱机手写体汉字的外围轮廓特征和小波多网格特征作为SVM细分类识别的输入,研究了用于脱机手写体汉字识别的SVM“一对多”算法。仿真实验表明,具有良好的识别结果。论文选用SCUT-IRAC HCCLIB中手写体汉字作为实验样本,以MATLAB R2011a为仿真平台,对本文提出的基于像素密度二叉树SVM分类识别的方法进行了实验验证,结果表明本文方法是可行的。