论文部分内容阅读
随着计算机技术的快速发展,汉字识别技术也逐渐成熟,被应用于许多领域,如信件的智能分拣、稿件校对、笔迹鉴定、文档图像处理等。而细化算法是汉字识别预处理中最重要的技术之一,也一直是脱机汉字识别的瓶颈,因此本文重点研究汉字的细化算法。本文在研究实现已有算法的基础上,重点提出了若干改进算法,论文主要工作如下。(1)研究了细化前对图像的预处理,重点研究了基于纵横向积分法和区域扩张法两种方法的字切分最小包围盒算法。在纵横向积分法中提出对积分曲线应用小波变换进行平滑处理,提高了列、字切分的准确度。实验表明采用两种方法较好地实现了字符切分。接着,研究了 Z-S细化算法,最大圆盘骨架提取算法、基于数学形态学的细化算法、基于索引表的细化算法以及A-W细化算法等,重点研究实现了这些算法并比较其优缺点。(2)虽然A-W细化算法优于上述其他方法的细化结果,但仍存在非单像素问题、分叉点处畸变和毛刺等缺陷。基于邻接矩阵的单像素化处理算法对于笔画撇、捺的处理效果不理想,而基于模板匹配的单像素化处理算法对笔画撇、捺处理效果好,对交叉点处处理效果不佳,提出将这两种方法结合起来的新方法CEADAR(Combination of template matching and adjacency matrix),消除了可能存在的两像素宽的骨架,达到了良好效果;接着,针对A-W细化算法的不足,提出基于笔画走向预测的A-W细化改进算法,对于满足A-W删除条件的点,判断其笔画走向并优先保留横、竖、撇、捺四个笔画走向上的点,实验结果表明此算法改善了交叉点处畸变的现象。(3)提出一种骨架畸变的矫正算法。检测骨架上的特征点,针对最大圆算法在笔画连接后骨架会出现不平滑的现象,采用改进的最大圆方法进行分叉点合并以及局部笔画的重新连接,提出结合汉字结构知识规则来优化局部笔画的连接,可获得更优的效果。实验结果表明以上改进算法得到的细化结果是单像素而且无毛刺和分叉点的,在书法字库和宋体、楷体、黑体、隶书等数据集上均取得了良好的细化结果。