论文部分内容阅读
目前,大部分表单数据都是通过人工采集的方式进行统计和分析,而利用计算机对表单图像进行自动化识别、统计与分析可以大幅度提高工作效率。尽管一些基于OCR技术的表单识别软件系统已在邮件分拣、银行票据分析、选票统计等领域进行了应用,但对于调查问卷此类无固定约束和填写限制的通用数据表单的自动识别仍存在一定的问题。本文以“基于图像识别的自动化信息采集与统计分析技术研究及系统构建”项目的研发为背景,重点研究在表单处理过程中未得到很好解决的几个关键问题,包括表单图像的配准、表格的识别以及手写符号的识别。针对表单图像配准问题,提出一种基于局部特征图的Harris特征点检测的文档图像配准方法,该方法通过提取图像局部特征图的Harris特征点作为图像变换空间参数估计的依据,并结合两次特征点匹配过程对特征点进行匹配和提纯,从而准确、高效完成图像配准;为了识别表单图像中的表格信息,提出一种分步提取表格特征的表格识别方法,首先利用基于连通域的表格轮廓提取方法提取表格轮廓,确认表格所在区域,然后通过基于数学形态学的表格线提取方法提取表格中的表格线,最后根据所提取表格线交点特征获取表格单元信息,完成表格的识别;对于图像中的手写符号识别问题,本文采用基于深度学习-卷积神经网络的手写符号识别方法,通过构建符合手写符号特征的卷积神经网络,并采用丰富的训练集对网络进行训练,以达到对表单中书写不规范且存在背景干扰的手写符号准确识别的目的。利用表单图像对算法进行实验和分析表明本文提出的算法能有效地解决表单识别中存在的一系列关键问题,所构建的相关算法实现了表单图像精确而高效的配准以及对表格和手写符号的准确识别,为后续统计工作提供了可靠的依据,并对表单的批量化识别与统计奠定了基础。