表单识别中的关键问题研究

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:xinran200391127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,大部分表单数据都是通过人工采集的方式进行统计和分析,而利用计算机对表单图像进行自动化识别、统计与分析可以大幅度提高工作效率。尽管一些基于OCR技术的表单识别软件系统已在邮件分拣、银行票据分析、选票统计等领域进行了应用,但对于调查问卷此类无固定约束和填写限制的通用数据表单的自动识别仍存在一定的问题。本文以“基于图像识别的自动化信息采集与统计分析技术研究及系统构建”项目的研发为背景,重点研究在表单处理过程中未得到很好解决的几个关键问题,包括表单图像的配准、表格的识别以及手写符号的识别。针对表单图像配准问题,提出一种基于局部特征图的Harris特征点检测的文档图像配准方法,该方法通过提取图像局部特征图的Harris特征点作为图像变换空间参数估计的依据,并结合两次特征点匹配过程对特征点进行匹配和提纯,从而准确、高效完成图像配准;为了识别表单图像中的表格信息,提出一种分步提取表格特征的表格识别方法,首先利用基于连通域的表格轮廓提取方法提取表格轮廓,确认表格所在区域,然后通过基于数学形态学的表格线提取方法提取表格中的表格线,最后根据所提取表格线交点特征获取表格单元信息,完成表格的识别;对于图像中的手写符号识别问题,本文采用基于深度学习-卷积神经网络的手写符号识别方法,通过构建符合手写符号特征的卷积神经网络,并采用丰富的训练集对网络进行训练,以达到对表单中书写不规范且存在背景干扰的手写符号准确识别的目的。利用表单图像对算法进行实验和分析表明本文提出的算法能有效地解决表单识别中存在的一系列关键问题,所构建的相关算法实现了表单图像精确而高效的配准以及对表格和手写符号的准确识别,为后续统计工作提供了可靠的依据,并对表单的批量化识别与统计奠定了基础。
其他文献
法学教育多以讲授式教学为主,在法律教学中使用影片作为教学辅助材料或者说直接以影片作为法律教学的对象则甚少。以影像在法律教学中的作用为标准,影像在法律教学中存在三种
经济的发展与生活水平的提高让人们对养生度假更加重视,养生度假旅游在这一背景下兴起。生态环境是养生度假旅游开展的前提和基础,养生度假旅游为生态环境的保护提供了动力。
在互联网高速发展的今天,新媒体以绝对优势代替传统媒体成为信息传播的主要媒介。新媒体依其丰富的资源库给人们生活带来便利的同时,其良莠不齐的信息对人们的思想和观念形成
采用标准样品检查、PM10采样流量检查和运行管理检查等方式,加强对全省环境空气自动监测站的质量管理和质量控制,保证了仪器设备的可靠运行和监测数据准确有效.实践证明,这套
健康养生正越来越成为居民生活的刚性需求,本文研究表明,在适度高海拔地区生活也有助于人体机能改善,因而可以突破传统养生理念,借助当前医疗、旅游、科技等手段,在适度高海
目的研究影响肝移植术后早期并发症的相关危险因素,以期改善患者预后。方法收集2011年9月-2017年4月于吉林大学白求恩第一医院肝移植中心接受原位肝移植术的147例肝移植患者
扭矩是旋转动力机械的重要性能参数之一,扭矩传感器是一种能够监测设备扭矩的仪器。精确实时的扭矩监测不仅能够反映设备工作状态,而且能够为设备性能的改进提供必要的参考。