论文部分内容阅读
随着国家经济和科学技术的飞速发展,增值税发票充分参与了社会中一系列的经济和贸易活动。针对增值税发票的处理和归档工作对于公司或者机关的会计人员都是统一的和循环往复的工作。近年来随着神经网络的发展,深度学习应用于文本识别已经成为一个非常热门的研究方向。深度学习利用快速的图像处理和特征提取技术,能够高效的定位发票图像信息区域并将其中的文字识别出来,对于降低人力、物力成本具有十分重要的意义。本文主要研究增值税发票的文本识别功能。由于受到人为或机器故障的影响,部分发票在利用扫描仪采集后都存在着字迹不清晰,文本行间距过于紧密,字符特征不明显,以及印章、噪音等情况不同程度的影响。同时,发票在采集过程中存在倾斜或者光照不均等情况。一般场景目标检测网络可以准确定位到文本的上下行,但是在密集文本中的定位,存在着定位重叠、错位的情况,这也会给文本的识别造成很大的困难。在文本识别时,传统的通用数据集不能完全贴近真实的发票文本,因此对定位的准确率也会造成干扰。针对以上问题,本文的主要研究工作如下:(1)因为发票整体版面呈现标准的表格状,所以在预处理中加入了表格框线检测并输出坐标,为后续定位工作提供预服务。本文提出一种基于计算周边矩形连接元素高度的自动估计平均字符高度的方法,该方法结合open CV中的形态学操作,可以很好的检测出发票图像的表格框线,并输出框线坐标。(2)因为大部分经过激光扫描仪录入计算机的发票图像上会出现的文本特征较差,文字字体各异、尺寸不同且行间分布的问题。本文提出了基于改进的CTPN的文本定位方法,该方法不但结合了常用损失函数中的分类和回归计算部分来判断真实文本框的概率,还利用预处理部分得到的表格框线坐标,在损失计算中加入了坐标差值置信度的考量。(3)针对通用文本数据集不真实的问题,本文采用现实场景下使用的真实发票数据集。。设计了基于Tensor Flow的发票文本识别框架,该识别框架结合卷积神经网络Dense Net对字符数据集进行训练。最后,利用识别模型对定位到的发票文字进行识别。