复杂场景文本识别技术研究

来源 :北京科技大学 | 被引量 : 7次 | 上传用户:bamboo007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本图像识别是机器视觉领域的重要研究课题之一。在近几十年的研究中,人们对非自由的脱机手写字符识别和背景单一的印刷体字符扫描文档识别等任务已经有了成熟的解决方案。伴随互联网规模的扩张和多媒体的发展,人们也开始关注复杂场景下的文本识别任务:包括复杂手写体文本识别、自然场景文本检测识别等。现有文本识别技术多是基于整词图像建模的深度卷积神经网络模型。虽然这一技术在实践中取得了较好的成果,但是仍存在几个问题:其一,在进行深度卷积神经网络训练时,需要大量的标定样本。然而现有的场景文本图像,特别是手写体文本图像,其标定数据较少,不能满足训练的需求。其二,现有的几种识别模型各有其局限性:基于整词编码和整词图像建模的模型的扩展性差;基于字符序列编码的模型识别率低于整词编码模型;基于整词图像建模的模型对于相近词的识别能力较差。其三,在端到端文本识别任务中,文本识别的性能依赖于文本定位的精度,然而在现有端到端文本识别系统中,文本检测很难精确定位到词文本区域。针对这三个问题,本文分别进行研究,并取得了如下研究成果:1.基于二值标签编码网络的少样本词文本识别针对训练样本有限、书写复杂的手写体词文本图像,本文提出一种少样本词文本识别深度学习模型——二值标签编码网络。该网络首先使用深度卷积神经网络进行特征提取,同时使用迭代量化方法对文本标签的PHOC编码进行二次编码,最后通过相关匹配对词文本图像进行识别。在IAM数据集上的实验结果表明,即使使用少量的训练样本,二值标签编码网络也可以取得很好的效果。此外,实验结果表明,基于深度卷积神经网络的特征提取方法,在性能上要优于传统特征提取方法。2.基于深度卷积神经网络集成的多通道词文本识别针对复杂的自然场景图像,本文提出一种基于深度卷积神经网络集成的词文本识别方法。该集成模型首先将输入图像从RGB通道转化到YUV通道。其次使用多种异构深度卷积神经网络模型对YUV三个通道的图像分别进行识别,并对识别结果进行融合。最后,对识别结果进行校正,得到最终的识别结果。在三个自然场景图像数据集(SVT、ICDAR2003、ICDAR2013)上的实验结果表明,本文的集成模型在无标点文本识别、带标点文本识别以及大小写敏感文本识别任务中都取得了很好的效果。此外,实验结果表明,本文使用的集成模型在性能上要优于单独的模型。3.基于识别反馈机制的端到端文本识别针对自然场景端到端文本识别,本文首先提出了应用于端到端场景文本识别的检测-识别反馈机制的通用框架。该框架主要分为三个部分:(1)利用词文本区域的定位结果、识别结果和语言模型进行候选扩展,得到扩展区域候选集合。(2)利用扩展区域候选集合的定位结果、识别结果和语言模型对扩展区域候选集合进行评价,选取最优的区域候选集合。(3)将区域候选集合中的词文本区域候选作为新的输入,重复(1)(2)。在此基础上,设计了基于识别反馈机制的端到端文本识别方法。首先,使用传统文本检测方法对场景图像总的文本区域进行粗定位,随后基于识别反馈机制得到文本区域的精定位结果。最后,对重叠区域的识别结果使用基于字符序列编码的非最大值抑制算法进行归并。在两个自然场景图像数据集(ICDAR2015挑战1、ICDAR2015挑战2)上的实验结果表明,本文模型在场景图像中的文本识别任务中取得了很好的效果。本文提出的基于检测-识别反馈机制的通用框架对于提高识别结果的准确率有很好的效果。
其他文献
近年来,我国数十个大大小小的名城开展了"重建古城"的运动,在全国引起了广泛的关注。2013年以后,在多种因素的共同影响下,这股重建风潮受到了部分遏制,但由此带来的诸多弊病
党报是我国报业发展的核心力量,在传媒市场激烈的竞争环境下,党报要想实现更长远的发展,就要在整合资源的基础上,加大品牌建设力度。本文从改变党报经营理念、制定品牌营销策
小学语文教师的专业素养是我们新课程教学改革所提倡的内容,语文教学改革对教师提出了新的要求和素养,小学语文教学对教师新的教学素养结构模式提出了新的要求,主要是针对现
基于宣传营销目的的企业信息发布材料是译者在翻译实践的过程中最常接触的文本之一。这类材料具有以下三个特点:句型简单,多用疑问句与祈使句;多用修饰成分;带有鲜明的企业自
喷墨打印在票据、标签、包装等方面应用广泛,近年来逐渐扩展到服装、印刷电路板(PCB)制造、文化创意产业等先进的高端领域。相比于传统的制备方法,喷墨打印具有图案化能力强
国际金融危机以来,各国政府越来越重视跨国公司的国际避税问题,加强了反避税的国际合作。本文回顾了反避税国际合作的历史、避税与反避税的现状和反避税国际合作的发展趋势,
"受益所有人"的概念最早起源于英美法系,在上世纪70年代,被OECD引入了税收协定范本,并逐渐发展成为一种防止跨国企业滥用税收协定、套取税收利益的反避税机制。然而,长期以来
自然场景图像中的文本信息可以传达丰富而准确的高层语义信息,是理解场景内容的关键元素。随着图像和视频的数量呈现出快速的增长,自然场景图像中的文本检测技术得到了国内外
自改革开放以来,我国出版行业无论在规模上还是实力上都有了质的飞跃。为了更好地应对现如今数字媒介的快速发展,出版行业顺应发展趋势,加快媒介融合的脚步,出现一波又一波并
在线社交网络是当代社会信息传播的主要渠道和载体。研究社交网络信息传播机理有助于加深对网络结构属性和用户行为的认识,对于国家安全和社会稳定也具有重要的意义。本文围