基于2D注意力机制的不规则场景文本识别算法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:milan_27
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
识别不规则场景文本是光学字符识别(OCR)问题中较为困难的子问题,该问题对学术界所提出的字符识别算法非常具有挑战性。目前,工业上实际应用的算法分为三类:将不规则场景文本通过薄板样条函数插值(thin plate splines)成规则场景文本后,再进行识别,即由2D布局转成1D布局;提取2D图像特征,通过卷积神经网络和带有循环注意力机制神经网络,降维成1D特征序列,再进行识别;将2D图像转换为1D特征序列,然后通过从自然语言处理领域借鉴过来的联结主义时间分类器(connectionist temporal classification)算法,进行识别。尽管上述方法取得了较好的表现,但是准确率和鲁棒性仍然受限于2D到1D转换过程中空间信息的丢失。本文将2D布局的不规则场景文本通过2D注意力机制,直接预测字符序列。本文提出将不规则场景文本识别分为2D特征提取模块、关系注意力模块和并行注意力模块,共计三个模块。其中,对于2D特征提取模块,本文将在现有文本图像2D特征提取算法的基础上,进行算法改进,在获取上下文语义信息的同时,保留2D空间信息,避免了2D到1D转换过程中,空间信息的丢失,该部分作为网络的编码器;关系注意力模块用于将2D特征提取器所输出的特征图,进行更进一步的上下文信息提取,获取更高维的语义信息。并行注意力模块用于将关系注意力模块的输出,进行注意力加权,并将加权后的特征图送入后续的同步解码器,预测所有的字符序列,上述模块是并行计算结构,将会提高算法的效率和准确率。本文将针对提出的不规则场景文本识别算法,在公开数据集和本文提出的多行车牌文本识别数据上进行扩展实验,同时进行可视化分析和必要性讨论。实验证明,本文提出的算法在规则和不规则文本识别问题上是高效的。在速度上,比之前所提出的文本识别算法快2.1倍;在精度上,针对不规则场景文本数据集,准确率超出之前所提出的算法高达7.3%。
其他文献
本篇学位论文在M/M/1排队系统基础上,结合工作故障、不耐烦顾客、休假和启动期策略,分析了两种新的排队系统,推导出排队系统主要性能指标的表达式。另外,对区块链技术下的比特币故障矿池的运行机制建模并分析,为解决比特币故障矿池的节能问题提供有效的理论依据。论文的主要研究工作包括以下三个部分:首先,研究了带不耐烦顾客和工作故障策略的M/M/1排队系统。构造二维马尔科夫链分析排队系统,得到系统的状态转移率
在实际工程中,专业技术人员经常定期检测、维修或更换系统元件,因此用离散时间段来度量系统的运行时间,将系统元件寿命视为离散随机变量,建立离散时间系统可靠性模型更具有实际参考价值。在传统可靠性分析中,基于概率论分析系统可靠性的研究已经比较成熟。然而,在稀缺数据或无任何数据情况下,利用基于概率论的传统可靠性理论来评估系统元件寿命参数及分析系统可靠性指标还存在一定的不足。本文拟结合不确定理论和概率论,假设
理雅各是19世纪英国著名的汉学家,系统地翻译了中国的儒家经典,名为《中国经典》,其中第二卷是《孟子》。理雅各为《孟子》译本撰写了长达123页的学术绪论。笔者选择其中的核
Se(IV)离子具有一对立体活性孤对电子,它可以诱导与中心离子硒配位的多面体发生次级Jahn-Teller畸变,使得Se4+离子处于不对称的配位环境中,SeO3基团因此被认为是一类良好的非
近年来,面向服务的体系架构(Service-Oriented Architecture,SOA)已经越来越多的使用在分布式软件系统架构中。基于Web服务的服务化软件无论是在民用商业系统领域,还是在军用
对偶犹豫模糊语言集(the dual hesitant fuzzy linguistic set,DHFLS)是对语言变量的拓展。DHFLS结合了语言变量和对偶犹豫模糊集(the dual hesitant fuzzy set,DHFS)两种决策信息的表述方法。不仅反映决策者对语言变量的偏好,还包含了对语言变量的隶属度和非隶属度信息,是一种更加灵活的决策信息表述方法。本文研究了对偶犹豫模糊语言多属
楚系玺印是战国时期的重要玺印,其入印文字、装饰图形以及章法构成等篆刻元素都具有区别于战国时期其他国家的独特形式,具有独特的艺术魅力。楚系玺印文字的线条、字形结构都极具独特的特质。楚系玺印既是战国玺印中“写意”意味最浓厚的,同时又是“印化”现象极为突出的,这种两极化的艺术特点是战国时期其他六国所不具备的,是楚系玺印的独特特点。造成这种特点的原因极为复杂,简要言之,与楚国独有的浪漫主义风气相关,也与楚
切普村隶属于红河州红河县洛恩乡洛恩村委会,当地哈尼族自称“xa??n??2”,其使用的哈尼语属于哈雅方言中的哈尼次方言土语。本研究以红河切普村为语言调查点,在大量第一手语料的基础上,以语音学与音系学相关的理论为指导,系统地描写了切普话音系的全貌,并结合实验语音学、社会语言学和语音类型学的相关理论和研究方法,描写和分析了切普话声调格局和声调共时变异特征。全文分四个部分,具体为:第一章,绪论。该章节简
随着国家大力发展社会主义市场经济,大量的城市市政设施、高速公路等公共用人工公物被建设。而这也直接推动了公民所享有的公共用人工公物利用权的扩大,公民实际享有的利用权
城市是人才资源、科技资源、信息资源等创新要素的集聚地。创新往往发生在城市尤其是大城市之中,提升创新能力也是城市保持持续发展的动力和源泉。随着城镇化水平的提升、人口城乡和城城之间迁移和流动,中国城市的人口规模越来越大,城市的人口密度水平也在不断提高。新常态下,研究其城市规模、人口密度与创新产出之间的关系,对深入贯彻实施创新驱动发展战略,提升创新能力和创新效率具有重要意义。本文以城市规模、人口密度对区