基于深度学习的场景文本提取和识别研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:game1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文本作为计算机视觉领域最为活跃的研究对象之一,现实生活中许多应用技术都与其密切相关,比如自动翻译、盲人导读、车牌识别等。当前,文档类文本的识别精度已高达99%,而自然场景图像中的文本由于字体多样性,文本多方向,图像分辨率低等因素,使得自然场景文本的提取和识别成为计算机视觉领域一项极具挑战性的任务。因此,本学位论文针对自然场景文本的提取和识别展开了较为深入的研究,具体研究内容总结如下:1.研究了一种基于分割的场景文本提取算法。考虑到使用人工进行像素级文本标注通常非常昂贵而且耗时,而现有的数据集中又包含了大量的文本框标注信息,基于此,提出采用文本框标注作为辅助数据用于训练。为了实现这个目标,提出一个双任务相互引导网络,该网络共享一个编码器,两个解码器分别输出像素级文本分割和文本框分割。两个解码器的输出作为彼此的引导信息,像素级文本分割解码器的输出可以作为文本框分割解码器的引导信息提高文本框分割的性能,反之亦然。在标准数据集上的实验表明,该算法提出的相互引导网络可有效地提取文本信息。同时,利用得到的像素分割结果可以进一步提升文本识别性能。2.研究了一种任意方向的场景文本识别算法。该算法首先使用高分辨分割网络提取文本的空间信息;然后利用卷积长短时记忆网络提取文本的时空序列信息;同时设计字符注意机制使得模型的注意力在字符上,并采用可微分二值化函数进一步加大网络对前景的注意力,削弱对背景区域的关注;最后网络对每个像素点进行37分类,并使用文本转录模块将分类结果按照从左到右的顺序转换成文本。该算法在多个标准数据集包括ICDAR2013、ICDAR2003、SVTP、CUTE、IIIT5k等上进行测试,无论在规则文本还是不规则文本上都可取得不错的识别效果,充分验证了该算法的有效性。
其他文献
时代不断发展,单纯的开口朗读显然已不能满足人们对学习的要求。于是,人们借用新科技新手段开发多种多样的朗读活动,通过活动对学生进行朗读指导,让学生的朗读更加多元,成为
在人的发展过程中,幼儿期是关键时期,性的发展也不例外,近年来幼儿性侵案件频发,家庭性及幼儿园性教育的缺失导致部分受害儿童甚至不知道发生了什么,留给孩子的只有内心的黑洞、终身的阴影,因此对幼儿及早进行性教育,预防幼儿性侵害,提高幼儿进行自我保护刻不容缓,幼儿性教育的开展也有助于幼儿及早地获得正确的性知识,树立正确的性观念,有利于幼儿今后建立健康的性价值观。绘本是图文并茂的幼儿文学样式,兼具直观性和形
党的十九大后,全国上下已经掀起学习贯彻习近平新时代中国特色社会主义思想的热潮,少数民族地区亦如此。如何加快新思想理论的学习传播,使新理论在各少数民族地区落地生根已成为紧要的时代课题。其中,侗族是一个民族文化浓郁且较特殊的一个南方少数民族,拥有较好的软传播环境和条件。实现党的最新理论在侗族地区的大众化,应借助特色侗民族文化进行思想传播“软建构”。开展软传播就是坚持受众为本位,以侗族文化及各类网络新媒
近几年,我国邮政放缓了人物诞生纪念邮票的发行速度,自2014年8月22日发行2014-17《邓小平同志诞生一百一十周年》邮票后的6年多时间里,此类邮票仅仅发行了3套,依次为2016-32
强夯是一种具有节能环保优点的地基处理方法,随着强夯法在城镇地基处理施工中的推行,强夯施工所面临的振动与填料问题也在放大。寻求新型经济合理的强夯施工隔振方式,以及探
“绿水青山就是金山银山”理念是习近平生态文明思想的重要组成部分,具有深刻的哲学内涵,本文利用代表“绿水青山”和“金山银山”的生态与经济指标聚类分析了中国1666个县(
非物质文化遗产保护是新时代博物馆功能的重要体现,博物馆通过其收藏、保存、研究、展示、教育和传播等技术,深入探寻非遗事项的社会功能、文化内涵以及传承、创新与应用,以
海德姆和斯诺一起奔赴陕北1933年11月,23岁的乔治·海德姆来到上海,那时他刚刚从瑞士日内瓦医学院毕业并取得博士学位。作为一个美籍黎巴嫩人,海德姆1910年出生于有“水牛城
文本识别及其相关问题一直都是计算机视觉领域的热点与难点,其技术已普遍应用于语言翻译、辅助驾驶、地理定位、图像检索等诸多方面,早在几十年前科研工作者们就开始了相关研
目的:探讨加速康复外科围手术期护理在胃癌患者中的应用。方法:抽选我院2017年1月至2019年1月行胃癌术后患者30例,随机将患者分为对照组(15例,常规围手术期护理)和护理组(15