面向场景文本识别的图像超分辨率算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:az4620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文本识别是计算机视觉领域的热门方向,它在自动导航、图像检索、人机交互等领域有着许多应用。随着手机、相机等拍照设备的普及,人们对自然场景图像的获取越来越便捷,对图像中文本信息正确识别的需求也越来越强烈。近年来,虽然深度学习的快速发展大大推动了场景文本识别技术的发展,但对低分辨率的模糊场景文本图像的识别一直是该领域的难点和痛点。针对这一难题,本文结合图像超分辨率技术对低分辨率文本图像进行重建,在放大图像尺寸的同时保持文本特征,让文本图像更清晰更易识别。具体研究内容如下:(1)根据场景文本识别模型的四阶段框架,对各先进的模型进行全面的分析和分类,选出8个具有代表性的模型。这8个模型基本包含目前已有的场景文本识别模型的各种结构组合,代表了该领域不同水平的算法,在速度、识别准确率、参数量、计算复杂度等方面都各有优劣,有着极大的丰富性和多样性。所选出的这些模型适合对超分后的场景文本图像的识别效果进行全面客观的评估。(2)在图像超分辨率领域较经典和先进的EDSR模型的基础上,结合场景文本图像的特点,对超分网络进行了针对性的优化和改进,设计了STR-SR网络。网络在特征提取前引入二值掩码和基于TPS变换的校正对齐模块,前者对图像中的文本区域和背景区域进行了有效区分,后者缓解了采集真实场景文本图像时的错位问题;随后在残差块中加入Bi LSTM,增强其对序列特征的表达能力;最后在训练时,在L1损失函数中结合梯度轮廓先验损失构成新的重构损失函数,增强了图像中文本的边缘轮廓,缓解了伪影现象。在真实场景数据集Text Zoom上对模型进行训练和测试,结合训练的8个文本识别器测试识别精度,证明了STR-SR模型的有效性和相对其他超分模型在场景文本图像重建上的优越性。(3)通过大量对比实验和消融实验找到了STR-SR模型上使场景文本识别准确率最高的组合结构和最佳参数,并从主观视觉效果和客观识别精度两方面验证了所做出的改进的有效性和优越性。通过PSNR和SSIM这两个指标对STR-SR模型进行评估,进一步证明了其重建生成的图像有较高的质量。
其他文献
弹性力学中的哈密顿变分原理以x坐标模拟动力学哈密顿原理中的时间坐标t。本文选用互为对偶的位移场变量和应力场变量作为混合变量,建立哈密顿解法的有限元求解格式并构造相应的杂交单元。本文的主要工作有:一、从Hellinger-Reissner能量泛函出发,利用各向同性弹性力学平面问题本构关系,对应力场分量σy进行消元,将非对偶的位移场变量和应力场变量转变成对偶的场变量,建立哈密顿解法的能量泛函,然后利用
随着微波通信技术的发展,5G时代的到来使得电子器件趋于集成化和微波通讯趋于高频化。微波介质陶瓷作为一种新型的电子材料,为了适应科技的高速发展,对它的性能提出了更高的要求,通过较低的烧结温度、优良的品质因数(Q×f)、符合实际应用的介电常数(εr)和绝对值数值近零的谐振频率温度系数(τf)的性能来实现高稳定性、低损耗、小型化的商业要求。最近几年才开始被研究开发出来的具有岩盐结构的Li3Mg2NbO6
CTC调度命令终端是CTC系统的重要组成部分,其软件质量的优劣对行车调度指挥系统自动化和智能化有着巨大的影响。针对目前调度软件质量评价研究方法匮乏的问题,构建了基于层次分析法的评价模型。该模型依据GB/T 25000.10—2016和ISO/IEC25010∶2011标准建立软件质量评价指标体系,利用层次分析法计算影响因素的权重;在此基础上,结合模糊综合评价方法对CTC调度命令终端软件质量进行评价
现场可编程门阵列(Field Programmable Gate Array,FPGA)是目前硬件开发中常用的一种逻辑器件,它起源于20世纪70年代,发展到现今为止已经成为了集成电路应用市场的主流产品。随着科学技术的不断发展,各个国家将航空航天、军事以及信息通信作为重点的发展方向,对FPGA的使用越发频繁,同时FPGA的工作环境也变得越发苛刻。目前市场上主流的FPGA多以SRAM型和FLASH型为
细胞芯片和微电极阵列芯片是目前生物芯片领域的前沿课题和热点研究方向,细胞电穿孔技术是一种可以将基因等物质导入多种细胞的其它化学、生物手段无法替代的高效技术。结合这些技术的电穿孔微系统具有诸多商业化产品所不具备的优势,将会在生物医学相关学科研究和药物研发相关产业领域得到广泛的应用。本论文的目标是研究和开发由微电极阵列构建的电穿孔芯片及一整套电穿孔系统,通过负向介电力定位和细胞电穿孔技术的结合,提高电
当今社会我们正处于一个信息化社会,信息可谓是无处不在。习近平总书记也不断强调加快产业的转型升级,从制造转变成智造是全面建成小康社会的关键节点。所以纺织服装企业要想持续性地健康发展,那么提高品质和效益是必然的选择。信息化的作用不言而喻,它可以渗透到企业的方方面面,例如企业的产品、管理、技术和相对应的服务等,从而加快企业高效生产、改善管理和决策科学,最终提高企业的竞争优势。综合前人的研究成果,信息化的
孤子方程最基本的性质是它们可以写成一对线性问题的可积条件。如KdV方程,若假设本征函数随时间的发展由特定的微分算子N实现,再结合一维定态Schr¨odinger方程,就得到Schr¨odinger算子L与N算子的相容性表现为L随时变化由其本身与微分算子对易给出。从算子变化与对易角度来研究看待各种可积系统是很重要的;可积理论的一个基本问题就是寻找非线性偏微分方程与算子对L、N,使得该方程是L、N的相
三维人体形状重建是一个非常有应用价值的研究方向,也是当前学术研究的热点。当前存在的三维人体形状重建的方法主要面向单人的场景,而对于多人场景的研究相对较少。多人场景下的三维人体形状的重建过程中存在的困难主要在于场景的复杂性,重建场景通常可分为非交互场景和交互场景的情况。在非交互场景下,由于场景中拥有若干个几乎不存在交互的人,所以在重建过程中会出现多尺度和遮挡问题。其中,多尺度问题指的是图像中的多个人
纳米材料或结构一直是国内外学者研究的重点,自从多孔氧化铝模板被发现以来,由于其本身制备简单,成本低廉,尺寸可调且周期有序等优点已被广泛应用于制备纳米材料和纳米结构,在各个领域都有极大的贡献。本文基于多孔氧化铝形成机理和结构参数影响变化,研究了多孔氧化铝模板制备及基于模板的金纳米线阵列沉积工艺,讨论了微米级长度金纳米线阵列复合结构的制备方法及性能,并设计了亚微米长度金纳米柱阵列复合结构,最终分别实现
本文分析马可夫链经验分布大偏差速率函数的相关问题,对Donsker-Varadhan速率函数的表达形式在一定条件下加以简化,以增强实用性.马氏链大偏差速率函数通常以带上(下)确界的形式出现,可参见本文定理2.1及定理2.2。由于确界范围往往比较复杂,造成实际计算上的困难。所以需要讨论速率函数表达的简化问题。 本文的研究对象主要为一般马氏链的序对经验分布速率函数,方法为从平稳的马氏链出发,再推广到一