基于光流校正的端到端场景文本识别方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:litang007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字,是人类文明诞生的标志性发明之一,也是现代信息社会沟通协作的重要工具,它在我们的日常生活中无处不在。一方面,作为人类知识和消息的传播载体,大量文字存在于书籍、报刊等标准化媒介上,起到信息内容表达传播的主体作用;另一方面,还有一些文本信息嵌入于自然场景中,被称作场景文本(Scene Text),无论是在道路标志、店铺广告还是产品包装上,都存在着大量的场景文本,它们承载了精确且丰富的高阶语义信息,对我们正确理解自然场景内容起着不可或缺的辅助作用。然而,无论是在扫描文档中的标准化文字,还是在自然场景中的文字,大部分的文本信息都以数字图像的形式存在着,并不能直接被计算机识别和处理。因此,如何准确地将文本信息从数字图像载体中自动提取并识别出来一直是计算机视觉领域的重要研究问题。近年来,随着卷积神经网络技术的迅猛发展,计算机理解自然图像的能力越来越强,相关领域的研究热点也从受限场景下的扫描文档光学字符识别(Optical Character Recognition,OCR)转向了更为普适的场景文本识别(Scene Text Recognition,STR)。然而,与传统OCR问题相比,STR的研究面临着文本形状不规则、尺度与风格多变、复杂背景干扰、光照条件不良等多种阻碍因素,仍然十分具有挑战性。为此,本文提出了一种基于光流校正的端到端的场景文本检测与识别模型。针对自然场景中的不规则文本行图像,通常首先要对其进行文本校正(Text Rectification),然后再对校正后得到的图像或特征进行识别,文本校正质量的好坏就决定了后续文本识别子网络的性能如何。对于不规则文本的校正问题,之前方法主要采用基于TPS变换的STN子网络进行闭合求解,而我们提出首先利用文本行几何属性子模块(Text Line Geometry Module,TLG)预测得到文本行的几何属性,在此几何属性的先验约束下,再利用密集光流预测子模块(Dense Flow Field Module,DFF)生成校正光流场并采用双线性插值(Bilinear Sampling)进行密集空间变换以得到校正后的图像,该方法充分利用了文本行的几何对称属性,校正能力更为强大灵活,校正效果也更为准确可靠。实验结果表明,本文所提出的基于光流的文本识别网络在ICDAR15等多个弯曲文本数据集上均取得了约0.7%~1.3%的提升,同时在IIIT5K等普通数据集上也达到了世界先进水平,这证明了本文所提出的光流校正网络及几何先验约束的有效性。一直以来,场景文本检测与识别都被视作两个独立的子问题进行研究,然而二者其实是高度耦合并彼此互补的,识别任务受限于检测任务的精度,而检测任务又依赖于识别任务过滤困难样例。因此,近年来端到端的场景文本阅读系统越来越受到大家的关注。本文也致力于探索文本检测与识别任务如何更好地进行结合,进而提出了一种基于层叠多任务学习方式的端到端训练框架,它有效加快了模型训练的收敛速度,并降低了模型部署推理的计算量。实验结果表明,相较于独立训练方式,端到端系统的检测F指标提升了大约2%~3%,识别准确率提升了大约1%~2%,这得益于本文方法对检测与识别子任务的互补性的充分利用。
其他文献
养猪生产中常使用抗生素来维持健康和促进生长。然而,抗生素长期大量使用会造成畜产品抗生素残留、内源性感染、免疫力降低和耐药性等诸多问题。因此,开发新型抗生素替代品成
美国印第安文学是美国文坛不可小觑的分支。它的兴起一改印第安人在传统美国文学中的形象,真实地反映了印第安民族的风俗与信仰,历史和现状。詹姆斯·韦尔奇(1940-2003)是美国印第安文艺复兴时期四大巨匠之一,其作品重在刻画印第安人传统与现代生活的冲突。《血中冬季》讲述一个无名主人公疏离于印第安传统,游荡于印第安保留地和白人城镇之间,并最终建构杂糅身份;《吉姆·罗尼之死》则叙述主人公吉姆·罗尼,同样疏
背景:Mo/MΦ介导的固有免疫反应是导致AS脂质斑块进展、不稳定的主要因素;T淋巴细胞亚群介导的适应性免疫对其发挥了重要的调节作用。近年来研究表明,GABA_A能药物及其介导的GABA_A受体途径能够有效地调节单核/巨噬细胞(Mo/MΦ)等免疫/炎性细胞的活性。但GABA_A受体途径能否通过调节AS免疫/炎症反应来调节AS斑块的稳定性尚未证实。目的:研究GABA_A受体途径调节动脉粥样硬化斑块稳定
田间杂草给农田作物带来极大的威胁,杂草一般具有很强的生命力,在与作物争夺养分的同时还可能传播病毒,导致病虫害蔓延,极大降低农作物质量、产量,给粮食生产带来巨大经济损失。对于杂草的威胁,目前常用的方法是使用化学除草剂,传统施药方式是大面积喷施,既浪费了成本又污染了环境,精准农业可以很好的抑制这个问题的恶性发展。精确、变量、自动化是精准农业的宗旨,通过图像处理技术获得农田田间实际杂草分布情况,自动喷施
转Bt基因作物在害虫防控方面发挥巨大作用,同时其可能引发的环境风险,尤其是在生物多样性影响方面亦被广泛关注。以往相关研究多以地上部节肢动物为评估对象,评估对地下部土壤动物群落影响的研究较少;立足一个生态区,针对一种转基因玉米材料,综合全面评价其对地上、地表、地下部节肢动物群落影响的研究未见报道。本研究选址世界三大黄金玉米带之一,中国春玉米主产区吉林省公主岭市,“国家转基因玉米大豆中试与产业化基地(
随着混合动力汽车的普及速度越来越快,对其使用的电池提出的要求也越来越高。而钛铁系贮氢合金作为镍氢电池负极材料,因其理论放电容量高(放电容量是512 mAh·g-1)和原料廉价等
科技的快速发展可以让人们获得大量数据,这些数据中包含着重要信息以及各种噪声,如何从数据中获得有用知识是机器学习现阶段最重要的事情。在机器学习中,数学优化是基础之一,
随着机器人技术的不断发展,服务机器人越来越广泛应用于人们日常生活中。清洁机器人、助老服务机器人、餐饮机器人等服务机器人需求越来越大,这些机器人大多工作在室内复杂环
标签传播是一种基于图的半监督分类算法,具有效率高和比传统分类方法性能更好等优点,在机器学习领域吸引了广泛关注。但是现有的标签传播算法仍然具有如下不足:1)分类过程对
举重是我国传统奥运夺金项目,尤其在轻中量级更是优势明显。抓举是举重比赛的第一个项目,要求运动员以连续不断的动作将杠铃上举直至接铃完成,对技术动作的要求很高,所以从技