基于深度学习的任意形状场景文本检测与识别研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:txiu4hbky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本作为信息传输的重要媒介,存在于各类文件、票据及自然场景中,呈现着方向、尺度、颜色和形状的多样性。随着互联网的发展和计算机的普及,文本检测与识别技术被广泛地应用于图像搜索、自动翻译、视觉辅助、单据识别等领域。近年来,随着深度学习的蓬勃发展,文本检测的研究趋势逐渐从检测水平文本到任意方向、乃至任意形状的场景文本;而文本识别的研究也从识别机打文本向多语言、任意形状场景本文进化,能够面向越来越多的工程场景。本文提出基于深度学习的文本检测与识别方法,具体的工作及研究成果如下:(1)提出了基于通用目标检测架构Mask R-CNN的新颖的任意形状场景文本检测模型。该模型在Mask R-CNN的Ro I头增添了一个文本评分分支,该分支可以将检测框的置信度分数与文本的掩模质量对齐,从而筛选出Io U更高的检测框;同时提出了一个通用的完整性感知IoU损失函数,将其替换边界框回归分支的l1-smooth损失函数,进一步提高检测结果与Io U的相关程度,从而提高检测精度。该模型可以适应任意形状和尺度的场景文本检测任务,并在多个公共数据集上取得了理想的效果。(2)设计了一种基于密集连接卷积网络和递归神经网络的文本识别方法。该方法在卷积循环神经网络(CRNN)的基础上,选择更为先进的Dense Net作为深度卷积神经网络进行特征提取,采用Bi-LSTM进行文本序列预测,并引入CTC进行映射,获得最终的识别结果。该模型可以适应变长的中文字符识别任务,在基于中文语料库并通过多种随机变化生成的中文数据集上获得了较好的表现。(3)面向物流行业自动化单据识别的需求,利用上述文本检测和文本识别模型,本文设计一个中文场景下端到端的单据识别系统。系统整体包括检测、识别、后处理三个步骤,首先直接将回单图像送往检测与识别模型,然后根据一定的搜索规则筛选得到所需的文本结果。通过单据实例的识别测试,验证了该单据识别系统的有效性。
其他文献
近年来,肠道微生物对胃肠健康及某些代谢综合征的益生作用正逐渐被人们认可并广泛接受,被认为是“人体器官”之一。而乳酸菌作为人类肠道微生物的重要组成部分,具有安全性和高效性兼顾的特点,在食品、医药等领域有很大的应用价值。随着人们生活水平的提高,许多代谢综合征的发病率日益增长。二型糖尿病就是其中最常见也是危害最大的的代谢综合征之一,其病情主要特点为高血糖和胰岛素的相对缺乏。然而,目前关于乳酸菌调节血糖的
锂离子电池(LIBs)的商业化无疑推动了无线通讯和无化石燃料社会的改革,然而由于石墨负极的理论比容量有限,LIBs在能量密度上的提升速率逐渐落后于社会急剧增大的能源需求。因此,探索下一代替代锂离子电池的高比能电池,对于满足新兴电动汽车和电子信息产业的高能量需求尤为重要。具有超高理论比容量的金属锂负极可满足下一代500 Wh kg-1高比能电池的设计需求,有望取代传统石墨负极来进一步提高可充电锂电池
绿化的存在会影响建筑周围的流场,从而影响建筑表面对流换热过程。然而,目前关于垂直绿化表皮对壁面对流换热系数影响的研究鲜有报导,而且由于影响壁面对流换热系数的因素众多,现场实测难以实现单一变量研究。因此,本文基于热平衡法设计一套实验装置来测试壁面对流换热系数,并利用风洞营造不同的环境工况满足单一变量原则,研究垂直绿化表皮对壁面对流换热系数的影响。首先,本文基于热平衡法的实验原理设计了一套能够输出加热
电容的容值与极板间的距离、介质有关,通过构造合适的前端电路,电容数字转换器(Capacitance-to-Digital Converter,CDC)可以测量湿度、压力、位移等物理量,因而CDC有着广泛的应用场景,如压力检测、湿度检测、液位检测、位移检测、加速度检测、触摸屏等。为了满足不同的应用场景对CDC的不同要求,需要低功耗、高精度、宽测量范围的电容数字转换器。本文对电容数字转换器的理论进行分
配电网络深入各负荷中心,运行环境较为复杂,输电线路容易与树枝或建筑接触,极易形成高阻接地故障。发生高阻接地故障时,由于过渡电阻值很大,故障特征十分微弱。即使小电阻接地系统在发生单相高阻接地故障时,故障信息也十分微弱,传统零序过电流保护在过渡电阻达100Ω左右时就难以可靠动作。此外,灵活接地系统在发生永久接地故障时,将投入小电阻与消弧线圈并联接地,使系统从小电流接地方式转变为大电流接地方式,从而增强
今秋开学前夕,为解决如何让刚上完幼儿园的孩子能顺利地进入小学学习,上海市教委推出了以"学习准备期"为主要内容的改革措施。这一举措能否达到预期目的?上海市这一地方化改革举措对其它地区是否有借鉴意义?为此,本刊记者进行了专题采访。
期刊
面对复杂多样的环境,机械臂怎样快速高效地完成任务是一个很大的研究热点。近几年来,随着深度强化学习技术的兴起,这种技术在机器人上的应用也受到了广泛的研究。利用强化学习算法,可以使得机械臂在不断试错中自主地去优化规划策略,最大化得到的奖励,从而实现最终的规划目标。本文将在堆积物体抓取、B超探头移动以及模仿图像三个方面分别讲述深度强化学习在机械臂上的应用研究,通过将深度强化学习与其他算法相结合,实时地规
无线传感器网络(Wireless Sensor Networks,WSNs)是网络物理系统(Cyber-Physical Systems,CPS)和物联网(Internet of Things,IoT)的关键组件。WSNs有时部署在恶劣环境,容易遭到外界破坏,从而网络被分割成多个孤立分区。这种情况下,网络需要一种有效的连通恢复策略,使网络恢复正常工作。连通恢复是WSNs的基本问题之一,直接决定网络
随着我国现代化建设水平的不断提高,城市地铁设施作为地下空间开发利用的重点,得到了迅速发展,受线路规划、空间冲突等因素的限制,新建地铁线路邻近或近距离穿越既有桥梁难以避免。因地铁隧道盾构施工,周围土体受到扰动,导致邻近的桩基产生附加内力与变形,改变桥梁受力状态甚至威胁桥梁结构安全,这对建设工程造成极大的挑战。如何确保既有桥梁的正常运营及结构安全已成为城市地铁隧道盾构施工领域重要的研究课题之一,科学分
光固化技术具有高效、安全、环境友好等优点被广泛运用在印刷、涂料、3D打印、电子器件封装、食品包装、胶黏剂、牙科填充材料以及生物等领域。传统被用作光固化的光源的高压汞灯具有高功耗、发热量大、汞污染、臭氧污染等缺点。发光效率高、能耗低、无污染、操作方便的发光二极管(LED)光源取代高压汞灯是行业发展未来的方向。市售商用的光引发剂2,4,6-三甲基苯甲酰基-二苯基氧化膦(TPO)具有高迁移率的缺点,应用