不规则场景文本识别方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:zhangjie333666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着移动设备的迅速普及和无线网络的广泛覆盖,图片和视频取代文本成为人们分享生活的主要方式,由此产生了数量庞大的图像数据。在自然场景图像中,文本常常蕴含丰富的语义信息,为人们理解场景提供了重要依据。最近涌现了一批行之有效的场景文本识别模型,但是由于自然场景中存在大量的不规则文本,目前已有的大部分模型都不能有效处理。不规则场景文本指的是由于拍摄角度或者文本自身排布而导致在图像中呈现出倾斜、弯曲、透视等外观的文本。本文在对现有的不规则场景文本识别方法进行分析的基础上,分别从两个不同的角度出发,探究不规则场景文本识别问题并提出了相应的解决办法。本文首先提出了一种基于局部矫正的不规则场景文本识别模型。已有文本矫正模型大多采用表达能力很强的形变函数(如薄板样条变换)对文本图像做全局矫正,容易造成字符扭曲变形从而干扰后续识别。本文借鉴空间分治的思想,将文本图像进行切分,利用多个简单的局部矫正函数去近似复杂的目标形变函数。本文首先预测文本行的上下控制点,然后用两条贝塞尔曲线分别去拟合文本行的上下边界,接着在贝塞尔曲线上均匀采样得到更为密集的控制点,相邻的两对控制点在图像中围出一个四边形区域。接着,本文利用投影变换函数,将这些四边形文本块拉伸成固定大小的矩形文本块,再将这些矩形文本块按照原来的顺序依次拼接在一起得到矫正后的文本图像。最后,本文将这些矫正后的文本图像送入识别网络进行识别。另一方面,本文提出了一种基于空间注意力机制的不规则场景文本识别方法。与现有方法不同,本文提出的注意力模型显式地预测并利用了文本的参数化形状线索来对齐字符特征,以模拟人类阅读的过程。在得到文本的形状信息后,人类紧接着会估计每个字符的位置并识别该字符,然后将目光移动下一个字符。首先利用多项式参数曲线建模文本行中心线,然后预测每个字符中心对应的多项式曲线变量值,接着利用二维高斯函数生成字符的注意力权重图。本文提出的这种基于视觉信息计算注意力权重的方式,可以有效地对注意力权重分布进行约束,进而能够更好地提取字符特征送入后续的序列到序列的识别模块中。本文在多个公开场景文本数据集上,对所提出的方法的有效性进行实验验证。实验结果表明,与现有方法相比,本文提出的基于局部矫正和基于空间注意力机制的不规则场景文本识别方法取得了较好的结果,从而验证了本文方法的有效性。
其他文献
随着社会用电需求增长,输变电工程项目建设数量和规模不断扩大,但受项目建设外部环境、设计深度和政策法规等繁多因素的影响,投资计划管理人员难以做出精确度高的可研估算,导致决算投资与计划投资偏差较大。如何合理预估工程造价,对输变电建设工程进行造价管控,提高投资资金利用效率,已成为相关领域热门课题。针对电网工程的造价预测问题,选取变电站工程作为研究对象,分析了其具有的数据量小、影响因素繁杂和非线性关联等特
[目的]阿米替林(Amitriptyline,AMI)作为最常见的抗抑郁药物之一,在部分地区被广泛使用,具有复杂的药理机制以及多种不良反应,其中以心血管系统最为常见,过量摄入阿米替林的死亡机制主要为心脏毒性,但阿米替林的心脏毒性机制仍不清楚。钙离子在生物体内,尤其是心肌细胞内具有十分重要的地位及作用,它与心血管疾病和心血管不良反应密切相关。钙离子的调节机制也十分复杂,多种钙调蛋白通过不同的方式调节
我国改革开放40多年来,经济持续增长、社会财富不断积累,高净值人群数量实现了跨越式增长。随着家族信托业务实践在国内的展开,高净值人士通过家族信托进行财富的保值增值、家族财富管理与传承的需求日益旺盛。当前,国内信托公司的主要业务是融资类业务,其现有的以融资类信托为主的业务受托能力与家族信托业务受托能力的要求不完全匹配,因此梳理、分析和提高信托公司家族信托业务受托能力、顺利完成信托公司业务转型成为信托
细粒度情感分析,又被称为多方面情感分析,是自然语言处理领域重要的子方向,相较于传统的句子级或文档级情感分类,需要对每个方面词做出针对性的情感极性分类。该领域的核心在于计算方面词和句中其它词的相关性以及得到针对该方面词的文本表示。经典的细粒度情感分析的解决方案大多都是基于长短期记忆网络或卷积神经网络,同时引入注意力机制生成对应的文本表示。尽管大量的研究工作表明了这些方法的有效性,但是仍然存在一些不足
正电子发射计算机断层扫描(Positron Emission Tomography,PET)是一种高灵敏度核医学成像技术,能在分子水平检测器官代谢。PET探测器承担PET系统的核心功能,探测高能粒子并生成用于解码成像的电子信号,其性能改善有助于提高PET系统成像质量。PET探测器主要由闪烁晶体、光传感器、采集电路三部分组成。其中闪烁晶体用于拦截高能粒子并产生闪烁光子。由于PET系统中常用的闪烁晶体
数据中心在云计算的发展过程中起着至关重要的作用。在当今的数据中心,集群计算以其高性能和低廉的计算价格,广泛应用于数据处理和分析领域。然而,现有的网络级优化与集群计算应用程序的性能需求不匹配。对于Hadoop和Spark等主流数据并行框架来说,网络通信是高度结构化的。它们通常实现一个数据并行计算模型,其中每组数据流在产生最终结果之前都需要经历一个连续的通信阶段。在每个通信阶段,并行流需要在一组主机之
随着我国经济和社会的不断发展,智能制造在工业生产的诸多领域取得了长足的进步,并得到了广泛的应用。装配式建筑作为建筑行业实现数字化、信息化、自动化、智能化的重要载体,获得了从国家到地方的大力扶持和推广。装配式建筑的生产自动化,离不开预制构件自动化生产工厂和设备,边模机械手作为预制混凝土构件生产自动化流水线上的重要设备,承担着置模和拆模的工序作业,为预制混凝土构件的自动化生产提供了保障。开发适合于国内
随着人工智能、大数据和传感器等技术的飞速发展,国内的一部分人工智能专家和投资人预测自动驾驶将是这一轮智能化浪潮中最合适的技术落地场景。自动驾驶的汽车一旦真正产品化,将在降低交通事故发生率、提高交通运输效率、节省人力成本等方面产生明显的效益。自动驾驶技术进一步可以分为低速载物、高速载物、低速载人和高速载人四个维度,在真正的高速载人自动驾驶汽车商业化到来之前,低速载物的无人车是更加现实的落地场景,国内
电信诈骗和骚扰发生在多个国家,在我国也经历过十余年的发展历程。因为人口众多等原因,我国未能完全杜绝电信诈骗和骚扰。电信诈骗和骚扰的低成本策略,使其通信号码的通话行为较正常使用号码行为表现出明显异常。对正常和异常号码的通信行为分析可为异常号码的筛选提供依据。本研究通过随机抽取X市某运营商用户号码群的大量通信数据,形成正常通话数据矩阵,将公安部门认定的电信诈骗嫌疑号码通信数据作为异常通话数据矩阵。经过