基于注意力机制的图像中的文字识别研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:bowangmosong1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化建设的不断推进以及多媒体电子设备技术水平的不断提升,图像成为了当今社会信息交流的主要媒介之一。文字作为信息传递的重要载体,广泛地出现在图像中。如果能够对图像中的文字进行准确地识别,不仅可以促进邮件分拣、车牌识别等技术的发展,还能极大的推动智慧零售、无人驾驶等新型产业的向前迈进。因此,越来越多的研究者开始关注图像中的文字识别技术,并提出了一系列文字识别方法。现有主流图像中文字识别方法往往采用编码器-解码器框架作为基础结构,并使用循环神经网络作为基本构成单元,能够对整齐且清晰的文档图像获得较高的识别准确率。然而,对于具有复杂背景或者文字区域存在着弯曲、模糊等情况的自然场景文字图像,该类方法的识别性能大幅下降。针对上述问题,本文提出一种新的文字识别方法——基于Transformer网络的文字识别模型。该模型首先采用残差网络对图像内容进行多层次的特征表达,之后使用基于Transformer网络的编码-解码结构来完成图像特征到文字序列的映射。在此过程中,该模型不仅保留了图像特征序列的二维空间结构,并且采用Transformer网络框架中的自注意力机制描述不同位置图像特征之间的关联性,从而能够取代传统循环神经网络单元,实现了对复杂样式文字的综合描述和准确识别。实验结果证明,相比现有文字识别方法,本文方法具有更出色的文字识别能力。本文还对传统的交叉熵损失函数进行了改进,极大地缓解了编码器-解码器框架中出现的“输出提前终止”的问题。此外,本文在基于Transformer网络的编码-解码结构中引入了多层次注意力机制,在提升文字识别准确率的同时,一定程度的降低了模型的计算量,提升了文字识别速度。
其他文献
某型超临界蒸汽轮机的进汽阀门均采用将调阀阀座过盈装配到阀门壳体内的结构。当这些机型被应用于运行状况比较稳定的电厂时,调阀阀座并不会发生故障。但是当被应用于频繁调峰或其它恶劣变工况时,调阀阀座松动等严重故障却大量出现,给电厂的安全运行和维护带来了巨大的问题。本文以某型超临界汽轮机的进汽阀门作为研究对象,通过分析不同工况下调阀阀座附近区域的温度场、应力场以及调阀阀座与阀门壳体的接触状态和磨损现象等之后
新型沉垫式海上作业平台相比于传统的桩靴式平台具有诸多优势。但在新型海上平台的作业过程中,沉垫基础与海床的相互作用关系尚不明确。在沉垫基础的全作业周期中,其在位所受浮力及离底所受吸附力对整个平台的安全稳定有重要影响。本文围绕这两点开展了现场模型试验及相关数值分析,探究了沉垫基础在位过程中的浮力变化规律及影响沉垫基础离底吸附力的因素,主要结论如下:1.设计了一套能够同时测量沉垫基础模型所受浮力及上拔吸
在经济全球化的推动下,全球物联网(IoT)及现代物流行业始终处于快速增长的趋势,物体在运输、装卸和配送等过程中都迫切需要振动监测来进行质量管理。MEMS惯性开关由于具有小尺寸、高灵敏度、低功耗和可规模化生产的特点,可用于监测特殊物品在运输过程中所经受到的环境振动冲击。传统的MEMS惯性开关在受到沿敏感方向超过阈值加速度的振动冲击时只会短暂接通,毫无疑问,过短的脉冲信号提高了信号处理电路的分辨难度。
船舶大开口由于破坏了甲板结构的纵向连续性,且开口角隅处几何形状突变,常产生较大的应力集中。因此必须对舱口角隅进行合理的加强,以使其在运营过程中不因应力过高发生破坏。因此需要对角隅局部结构的形状、尺寸进行合理的优化设计。本文以某250KDWT矿砂船的甲板开口角隅为例,对船舶角隅应力集中优化问题进行了研究。首先,本文对适于优化的舱口角隅子模型构建方法进行了研究。由于优化过程中,需要对角隅应力进行大量迭
信息科技的高速发展催生了物联网、5G、车联网等多样化的网络环境,但同时也带来了各种各样难以预测的网络安全威胁,例如网络病毒、拒绝服务攻击、高级持续性威胁攻击等。由于传统的网络安全防御技术主要依赖静态和被动的方式,无法应对攻击者精心构造的攻击。为了应对这种局面,移动目标防御(Moving Target Defense,MTD)这一新型防御思路引起了广泛关注,通过持续变化系统的攻击面来提高攻击者的探测
随着人们保护版权意识的增强,越来越多的公司开始注重对图像版权的保护,打击互联网上一些盗用图像进行创作并谋取利益的行为。目前一些互联网图片公司例如东方IC,视觉中国都有着非常庞大的图片数据库,如何从这些图片数据中找到符合用户期望的图片,或是查询库中是否存在与从其他渠道获得的非常相近的图片是一个比较困难的问题,也是一个有实用意义的研究点。该问题需要用到基于图像的图像检索技术,或称以图搜图技术,区别于传
带重入多阶段系统是一类复杂的生产系统,某个阶段的产品生产量依赖于下一阶段的物料需求量,且工件会多次访问同一加工设备,半导体晶圆制造是典型的带重入多阶段系统。半导体晶圆制造系统竞争激烈,厂商必须充分利用设备产能,缩短生产提前期,降低成本。然而传统的生产计划模型不考虑负荷影响,使用固定提前期,这使得求解的生产计划在执行时往往缺乏可行性。此外,半导体晶圆制造的设备昂贵,且高负荷运转,因此,合理的预防性维
随着核电、医疗、科学研究等领域的持续高速发展,相关领域对辐射传感技术的探测精度、探测剂量范围、以及监测点数量均提出了更高的要求。传统的辐射传感技术大多基于电子传感器及分立结构,存在体积大、抗电磁干扰能力弱、系统复杂程度及成本随着监测点数量增加而线性增大的缺点。另一方面,分布式光纤传感技术具有灵敏度高、抗电磁干扰性强、体积小、重量轻、易于实现分布式传感等特点,在周界安防、结构安全、石油勘探等应用领域
非晶铟镓锌氧薄膜晶体管(a-IGZO TFT)因具有制备温度低、载流子迁移率较高等优点而非常适合于制作柔性TFT背板,进而驱动柔性显示器件。另一方面,适合实际生产的柔性a-IGZO TFT制备工艺仍有待研究和开发。本文针对柔性氧化物TFT中最关键的栅绝缘层和电极层开展研究,相关实验数据和理论分析结果对柔性TFT背板的实际生产具有重要参考意义。绝缘层材料在薄膜晶体管中扮演者着重要的角色,但是在柔性化
作为新一轮电力体制改革中最活跃的部分,售电市场成为了最重要的一环。售电主体又作为售电市场的新兴主体,其发展表现不仅关乎自身利益,也直接影响到售电市场的改革成效。因此,本文旨在研究在新一轮电力体制改革的背景下,售电主体在市场化的竞争环境中,如何科学评估售电市场的成熟度阶段、如何合理评估电力用户的价值、以及如何为不同市场阶段下不同等级的客户提供针对性强的差异化服务策略,以帮助其赢得竞争优势,获取客户粘