自然场景文本检测与识别的深度学习方法

来源 :中国图象图形学报 | 被引量 : 0次 | 上传用户:rkn7621278
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了
其他文献
面对每天有数以百万计通过网络传播的多媒体数据,到底哪些内容是真实可信的,虚假内容的背后又经历了哪些篡改?数字取证技术将给出答案。该技术不预先嵌入水印,而是直接分析多媒体数据的内容,达到辨别真实性的目的。任何篡改和伪造都会在一定程度上破坏原始多媒体数据本身固有特征的完整性,由于其具有一致性和独特性,可作为自身的"固有指纹",用于鉴别篡改文件。随着篡改媒体的数量与日俱增,社会稳定甚至国家安全受到了严重
三维视觉测量是计算机视觉与精密测量原理交叉融合的前沿高新技术,是工业4.0的基础支撑,是以网络化、智能化制造为变革特征的先进制造业的核心关键技术。经过几十年的发展,三维视觉测量技术在基础研究和应用研究上均获得了快速深入发展,形成了理论方法、技术工艺、系统研发和产品应用四位一体较为完备的方向体系,呈现出理论系统化、方法多维化、精度精准化和速度快捷化的发展趋势,成为智能制造过程控制、产品质量检验保证和
随着智慧城市建设的不断深入,大量的传感器设备铺置在城市公路和轨道等交通场景,为多维度全方位感知城市交通状态构建了广泛的感知网络,产生了海量的交通视频数据。海量交通视频数据是城市管理的数据宝藏,理解与分析这些数据是智慧城市建设的关键。面对高度冗余的交通视频数据,如何高效准确地挖掘和提取结构化信息,实现对重点目标(如人、车、物)的快速检测、识别与检索,是交通视频处理的核心问题——交通视频结构化分析。交
作为一种新型治疗手段,光动力疗法近年来被广泛应用于癌症等疾病的治疗研究。然而,用于激活光敏剂的紫外或可见光具有较低的组织穿透深度,限制了光动力疗法的治疗效果。上转换纳米颗粒可以将组织穿透能力较强的近红外光转换为紫外或可见光,为实现近红外光激活的光动力疗法提供了光转换器,有望解决传统光动力疗法组织穿透深度较浅的问题。本文综述了基于上转换纳米颗粒光动力治疗体系的构建方法,重点讨论近期发展的基于金属-有机框架结构与上转换纳米颗粒相结合的新策略,并对其进行总结和展望。
混合现实系统可以提供虚拟信息和真实环境实时叠加的虚实融合场景,在教育培训、文物保护、军事仿真、装备制造、手术医疗和展览展示等领域具有十分广阔的应用前景。混合现实系统首先利用标定数据构建虚拟摄像机模型,然后根据头部跟踪结果和虚拟摄像机位置实时绘制虚拟内容并将其叠加在真实环境中,用户通过虚实融合场景中渲染的图形化线索和虚拟物体特征感知其深度信息,但存在用于指导虚实融合场景绘制的视觉规律和感知理论匮乏、