场景文本图像智能标注算法及系统设计

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:gin901122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像文本检测和识别算法可服务于众多下游应用,包括基于图像的搜索、商务信息处理、地理位置定位、即时翻译、机器人导航,工业自动化和人机交互等领域,具有极高的研究价值。图像中文字及其标注信息作为驱动图像文本检测和识别算法的“燃料”,对于提高其算法性能至关重要,在深度学习时代更显突出。智能标注算法包含三个内涵:1)预标注、2)人机协作标注和3)人机协作校对。然而,目前应用于文本图像标注的智能算法只有利用文本检测和识别算法的预标注解决方案。由于当前检测和识别算法的预标注性能有限,导致人工补充和校对标注过程繁琐、工作量大。一方面,标注者需要标注形状各异的文本区域;另一方面,缺乏快速定位正确标注的手段,导致校对效率低。为此,本文研究和开发针对场景文本图像的智能标注算法和系统,具体包括以下几个方面:1)针对文本图像检测标注的人机协作标注,提出基于文本中心线的半自动场景文本检测标注算法。该算法以文本中心线为输入,自动生成多边形标注框。标注文本中心线相较于直接标注文本区域多边形可以减少一半的标注耗时,同时,本方法自动生成与全手动标注质量可比的精确多边形标注,可使训练的文本检测器达到领先水平。本文提出的半自动标注算法可直接用于交互式地辅助人工标注过程,减少标注工作量。2)针对文本识别标注的人机协作校对,提出标签平滑的文本识别校准方法。该方法借助标签平滑软化负对数似然损失的目标分布,进而缓解模型“过置信”问题。进一步,本文提出上下文本感知的选择性标签平滑算法,利用文本上下文信息自适应平滑,达到更高性能的置信度校准。校准识别模型的置信度可以准确估计预测精度,可作为一种指示精度的指标,并用于筛选高精度预测结果作为标注,人工只需要检查低置信度预测,提高标注校对效率。3)本文通过集成常见的文本图像检测算法,以及上述两个算法,构建文本标注系统,设计并实现包括预标注、文本框校对和文本内容校对三个标注流程。系统性能测试表明,在该智能系统辅助下,相较于手工标注,可以减少三分之二的标注时间,同时相较于业界常见的只用检测和识别算法做预标注的方案,该系统仍可以减少约40%的标注时间,为场景文本图像标注提供了一个高效实用的原型系统。
其他文献
视觉问答(Visual Question answer,VQA)的任务是根据给定图片和关于图片的自然语言问题,机器自动推理并输出答案。视觉问答是一项涉及到图像理解和语言处理两大研究领域的具有挑战性任务。视觉问答模型比较常用的是利用卷积神经网络(CNN)提取图像特征和循环神经网络(RNN)提问题文本特征,然后把这两特征映射到同一向量空间以预测答案。在视觉问答模型中主要需要三个相关技术:图像理解、问题
快速城市化背景下,一些基于原始农业系统的物质与非物质要素在城市发展吞并的大趋势下被保留下来,形成具有丰富“遗产”内涵的农业遗存,与城市绿地结合以协调城市建设与自然生态环境之间的巨大压力,然而,此类农业系统的生产属性与城市绿地管理、人群使用之间的矛盾,使得农业遗存既面临着适应高强度城市建设的环境压力,又面临着与城市绿地协同发展,共同建构良好城市生态人居环境的挑战。基于农业遗存生产属性与城市绿地相互影
游戏为人工智能(AI)算法提供了一种有用的研究和测试平台。利用深度学习算法对游戏中玩家获胜者的预测是AI规划的重要组成部分。实时战略(RTS)游戏是一类流行的实时战斗模拟游戏,由于巨大的状态空间,有限的决策时间和动态的对抗环境,RTS游戏为利用深度学习算法对游戏中玩家进行获胜者预测提供了理想的环境。游戏(特别是RTS类游戏)以及游戏玩家获胜者预测在军事作战仿真系统设计中有实际的应用。本文对RTS类
废旧沥青混合料(RAP)作为一种路面可再生材料,近年来在道路修建中被广泛应用,具有可观的环保和经济价值。但由于RAP中老化沥青劲度过高,对疲劳和低温性能不利,使路面使用寿命降低,从而限制了RAP的再生利用率。为实现RAP的高效再生,可使用再生剂来软化老化沥青,同时改善新旧沥青的融合程度。尽管再生沥青及其混合料的宏观性能得到了广泛的研究,但不同再生方式下再生效果的对比和再生沥青中各组成成分(新沥青、
模块化多电平换流器(Modular Multilevel Converter,MMC)是柔性直流(Flexible-HVDC)输电常用的一种电压源型换流器(Voltage Source Converter,VSC),其具有开关频率低、拓展性强、电能质量高、制造难度小等优势,是学术界和工业界热门研究对象。为了保障换流器安全稳定运行,对其进行寿命评估有着重要意义。另外,元器件的劣化状况严重制约着MMC
近年来,我国持续加大基础设施建设力度,对隧道工程建设过程中的数字化、信息化的要求日益提高,因此探索和研究BIM技术在特长公路隧道工程中的应用具有很重要的实际意义。本文以广东某特长公路隧道工程为依托,针对隧道BIM与围岩地质体建模及其设计应用进行了研究。针对隧道BIM建模方面,在归纳现有隧道BIM技术与应用研究的基础上,首先针对隧道BIM建模方法进行了研究,提出了一种以Revit软件自带的公制常规模
随着海量多视图数据的产生,如何分析和融合这些异构的多视图数据成为当下迫切的需要。多视图聚类旨在利用多视图数据的公共和互补信息来进行聚类。多视图图聚类是多视图聚类最有代表性的其中一类方法。多视图图聚类首先为每一个视图的数据构建相似度图,然后融合多个相似度图为一个共享图,然后在融合图上完成聚类。我们在深入了解大量多视图图聚类的工作,准确度量相似度是该类算法的关键所在。然而已有多视图图聚类方法在构建相似
随着GPS技术的广泛应用及近些年来人们对健康的追求,用户习惯用各种运动软件记录自己的运动或活动数据,并基于社交平台可一键分享运动数据到朋友圈、微博等。各种软件则收集带有隐私信息的轨迹在内的数据以分析用户的行为习惯来推荐更多的个性化服务。同时,由于现在各种社交软件的功能扩展,用户的好友并不都是关系亲密的联系人。当用户在移动社交网络分享自己的运动轨迹时会无形泄露自身的隐私。对于社交网络中用户间关系强度
U型钢板桩是两侧带特殊锁口的一种具有复杂截面形式的结构,因其施工效率高、自愈效果好、绿色环保等诸多优点被广泛运用于支护工程中。由于钢板桩特殊的锁口连接方式,在受弯作用下钢板桩抗弯刚度的发展与锁口间接触咬合的变化过程具有较强关系,也使得钢板桩抗弯性能的研究存在一定的复杂性和不确定性。桩间锁口完全自由滑移时,相当于单桩抗弯;桩间锁口无相对滑移时,相当于理想桩墙抗弯;而实际工作中的钢板桩墙锁口间存在一定
刘震云的长篇新作《一日三秋》,由人及面地叙写离开延津的人对延津的惦念,以及延津人之间"一句顶一万句"的托付,而这惦念和托付里隐伏着的依然是中国人都能感知兴会的世情。小说以笑话立意,并将笑话视为洞见人性的机关,在由一则又一则的笑话串联的生死录中记下中国人关于生命悲喜体悟的"脉案"。小说在叙事上复归民间和传统,不但将人兽鬼神等量齐观,而且叙事结构灵活,叙事时间自由,首尾相贯,前伏后应,充溢着鲜活流动的