基于卷积神经网络的自然场景文本检测算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:vipshaw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习的发展,场景文本检测方法在实际应用中取得了很大的进步。然而,由于自然场景中文本形状各异、大小不一、背景复杂、语言种类多等诸多难点,许多算法研究依然面临着巨大的挑战。早期的深度学习检测算法大多基于Anchor直接进行边界框预测,并没有关注文本的区域变化特性,这使它们很难分离彼此接近的文本。此外,基于Anchor的边界框预测也很难检测形状各异的文本,如四边形文本、曲线文本等。针对这些问题,本文探索了无预设Anchor的自然场景文本检测算法。主要研究工作如下:本文首先提出了一种基于角点检测的场景文本检测算法。该算法直接定位边界框的四个角点实现文本的检测,其不需要预设任何的Anchor,也不是直接预测文本的边界框。借助Hourglass骨干网络以及角点池化预测模块,四个预测模块分支分别输出用于定位角点的热力图、用于修正分辨率缩放产生的位移量以及用于组合角点的内嵌向量。在ICDAR 2015数据集和MSRA-TD500数据集上,基于角点检测的场景文本检测算法分别获得了80.7%和79.0%的F值。实验结果表明,它能显著改善模型检测水平方向文本以及四边形文本的性能。针对角点检测算法较难检测曲线文本的问题,本文提出了一种可以同时描述四边形文本和弯曲文本的渐进式2D核。它将边界框的原始标签值(Ground-Truth,GT)转化为0-1渐进变化的概率分布图GT。同时,也提出了一种带方向池化结构的渐进区域预测网络(Progressive Region Prediction Network,PRPN)来预测文本区域的概率分布。在后处理算法的帮助下,文本区域的概率分布能够有效转化为边界框输出,实现场景文本检测。与已有方法相比,该方法具有更高的鲁棒性和准确性,无需边界盒的设计,模型简单有效。该方法在ICDAR 2015数据集和SCUTCTW1500数据集上分别获得了86.0%和81.4%的F值,并在准确性和效率方面达到了或优于当前最先进的方法。
其他文献
井下电动钻具钻井效率高,可显著降低油气开采成本,是实现深井油气资源高效低成本开发的重要途径,具有良好的应用前景。井下潜油电机作为电动钻具的核心部件,需具备高转矩密度和高可靠性等特性。永磁游标电机结构简单、转矩密度高,但传统的表贴式永磁游标电机存在功率因数偏低以及转子结构可靠性较差等问题。低功率因数会导致变频器容量加大从而增加成本,而表贴式转子在装配和运行过程中存在永磁体破碎或脱落隐患,其可靠性难以
随着城市发展,通勤距离的拉长,交通量的激增,在土地有限及施工技术、周期等多方面因素影响下,高架这一交通形式为城市广泛使用,成为当代城市最为常见的基础设施。在交通问题得到解决的同时,高架这一形式也伴生出了大量的桥下空间。重庆市因为其独特的环境使其桥下空间在分布上具有其独特的情形展现出独有的类型和特征。而由于对其认识不足也使得其利用暴露出诸多问题。综合重庆主城区桥下空间类型特征的总结提炼、利用现状问题
信源定位技术是阵列信号处理领域中最重要的应用之一,其核心功能是对信源的位置参数进行估计。而三维信源定位技术,以其拥有同时对信源的俯仰角、方位角和距离参量进行测量的能力,是信源定位技术中一项更具有现实意义的重要技术。该技术在5G毫米波通信系统、无线传感器网络、声源定位和地震勘探等领域都有着广泛的应用。且高精度的三维信源定位技术可以更精确的引导微波输能系统进行能量的定向传输,在提高微波输能系统的传输效
近年来,可再生能源发展迅速,这对储能器件的性能提出了更高的要求。超级电容器是一种新型的储能元件,具有使用循环寿命长、工作效率高、动态响应快等优点,应用日益广泛。作为一种以快速充放电作为主要工作形式的器件,超级电容器在其工作过程中,内部会产生大量的热量,过量的热量如果不能有效地散发到周围环境中,将会导致器件的工作温度上升,从而极大的影响超级电容器工作性能,缩短器件寿命,甚至导致安全事故。随着超级电容
城市热环境问题是城市环境问题中的重要部分,其中最具代表性的就是城市热岛效应。近年来频频出现的极端高温天气严重影响了户外活动区域的环境热舒适,威胁了户外工作人员的安全和健康,同时也增加了营造良好舒适室内环境所需要的建筑能耗。人类活动所引起的下垫面材质大规模变迁是影响城市热环境的重要因素,人造材质的大量应用和自然材质的急剧缩小破坏了城市区域的热平衡。针对当前城市热环境调控措施的局限性,课题组前期创造性
滚动轴承是大型设备中不可或缺的组成之一,广泛应用于国防事业和国民经济中,为祖国的现代化建设贡献了力量。为了保障大型设备平稳的运行,需要对滚动轴承的剩余使用时间做出推断,这样不但可以保障工作人员的安全,还可以大幅度地降低成本,因此亟待展开关于滚动轴承的预测与健康管理(Prognostics and Health Management,PHM)研究与工程实践。其中,剩余寿命(Remaining Use
由于空气污染、吸烟以及不良生活习惯等原因,目前有越来越多的人患上诸如肺癌、肺炎等肺部疾病。在肺部疾病诊断的过程中,医生往往需要通过分析肺部影像解决疾病确诊、制定手术方案等问题。但目前医生只能通过手动调节窗宽窗位等方法,凭过往经验诊断及制定手术方案。因此通过计算机图像处理方法分割出肺部器官,提升医生诊断效率具有重要研究价值。传统方法分割肺部器官的步骤繁琐、自动化程度低,而使用深度学习实现肺部多器官自
绝缘油是充油电力设备的主要绝缘介质,担负着电气绝缘、散热及作为故障诊断载体等重要功能,其性能影响及决定着充油电力设备的运行水平。传统矿物绝缘油具有低粘度、低倾点、较高的氧化安定性,但其低闪点与燃点、难降解及不可再生性带来较高的安全、环境及资源枯竭风险。植物绝缘油因其较高的阻燃特性、可再生、可降解及良好的电气绝缘强度而在配电变压器领域得到了成功应用,但其易老化、粘度与倾点较高、长油隙不均匀电场雷电击
一直以来,水电被视为一种清洁绿色的能源。不过,有研究表明,水库的建设会极大改变原有生境的生态功能,进而对整个库区温室气体的排放产生较大的影响。三峡水库作为目前世界上最大的水电工程,其“反季节”的运行方式形成了水位落差近30米的消落带。消落带周期性地处于淹没/落干的循环中,物质迁移和能量交换更为复杂,碳循环也与自然生境有较大的不同,其对温室气体排放的贡献既来自于岸边沼泽又来自于水域。因此,基于三峡库
肺癌是目前世界上发病率和死亡率最高的恶性肿瘤之一。大部分患者难以察觉早期的肺部病变,当出现临床症状时,基本上都了病程的中晚期,治疗效果受限。肺结节是肺癌的早期表现形式,肺结节检测对降低肺癌死亡率和提高患者生存率及生活质量具有重要的意义。肺部计算机断层扫描(Computed Tomography,CT)影像是当前早期肺癌诊断的主要手段,但人工判读主观性强、一致性低,容易引起漏诊和误诊。深度学习能获取