基于深度学习的自然场景文本检测研究

来源 :深圳大学 | 被引量 : 1次 | 上传用户:longweii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字包含丰富的语义信息,常用来表达情感,传承知识。本文主要研究现实生活中的文字,这类文字被称为自然场景文本。场景文字的检测和识别技术具有广泛的应用场景,如车牌识别、票据识别、图像检索等。自2012年以来,基于深度学习的方法在计算机视觉刷新了多项任务的指标,取得了叹为观止的成果,当下文本检测领域的主流方法也都使用深度学习算法。本文基于深度学习框架,围绕场景文本不规则的形状、变化幅度大的尺度以及大间距或文本局部被遮挡等难点展开一系列研究。1)为了检测长文本与剧烈弯曲文本,本文依据分治策略提出了一种基于子区域融合的文本检测算法,该方法先将文本区域划分为左右两个子区域并单独检测出来,在推理过程中将子区域合并成完整的文本实例。该方法使用全卷积网络预测四个局部组件,包括文本区域,文本骨架,文本子区域和文本连接区域。文本区域和文本骨架用来分隔相邻的文本实例。文本子区域通过文本连接区域合并,形成一个完整的文本实例。实验结果表明,该方法在两个弯曲文本数据集上的性能优于当时最新的方法,在Total-Text和CTW1500数据集上分别取得了82.42%和82.63%的F-分数。该方法在多方向文本数据集上的性能也富有竞争力,在IC15数据集的F-分数达到了 85.86%。2)针对具有较大字符间隔和局部被遮挡的文本实例很容易被误检成多个文本框的问题,本文提出了一种基于特征嵌入的文本实例重组算法。该方法提出了文本实例嵌入模块(TIEM)来学习文本区域内每个像素的特征相似性,在训练中最小化同一个文本实例内像素间的特征距离,最大化不同文本实例间的特征距离。在推理阶段,如果两个相邻候选文本在特征空间中的距离小于阈值且满足特定条件,这两个候选文本将被文本实例重组算法组合成一个完整的文本实例。实验结果表明,测试集中一些局部被遮挡和大字符间距的文本能够被完整的检测。该方法在文字行级标注的数据集(即CTW-1500)上实现了最佳性能,在单词级别标注的基准数据集(即Total-Text,IC15)上达到了富有竞争力的性能。3)本文结合实际需求,实现了一个增值税发票感兴趣文本检测系统。在进行需求分析后,对增值税发票进行了详细的版面分析和难点分析。依据现有方法的缺点以及增值税发票感兴趣文本检测问题中的难点逐步进行改进。检测结果证明了该系统针对增值税发票文本检测具有较好的适用性。
其他文献
自修复聚合物是当今高分子材料领域的研究热点之一。大部分水凝胶自修复的实现需要一定的外部条件,如高温、紫外线和p H值等。温度作为其中的主要影响因素之一,可加速分子热运动、为化学反应提供活化能,对水凝胶材料的自修复具有重要意义。一般而言,高温环境的产生需要借助设备,如烘箱、水浴及特定光源等,这些条件的实现在水凝胶的实际应用中受到限制。本文中将光热作用引入到水凝胶材料中,水凝胶可在太阳光下达到较高温度
叔胺与羰基化合物之间的反应已是国内外化学家们研究的热点。叔胺与羰基化合物的常见反应,例如两个C-H键的直接氧化交叉脱氢偶联(Cross-dehydrogenative coupling,CDC)是有机合成中有效且相对清洁的有机合成策略。在这些反应中,对映选择性催化的发展仍然是一个挑战。最近,叔胺与羰基化合物的不对称催化反应在有机合成领域虽已取得越来越多的突破,但仍然需要解决一系列的问题。近年来,光
韧性水凝胶是一类具有优异机械性能(如良好的拉伸性、韧性、抗疲劳性能等)的软材料。结合水凝胶的生物相容性、离子导电性、黏性和对p H、温度、湿度等的响应性,韧性水凝胶在生物工程、柔性电子器件、传感器、柔性机器人、药物释放和储能器件等领域应用广泛。然而水凝胶内部大量的水分在低温下易结冰,长时间使用时内部水分容易蒸发,这两个缺点使得水凝胶在应用时无法长时间正常稳定工作。受生物冻存的冷冻保护液启发,本文提
镓及其合金是一类在室温或接近室温的温度下呈液态的金属材料,具有高导电性、低毒、低蒸气压等优点,近年来被广泛应用于柔性电子领域、化学催化、生物医学等领域。制备镓基液态金属纳米液滴,并将其印刷至柔性基底,是低成本、大面积制备液态金属柔性电路的一个有效途径。然而,液态金属纳米液滴的制备存在着尺寸控制差、表面功能化处理困难等问题。针对以上关键问题,本论文利用超声波促使多巴胺的自聚合,制备了表面活性剂稳定的
轨道交通在国内快速发展的同时,保障公共安全的轨道线路日常养护检修工作越来越受到重视。随着轨道车辆技术的发展与提速、线路里程的增长带来的检修压力,轨道扣件在保持轨道线路稳定上愈发重要。轨道扣件在实现钢轨与道床的连结固定、保持轨道间距上有着重要作用。目前轨道扣件日常养护中以人工检测为主的检测方法已经无法满足轨道线路智能化检测的需求,人眼只能针对破损性扣件进行目测而无法对扣件的扣压力进行评价。本文研究的
近年来,无人机技术有了广泛的应用和长足的发展,人们越来越多的使用无人机进行多种场景的拍摄。尤其对于诸如城市街景、山水风景等固定场景,使用无人机拍摄的相关技术和方法已经非常成熟。而复杂动态场景的实时拍摄,仍然以使用摇臂摄像机,设置多个机位,依靠人为操控的传统方式为主。如果能将无人机用于复杂动态场景的实时拍摄,将能节省大量人力,并有望达到更好的拍摄效果。与其他平台相比,从无人机平台上对这种场景的处理需
研究约翰·凯奇的音乐创作特点并非易事。一方面源于约翰·凯奇创作数量之多、涉猎风格类型与体裁甚广——两百多部音乐文本,拥有独奏(唱)、重奏(唱)、合唱、大型多媒体综合表演等多种演出形式,涵盖室内乐、管弦乐、电子音乐等多种音乐类型,且风格多变。然而,音乐创作总是沿着时间脉络呈过渡性发展,笔者因此为众文本划分阶段,并从各阶段挑选典型文本,细析一二,从而管中窥豹,获悉约翰·凯奇音乐文本的基本全貌;另一方面
“乐感文化”是一种乐天知命的实用主义文化,具有导向人与内部身心、人与人、人与外部环境等的和谐、以追求“天人合一”为最高境界的内涵特征,对中国文化的发展有着深刻的影响。本研究以中国传统“乐感文化”作为切入点,以中国舞台民间舞创作为研究对象,分析“乐感文化”对中国舞台民间舞创作所产生的影响。文章绪论部分主要阐述研究缘起与研究目的,对以往有关“乐感文化”的研究动态、中国舞台民间舞创作的研究动态进行了历史
随着经济的发展和人民生活水平的提高,企业和个人迫切需要进行各种投资以使得其收入和资产得到保值和增值。股票、期货、外汇、黄金、基金等金融产品层出不穷。人们在投资这些金融产品时,可以获得较为高额的收益,但是也可能导致很大的损失。金融市场的危险无处不在,所以人们在投资时都需要面对一个问题,就是如何在追逐着丰厚收益的时候对其带来的风险进行评估与控制。投资组合是一种财务概念,可以组合多个股票以降低风险。投资
物联网时代,三维技术对深度传感器的需求在不断上升,特别是在自动驾驶、虚拟现实、增强现实、机器人视觉、工厂自动化、人工智能等领域的应用不断增加。近十年来,三维成像和测距成为了最重要和最富有创新性的研究领域之一。其中最为热门的即是光子飞行时间技术(Time of Flight),简称To F。To F根据测距原理的不同,一般可以分为两种:时差测距和相位测距,即直接式和间接式。间接式To F深度传感器具