自然场景图像中的不规则形状文本检测算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:sunnymurder
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文本检测,指的是定位场景图像或者视频中的文字区域,并用一个包围框将其标识出来。检测不规则形状的文本是最具挑战性的任务之一,它要求给出一个紧密包围文字区域的多边形包围框,文本表征更加复杂,也更能满足现实中的需求。目前不规则形状的场景文本检测算法,主要可以分为自上而下的基于实例分割的算法与自下而上的基于语义分割的算法。然而,现有的工作依然存在一些问题。例如,基于语义分割的算法后处理过程复杂;常规的文本检测算法对阈值选择较敏感;常规的文本检测算法很少考虑到文本对象边界不明显的特征;某些文本检测算法在输入图像的分辨率提高时,会将文本行检测为断开的若干单词。针对上述问题,本文从模型融合、文字边缘处理和多尺度特征图融合三个方面开展自然场景图像中的不规则形状文本检测的算法研究。本文的主要研究内容和工作如下:1.本文提出了一种结合多种表征方式的文本检测算法。为了解决基于语义分割的算法后处理过程复杂的问题,本文引入一种文本核增强算法,将语义分割分支和实例分割分支的输出结合起来。实验表明,该算法能够在后处理阶段有效降低35%以上的待处理像素点,从而减少了后处理过程的时间开销。2.本文提出了一种对阈值选择不敏感的文本检测算法。常规的检测算法对阈值选择敏感。为了解决该问题,本文在计算损失函数时引入一种随着训练过程渐进衰减的边缘权重与尺寸权重,有效地降低了文本边缘的不确定标注带来的不利影响。由于获得了准确的文本核预测结果,该算法可以免去复杂的后处理过程,在检测速度上快于大多数现有方法。实验表明,该算法在Total-Text数据集上达到了86.1%的F1值,在MSRA-TD500数据集上达到了89.3%的F1值,优于现有的文本检测方法。同时,该算法拥有对阈值选择不敏感的特性,在不同阈值选择下性能表现稳定。3.本文提出了一种自适应融合多尺度特征图的文本检测算法。常规算法在检测高分辨率图像时,难以感知完整的文本行。针对这个问题,本文先将特征图上采样到不同尺度,然后利用一个融合模块将它们融合。该算法可以通过学习环境上下文来自适应地调整不同尺度的特征图的权重。实验表明,在输入图像的分辨率较高时,与基线算法相比,该算法检测文本行的准确率稳定提升4%以上,检测速度几乎保持不变。
其他文献
具有精度高、噪声低、效率高、易于控制等优点的永磁直线同步电机(PMLSM)在高精度伺服系统中有广泛的应用。传统上,PMLSM通过传感器获得电机的位置和速度来实现闭环控制,作为关键部件的速度传感器直接影响系统的控制精度和动态性能。然而,采用机械式速度传感器增加了控制系统的成本和复杂程度,传感器与控制器之间的接口降低了电系统的可靠性。无传感器控制可有效解决上述问题,PMLSM的无传感器技术已成为近年学
越来越精细化的社会分工使得各个行为人之间的交往更加频繁和交错,便出现了为了谋取自己的合法利益而偶然的与违法犯罪行为产生了联系,但是这种看似偶然、无害的社会交易行为或服务行为,却对犯罪行为的发生起到了促进的作用,这就是最早由德国提出的“中立帮助行为”。中立帮助行为自身的特殊性和复杂性使得其成为了矛盾的结合体,一方面,中立帮助行为人的行为确实为实行犯实施犯罪行为提供了帮助,侵害了刑法所保护的法益,理应
针对金达煤矿采掘接续紧张的问题,本文采用技术分析与经济分析相结合的方法,对八采区的准备方式和区段巷道布置方式进行了研究;采用工程经济学的原理与方法,对八采区开采的投资风险进行了研究。主要内容如下:(1)根据八采区煤层赋存条件和现有的生产系统情况及矿井与集团公司盈亏平衡点的要求,确定了八采区生产能力、采区服务年限和采煤工作面数目。研究提出了几种可行的采区准备方式,通过技术与经济比较,选择了最优的采区
近些年来,无人驾驶飞行器凭借其移动性高、造价低、灵活部署等特点在民用领域逐渐普及化应用。相较于传统地面通信,无人机辅助通信所具备的良好视距链路通信可以有效提高用户的服务质量,被视为未来无线通信研究中的前沿研究热点。本文针对无人机辅助通信的特点,着重围绕不同通信场景下的通信资源分配与无人机空间规划来进行系统性能优化的研究。主要研究内容如下:首先,针对无人机辅助中继通信系统,无人机作为移动中继通过无线
动态膜生物反应器(DMBR),是一种利用粗孔支撑材料上形成的动态生物膜层实现泥水分离的膜生物反应器。与聚合物膜不同,支撑材料上的生物膜层主要由微生物和其分泌的胞外聚合物(EPS)构成,是“活的”膜材料,其微生物群落可随着操作条件的变化而变化,反过来会影响DMBR的过滤行为,如对固液分离、通量和过水阻力的影响。本研究通过对支撑材料表面动态膜的过滤性能、组成成分和结构等进行分析,进而揭示了动态膜的演变
黑碳由于强烈的吸光效应和显著的气候和环境效应,一直以来都是大气研究领域的热点。近些年来随着经济的发展,我国黑碳排放量增加,关于大气黑碳监测和减排的关注度也在逐渐增加。华北平原是我国典型的复合污染地区,也是黑碳人为排放量最高的区域之一,精确分析大气黑碳气溶胶的理化特性对于揭示黑碳对区域环境气候的影响具有重要意义。2018年11月在华北平原的一个背景站点开展的大气综合外场实验中,我们采用单颗粒黑碳光度
随着网络技术发展的日新月异,以微信、QQ、微博、论坛等APP为代表的社交媒体应用革新了大众的生活方式。大学生作为最广泛、最活跃的社交媒体使用群体,社交媒体深刻影响着大学生的学习和生活。社交媒体为开展大学生思想政治教育提供了资源丰富的教育平台,成为思想政治教育信息的集散地与社会舆论的放大器。社交媒体作为大学生思想政治教育的新载体,其运用直接影响着大学生思想政治教育的效果。因此,研究社交媒体在大学生思
当前,我国旅游业正处于快速发展的阶段,尤其是占据得天独厚自然优势的生态旅游市场潜力巨大。土地作为旅游区发展的核心命脉,土地利用情况直接影响着该区域的发展前景,构建土地模拟模型对于探究土地利用变化情况、规律和未来发展趋势起到了至关重要的作用。景观格局变化能够反映自然因素和人类活动对区域生态环境的影响,把土地利用与景观格局理论相结合,对土地利用优化、生态环境建设和可持续发展有重要意义。本文以云南省省级
随着航空运输业的竞争日益激烈,航空公司为了更好的生存和发展,开始慢慢意识到引入收益管理系统的重要性,而舱位控制是收益管理中的重要组成部分,因此客运舱位控制就成为了企业关注重点之一。然而,传统的舱位控制方法仅仅从航空公司的效益角度去考虑,并没有挖掘客户决策行为在其中的应用,易于导致控制决策的失误,影响航空公司的收益。研究客户决策行为及其在舱位控制中的应用,不仅仅体现了以客户为本的思想,也是收益管理研
短视频作为近年来的移动互联网热门产品,一经推出便受到用户和市场的青睐。短视频传播给人以身临其境的沉浸式体验,时长虽短但内容丰富,且具备社交属性,多以娱乐化、生活化的视频内容为主。然而,在快速发展的同时,由于准入门槛低、用户素养良莠不齐、一味追求流量收益及平台监管不力等原因,短视频平台内的许多行为却忽视了传播过程中的伦理道德,诸多伦理失范问题正以不同的形式展现出来。论文结合具体案例,对短视频传播中常