自然场景文本检测与识别方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:ning0001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中存在着各式各样的文本(印刷体或是手写体),比如书籍、支票、广告牌、考试卷,而如何自动地识别图像中的文本具有很大的应用价值和研究价值。图像中的文本信息对于其他计算机视觉任务,如图片检索、无人驾驶、场景理解、即时翻译等有着很大的帮助。因此,自然场景中的文本检测和识别引起了学术界和工业界大量关注。越来越多的纸质文档通过拍照成像进行识别,且很多文档中手写和印刷体文本混合。因此,本论文除了研究场景文本之外,也研究拍照文档(场景文档的一种)中手写文本行识别。本文工作以及贡献总结如下:第一,提出一种基于八度卷积的任意形状场景文本检测方法。不同于标准的卷积操作,八度卷积将特征沿通道方向分解成高频特征和低频特征。通过对低频特征的压缩,使得后续在低频特征图上卷积操作的卷积区域(感受野)得到扩大,而计算量得到了降低,并且没有增加模型的参数量。本文将八度卷积和最先进的任意形状文本检测器PSENet结合,提出了基于八度卷积的任意形状场景文本检测器。在三个公开数据集上的实验结果表明,对于任意形状和任意方向的场景文本,本方法在明显提高检测精度的同时,也提升了检测速度。第二,提出了一种基于结构注意力的不规则脱机中文手写文本识别方法。手写文本除了书写风格多变之外,还面临着书写过程中涂改造成的文本擦除、插入和置换的挑战。尽管文本擦除得到了一定的研究,但是目前对于文本插入和置换的研究很少。针对插入和置换文本,本文提出了结构注意力网络(SAN)和一种新颖的结构表示法。在公开数据集SCUT-EPT上的实验结果表示,SAN在取得先进性能的同时,还能很好地识别插入和置换文本。通过可视化识别过程中注意力热图,进一步验证了本文提出的结构表示法的有效性。
其他文献
随着5G移动通信技术的普及,用于无线体域网的可穿戴天线在医疗、物联网、军事等领域具有广阔的应用前景。可穿戴天线的设计需要综合考虑人体复杂的电磁特征以及特殊的应用环境,为满足应用需求,其不仅需要具有小尺寸、低剖面、易与人体共形等结构特性,同时还要具有强的弯曲鲁棒性能、良好的人体加载性能以及满足天线对人体辐射的健康标准等性能特性。严格的要求增加了可穿戴天线的设计难度,目前大多数可穿戴天线的设计难以实现
作为一种重要的机器学习方法,聚类算法在许多数据分类领域得到了广泛的应用,人们可以利用聚类算法完成数据挖掘、图形模式识别、图像分割等工作,并取得了不错的成绩。然而,由于聚类算法无监督学习的特点,对聚类结果的质量进行评估就成了一项重要的研究内容。与此同时,许多聚类算法必须在开始运行之前设置目标数据集的类簇个数,但是在通常情况下,这个数字往往难以事先获知。围绕上述两个问题,本文从簇间分离度的衡量方法入手
超密集网络(Ultra Dense Network,UDN)中,被赋予计算功能的小基站由于计算能力受限容易过载,从而影响用户服务质量。另一方面,UDN大量部署小基站扩展系统容量的同时也导致了网络的致密化,数量频繁且不必要的小区切换将会产生额外网络能耗。以上存在的两大网络资源管理问题制约UDN的发展,值得深入研究。在移动边缘计算(Mobile Edge Computing,MEC)中,往往以消极的方
在大规模机器通信(massive machine type communication,m MTC)场景中,基站接收到耦合在一起的信号,如何高效准确的从耦合数据中恢复用户的传输数据成为了难题。由于m MTC中潜在的稀疏特性,压缩感知(Compressed Sensing,CS)技术可以用来联合检测上行免调度NOMA系统中的用户数据和活跃性。目前,基于CS的贪婪类算法因其复杂度低、重构精度高等优势,
大规模MIMO(Massive Multiple-input Multiple-output,Massive MIMO)技术在发射器和接收器中使用多天线阵列可以数倍地提高网络连接的容量,增加信号的收发路径和频谱效率。Massive MIMO带来优势的同时也引发了一系列的问题,由于天线数目变多,导致信道增益矩阵的维度变大。因此,对基站端进行信号检测的算法提出了更高的要求,目标是实现低复杂度且高性能的
近年来随着信息收集设备技术的进步和普及,现实世界中的数据收集难度大大降低。但是数据半结构化甚至无结构化特点易导致样本的维度达到几万甚至几十万维,需要特征选择等算法来解决所带来的维度灾难问题。然而传统的特征选择方法更倾向于选取具有鉴别性的特征,忽略了数据内在的平衡性,无法得到正确结果。因此在数据挖掘和机器学习中,急需行而有效的算法从原始数据特征集中选择相关的特征。在许多真实的数据挖掘应用中,如无线传
为了支撑上层自动驾驶功能,一辆自动驾驶汽车通常安装大量的传感器来获取道路状况,并安装众多应用程序来保障其正常运行。然而,传统的车内网络缺少细粒度的认证单元和各类加密单元,很多应用程序可以过度访问自动驾驶车辆上的敏感数据,造成车辆的隐私泄露。此外,车载相机系统易受到光线影响,在极端环境下感知的准确性有限;针对这一问题,一些学者提出将车辆自组织网络与自动驾驶技术结合,提高自动避障性能,然而保障消息的安
采用主动有源装置如雷达等设备来估计目标的位置属于有源定位的范围,有源定位的一个缺点是很容易受到反辐射打击或电子干扰,使得系统的安全得不到保障,而无源定位技术的出现很好的解决了这个问题。无源定位技术相对于有源定位的主要区别在于其自身不需要发射信号,它是一种直接利用目标发射或反射的信号来获取目标位置的技术,其基本原理是利用多个位置明确的接收站共同接收目标发射或反射的信号,从中提取出能用来获取目标位置参
随着互联网的飞速发展,人们可以从互联网上获得的信息也与日俱增。而信息的激增也会带来信息过载的问题,人们虽然可以更容易地找到自己所需要的信息,但对自己而言无用的信息也随之激增。为了解决信息过载问题给用户带来的困扰,推荐系统应运而生。在推荐系统技术中,协同过滤算法是使用最为广泛的算法。但协同过滤算法发展至今仍需解决诸如数据稀疏性、冷启动等众多问题。本文针对协同过滤算法的缺陷和现有方法的不足进行深入研究
在面对恶劣环境时,单导航系统性能表现不佳,定位精度有限。随着卫星导航系统的发展与完善,相比单一导航系统,组合导航系统以其可以提供更多的可见卫星和提高定位精度受到更多的关注。同时,北斗三号系统的最新建成为组合导航系统的发展提供新动力。然而在组合系统选星场景下,冗余卫星信号的增加却加大了卫星选择的时间和计算成本。因此,本文为改善选星问题,提出基于差分进化的选星算法,利用差分进化的快速搜索能力达到快速选