基于自适应行聚类的自然场景文字检测算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sgrwflh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景中的文字通常蕴含了大量有价值的信息,为理解和分析场景提供了重要线索。而且对于很多视觉应用来说,自然场景中的文字检测算法是其中的关键性技术。因而几十年来,该研究领域引起了国内外大量学者的关注,算法的性能也日益提高。典型的文字检测算法一般由四个步骤组成,分别是字符候选域提取、非字符域滤除、候选文本行生成和候选文本行验证。然而,这种处理流程存在着错误传播问题,一旦真正的字符域在第二阶段中被系统错误地滤除,将会影响到后续的候选行生成和候选行验证阶段,导致系统的最终召回率较低。针对这一问题,本文提出了基于自适应行聚类的自然场景中文字检测算法。该算法没有基于字符级别的特征对非字符域做滤除操作,而是为每个候选域赋予了一个文本/非文本的字符概率值。接着,在算法生成候选文本行集合后,系统充分利用文本行级别的特征,将每个候选行映射为三维空间中的一个点。最后,系统在当前图像中采用级联的聚类策略区分开真假文本行,得到最终的输出结果。另一方面,为了使算法能够完成自然场景中任意方向的中英文文本行的检测任务,本文提出了新的字符候选域提取算法和候选文本行生成算法。在字符候选域提取算法中,我们基于中文字符"方正"的特性,设计了连通分量提取+滑动窗组合的策略。该策略在不影响英文文本行检测效果的同时,解决了中文字符被提取成多个字符候选域的问题。而在候选文本行生成算法中,本文则充分利用了文本行的方向一致性,以图分割的方式来提取候选文本行。本文基于ICDAR-13和MSRA-TD500这两个国际标准数据集,对提出的算法进行了评估。实验结果表明,对于自然场景中任意方向的中英文文本行,算法能很好地完成检测任务,其性能达到了国际一流水平。
其他文献
随着航天任务的复杂化和空间设施的完备化,空间数据通信系统对数据处理的需求越来越高,因此CCSDS在常规在轨系统(COS)的基础上开发了高级在轨系统(AOS),以满足传送信息的复杂
语种识别(Language Recognition,LR)作为语音信号处理领域中的一个重要研究分支,具体是指利用计算机对任意给定时长的语音片段进行一定的分析和处理,从而自动判别出未知语音
软件定义网络(SDN/OpenFlow)是一种新型的网络架构,将传统网络的封闭体系分离为数据平面和控制平面,具有良好的可控性和灵活性。SDN开始被引入到许多场景下的网络,其中包括广
随着机载座舱显示技术的高速发展,新一代的战斗机已经逐步采用综合视频图形显示系统来替代传统的指针式仪表显示系统。本文以某型机载视频处理及图形生成系统为研究对象,展开了
心血管疾病是威胁人类健康的疾病之一。近年来,心血管疾病的发病率逐渐上升,严重危及人们的生命安全。心血管疾病患者越来越多,越来越趋于年轻化。心血管疾病最严重的临床表
语音频带扩展旨在从频带受限的窄带语音信号中恢复宽带语音信号。在当前的语音通信系统中,由于受到语音采集设备以及信道条件的限制,传输的语音信号的带宽往往小于4kHz。高频
现如今云存储十分流行,大大节约本地空间。然而数据外包存储也会导致个人企业的隐私泄漏。用户为了保护隐私信息,以图像为例,可以对其"加密"。而云端在接收到密文图像后,为了
高动态红外图像是红外图像发展的新方向,而且已经大量存在我们的生活中,因此对其研究是很有必要的。本文的研究重点是对高动态红外图像压缩后的红外图像细节增强算法的研究。本
低密度寄偶校验码(LDPC)是近代信道编码研究领域颇受青睐的一种基于稀疏矩阵的线性分组码,它不仅具有逼近shannon限的优异性能,还具有高速并行执行编译码的潜力,在现代及下一代移