论文部分内容阅读
自然场景中的文字通常蕴含了大量有价值的信息,为理解和分析场景提供了重要线索。而且对于很多视觉应用来说,自然场景中的文字检测算法是其中的关键性技术。因而几十年来,该研究领域引起了国内外大量学者的关注,算法的性能也日益提高。典型的文字检测算法一般由四个步骤组成,分别是字符候选域提取、非字符域滤除、候选文本行生成和候选文本行验证。然而,这种处理流程存在着错误传播问题,一旦真正的字符域在第二阶段中被系统错误地滤除,将会影响到后续的候选行生成和候选行验证阶段,导致系统的最终召回率较低。针对这一问题,本文提出了基于自适应行聚类的自然场景中文字检测算法。该算法没有基于字符级别的特征对非字符域做滤除操作,而是为每个候选域赋予了一个文本/非文本的字符概率值。接着,在算法生成候选文本行集合后,系统充分利用文本行级别的特征,将每个候选行映射为三维空间中的一个点。最后,系统在当前图像中采用级联的聚类策略区分开真假文本行,得到最终的输出结果。另一方面,为了使算法能够完成自然场景中任意方向的中英文文本行的检测任务,本文提出了新的字符候选域提取算法和候选文本行生成算法。在字符候选域提取算法中,我们基于中文字符"方正"的特性,设计了连通分量提取+滑动窗组合的策略。该策略在不影响英文文本行检测效果的同时,解决了中文字符被提取成多个字符候选域的问题。而在候选文本行生成算法中,本文则充分利用了文本行的方向一致性,以图分割的方式来提取候选文本行。本文基于ICDAR-13和MSRA-TD500这两个国际标准数据集,对提出的算法进行了评估。实验结果表明,对于自然场景中任意方向的中英文文本行,算法能很好地完成检测任务,其性能达到了国际一流水平。