论文部分内容阅读
版面分析模块是文字识别系统(OCR)的预处理部分,其准确性直接影响OCR的自动化程度。本文针对复杂的中文版面,提出了一个基于邻域特征的版面分析方法,实现了对一般版面的二值图像文档的版面图文分析。版面图文分析采用自底向上和自顶向下相结合的办法,利用基本连通区搜索算法计算出二值图像文档上的基本连通区域,在自顶向下模块的帮助下进行连通区域的初始合并然后再通过规则族做近一步的合并,在全部合并规则族中嵌入了逻辑判断实现了合并结果的稳定性。实验结果表明,该方法能适应一般情况的中西文文档图像的版面分析。