论文部分内容阅读
版面分析作为文字识别系统的预处理部分,其准确性直接影响文字的识别率。本文针对复杂的中文版面,提出了一个基于模糊连接度和识别特征的中文版面分析方法,完成了一个图像输入、倾斜校正、版面图文分割的过程。版面图文分割主要采用自底向上的办法,利用连通域搜索算法检测出文本页面上的所有连通基元,通过对连通基元的四个方向上的连接度进行模糊化处理来决定文字行、列的合并,并对在文字行合并时影响较大的标点符号采用先识别后合并的方法。为了减少时间开销,在计算和合并过程中采用局部搜索策略。实验结果表明,该方法对印刷质量比较好的中文版面具有较理想的分割效果。