论文部分内容阅读
随着航空事业的发展,票据部门成了一个巨大的档案馆,迫切需要一个通过计算机管理的自动化文档存储检索系统,通过网络对机票进行查询等处理.该机票自动处理系统对扫描图像作自动区域定位,连续OCR和数据库自动录入,以及提供网络检索技术,最后生成图像文档和索引.该文所描述的系统是机票自动处理系统的预处理部分.在该子系统中我们提出了一个检测和定位彩色机票图像中污损字符串技术.对该子系统的大致描述如下:对彩色机票图像进行图像处理,得到字符图像,再对字符图像应用自动目标识别(Automatic Target Recognition,ATR)技术进行多区域字符串定位.机票图像一般具有以下特点:不规则机票表格中的字符串是由计算机打印生成,对比度低且容易偏离表格,无法用常用的方法处理.因此,该文针对机票复杂背景首先提出一个进行字符分离的高准确率新算法.该方法采用一个基于主成分分析(Principal Components Analysis,PCA)和学习向量量化(Learning Vector Quantization,LVQ)混合神经网络作为高效的字符提取器,实际应用证明该字符提取算法准确率高,为准确的字符定位和OCR提供良好的输入.同时,我们推广了传统的灰度阈值分割二值化方法,在彩色空间应用决策树和局部阈值方法进行彩色图像二值化的研究与试验.然后,基于几何先验知识和字符提取结果,我们应用扩展最大平均相关高度(Extended Maximun Average Correlation Height,EMACH)相关滤波器,检测进而准确定位期望字符区域.试验结果表明该方法准确率高,可以为OCR提供良好的输入.文档图像分析是模式识别领域比较成熟的方面,但文档图像分析领域仍然没有一个通用的解决方法,因此该方面的研究仍处于初级阶段.飞机票系统就是该领域探索的一个典型的例子——我们将几种模式识别技术应用到文档图像分析领域,从而取得比较好的效果.因此,与已经出版的相关中英文文献比较,我们的尝试具有原创性和新颖性.