论文部分内容阅读
各类古今文献资料是人类智慧和文化的重要载体,文档数字化是一种运用现代信息科技来处理传统实体文档的技术。文档图像是文献数字化的最基本数字形式,通过对文档图像的处理分析,我们能从中获取大量可用于计算机解读、分析和利用的信息。在大数据信息技术高速发展的今天,传统实体文档中蕴含的海量信息将产生巨大的作用,创造重大文化和经济价值。在深入分析文档数字化中现有文档图像处理技术的基础上,本论文结合自适应滤波和概率图模型理论,针对现代打印扫描图像和古文献扫描图像两种不同的对象,分别就扫描图像去网纹、文档图像超分辨率、背面渗透去除和印章文字识别等四个方面的问题进行了深入研究,取得的主要创新性研究成果如下: 1.提出了基于冗余信息和自适应滤波的扫描图像去网纹方法。针对扫描图像出现中网纹瑕疵问题,首先深入分析了网纹出现的原因和机理,指出了扫描图像中的网纹瑕疵由半色调图案和随机噪声构成;在此基础上,一方面利用基于冗余信息的去噪方法去除随机噪声,另一方面,通过提取扫描图像中的半色调网纹频率信息和扫描图像局部梯度信息来生成自适应滤波核,最后通过自适应滤波和联合边缘保持滤波来从扫描图像中得到高质量的连续色调图像。在实际扫描图像上的实验证明我们提出的方法能够得到具有锐利边缘和干净平滑区域的全色调图像。 2.提出了基于快速抠像分解的文档图像超分辨率方法。针对大幅扫描图像快速超分辨率问题,以计算效率作为着重考虑因素,提出了基于联合边缘保持滤波的快速抠像分解算法,将低分辨率文档图像的颜色信息和边缘信息分离开来,然后通过分层超分辨率的策略,对扫描图像的边缘信息同时进行超分辨率和增强,最后将各组份重新合成为高分辨率文档图像。我们提出的文档图像超分辨率方法计算效率高,对实际扫描图像处理的结果不存在颜色失真问题,并且具有锐利的边缘。 3.提出了基于条件随机场的扫描图像背面渗透盲去除方法。针对古籍扫描图像中经常出现的背面渗透问题,采用条件概率模型来为图像中的前景、背面渗透和背景三部分进行建模,避免复杂的联合概率建模。利用初始分割来估计模型的参数,并采用置信度传播算法来求解扫描图像的条件随机场模型,得到扫描图像每个像素的标签,最后采用随机填充算法来修复背面渗透区域的像素,完成带背面渗透扫描图像的修复。在实际古籍手稿扫描图像上的实验证明我们提出的方法能很好的保护前景内容并有效修复背面渗透区域,取得了很好的修复效果。 4.提出了基于图模型匹配的古籍印章文字识别方法。针对古籍印章文字样本少和类内方差大的问题,提出利用图模型匹配算法来解决印章文字识别问题。首先,通过一系列图像骨架处理分析算法构建印章文字的图模型。我们采用马尔科夫随机场模型,根据局部特征相似度来为每个隐含节点选取候选匹配节点,利用连接一致性来约束隐含节点之间的相关性,然后采用置信度传播算法为各个节点选取最优的匹配节点,并依据这个最优匹配计算两个图模型之间的相似度,最后,通过逐一匹配和计算相似度,将相似度最大的参考文字作为待识别文字的识别结果。在实际印章文字图像上的实验结果验证了本文提出算法的有效性。