论文部分内容阅读
随着多媒体技术的发展和信息化时代的到来,各种各样的图像信息也得到迅速增长,纸质形式的文本图像不再是人们生活工作的主要部分,电子版形式的文本图像已广泛运用于各行各业中。随着图像数据库规模的增加,人们的查询需求日益多样化,如何从图像数据库中快速地查询出用户感兴趣的图像,有效地降低成本、节约时间及提高自动化程度具有广泛的研究前景。传统的图像检索技术已不再满足用户的需求,图像检索技术的研究具有重要的研究价值和较为广泛的研究意义。常见的图像检索方法主要有基于文本的图像检索和基于特征的图像检索两种方法,其中对图像检索技术研究更多的是依据图像的特征进行的检索,本文将图像检索的技术应用到文本图像上,文本图像是以文字信息为主、图像图表信息为辅的一类特殊图像,很难用颜色和纹理视觉特征来描述,所以文本图像检索的关键技术之一是如何提取特征以及如何计算特征的相似度。版面结构分析在文本图像的特征提取,图像检索以及版面分析等有着至关重要的作用,本文在分析版面结构特点的基础上,利用版面结构分析中的自下而上和自上而下相结合的方式,有效地提取出版面的局部特征和全局特征,并将提取出的版面特征作为索引项,以特征向量的形式来描述文本图像,从而进行文本图像的特征匹配和相似性度量工作。在分析现有检索算法的基础上提出了一种基于聚类算法进行文本图像的快速检索,从而进一步减少数据集的比较规模,有利于实现文本图像的快速检索,提高检索的效率。本文首先对文本图像进行预处理,采取中值滤波的思想来去除图像中存在的孤立点噪声,使用梯度差和Hough变换相结合的方式进行文本图像的倾斜检测与校正,并在倾斜检测之前采取了Bernsen与Ostu算法相结合的方式进行文本图像的二值化处理。在完成预处理工作后,利用文本图像的版面结构,利用自上而下和自下而上相结合的方式对版面特征进行了提取,提取出文本图像的局部特征和全局特征。在特征提取之前对文本图像进行了有效区域的定位,并对有效区域提取密度特征,利用寻找最大空白区域完成图像的栏信息特征的提取,之后利用了投影特征进行文本与非文本区域的划分,对文字区域利用了最大梯度差完成了文本行的检测,利用连通域的思想对文本行之间进行有效地融合成段落,并提取出段落的有效特征;对非文本区域提取出关键块特征,提取的特征包含了全局和局部特征,能充分地描述文本图像。利用了向量空间模型的思想,将提取的特征以向量的形式存储,并利用高斯距离函数完成特征间的相似度比较,最后提出了一种文本图像快速检索的算法,在进行文本图像的检索之前,对文本图像特征库的图像先进行初步的分类,然后利用聚类的思想进一步对特征库分成若干个子库,用户给出查询图像后,无需与图像特征库中的每一幅图像进行相似度比较,首先搜索与查询图像相似度最大的子库,然后对该子库的图像按顺序进行相似度比较,得到其最相似的若干幅候选集,实验表明在保证检索正确率的同时,明显地缩短了检索的时间。本文提出的方法对手写体文本图像及印刷体文本图像均适用。本文在最后在包含2000幅文本图像的数据库上进行了测试,实验表明:本文提出的检索算法具有较快的检索速度和较高的查全率和查准率,具有一定的实用价值。