基于版面结构的文本图像检索技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:romeolg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术的发展和信息化时代的到来,各种各样的图像信息也得到迅速增长,纸质形式的文本图像不再是人们生活工作的主要部分,电子版形式的文本图像已广泛运用于各行各业中。随着图像数据库规模的增加,人们的查询需求日益多样化,如何从图像数据库中快速地查询出用户感兴趣的图像,有效地降低成本、节约时间及提高自动化程度具有广泛的研究前景。传统的图像检索技术已不再满足用户的需求,图像检索技术的研究具有重要的研究价值和较为广泛的研究意义。常见的图像检索方法主要有基于文本的图像检索和基于特征的图像检索两种方法,其中对图像检索技术研究更多的是依据图像的特征进行的检索,本文将图像检索的技术应用到文本图像上,文本图像是以文字信息为主、图像图表信息为辅的一类特殊图像,很难用颜色和纹理视觉特征来描述,所以文本图像检索的关键技术之一是如何提取特征以及如何计算特征的相似度。版面结构分析在文本图像的特征提取,图像检索以及版面分析等有着至关重要的作用,本文在分析版面结构特点的基础上,利用版面结构分析中的自下而上和自上而下相结合的方式,有效地提取出版面的局部特征和全局特征,并将提取出的版面特征作为索引项,以特征向量的形式来描述文本图像,从而进行文本图像的特征匹配和相似性度量工作。在分析现有检索算法的基础上提出了一种基于聚类算法进行文本图像的快速检索,从而进一步减少数据集的比较规模,有利于实现文本图像的快速检索,提高检索的效率。本文首先对文本图像进行预处理,采取中值滤波的思想来去除图像中存在的孤立点噪声,使用梯度差和Hough变换相结合的方式进行文本图像的倾斜检测与校正,并在倾斜检测之前采取了Bernsen与Ostu算法相结合的方式进行文本图像的二值化处理。在完成预处理工作后,利用文本图像的版面结构,利用自上而下和自下而上相结合的方式对版面特征进行了提取,提取出文本图像的局部特征和全局特征。在特征提取之前对文本图像进行了有效区域的定位,并对有效区域提取密度特征,利用寻找最大空白区域完成图像的栏信息特征的提取,之后利用了投影特征进行文本与非文本区域的划分,对文字区域利用了最大梯度差完成了文本行的检测,利用连通域的思想对文本行之间进行有效地融合成段落,并提取出段落的有效特征;对非文本区域提取出关键块特征,提取的特征包含了全局和局部特征,能充分地描述文本图像。利用了向量空间模型的思想,将提取的特征以向量的形式存储,并利用高斯距离函数完成特征间的相似度比较,最后提出了一种文本图像快速检索的算法,在进行文本图像的检索之前,对文本图像特征库的图像先进行初步的分类,然后利用聚类的思想进一步对特征库分成若干个子库,用户给出查询图像后,无需与图像特征库中的每一幅图像进行相似度比较,首先搜索与查询图像相似度最大的子库,然后对该子库的图像按顺序进行相似度比较,得到其最相似的若干幅候选集,实验表明在保证检索正确率的同时,明显地缩短了检索的时间。本文提出的方法对手写体文本图像及印刷体文本图像均适用。本文在最后在包含2000幅文本图像的数据库上进行了测试,实验表明:本文提出的检索算法具有较快的检索速度和较高的查全率和查准率,具有一定的实用价值。
其他文献
近年来,随着信息技术的飞速发展,嵌入式产品被广泛运用到人们的日常生活中,嵌入式实时操作系统(RTOS)亦随之逐渐渗透到学术界、工业界等领域。RTOS是对外部事件响应经过优化的操
计算机网络最初设计的目标,只是实现单纯的端到端数据传送,发展至今的互联网,几乎所有的流量都是建立在TCP/IP架构之上,尽管设备性能有了飞跃性的提高,但网络本身的架构却没
21世纪是网络经济的时代,伴随着互联网的迅速发展,internet上的信息量在不断增加,然而如何从浩瀚的信息海洋中得到所需要的信息就显得更加有意义。在信息检索中,搜索引擎使用
社团划分在生物、医疗等方面有着举足轻重的作用,但是随着数据规模的扩大,经典的串行算法已经不能满足人们的需要,为了能够适应大规模数据的发展和信息化时代的到来,社团划分算法
随着城市中交通堵塞情况的越来越严重,出行者对简洁、高效的路径规划算法的要求日益迫切。如何根据现实的道路交通状况构建合理而有效的路网模型,并在路网模型的基础上设计出
外观设计专利是以图像作为专利保护主要对象,利用传统的基于文本关键字检索方式并不能达到好的检索效果。利用基于图像内容的检索技术可以更好地完成相关检索需求。由于外观专
随着信息技术的高速发展和人们获得数据途径的多样化,企业积累的数据飞速激增。由于这些数据里面隐含着很多有用的信息,可以通过数据挖掘来进一步的分析和充分的利用。但是很
随着计算机的诞生,短短的几十年间,计算机网络的发展已经是翻天覆地,从最开始的终端网络,到C/S、B/S网络模式,再到如今的P2P点对点等多种网络叠加的混合网络模式,这些无疑给人们带
随着计算机信息技术的飞速发展,传统的纸张文字已无法满足人们对信息的要求,将纸张文字通过各种扫描设备输入到计算机中,即将传统的纸张文字转化为数字化信息已成为时代的必然趋
社交SNS、新闻等领域的高速发展使得人们愈发的关注在最快的时间内获取实效数据,从中挖掘到有价值的信息,实时搜索因此成为目前信息检索的研究重点。通用搜索引擎拥有海量网