复杂背景下文字提取的研究与实现

来源 :中南民族大学 | 被引量 : 0次 | 上传用户：q137301947

【摘要】

：

随着数字存储技术的发展，数字图像和视频图书馆等应用使得基于内容的检索成为研究热点，而从数字图像中提取文字的技术是基于内容检索的关键。从图像中提取文字的过程主要有

【作者】

：

李娜

【机构】

：

中南民族大学

【出处】

：

中南民族大学

【发表日期】

：

2007年期

【关键词】

：

数字图像视频图书馆文字提取文字识别 JAVA编码

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数字存储技术的发展，数字图像和视频图书馆等应用使得基于内容的检索成为研究热点，而从数字图像中提取文字的技术是基于内容检索的关键。从图像中提取文字的过程主要有以下几个步骤： 1、文字区域检测。文字区域的检测方法分为四大类：基于边缘分析的方法、基于纹理分析的方法、基于区域分析的方法和基于学习的方法。实际应用中的目标和原则是高效正确地定位文字区域。 2、文字提取。文字提取是根据文字本身的特征把检测到的文字区域进行二值化，即所有的文字用一种颜色表示，而背景用另外一种颜色表示，从而达到把文字从背景中过滤出来的目的。 3、文字识别。文字识别过程是将二值化的图像输入到OCR系统中进行识别。本文研究的重点是复杂背景下的文字检测与提取，其中文字检测使用基于区域分析的方法，该方法通过颜色聚类和连通量分析来实现。本文的算法及实施过程如下： 1、第一次颜色聚类图像理论表明，通常77％的颜色不会出现在同一幅彩色图像中。本文将这一图像理论应用到文字区域检测的第一次颜色聚类，具体是通过对24bit颜色深度的每个像素低四位清零完成，使得图像颜色深度从256 降低为。这种简单易行的降维处理，为后面的文字提取打下了基础，且提高了运算效率。实验中对大量不同参数的图像进行了处理、分析，结果表明降维后图像中的文字信息从文字提取的角度来看没有影响； 2、第二次颜色聚类本文所采用的算法在第二次颜色聚类时，对传统的游程编码做了改进，提出了基于平均颜色的彩色游程算法，即并不是完全一样的颜色才进行聚类，而是设定一个阀值，如果像素间的颜色欧式空间小于阀值则进行聚类，并用平均颜色来代替原来的颜色。采用这种阀值技术为复杂背景下的处理提供了准确性和灵活性； 3、连通分量分析在完成两次颜色聚类的基础上，对结果进行连通分量分析，即把颜色相近的区域进行标记，而非完全一样的颜色才进行标记。最后在连通分量的结果上根据字符特征限制提取出文字区域，实现彩色图像的二值化，并在此基础上进行一次图像质量的锐化，以突出二值化图像，最后将此二值化图像输入到OCR(Optical Character Recognition)系统进行文字识别。以上算法采用JAVA编码实现。实验数据表明：本(文)算法对复杂背景中的文字识别准确率达到了89％以上。

其他文献

基于图像处理的岩石微裂隙宽度和粗糙度测量研究

几乎在所有岩体中都存在节理裂隙，这些不连续面不仅影响岩体的完整性和连续性，而且有时会成为控制岩体强度和变形及破碎的主要因素。大量实践证明，获得精确有效的岩石节理的几何

学位

岩石微裂隙图像处理角点分段算法最佳拟合长方形算法节理粗糙度

流媒体技术在综合网络中的应用

随着网络技术、计算机技术、通信技术的发展,企业综合信息网络逐渐形成了三层结构:最底层的是以现场总线为基础的底层工业控制网络,位于第二层的是企业内部网,最上面的是Inte

学位

现场总线综合网络流媒体实时H.264

ARMv7架构集群的能效模型研究

传统的数据中心使用多个x86架构的大型服务器构建计算集群,这样的集群往往拥有成千上万瓦的功耗,电力成本在集群设施总体构建成本中所占的比重越来越大。未来可扩展超级计算

学位

ARMv7架构集群能效模型分布式计算MapReduce负载

基于事件剩余价值策略的无线传感器网络拥塞与速率控制

随着通信技术、嵌入式计算技术和传感器技术的飞速发展，无线传感器网络WSN(Wireless Sensor Networks)引起了人们的极大关注。WSN主要任务是监测环境。它的事件突发性和多对一

学位

无线传感器网络定向扩散拥塞控制速率控制数据价值

基于漏洞传播蠕虫的检测技术应用研究及实现

随着互联网应用的深入,网络蠕虫对计算机系统安全和网络安全的威胁日益增加。网络蠕虫已经成为计算机使用者遇到的最普遍问题。它的传播不仅可以占用被感染主机的大部分系统

学位

蠕虫漏洞蠕虫检测蜜罐异常检测

现有无线传感器网络随机密钥预分布方案的分析与改良

本文通过对现行比较有代表性的q-composite方案进行分析,选定了提高其门限值的改良思路,创造性的在q-composite方案中引入了多项式方法,达到了大幅度提高其门限值的目的,从而

学位

无线传感器网络密钥二元多项式

基于GSI的网格安全体系中授权机制的研究

随着人们对高性能计算和资源分布共享需求的增加,传统的高性能计算模式和计算共享模式己经不能满足人们的需要,人们期望能够像访问电力资源一样随时随地的获取需要的计算和存

学位

网格安全GSI授权团体授权服务

一种基于谱聚类测和遗方法传算法的矩形检

在图像识别系统中，为了抽取更高层次的信息用于进一步的分析和检测，常需从图像中寻找具体的物体对象或者感兴趣的区域。矩形作为最常见的人工图形之一，对它的检测有着广泛应用。

学位

谱聚类遗传算法矩形检测图像预处理多矩形识别

文档图像变换域鲁棒性水印研究

随着以微电子技术为代表的信息产业的飞速发展，多媒体、计算机网络等进入寻常百姓家，数字化已深入人心。以Internet为代表的网络化进程席卷全球，加之多媒体技术和数字传输的迅猛

学位

数字水印离散余弦变换文档图像水印算法版权保护

机房管理系统及安全研究

随着高校教育的发展,计算机技术在各学科各专业中的应用不断深化,学生上机的需求越来越多,使高校内公用机房的规模不断扩大;同时计算机更新速度快、软硬件配置多样化,机房网

学位

C/SB/S机房管理系统信息安全数据加密

复杂背景下文字提取的研究与实现

其他学术论文