复杂自然场景图像中的文本检测与识别技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:mqzhen1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像中的文字信息对于我们的日常生活具有非常重要的价值,为我们或者计算机理解生活场景提供了重要的线索。在实际应用中有许多需要使用复杂场景图像中文字信息的场合,例如智能交通辅助、出国旅游语言翻译等。借助于计算机技术来智能的对这些场景图像中的文字信息进行检测识别已经成为当前很热门的研究领域。由于场景图像的复杂性,检测识别其中的文字信息一般需要经过三个步骤:首先定位图像中的文本,然后将文本与背景分离,最后进行识别。本文主要对其中的定位算法进行了研究,对后续的文本分割以及识别中的关键算法也分别进行了实现。在对现有的文本定位方法综合研究分析之后,本文提出了一种基于多特征融合和SVM分类器相结合的两层定位算法来进行定位。首先通过改进的Niblack二值化算法对场景图像进行预处理,再结合形态学运算以及先验条件对图像区域进行粗分类,得到候选的文本区域。实验结果表明,本文算法在保留所有文本区域的前提下,有效地去除了大量的非文本区域,为后续的文本分割与识别打好了基础。通过对场景中的文本特征进行综合分析之后,采用了分层方向梯度直方图PHOG特征以及局部纹理LBP特征相结合,再辅以图像经过小波变换之后,提取的四种整体纹理特征,来对文本字符的特征进行描述。结合SVM分类器模型,在粗分类后的候选文本区域的基础上,进行再一次的细定位。实验表明本文选取的组合特征效果以及定位的准确率较好。在通过定位得到文本区域的基础上,本文还研究了现有的图像文本分割算法以及光学字符识别OCR软件的识别原理。文本分割预处理时,对定位的区域采用亚像素技术,之后再结合OSTU阈值分割法进行分割,实验表明分割效果较好。针对文本的倾斜矫正处理,提出了一种划定文本行,结合最小二乘法直线拟合方式的矫正方法。
其他文献
在我国目前的医学教育过程中,特别是在普外科教育、解剖教育和微创手术教育过程中,由于缺乏真实的人体器官资源,学生掌握知识的途径主要是通过教师的讲授和从教材中获取相关知识
分片式处理器体系结构(TPA)将计算、存储和互连资源组织成片式的基本结构单元,并将大量的片式单元由高效能、可扩展的片上网络连接起来。为了有效利用TPA丰富的片上资源,高度暴
集团为了考核信息系统运维的水平,与一些先进的指标进行比较,使用一些指标的得分数据来对企业信息系统运维情况进行分析,从而在对比中看出本单位的不足,努力在管理上得到更进一步的改进,在指标上能够获得更高的水平。针对信息系统运维集团提出的指标管理体系,其内容包括系统运行水平、系统运行安全、调运体系建设、运行队伍建设、运行专项工作、事故与障碍等指标。本文就是基于指标体系中各单位运行评价与分析系统提出利用高维
异步无线传感网络中的全网广播是一项最基本的网络服务,主要应用于环境监测、软件更新等场景。无线传感网络中的传感节点大多数由电池提供能量,所以网络中的能量有限,而转发数据
近年来,随着信息化向人类社会各个层面的渗透和发展,在企业、科学、互联网等领域均产生并汇集了大量数据,大数据时代已然来临。目前,越来越多的应用领域涉及到大数据的存储和
随着计算机网络技术的发展,网络尤其是Internet给人们的生活和工作提供了极大便利,如电子商务、网上银行等已经十分普及。网络在改变人们的生活方式和提供企业生产效率的同时,也
随着科技的高速发展,以及无线传感器网络在众多领域的广泛应用,无线传感器网络逐渐成为研究热点。因为传感器节点能量受限,而MAC协议直接关乎节点的能量使用效率,所以研究如何在M
随着最近几年互联网和电子商务产业的兴起,海量的物流需求对物流企业提出了巨大的挑战,传统的物流企业仓库运作模式已经无法适应庞大的物流订单吞吐需求,为此美国电子商务公
反skyline查询常用在数据挖掘和决策支持系统中,用于数据的多准则优化。但目前有关反skyline查询的研究仅限于集中式数据,分布式数据上的反skyline查询尚未有文献涉及。在现实
伴随着信息化时代的来临,形状检索技术作为信息检索的重要组成部分,受到了越来越多的关注。曲率尺度空间(CSS)形状检索技术是根据尺度空间思想和理论发展出来的一门技术,自提出