基于局部特征的复杂背景图像内文本识别研究与实现

被引量 : 0次 | 上传用户:InsideASPNET
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像文本识别是数字图像处理和计算机视觉领域的研究热点与重要问题。与扫描图像相比,复杂背景和自然拍摄图像存在:1、文本字体和笔画粗细多样;2、文本字符排列布局多样;3、背景颜色和纹理复杂多样;4、相机视角与载体扭曲引起字符几何形变;5、光度不均与噪声导致图像解析度低下等特性。上述特性使得针对复杂背景和自然拍摄图像的文本识别成为一个具有困难和挑战的对象识别,而并非简单的光学字符识别(OCR)问题。OCR对输入图像在文本结构规范上的要求与限制,使得目前基于OCR技术的识别框架存在较大的局限性。虽然可以通过改进前期文本定位和预处理环节来为OCR提供结构化和规范化更好的输入从而获得识别率的一定提升,但这些环节的优化是困难和受限的。区别于基于OCR技术的识别框架,本文提出基于局部特征的文本识别框架。该框架利用图像检索原理和技术,通过构建模版字符图像库,采用图像局部特征匹配来实现复杂背景图像文本识别。针对局部特征的不同应用和处理手段,本文实现了基于Bag-of-Words Model和基于Point-to-Point Matching的识别系统。与基于OCR技术的框架相比:1、免除了区域增强,二值化,图层分析,几何归一化等一系列复杂的预处理环节;2、通过采用具有几何和光度不变性的局部特征,并引入针对性的投票算法和几何一致性验证,克服了OCR对于文字旋转,不规则排列,图像解析度不均,视角变换和扭曲等条件下识别的局限性;3、通过构建多语种和多字体的模版字幅图像库,实现识别在语种和字体上的透明与鲁棒性。本文重点以中文,日文,韩文,英文,阿拉伯文为基础,在单字符,多字符,自然拍摄图像上进行了大量对比实验,结果显示基于局部特征技术的识别框架在处理能力和识别准确率上都有良好的表现,更加适合复杂背景和自然拍摄图像文本识别。
其他文献
杜邦分析法是以净资产收益率为核心来评价企业财务状况和经营成果的一种财务分析方法。现简单介绍杜邦分析法的原理及基本框架,并对各主要指标进行了简要阐述。通过对青岛啤
射频识别(RFID)作为快速、实时、准确采集与处理信息的高新技术,已经被世界公认为21世纪十大重要技术之一。RFID技术具有很多突出的优点,因此在全世界范围内大规模快速普及,
职业认同是个体对所从事职业的肯定性评价,强调所表现出来的积极态度与行为。上海市保育员职业认同的高低,直接关系到她们对本职业的认可程度以及对幼儿的热爱程度,既是做好
本文对制造企业内供应链发展和供应链流程改造的状况进行了分析,明确绩效管理的意义,就作者从事的A制造企业内部供应链实际现状出发,选定供应链运作参考模型SCOR(Supply Chai
经过二十年的发展,机构投资者已经在中国证券市场中占据了主导地位,而以机构投资者为主要服务对象的证券分析师行业则在最近几年进入了快速发展阶段。证券分析师通过收集信息
目的研究偏头痛与负性生活事件及脑血流量的关系。方法用个案法对59例患者按对患者发病前30d内负性生活事件进行调查,并行彩色经颅多普勒(TCD)对脑动脉探查,与健康对照组进行
微软的人力资源管理对于世人来说,无不赞叹其绝,其妙。微软的管理是无人能及的,微软的人力资源管理策略有很多,作为微软的员工,你会感到无上光荣,但你也会为这份光荣而肩负重
随着企业需求的日益增长和企业信息化程度的进一步深入,在企业系统中出现了一些诸如“信息孤岛”、重复开发等问题。为有效解决这些问题,在企业基础架构建设中引入了新的架构
艺术地理研究是一个跨学科的研究,它既是新艺术史研究的一个新视角,也是文化地理学的重要分支。本文首先重申地理、空间在艺术研究中的不可或缺的重要历史地位和价值意义,希
<正> 甭翻词典,也能想出很多有关描绘眼睛表情的词语,如“炯炯有神”、“侧目而视”、“眉目传情”、“目瞪口呆”、“死不瞑目”等等,这些流露出来的身体“语言”,在很大程