手写印刷混排OCR系统研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:zql0913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的飞速发展,文档分析技术也越来越广泛的应用到纸质文档的存储和检索等日常生活中。数字文档已经由最初的纯文本文档过渡到文本图片混排、手写/印刷混排、多语言的混排文档,甚至还出现了附带有声音等媒介的多媒体文档。   本文主要关注的是手写/印刷混排文档。现实生活中,大量的应用会用到这类同时含有印刷体元素和手写体元素的文档。文档中的手写体/印刷体元素也发挥着各自具有的特殊作用,对这些元素的检测、区分和处理也变得非常有意义。特别的,文档中的手写体元素往往蕴含着额外的重要信息,将它们区分开也有助于使用不同的更加有针对性的算法进行处理。   为了更好的处理那些同时包含手写体/印刷体文本的文档,本文提出了一个手写/印刷混排OCR系统。系统主要包括文档图像的预处理、文档版面拆解、文档理解、手写体/印刷体文本判别、单OCR系统识别以及文档结构分析模块。其中的手写体/印刷体文本判别模块分别抽取基于结构的特征和基于小波的特征,并对比使用多种不同的分类器对手写/印刷两种文本进行区分。实验部分使用IAM手写体Word样本集以及自制的印刷体Word样张集进行训练和测试,并使用完整的混排文档进行测试。实验数据表明,文本提出的脱机混排OCR系统的实现了较高的识别精度。
其他文献
原子力显微镜(AFM)是一种广泛应用在纳米科技领域的表征与操作仪器。其发明及技术的革新在推动化学、材料、生物等纳米相关学科发展方面起了非常重要的作用。然而,AFM成像模式
随着航空航天事业和控制理论学科的发展,为便于对飞行器建模和控制等理论技术进行演示和验证,一种高性能的飞行仿真软件具有十分重要的意义。   本文以六自由度飞行器的运
人类应用指纹的历史开始于远古。指纹是最古老的身份证,早在6000年前人类就会利用指纹来代替签名。考古学家证实,早在原始社会晚期,指纹作为身份鉴别的工具已经在我国开始应
随着科学技术的发展,智能机器人技术的应用越来越广泛,在太空探测、救灾防爆、海洋开发、家庭服务、教育教学、军事等领域日益发挥着重要的作用,渐渐成为国内外研究学者关注
无线传感器网络(Wireless Sensor Networks, WSN)是一种多跳自组织无线网络系统,而能量有限性是WSN一个重要特征。媒体介入控制层(Media Access Control, MAC)直接控制节点如何接
在整个铁路运行系统中,机车轮对是影响列车安全行驶的一个重要因素,尤其是近年来,列车不断提速,车辆运行的安全问题也变得更加突出。因此检测机车轮对的磨耗状况是保障行车安
重载组合列年是我国货物运输的重要工具,其制动系统中空气管路的泄漏会严重影响行车安全。空气管路泄漏的诊断和定位是亟待解决的关键问题。论文对管路状态信号进行实时捕捉,
随着过程工业的发展,其日益走向大型化、连续化,工业生产过程日趋复杂多变,被控对象往往具有非线性、强耦合性、工作点的变化范围大、参数不确定性、大纯滞后和信息不完全等
工业生产过程中,被控对象往往具有时滞性、耦合性、时变性等特点,因此难以实施有效的控制。模型预测控制(Model predictive control,MPC)是直接从工业过程控制中产生的一类基于
带式输送机作为连续输送设备已经从广泛用于矿山、港口、码头这些行业延伸到了电厂、冶金、化工、建材、粮库等工农业。近年来,随着科学技术的发展,原有的带式输送机静态设计