Inkjet Printing Character Recognition Base on Deep Learning

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:weiyuan2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几十年以来,中国的迅速发展,各种基础设施的建设、通信技术的迅速推广得到了革命性的飞跃。网络和移动互联网的迅速崛起,各种技术带来的方便已经深入我们生活的每一个角落,人类社会生活的脚步已经进入了快速发展的信息时代。在信息时代,以人工智能为主题的技术在世界上掀起了一阵经久不息的热潮,随着“互联网+”国家战略的提出,给那些能够提供各种解决方案的技术带来了巨大的机遇。而文字识别技术,作为人工智能应用技术的交叉点之一,与无人驾驶汽车技术、自动化技术、机器人、相似图像搜索、虚拟/人工智能增强现实等应用领域有着很强的相关性。如何让计算机理解即使是真实场景的文字信息上的图片,一向是文字识别领域识别流程中的重要一步。字符识别技术在历史的长河中证明了它是一种高度适用的技术,用以支持信息社会中必须处理的大量文本信息的信息输入。文字识别是人类最重要的互动方式之一,对人们的生活具有重要意义。在文字识别领域中,随着中国的飞速发展,在国际的影响力逐渐上升,汉字识别已成为领域中重要的一环。对于诸如中文书籍之类的纸质文件的文本,文本图像是由扫描仪或照相机生成的,并且图像字符使用数字图像处理技术和机器学习算法进行识别。这项研究在现实生活中具有很大的实用价值。例如,它可用于分类,车牌,广告牌与ID卡信息的识别,以及用于辅助盲人阅读的场景之中。这样可以实现减少人工操作以带来的便利,实现自动识别而节省时间和人工成本,方便人们的生活。下面具体说明字符识别技术可以被应用的三个领域。1.无人驾驶领域无人驾驶技术正在中国迅速地发展,以百度为代表的阿波罗无人驾驶系统是现代工业技术与人工智能技术融合的综合体现。字符识别是无人驾驶系统中最重要的模块之一,通过车载摄像头获取车辆周围的街道信息,这些标志信息为车辆控制提供了丰富的信息,如:车辆的方位、车速限制等。同时还对汽车车牌进行识别,进行智能停车管理。2.盲人辅助阅读领域人们获取信息的方式,主要通过视觉和听觉两个方面,对于视障人士来说,无法通过视觉获得想要的信息,或者学习知识。和字符识别算法可以通过电子设备,它可以识别出真实的文本图像通过语音的形式反馈到视力受损的用户,支持视觉信息,朋友可以像一个正常人盲人阅读,有利于丰富和便捷的生活。3.金融领域银行等金融部门一天可以生产出大量的金融工具,而且随着信息的飞速发展,信息管理需要各种纸质信息,因此有必要对纸质中的文字信息进行识别和存储管理。而短信金融工具非常丰富而繁杂,如果繁重的手工录入会花费很多时间。并且通过字符识别算法,可以对文中的文本信息进行自动识别,节省了大量的人力和时间成本。从不同民族字符的识别角度来看,由于英文大小写字体只有26种,识别难度相对较小,目前的相关处理算法也比较完善。但由于汉语笔画的多样性等特点,识别难度会线性增加。对于本文的数据集,其中有许多汉字,文字识别的重点和难点非识别汉字莫属,因为汉字具有的三大特点使汉字识别难度远远高于英文字体识别难度:1.汉字数量庞大中国有4000多个常用汉字。仅在国家标准中就有6763个汉字,其中3755个汉字在众多应用环境中有99%的概率被使用。这项研究的主要目的之一也是对汉字识别的研究,识别汉字的难度很高,这不得不归咎于汉字的数量庞大。2.汉字字体众多汉字有多种类型,例如黑体,宋体和楷体等。同一字符的不同字体所表现出特定笔画形状,粗细和长度不完全相同,甚至可能差距甚远。因此,不同字体的网点图像是不一样的,所以,它们表现出不同的特征。在抉择适宜不同字体类型的特征时若选择不当,将可能导致诸如识别精度不佳的问题。3.汉字结构复杂几个笔画方可构成一个汉字,且其结构特点不明显。在两个级别的汉字中,笔画是平均数字11。就笔画的数量而言。97%的汉字笔画超过7笔画。笔画数目的变化反映了汉字结构的复杂性,不同词根的排列和组合也形成了许多不同的汉字结构。汉字识别的主要困难之一仍是因汉字结构复杂所导致。本文在认真研究了国内外的研究现状和应用需求后,分析了目前可行的OCR技术,设计了基于深度学习的印刷喷码字体识别方法,研究设计了基于深度学习的文字识别算法。本文主要通过三种方法来尝试识别中英文印刷喷码的识别。其中,论文的主要算法为基于CTPN的CRNN方法。两种对比算法分别为传统的基于模板匹配的方法和基于CNN的单词整词识别方法。1.基于CTPN与CRNN相结合的研究CTPN是由ECCV在2016年提出的一种文本检测算法,它结合了 CNN和LSTM深度网络,可以有效地检测复杂场景中文本的水平分布,在当前具有良好的性能,是最优秀的文本检测算法之一。CTPN的使用是为了解决长期训练中梯度消失和梯度爆炸的问题。而LSTM在RNNs中相对独特,也就是说,LSTM在长序列的表现上胜过传统的RNNs。CRNN由CNN、RNN和CTC组成。BLSTM之后,使用CTC来计算损失。CTC是一种损耗计算方法,可以在不对齐训练样本的情况下用CTC替换Softmax来计算损耗,其特点一在于引入空格字符以解决在识别区域中部分区域缺失内容而导致无效识别的问题,二在于通过使用递推算法来快速计算梯度。本文通过参考VGG实验室提供的开源代码进行研究,并测试自己的数据集,识别准确率可以大致与参考文献中的识别准确率相同。2.基于模板匹配的方法传统印刷汉字识别中使用的关键技术包括文本图像扫描,文本布局分析,图像预处理,文字的分割与分类,文本特征提取,文本结构特征识别和识别结果处理等,这些技术在文字切割,特征提取和特征识别等领域中发挥着重要作用。本文中基于模板匹配的相关算法经由MATLAB程序所实现,利用该算法提取样本,英语识别率较高,但由于汉字模板比较复杂,准确率不高。3.基于CNN的单词整词识别的方法在文本区域提议检测中,该方法将区域提议与滑动窗口检测相结合。然后,使用随机森林分类器对非语言建议进行过滤。然后用一个边界框来调整过滤剩下的提出检测窗口,包围他们尽可能多的文本区域,最后将读取在整个区域网络(网络模型为CNN),一次性直接对整个单词进行识别,而不是原始的区域划分为一个个字母来识别。这篇论文的数据集由导师提供,无需自行生成,衷心感谢导师对我的指导与教诲。…
其他文献
随着数字产品在GDP中所占的比例越来越高,数字产品的非法传播给其所有者带来了严重的经济损失。为了加强对数字产品的保护,研究者们研发了许多溯源防泄密的应用,其主要原理是基于信息隐藏算法。而传统的信息隐藏方法仅仅只在其设计的领域是有效的,基本上不具备泛化能力,因此亟须一种有效的方法来加强对数字产品的保护。研究发现,神经网络对输入图像的微小扰动高度敏感,可以利用这一功能来实现信息的隐藏。为了解决图片在传
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。知识图谱的基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互连接,形成网状的知识结构。通过知识图谱,可以实现Web网页链接向概念链接的转变,知识图谱支持用户按主题而不是字符串进行检索,从而实现真正的语义搜索[25]。知识图谱在这些应用中已经显示出重要的价值:(1)问答系统:问答系统将
时空效应是基坑工程的一个重要特点,基坑的稳定性和变形深受基坑的深度、平面面积及形状的影响。作为深基坑工程,在施工过程中一直伴随着变形,为了保障深基坑的安全并及时地掌握其变形情况是有着非常重要的意义。针对上述问题,本文以重庆某深基坑为研究对象,在基于传统深基坑监测理念的基础上,融入建筑信息模型(BIM)、Web端三维模型加载引擎技术、物联网、计算机互联网云平台技术,自主设计研发基于Web的深基坑三维
伴随着经济数字化转型深入,以区块链技术为代表的多方协作技术逐渐普及,如何验证承载着多样化价值的数据有效性早已成为全行业的普遍需求。满足这一需求的关键是引入各式各样数字化契约,而支持契约中数字签名高效验证则是关键中的关键。Hyperledger Fabric是流行的开源许可区块链平台,它包含一种称为背书的机制,用于建立交易的有效性。对于块数据,每个节点都会使用其自己的私钥生成一个独立的数字签名,并将
大数据时代已经来临,海量的数据被存储在各种数据库中,如何从这些海量的数据中挖掘有价值的信息成为人们研究的重点。医疗、教育、金融、软件开发等各个行业都会在工作中频繁使用SQL语句用于数据的增删改查。对于有一定编程基础的人来说,使用SQL可能是一件比较轻松的事情,但对于更多的人来说需要学习一定的数据库和SQL语言相关专业知识并且需要在熟悉数据库模式的前提下,才能熟练进行SQL语句的编写。所以降低SQL
空气中的颗粒物在风管内表面沉降形成的沉积层会阻碍气流流动,并滋生微生物污染空气。因此,研究颗粒物在空调风管中的运动及沉降特性对改善室内空气品质有积极意义。目前,国内外学者对于风管内颗粒物的沉降迁移过程进行了较多的研究。然而,在风管系统中,弯头处的流场相比直管更复杂,颗粒物沉降特性也会发生变化。因此,本文将采用数值模拟手段对方形风管90°弯头内颗粒物运动及沉降特性及相关影响因素进行研究。首先,本文选
人类活动与气候变化极大地改变了全球河流和湖泊中的氮循环,并改变了温室气体氧化亚氮(N2O)的产生和排放规律。水动力条件和环境因素(温度、p H等)将影响河流和湖泊中溶解氧(DO)的浓度,而DO又是多种生物化学过程中影响N2O产生的重要因素。目前,这方面的研究还不深入。因此,论文通过构建沉积物-上覆水-气相系统,设置不同的搅拌转速和曝气量来改变水动力和环境条件,在体系中得到不同的DO浓度,进而研究在
近年来在计算机视觉和模式识别等领域,深度学习模型和算法的发展十分迅猛。伴随着这一趋势的发展,越来越多NLP(Natural Language Processing)领域的研究者开始应用新的深度学习方法。基于深度学习的自然语言处理技术在文本分类、情感分析等方面有着越来越广泛的应用,为人民生活提供了很大的便利。相比传统的基于手工构建特征的机器学习NLP系统,深度学习系统特征的构建往往需要更少的时间成本
针对现有工业机器人整机运动性能测评存在的评价参数单一、测评标准混杂以及评价软件缺乏等问题,提出了一种适用于6项整机运动性能测试的方案,构建了测试所需的动态跟踪测量系统,并开发了相应的评价软件协助解决用户在机器人选型和维护中的困扰。基于工业机器人位姿准确度、位姿重复性、位置稳定时间、位置超调量、轨迹准确度和轨迹重复性这6项整机运动性能的测量要求,以及相关评价软件的需求分析,完成了动态跟踪测量系统的搭
在中国,每年因误食含有农药残留的水果和蔬菜而中毒的人数超过10万人,死亡率约为20%。当前的农药残留检测设备不能同时满足对高精度和便携性的需求。尽管残留物检测手段有很多,但仍然存在着精度低和成本高的技术瓶颈。这些问题通过使用纸基微流控芯片的基于时间序列光电检测的农药残留检测方法解决。基于这些问题,政府制定了各种规则来调整农作物市场交易和食品工业。在中国,吡虫啉的最大残留限量(MRL)为0.5 mg