基于ResNet网络在文字识别中的应用研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:cgz1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,计算机视觉飞速发展,与之相关的应用也已经进入到人们的日常生活中。识别自然场景图像中的文本还有许多问题需要解决。自然图像中的单词通常具有不规则形状,这是由透视变形,弯曲的字符放置等引起的。在某些场景中,存在弯曲变形的文本,导致部分识别方法的识别率较低。为了提高文字识别率,我从文字识别网络的特征提取网络出发,将普通的CNN网络用ResNet网络替换,因为ResNet网络更深,解决出现网络退化的情况,而若不断加深CNN卷积层,可能会出现梯度爆炸。同时将纸质文件数字化,可以方便的存入数据库中保存和完成数据的查询。以此为背景开始文字识别系统的研究,并搭建了一个便于人机交互的简易系统。本文先介绍了选题的相关背景以及文字识别的发展现状。用一章讲解对CRNN文字识别网络中的特征提取部分做的改进,主要比较了普通的CNN网络与ResNet网络提取特征用于识别文字的结果,通过实验结果的数据对比发现使用ResNet网络提取的效果较好。接着基于RARE网络结构,用ResNet网络来替换原来的特征提取网络,对文字识别网络的各个部分进行了详细的说明,RARE文字识别网络使用STN网络对不规则文字完成文字矫正,且网络模型是可以端到端的训练,序列化识别图像中的文字,使用Attention机制完成解码过程,并设计实验完成验证,发现改进特征提取网络后的网络模型识别效果更好。用ResNet网络替换掉CRNN网络和RARE网络中的特征提取网络,改进后的网络在IIIT5k,SVT,ICDAR2013和ICDAR2015数据集上表现较好,用改进的RARE网络训练中文数据集的文字识别模型,用于文字识别系统。最后介绍文字识别的交互系统的设计,文本区域检测的CTPN网络,前端页面显示的一些基本功能,如图片上传及预览,识别结果的显示。
其他文献
由于机器学习技术带来的产品功能与性能上的优势,在不同的行业背景下应用前景愈发广阔。在机器学习工程中,训练使用的数据质量极大影响了被训练模型的效果。为方便算法模型获取特征明显的训练数据,需要对原始数据进行标注处理以便于算法模型发现其中的模式与规律。汽车资讯标注系统是在此背景下为处理与汽车资讯相关图像、语音与文本数据,通过全人工标注或半自动标注方式,将汽车资讯原始数据转化为可供算法模型训练的数据集。根
红外成像系统,无论在民用还是军事领域都得到了广泛的应用。而要对红外成像系统,以及其上搭载的其他功能进行测试,往往需要使用红外仿真技术,其逼真度直接影响测试的可靠性。所以在三维场景仿真中常使用光线追踪作为渲染框架。路径追踪是光线追踪框架的一种实现方式,使用了蒙特卡洛方法,随机跟踪多条光线,随后根据这些光线的贡献计算该点的颜色值。利用蒙特卡洛方法的无偏性和一致性,生成照片级真实的图像。大多数成熟的渲染
论文针对大型构件高铁白车身腻子自动化打磨过程中,需要同时满足大尺度、高精度、稠密点云以及高效率的测量需求,在多目视觉线结构光大尺度高精度测量技术的基础上,提出基于辅助相机标定的多目视觉线结构光大尺度高精度测量方法,降低对标定工具的要求,简化标定流程,同时采用全局优化算法对测量系统整体优化,减小点云数据拼接误差,进一步提高测量系统的精度,实现高铁车身表面三维形貌的全局精确测量,为高铁白车身自动化生产
信息时代下,网络数据获得爆发式增长,其带来更好的服务、更便捷的体验的同时,也带来了信息过载问题。就电影网站而言,电影数据资源的不断增多和观影人数的不断扩大,导致观影者无法在短时间内挑选到其喜爱的电影。如何能为用户精准推荐成了电影系统研究和设计的热点问题。本文即从此出发,提出了基于矩阵完备性的推荐算法来设计电影系统,并对这一设想进行了实现。具体研究内容如下:(1)设计算法来缓解协同过滤所存在的稀疏性
知识图谱将现有的知识构建成大型的网络系统,是人类过往经验与智慧的结晶,如今在人工智能的各种任务中发挥着愈来愈重要的作用。知识表示学习的目的是将知识图谱中的实体和关系投影到低维的向量空间,使知识图谱能够更加便捷地应用于各种下游任务。知识图谱中,实体的文本描述信息、实体的层次类型信息和图的拓扑结构信息中隐藏着丰富的内容,是对结构化三元组的重要补充。将这些多源信息进行组合,能够帮助提高知识图谱各种任务的
当前,无人驾驶领域存在单车的传感器死角问题和短距离直接通信的距离限制等关键问题,蜂窝车联网(Cellular-Vehicle-to-Everything,C-V2X)成为解决上述问题的有效办法。联网的车辆通过接收来自互联网以及其他车辆的实时信息,能够显著提升车辆对环境的感知能力和感知范围。然而,无人驾驶车辆仍存在算力有限问题,无法满足高计算的业务要求,因此支持云计算的智能网联车解决了单车算力不足的
恐怖袭击事件的频繁发生及各类新型危险品的出现,使得人们对于火车站、机场等人流密集场所的安全检查越发重视。被动毫米波辐射成像由于具有良好的衣物穿透性,在人体安检的违禁隐匿物品的检测中具有巨大的发展前景。近年来,在自然图像领域基于深度学习的目标检测方法发展迅速,利用深度学习来实现被动毫米波辐射图像中的隐匿物检测是当前的发展趋势。深度学习的网络训练需要大量的样本数据,由于被动毫米波成像系统研发的技术难度
伴随着移动智能手机的普及,基于位置的应用服务使用越来越广泛,应用服务方收集了大量的用户移动轨迹数据,给用户带来了位置隐私泄露的风险。为了能更好地保护个人隐私,数据发布方在数据发布前通常对用户数据进行隐私保护,倾向于发布隐私保护力度较强的不含用户标识、不含时间信息并且进行了差分隐私扰动后的无时间聚合移动轨迹数据。对无时间聚合移动轨迹数据进行成员推理,判定目标用户的存在性,从而发现隐私泄露,对于进一步
随着计算机的不断发展,人们对计算机的性能提出了更高的要求,除了要有更快的处理速度之外,还要有更高的服务质量,保障系统的长期平稳运行。为了满足人们的需要,弱实时性任务被广泛地应用。弱实时任务是具有一定容错率的任务,包括感知和控制在内的许多信息物理系统应用都会有一定程度的时间容错,在不影响服务质量的情况下,允许一小部分任务执行时间超过一定期限,其中容错率是要有一定限制的,否则会失去实时任务的意义。因此
由于海量的数据流量使得在云环境内对恶意软件进行检测时,需要较高的检测效率。但是现有的恶意软件检测方法中,基于特征码的静态检测方法随着流量的增大其特征数据库规模呈几何上升,动态检测的高系统开销也难以应对大流量的检测。因此提出一种结合静态、动态检测的分步检测方式,利用机器学习分类模型实现恶意软件快速自动化检测,旨在提高云环境中恶意软件的检测效率。云环境下恶意软件快速检测方法分为四个模块:快速过滤模块、