基于深度学习的自然场景文字识别与生成算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:parabird
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是人们进行交流的主要方式,使计算机能够识别图像中的文字内容和让计算机生成包含文字内容的图像一直是科研人员研究的技术之一。同时进行精准的自然场景文字图像识别与生成美观自然场景文字图像具有很高的实用价值。然而,现有场景文字识别算法准确度依然不足,而使计算机生成场景文字图像还没有成熟的技术。因此,本文通过利用深度学习技术,提出基于深度学习原理的自然场景文字的识别与生成方法。本文提出如下方法:一、针对现有场景文字识别精准度不足的问题,本文根据现有Inception网路和Dense Net网络进行改进,融合两种网络提取的特征图。利用卷积神经网络可以有效提取数据的特征,但是网络深度决定了数据特征提取的能力。根据卷积神经网络的特点,本文提出一种将现有Inception网路和Dense Net网络进行改进融合的网络结构,通过设计不同网络结构,提取图像的不同特征进行融合,能够有效获取图像的整体特征与细节特征。其次,利用文本序列具有上下文关系的特点,本文将通过循环神经网络(Recurrent Neural Network,RNN)提取文本上下文信息,同时,利用注意力机制(Attention Mechanism)获取文本有效信息,并通过改进网络结构,加速训练过程到达识别效果提升的目的。二、为了解决使计算机自动生成场景文字图像的问题,本文设计对抗神经网络(Generative Adversarial Networks GAN)来生成场景文字图像。随着自动化的发展,使计算机自动产生包含艺术字的图像不仅可以提高人类生成效率还能解决成本。对抗神经网络(GAN)是一种可以自动生成数据的技术,条件对抗神经网络(CGAN)是GAN的一个扩展,它通过添加一个条件作为辅助信息,如类标签或来自其他模式的数据来控制生成的结果。因此本文在现有CGAN的基础上,通过添加词向量作为统一网络训练内容进行改进,使计算机能够产生场景文字图像。同时,本文在现有梯度惩罚的Wasserstein GAN算法(WGAN-GP)基础上增加了条件,可以进一步提高生成效果。同时,在网络结构中本文还采用了门控线性单元(GLU)作为激活函数,既降低了梯度分散的风险,又有效地保留了非线性的能力。因此,计算机自动生成场景文本图像的整体能力得到了增强。
其他文献
近年来的研究发现,拟除虫菊酯类农药对人体会产生"三致"作用。而酶催化农药水解作为去除此类农药污染的有效手段,逐渐成为环境科学研究热点。文章结合分析拟除虫菊酯类农药的
笔者近2年来运用火针配合普通针刺治疗面瘫40例,并与单纯普通针刺相比较,疗效明显。报告如下。1一般资料75例面瘫均为本院针灸科病区及门诊患者,年龄18—75岁,病程1天-6个月,随机
近年来,随着高速铁路的普及逐渐人民生活水平的提高,高铁成为人民中短距离出行的首选方式,在国家运输当中占据着极为重要的地位;而作为高速铁路沿线建设的大型高铁车站,其候
经济全球化促使中国企业一步步“走出去”。在中国企业走出国门逐步形成跨国企业的过程中,将面对的是长期在跨文化环境中从事经营活动。跨文化冲突导致的跨文化风险逐渐成为
大天区面积多目标光纤光谱望远镜(Large Sky Area Multi-Object Fiber Spectroscopy Telescope)也就是我们本文提及的LAMOST望远镜。它在获取光纤光谱数据的同时会有一些来自
目的 探讨双头硅胶泪道引流管插管术治疗慢性泪囊炎行的疗效及其影响因素。方法 选取我院2013年2月至2015年2月收治的53例(56眼)慢性泪囊炎患者,行双头硅胶泪道引流管插管术治
  《被压迫者教育学》巴西教育家保罗·费莱雷(Paulo Freire,1921-1997)的代表作。书中从社会矛盾双方(压迫者与被压迫者)入手分析当代教育的症结,认为教育是对社会矛盾双
当前我国中小学美术课程改革极为重视地方特色美术课程资源的开发与利用。笔者所从教的包钢八中,学生一半是蒙古族,课程教学汉化比较严重,蒙古族特色文化没有得到应有的重视,
低油价下受油公司业绩下滑影响,全球石油工程市场规模大幅下降,油服公司收入和利润锐减。为战寒冬、谋发展,西方油服公司纷纷调整发展战略,优化业务结构。具体策略包括压低服
果胶是植物初生细胞壁的主要成分,同时也是花粉壁和花粉管壁的主要成分。果胶在维持细胞结构的完整性、细胞之间的连接以及防御反应的调控等方面发挥着重要作用。果胶的合成