论文部分内容阅读
文字是人们进行交流的主要方式,使计算机能够识别图像中的文字内容和让计算机生成包含文字内容的图像一直是科研人员研究的技术之一。同时进行精准的自然场景文字图像识别与生成美观自然场景文字图像具有很高的实用价值。然而,现有场景文字识别算法准确度依然不足,而使计算机生成场景文字图像还没有成熟的技术。因此,本文通过利用深度学习技术,提出基于深度学习原理的自然场景文字的识别与生成方法。本文提出如下方法:一、针对现有场景文字识别精准度不足的问题,本文根据现有Inception网路和Dense Net网络进行改进,融合两种网络提取的特征图。利用卷积神经网络可以有效提取数据的特征,但是网络深度决定了数据特征提取的能力。根据卷积神经网络的特点,本文提出一种将现有Inception网路和Dense Net网络进行改进融合的网络结构,通过设计不同网络结构,提取图像的不同特征进行融合,能够有效获取图像的整体特征与细节特征。其次,利用文本序列具有上下文关系的特点,本文将通过循环神经网络(Recurrent Neural Network,RNN)提取文本上下文信息,同时,利用注意力机制(Attention Mechanism)获取文本有效信息,并通过改进网络结构,加速训练过程到达识别效果提升的目的。二、为了解决使计算机自动生成场景文字图像的问题,本文设计对抗神经网络(Generative Adversarial Networks GAN)来生成场景文字图像。随着自动化的发展,使计算机自动产生包含艺术字的图像不仅可以提高人类生成效率还能解决成本。对抗神经网络(GAN)是一种可以自动生成数据的技术,条件对抗神经网络(CGAN)是GAN的一个扩展,它通过添加一个条件作为辅助信息,如类标签或来自其他模式的数据来控制生成的结果。因此本文在现有CGAN的基础上,通过添加词向量作为统一网络训练内容进行改进,使计算机能够产生场景文字图像。同时,本文在现有梯度惩罚的Wasserstein GAN算法(WGAN-GP)基础上增加了条件,可以进一步提高生成效果。同时,在网络结构中本文还采用了门控线性单元(GLU)作为激活函数,既降低了梯度分散的风险,又有效地保留了非线性的能力。因此,计算机自动生成场景文本图像的整体能力得到了增强。