论文部分内容阅读
卷积神经网络在基于大量真实图像训练的基础上对于分类问题表现出优异的性能。从实用角度出发,使用从三维模型渲染的虚拟数据进行训练可以减少收集真实图像的工作量,尤其是利用一些简单模型更能提高效率。有效利用无纹理的三维模型进行深度学习对于真实照片的识别非常重要。本文通过四个方面改进卷积神经网络来消除它对大量真实训练数据的依赖:首先根据三维模型通过有效数据渲染手段批量渲染大量训练数据;然后基于两种在单一样本层面互相对应的不同的渲染数据用深度神经网络学习一个前景还原网络和多负样本三元组损失函数训练的分类网络;第三,基于以上两个步骤设计一个紧凑参数模型克服由无纹理模型渲染的数据导致的的过拟合问题;最后应用条件变分自动编码机理论重新构造步骤二中的前景重建网络进行附加深度信息的语义渲染来辅助分类网络训练。在学习结构的设计中,我们提出了由多负样本三元组损失函数和softmax损失函数组成的联合训练过程引导的级联自约束深度学习结构。用多三元组损失函数来初始化网络的训练,根据通过虚拟数据提取的相机机位信息在每个物件类别中建立高维球状分布的特征,这样就有助于根据物体姿态、照明条件、渲染图像的背景和类别信息来辅助识别常规照片。然后利用附加数据对网络参数进行再训练进一步满足在初始模型基础上对一些特殊真实照片的分类的目的。针对前景重建问题,我们从有背景和无背景的虚拟渲染数据训练前景还原网络,利用局部连接的自动编码机产生附加通道数据作为分类网络的输入自动连接到RGB通道。这种结构使直接从卷积神经网络基于合成数据用我们的渲染策略训练softmax分类器成为可能。我们的网络结构从识别正确率上减少了基于3D模型渲染的虚拟数据和真实照片的训练的差距并且性能逼近了在PASCAL和ImageNet数据库中用虚拟数据训练和真实图片测试时在特定评价方法下与GoogleNet直接通过真实照片训练分类器的结果。为了解决深度神经网络中常见的过拟合问题和参数膨胀问题本文设计一个基于SqueezeNet的6.2 MB大小的ZigzagNet紧凑卷积神经网络模型,以通过在网络微观结构内部应用可变batch normalization和通过宏观网络结构添加卷积旁路分支来提高识别性能和学习稳定性。可变batch normalization在收敛速度和识别精度上在这里表现出了良好的性能。在基于简单的最近邻分类器的PASCAL3D+提供的ImageNet和PASCAL样本的实验中的我们的紧凑参数模型的精度接近于用真实图像训练的240 MB的AlexNet模型得到的结果,同时在无纹理模型上训练的模型在渲染和收集上花费的时间远少于使用来自ShapeNet的更多纹理模型的训练结果。最后我们进一步利用三维模型中的语义信息进行前景RGB通道渲染,在条件变分自动编码器的基础上学习另一种三通道附加通道来级联到原RGB通道进行真实物体识别。这种结构也基于使用在我们的渲染策略下合成的虚拟数据使得直接从CNN训练softmax分类器更加有效。在最终的基于级联生成模型的网络结构下我们的自适应噪声级大地提升了训练级联网络的稳定性和平衡性并在PASCAL3D+数据库中的ImageNet子集上得到了迄今为止最高的基于虚拟数据训练的识别正确率50.5%。我们的流程结构不仅仅在高效训练上有重要的意义,而且为三维模型的渲染方案提出了一个反向的指导,前景重建这一直观的任务可以直接针对数据迁移问题进行分析。