论文部分内容阅读
近年来,3D立体电影等大范围普及流行,为了提升观看3D电影等的舒适度,很多舒适度评价方法被提出,这些方法均可归类到主观质量评价和客观质量评价两大类中,后者在兼顾评价效率的同时降低了质量评价的成本,因而近年来被广泛研究。就大部分图像/视频的客观质量方法而言,均是在视差图、深度信息等基础上人工提取有效特征,易导致重要特征的遗漏或提取的特征存在瑕疵。另一方面,近些年深度学习快速发展,已经成功运用在语音识别、图像分类、文本分析等场景,其重要特色之一就是可以自动学习特征,因而相对人工提取更容易学习到全面细微的重要特征。本文在此思路的指导下,提出了用于自动提取3D立体图像特征的深度神经网络。在该深度神经网络中,左右两路卷积限制玻尔兹曼机(CRBM)被用来提取初始图像特征,顶层因子化的三阶玻尔兹曼集(FTO-RBM)对左右图像特征混合训练,经多层全连层神经网络连接后得到预估值并构建3D立体图像质量评价模型,而后通过后向传播算法微调整个深度神经网络。随后,本文分析并调试了深度神经网络的一些重要参数,并使用LIVE 3D Phase II和IEEE-SA公开库及基于单刺激、成对比较主观质量评价方法的3D立体图像库对该模型进行了测试,验证了该模型的性能。基于上述3D立体图像质量评价模型,本文分析了其可改进之处,并提出了基于池化的遍历优化算法。该算法主要基于平均池化和特征权重分布池化方法,并通过遍历的方式优化现有特征,更新特征图后再基于支撑向量回归算法构建了3D立体图像质量评价模型。随后,分析并调试了优化算法中的重要参数,研究了左右两路CRBM合并优化的效果。此后再次进行了测试,结果显示优化后的模型相较优化前有更佳的性能,且达到了现有的最佳3D立体图像质量评价水准。在对模型优化后,本文基于单刺激及成对比较方法分析了主观评价质量对于模型的影响。本文通过对单刺激及成对比较主观评价方法得到的平均意见值(MOS)添加不同方差的高斯噪声,分析了包含不同高斯噪声的MOS值对模型的性能影响。此外,为了能适应现在日益庞杂的数据量,本文对用于特征提取的深度神经网络做了GPU并行化加速处理。此处主要针对深度神经网络的离线训练和在线测试两部分做了并行优化。在离线训练阶段,考虑到基于Python的Theano库在自动求导、模块化程度高等方面的优势,使用该库对深度神经网络做并行优化,并对上述两大公开库进行了实验,就实验结果做了详细对比及分析。在线测试阶段,考虑到其对加速性能要求更高,此处使用CUDA对测试过程的各步骤进行并行化处理,给出了核函数及线程分配的分析,使得加速性能有了进一步提升。