基于深度学习的立体图像舒适度质量评价研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:haibei007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,3D立体电影等大范围普及流行,为了提升观看3D电影等的舒适度,很多舒适度评价方法被提出,这些方法均可归类到主观质量评价和客观质量评价两大类中,后者在兼顾评价效率的同时降低了质量评价的成本,因而近年来被广泛研究。就大部分图像/视频的客观质量方法而言,均是在视差图、深度信息等基础上人工提取有效特征,易导致重要特征的遗漏或提取的特征存在瑕疵。另一方面,近些年深度学习快速发展,已经成功运用在语音识别、图像分类、文本分析等场景,其重要特色之一就是可以自动学习特征,因而相对人工提取更容易学习到全面细微的重要特征。本文在此思路的指导下,提出了用于自动提取3D立体图像特征的深度神经网络。在该深度神经网络中,左右两路卷积限制玻尔兹曼机(CRBM)被用来提取初始图像特征,顶层因子化的三阶玻尔兹曼集(FTO-RBM)对左右图像特征混合训练,经多层全连层神经网络连接后得到预估值并构建3D立体图像质量评价模型,而后通过后向传播算法微调整个深度神经网络。随后,本文分析并调试了深度神经网络的一些重要参数,并使用LIVE 3D Phase II和IEEE-SA公开库及基于单刺激、成对比较主观质量评价方法的3D立体图像库对该模型进行了测试,验证了该模型的性能。基于上述3D立体图像质量评价模型,本文分析了其可改进之处,并提出了基于池化的遍历优化算法。该算法主要基于平均池化和特征权重分布池化方法,并通过遍历的方式优化现有特征,更新特征图后再基于支撑向量回归算法构建了3D立体图像质量评价模型。随后,分析并调试了优化算法中的重要参数,研究了左右两路CRBM合并优化的效果。此后再次进行了测试,结果显示优化后的模型相较优化前有更佳的性能,且达到了现有的最佳3D立体图像质量评价水准。在对模型优化后,本文基于单刺激及成对比较方法分析了主观评价质量对于模型的影响。本文通过对单刺激及成对比较主观评价方法得到的平均意见值(MOS)添加不同方差的高斯噪声,分析了包含不同高斯噪声的MOS值对模型的性能影响。此外,为了能适应现在日益庞杂的数据量,本文对用于特征提取的深度神经网络做了GPU并行化加速处理。此处主要针对深度神经网络的离线训练和在线测试两部分做了并行优化。在离线训练阶段,考虑到基于Python的Theano库在自动求导、模块化程度高等方面的优势,使用该库对深度神经网络做并行优化,并对上述两大公开库进行了实验,就实验结果做了详细对比及分析。在线测试阶段,考虑到其对加速性能要求更高,此处使用CUDA对测试过程的各步骤进行并行化处理,给出了核函数及线程分配的分析,使得加速性能有了进一步提升。
其他文献
随着中国经济的快速发展和在国际上的地位显著提高,越来越多的留学生来到中国学习汉语和中国文化,针对留学生的汉语教学也受到更多学者的关注。本文以对外汉语教学设计为理论基础,结合笔者在安阳师范学院国际交流学院泰国班的教学实践,以《博雅汉语》(中级冲刺篇Ⅰ)中的第十课《说说迷信》为例,并对泰国留学生中级汉语综合课课堂教学的实例进行分析和总结,以建构主义和人本主义学习理论为理论支撑,并结合直接法、功能法以及
在中职课堂教学中运用微课,是提高教学质量、改进教学工作、收获良好教学效益的关键,也是顺应时代发展的体现。在电梯电气安装课程教学中,想要让微课更好地发挥作用,教师必须强化