论文部分内容阅读
随着互联网平台全面智能化转型,作为图像检索、人机对话、视觉辅助等服务的基础,图像标注已成为各平台的必备功能,而如何实现准确的图像标注,成为了一项亟需解决的问题。人工标注数据能够获得准确的结果,但是由于标注过程耗时耗力,并且图像总量呈现爆发趋势,无法完全使用人工方式获得图像标注信息,由此催生出自动化的图像标注算法。近年来,基于深度神经网络的图像标注算法取得了巨大的成功,但是图像的底层视觉特征与高层语义之间存在的“语义鸿沟”,决定了图像标注算法还有很大的提升空间,包括如何利用图像辅助信息标注图像、如何由语义层面改进标注结果、如何快速训练深度图像标注模型等。本文围绕基于深度神经网络的图像标注展开研究,提出了基于隐特征学习的社交图像重标注算法和基于语义理解与描述的图像标注算法。从不同的角度审视任务核心,提出了多种基于深度神经网络的解决方案,并提出利用分布式GPU加速训练过程的方法。本文的主要创新性成果如下:1.提出一种基于噪声估计的图像重标注算法,利用柯西分布拟合图像的社会标签噪声,优化矩阵分解中隐特征学习,提升社会标签的应用效果。通过对比多种噪声分布假设,证实了柯西分布从理论与实践上都能够很好的拟合社会标签中存在的各种噪声,以此强化矩阵分解中隐特征的学习效果,形成柯西矩阵分解算法,发掘社会标签中的有效信息,获得更好的标注结果。在MIRFlickr与NUS-WIDE数据集上的测试结果表明,通过柯西矩阵分解得到的图像重标注结果,能够更好的服务于图像检索任务,证明柯西分布能够准确的拟合社会标签中的噪声。2.提出一种基于隐特征维度相关性建模的图像重标注算法,通过建模隐特征维度之间的相关性,提升隐特征模型效果。算法通过外积操作构造隐特征中每一对维度之间的相关性,形成二维交互图。再利用卷积神经网络建模局部特征的能力,逐层精炼交互图中的信息,最终形成隐特征中全部维度相关性的表示,以此实现社交图像的重标注。实验结果表明,该方法能够更有效的利用隐特征信息,改善图像重标注结果。3.提出一种基于多模态双向递归神经网络的图像标注算法,通过整合上下文信息及优化多模态特征,提升图像标注质量。算法利用卷积神经网络提取图像的语义特征,将文本转化为单词向量,利用双向递归神经网络整合上下文的描述提取序列特征,再通过多模态层融合上述特征形成综合了上下文语义的多模态特征,最终由特征生成相应文本。本文通过对比三种多模态层的实现,证实了改进多模态特征融合方式能够对图像标注结果产生积极影响。在Flickr30K与MSCOCO数据集上的结果验证了该算法能够生成包含图像内容并且文法自然的标注结果。4.提出一种基于大规模语料库的图像标注方法,降低基于描述匹配的图像标注算法的时空复杂度,使这类无参算法适应于大规模语料库。其重点在于利用哈希方法预处理所有图像,在压缩图像存储空间的同时,提升检索图像的效率。方法无需训练,测试时通过比较图像的哈希编码,提取相似图像的描述文本作为候选集,再从中筛选出最匹配的描述语句。实验结果表明,相比现有方法,该算法能够在不影响标注质量的前提下,获得数十倍时间效率提升和数百倍空间效率提升。5.提出一种深度图像标注算法训练加速架构,设计混合并行模式与交替执行策略,缓解分布式GPU训练时数据同步操作对GPU运算能力约束,加速网络训练过程。混合并行模式将卷积神经网络做简单分拆并按一定规则部署,即可将单机模型转化为分布式GPU并行模型,相比经典的数据并行模式,该模式能够有效的降低服务器间数据交互;交替执行策略在每一块GPU中部署若干相同模块的进程,进程交替执行,从而避免因数据等待而产生的空闲,提升GPU使用率,获得更高的计算效率。在普通实验室的分布式环境(千兆网络,2台服务器,4张GPU卡)中进行的实验表明,使用该架构在Image Net数据集上训练Alex Net模型,能达到单卡训练3.07倍的效率。