基于深度神经网络的图像标注算法研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:lijws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网平台全面智能化转型,作为图像检索、人机对话、视觉辅助等服务的基础,图像标注已成为各平台的必备功能,而如何实现准确的图像标注,成为了一项亟需解决的问题。人工标注数据能够获得准确的结果,但是由于标注过程耗时耗力,并且图像总量呈现爆发趋势,无法完全使用人工方式获得图像标注信息,由此催生出自动化的图像标注算法。近年来,基于深度神经网络的图像标注算法取得了巨大的成功,但是图像的底层视觉特征与高层语义之间存在的“语义鸿沟”,决定了图像标注算法还有很大的提升空间,包括如何利用图像辅助信息标注图像、如何由语义层面改进标注结果、如何快速训练深度图像标注模型等。本文围绕基于深度神经网络的图像标注展开研究,提出了基于隐特征学习的社交图像重标注算法和基于语义理解与描述的图像标注算法。从不同的角度审视任务核心,提出了多种基于深度神经网络的解决方案,并提出利用分布式GPU加速训练过程的方法。本文的主要创新性成果如下:1.提出一种基于噪声估计的图像重标注算法,利用柯西分布拟合图像的社会标签噪声,优化矩阵分解中隐特征学习,提升社会标签的应用效果。通过对比多种噪声分布假设,证实了柯西分布从理论与实践上都能够很好的拟合社会标签中存在的各种噪声,以此强化矩阵分解中隐特征的学习效果,形成柯西矩阵分解算法,发掘社会标签中的有效信息,获得更好的标注结果。在MIRFlickr与NUS-WIDE数据集上的测试结果表明,通过柯西矩阵分解得到的图像重标注结果,能够更好的服务于图像检索任务,证明柯西分布能够准确的拟合社会标签中的噪声。2.提出一种基于隐特征维度相关性建模的图像重标注算法,通过建模隐特征维度之间的相关性,提升隐特征模型效果。算法通过外积操作构造隐特征中每一对维度之间的相关性,形成二维交互图。再利用卷积神经网络建模局部特征的能力,逐层精炼交互图中的信息,最终形成隐特征中全部维度相关性的表示,以此实现社交图像的重标注。实验结果表明,该方法能够更有效的利用隐特征信息,改善图像重标注结果。3.提出一种基于多模态双向递归神经网络的图像标注算法,通过整合上下文信息及优化多模态特征,提升图像标注质量。算法利用卷积神经网络提取图像的语义特征,将文本转化为单词向量,利用双向递归神经网络整合上下文的描述提取序列特征,再通过多模态层融合上述特征形成综合了上下文语义的多模态特征,最终由特征生成相应文本。本文通过对比三种多模态层的实现,证实了改进多模态特征融合方式能够对图像标注结果产生积极影响。在Flickr30K与MSCOCO数据集上的结果验证了该算法能够生成包含图像内容并且文法自然的标注结果。4.提出一种基于大规模语料库的图像标注方法,降低基于描述匹配的图像标注算法的时空复杂度,使这类无参算法适应于大规模语料库。其重点在于利用哈希方法预处理所有图像,在压缩图像存储空间的同时,提升检索图像的效率。方法无需训练,测试时通过比较图像的哈希编码,提取相似图像的描述文本作为候选集,再从中筛选出最匹配的描述语句。实验结果表明,相比现有方法,该算法能够在不影响标注质量的前提下,获得数十倍时间效率提升和数百倍空间效率提升。5.提出一种深度图像标注算法训练加速架构,设计混合并行模式与交替执行策略,缓解分布式GPU训练时数据同步操作对GPU运算能力约束,加速网络训练过程。混合并行模式将卷积神经网络做简单分拆并按一定规则部署,即可将单机模型转化为分布式GPU并行模型,相比经典的数据并行模式,该模式能够有效的降低服务器间数据交互;交替执行策略在每一块GPU中部署若干相同模块的进程,进程交替执行,从而避免因数据等待而产生的空闲,提升GPU使用率,获得更高的计算效率。在普通实验室的分布式环境(千兆网络,2台服务器,4张GPU卡)中进行的实验表明,使用该架构在Image Net数据集上训练Alex Net模型,能达到单卡训练3.07倍的效率。
其他文献
2008年,铁基超导体的发现迅速掀起了新一轮的高温超导研究热潮。铁基超导材料主要包括铁的磷族化合物和铁的硫属化合物。其中,磷族化合物中的铁砷基超导母体材料在低温下通常
现代战争中电磁环境日益复杂,传统的有源定位技术难以适应复杂多变的战场需求。而无源定位系统本身不发射电磁波,只是被动的处理接收到的信号,具有高隐蔽性和作战距离远等优点,吸引了众多学者的关注。众多无源定位技术中,单站无源定位技术不需要考虑多站之间数据传递和同步的问题且自身系统的灵活,因而成为无源定位技术中的热点研究方向。本文选择基于相位差变化率的单站无源定位技术作为研究方向。本文主要工作如下:(1)分
<正>近年来,山地养鸡在我省得到快速发展,一是由于我省具有丰富的优质地方鸡种,如入选国际标准品种的泰和乌骨鸡、"中国十大名鸡"崇仁麻鸡、名扬全国的五黑一绿的东乡绿壳蛋
作物营养和健康品质改良正在成为世界主要作物的重要研究方向和育种目标。文中围绕铁和锌、抗性淀粉和阿拉伯木聚糖、酚酸和植物固醇,从微量营养元素、功能性膳食纤维、膳食
研究背景自上个世纪九十年代以来,眼科各项检查技术日新月异发展,光学相干断层扫描技术就是在这个时候迅速发展起来的一种新的医学断层成像分析技术,它融合了光学技术、半导
茼蒿原产于我国,又叫蓬蒿、蒿菜,菊科菊属,以嫩茎叶供食,具有特殊清香风味,含纤维量低,是火锅业、快餐业餐桌上的必不可少的一道爽口菜。随着需求量的增加,价格看好,茼蒿在陕西关中地
接收波束形成的关键技术之一是接收校正,校正精度直接影响形成波束的副瓣电平,文章详细介绍校正的原理、方法及相关参数的取得。用试验数据取得的相关校正参数,对测试信号扫
<正>一、问题的提出引例:(2014高考北京卷文科第20题)已知函数f(x)=2x~3-3x.(1)求f(x)在区间[-2,1]上的最大值;(2)若过点P(1,t)存在3条直线与曲线y=f(x)相切,求t的取值范围;(
磁性碳纳米管具有纳米级尺寸、高比表面积、大量极性官能团、丰富的孔结构、有效热传导性以及生物相容性等优点,以其为载体用于酶的固定化,使得固定化酶在反应体系中分散均匀
作为网络语言中不可小觑的一隅,网络游戏语言被游戏玩家群体普遍使用,有一些已经进入我们的日常交流中,甚至成为一种受年轻人青睐的新兴用语。“游戏攻略”是游戏语言中的书面语,是通过图文型独白语篇帮助游戏玩家完成游戏操作的指南,其具备网络语言的特点和攻略的语篇结构。本文基于韩礼德的“语域理论”,通过游戏攻略语料的数据统计,从语场、语式、语旨三方面展开研究,主要对网络游戏攻略的语码和语步进行详尽分析,立足于