论文部分内容阅读
通过对图像进行特征编码获取重要信息是人工智能的一个重要领域,特征编码方法无论在传统图像方法上还是深度学习方法上都是研究学者研究的重点。一种优秀的特征编码方法能够应用于图像、视频分类或者目标检索等各个领域,其中VLAD(Vector of Locally Aggregated Descriptors)无论在传统图像处理,还是在深度学习领域中,都有大量的研究学者进行专研与改进。但二者均存在着3点不足之处,1、应用于传统图像处理领域的VLAD算法,虽然能够较好地针对图像数据特征性输出局部聚合描述性特征,但对图像特征缺乏学习优化的过程,输出特征与目标标签出现误差亦不能沿误差方向得到改善。2、能够应用于深度学习领域的改进VLAD算法,虽然解决了VLAD对图像特征学习优化的问题,但是由于聚类中心是初始化的,需要通过网络训练进行调整,如果强化图像关键区域特征,通过软分配计算,将更好地划分出具备类别辨析性的聚类中心区域,输出局部聚合特征向量以作整体表示;3、由于VLAD最终输出局部聚合的特征向量一定程度上会出现有用信息的丢失,对网络模型识别造成影响。对此,本文针对以上三个问题,提出一种混合注意力与非局部描述特征的VLAD改进算法。将基于注意力机制的Attention-NetVLAD网络结构混合一种基于特征间相关性的非局部描述特征,注意力机制强化图像关键区域特征,同时非局部描述特征计算出各局部特征间的相关性,补充了图像特征所属的聚类区域的非局部关联区域信息,完善输出图像特征描述的完整性,特征描述更具辨析度。具体的2个创新点如下:(1)提出基于注意力机制的Attention-NetVLAD,通过利用卷积操作替换传统VLAD的硬分配,转换成软分配,成为神经网络的一部分结构,具备可训练条件,同时具有去低质量特征信息的功能。将Attention-NetVLAD分为两部分,“基于空间维度的Spatial-Attention-NetVLAD”与“基于通道维度的Channel-Attention-NetVLAD”。通过注意力机制,将注意力强化后的特征图输入到Attention-NetVLAD中的改进NetVLAD部分中,将每个聚类中心与全图特征点进行差值计算输出残差分布状况,计算软分配的高质量权重信息与低质量权重信息,低质量权重信息不参与构建聚合局部特征矩阵,最后将残差分布与软分配权重相乘,通过聚合整理与归一化处理,得到聚合局部特征向量作为图像整体表示。由于注意力强化后的特征图凸显关键区域的,促使输出的特征更具辨别性。(2)提出基于特征相关性的非局部描述特征,目的是提取图像特征非局部相关信息,使图像特征描述有完善的表示,获取类中的共性特征,扩大类间差异。通过对上述注意力强化特征图进行卷积操作输出不同区域的图像特征,然后对不同区域的图像特征进行矩阵相乘,在图像特征中计算任意两点间的相关性,突破了卷积操作的局部区域的局限性,获取图像特征非局部信息,简称为非局部描述特征。最后将Attention-NetVLAD输出的软分配权重与非局部描述特征进行元素点乘,输出图像特征所属的每个聚类区域间的非局部相关区域,串行拼接到Attention-NetVLAD输出的局部聚合特征向量中,优化了特征描述,凸显图像类中共性区域。最后将提出的融合注意力与非局部描述特征的VLAD算法进行实验,实验数据集分别为Image Net数据集、UCF101数据集,对比现有的NetVLAD[17]、Ghost VLAD[32]、Action VLAD[33]算法,都有较明显的识别精度优势。