论文部分内容阅读
图像分类技术是计算机视觉下最基础、最重要的技术分支。在人脸识别、智慧医疗和移动支付等领域具有很大的应用市场。其中的纹理图像分类,则是图像分类中一项十分重要的技术,在材料纹理识别、管道检测等领域中,有着巨大的应用潜力。随着一系列社交媒体应用、短视频应用的急速发展,互联网上无时无刻都产生着大规模的图像数据,如何有效提取图像中有效信息就变得愈加迫切。深度卷积神经网络具备很强地抽取图像特征表达的能力,而且深度二阶统计特征可以由深度特征本身计算获得,具有更高的计算效率,可获得更加鲁棒的图像表达。因此,本文探索了二阶统计特征信息如何有效地与深度特征结合、注意力机制相结合的图像分类方法研究,其主要工作可以总结如下:(1)提出双线性卷积特征下的高斯描述子(RDGD),并有效应用在纹理数据集等图像任务中。RDGD结合双线性卷积神经网络(B-CNN)和高斯描述符作为新的纹理表示方法,其中由B-CNN计算所得的外积作为协方差的粗略估计被嵌入到高斯表达中。同时为了克服高维小样本情况下,估计所得样本协方差不太鲁棒,在前一步基础上,采用矩阵幂归一化操作,消除了协方差粗略估计带来的影响。在三个纹理数据库上的实验结果表明,相比于其基准B-CNN和当时最好方法,RDGD都有着显著的提升。(2)提出基于二阶响应转换机制与计算机视觉下注意力机制相结合的图像分类网络框架—SoRTA-Net。通过计算深度特征的二阶统计特征,并在此基础上应用注意力机制,进一步使得深度卷积神经网络的表达图像的能力大大增强。为了探索更加灵活的二阶响应转换机制,提出RSoRT模块(由该模块组合形成的网络称为SoRTA-Net),该模块可以针对性地校正特征响应。同时可以健壮地对复杂的图像特征作二阶特征建模。通过在一系列数据集上广泛评估,相对于其基准方法SoRT,SoRTA-Net的性能显著提升,同时和当时最优方法也有一定可比性。