论文部分内容阅读
随着人们健康意识的提高,人们更加注重自身的健康问题,中国有句古话:“药补不如食补”,因此,饮食在人们的健康管理中处于核心地位。菜品图像的分类技术可以作为营养均衡、血糖、热量等智能健康管理系统的技术支撑,其有广泛的应用场景。随着深度学习方法的不断完善,其被应用在各种场景中,当然菜品图像分类也不例外。目前,关于菜品图像相关的技术研究主要是针对西餐和日式料理,对中餐菜品的技术研究较少。中餐菜品的形式变化无穷,不同类别的菜品在外形、颜色上可能高度相似,而相同类别的菜品可能差异较大,因此中餐菜品分类仍然是一个充满挑战的课题。本文从多尺度和注意力两个角度研究中餐菜品图像分类技术,提出两种新的菜品图像分类算法。本文主要内容如下:首先,为了解决全连接层对输入尺寸的限制,提出了多尺度采样模块,用于深度卷积神经网络的全连接层前,对图像进行多个尺度的采样。因此允许任意尺寸大小的图像输入到网络模型中,同时减少了全连接层的神经元数量,在保证网络模型准确率的基础下提升了网络模型的训练速度。为了解决中餐菜品图像数据集中各类别样本数量不均衡的问题,网络模型训练的损失函数采用带权的交叉熵损失函数,并且为了降低过拟合的程度,在带权的交叉熵损失函数中加入正则化机制,通过多组对比实验验证了多尺度采样模块的有效性。其次,菜品图像中存在很多类间距离小、类内距离大的细粒度特征,为了更好地对这些细粒度特征进行提取,提出了基于注意力机制的双线性网络,并且从通道和空间两个方向进行注意力网络的构建。通道注意力网络可以根据大量的训练样本自主学习每个通道的特征对分类准确率的影响系数,进而可以对关键的通道特征进行定位,使得网络模型在训练时更加地关注关键通道特征对分类结果的影响,并且对一些干扰分类准确率的信息进行了抑制;受到双线性网络思想的启发,将通道注意力网络作为双线性网络的分支网络,实现细粒度特征的提取,达到提高分类准确率的目的;随后又将空间和通道组成的混合注意力网络加入到双线性网络中,从空间和通道两个方面来准确的表达细粒度特征;同时考虑了双线性网络中两个分支网络不同的组合方式会使得网络对特征的表达不同,通过对不同网络进行组合来选取最佳的组合方式。最后通过多组对比实验验证了双线性网络与注意力网络进行融合的有效性。最后,将笔者训练的卷积神经网络模型的实验效果进行横向对比发现基于注意力机制的双线性网络的分类效果最佳,从而证明了该分类算法的有效性。