论文部分内容阅读
声音场景分类旨在使设备通过分析声音信号的特征给其所处的声学场景确定一个语义标签,是机器听觉的主要研究方向之一,在机器人导航、智能穿戴设备等领域的应用前景十分广阔。近年来,由于其优越的性能,深度卷积神经网络已经使计算机视觉领域的目标检测、分割和识别等技术得到了突破性的发展。鉴于深度卷积神经网络具有强大的特征表达和模式分类能力,本文研究基于深度卷积神经网络的声音场景分类方法。声音场景分类的目标是获得环境的语义标签。尽管深度卷积神经网络深层特征图的语义特征明显,但仅利用最后一个卷积层的输出特征图进行声音场景分类可能会由于细节信息缺失而导致分类的性能下降。此外,当前声音场景分类的训练数据有限,在训练深度卷积神经网络时容易产生过拟合问题,导致模型泛化能力下降。针对以上两个问题,本文以Xception网络为基础,开展声音场景分类的多尺度特征融合与数据增广方法研究。具体包括:(1)提出一种简单有效的多尺度特征融合方法,该方法将深层语义特征和浅层细节纹理特征进行融合,得到一个融合特征向量,用该特征向量进行分类可以有效的提升分类效果。另外,声音场景分类是典型的模式分类问题,处于类别边界的样本对模型的分类能力贡献大。为了突出类别边界附近的样本在模型训练中的贡献,本文对二分类焦点损失函数进行拓展使其适用于多分类情况。焦点损失通过对每个样本的损失赋予不同的权重,使得模型着重关注分类边界附近的样本,可以进一步提升模型的性能。(2)提出多尺度特征融合和通道加权方法。多尺度特征融合是利用卷积神经网络的特征层次结构,融合不同尺度的特征图,得到一个包含全局语义信息又包含局部细节纹理信息的特征图。另外,由于不同的声音事件在判定声音场景类别时所起的作用不同,所以可以认为特征图的不同通道对于分类的贡献不同。为此,本文提出一种基于学习的通道加权方法,该方法通过学习的方式来获取每个通道的权重,然后对每个通道进行加权,可以有效的提升模型的分类性能。(3)为了缓解深度卷积神经网络训练时的过拟合问题,提出一种标签平滑Mixup数据增广方法。Mixup是一种简单而有效的数据增广方法,可以缓解过拟合问题。但是深度卷积神经网络还存在对预测结果过分自信的问题,标签平滑是解决模型过分自信问题的一种方法。本文将标签平滑方法引入到Mixup方法中,提出标签平滑Mixup方法,该方法通过插值的方式生成虚拟训练数据,并且平滑虚拟数据的标签,可以有效的防止过拟合问题,提升模型的泛化能力。本文在DCASE 2018挑战赛声音场景分类任务的数据集上进行实验,实验结果表明,本文提出的多尺度特征融合方法和数据增广方法可以有效地提升模型的性能,并且分类效果优于DCASE 2018挑战赛的最好结果。