声音场景分类的多尺度特征融合与数据增广方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：woaidadada

【摘要】

：

声音场景分类旨在使设备通过分析声音信号的特征给其所处的声学场景确定一个语义标签,是机器听觉的主要研究方向之一,在机器人导航、智能穿戴设备等领域的应用前景十分广阔。

【作者】

：

陈新星

【出处】

：

重庆大学

【发表日期】

：

2004年期

【关键词】

：

声音场景分类卷积神经网络多尺度特征融合通道加权数据增广

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

声音场景分类旨在使设备通过分析声音信号的特征给其所处的声学场景确定一个语义标签,是机器听觉的主要研究方向之一,在机器人导航、智能穿戴设备等领域的应用前景十分广阔。近年来,由于其优越的性能,深度卷积神经网络已经使计算机视觉领域的目标检测、分割和识别等技术得到了突破性的发展。鉴于深度卷积神经网络具有强大的特征表达和模式分类能力,本文研究基于深度卷积神经网络的声音场景分类方法。声音场景分类的目标是获得环境的语义标签。尽管深度卷积神经网络深层特征图的语义特征明显,但仅利用最后一个卷积层的输出特征图进行声音场景分类可能会由于细节信息缺失而导致分类的性能下降。此外,当前声音场景分类的训练数据有限,在训练深度卷积神经网络时容易产生过拟合问题,导致模型泛化能力下降。针对以上两个问题,本文以Xception网络为基础,开展声音场景分类的多尺度特征融合与数据增广方法研究。具体包括:(1)提出一种简单有效的多尺度特征融合方法,该方法将深层语义特征和浅层细节纹理特征进行融合,得到一个融合特征向量,用该特征向量进行分类可以有效的提升分类效果。另外,声音场景分类是典型的模式分类问题,处于类别边界的样本对模型的分类能力贡献大。为了突出类别边界附近的样本在模型训练中的贡献,本文对二分类焦点损失函数进行拓展使其适用于多分类情况。焦点损失通过对每个样本的损失赋予不同的权重,使得模型着重关注分类边界附近的样本,可以进一步提升模型的性能。(2)提出多尺度特征融合和通道加权方法。多尺度特征融合是利用卷积神经网络的特征层次结构,融合不同尺度的特征图,得到一个包含全局语义信息又包含局部细节纹理信息的特征图。另外,由于不同的声音事件在判定声音场景类别时所起的作用不同,所以可以认为特征图的不同通道对于分类的贡献不同。为此,本文提出一种基于学习的通道加权方法,该方法通过学习的方式来获取每个通道的权重,然后对每个通道进行加权,可以有效的提升模型的分类性能。(3)为了缓解深度卷积神经网络训练时的过拟合问题,提出一种标签平滑Mixup数据增广方法。Mixup是一种简单而有效的数据增广方法,可以缓解过拟合问题。但是深度卷积神经网络还存在对预测结果过分自信的问题,标签平滑是解决模型过分自信问题的一种方法。本文将标签平滑方法引入到Mixup方法中,提出标签平滑Mixup方法,该方法通过插值的方式生成虚拟训练数据,并且平滑虚拟数据的标签,可以有效的防止过拟合问题,提升模型的泛化能力。本文在DCASE 2018挑战赛声音场景分类任务的数据集上进行实验,实验结果表明,本文提出的多尺度特征融合方法和数据增广方法可以有效地提升模型的性能,并且分类效果优于DCASE 2018挑战赛的最好结果。

其他文献

《中央日报》对新闻自由运动的报道研究

第二次世界大战结束前后,由美国发起的新闻自由运动在世界范围内迅速发展。值得注意的是,在中国,新闻自由运动也得到了国民党的积极支持,其中国民党最高党报《中央日报》是中

学位

《中央日报》新闻自由运动“一党专政”国民党

交通荷载下碳酸盐渍土动力学特性的温度效应

随着国民经济进入“新常态”,东北经济发展仍是一个僵局,新一轮振兴东北老工业基地已经正式拉开帷幕,为了促进经济的发展,东北地区迫切的需要修建发达的高速公路网络,但是,东

学位

碳酸盐渍土交通荷载动力学特性温度效应安定性理论

基于催化发光方法快速检测丙酮的纳米材料制备及其敏感特性研究

丙酮作为常见挥发性有机物之一,具有高挥发性、易燃、易爆等特点,在工业或实验室中广泛被用作有机溶剂。另一方面,丙酮也是一型和二型糖尿病呼吸生物标志物,在生物医药领域被

学位

催化发光传感器挥发性有机物丙酮检测

基于竞争力评价的城市燃气长期负荷预测

从人类发展历程看,能源是物质基础,也是人类所有活动的动力来源,使用不同能源间接决定了进行的活动种类。经过多年的调整,我国一次能源消费结构中天然气占比提升至7%左右。我

学位

负荷预测用气发展竞争力评价因子分析Logistic曲线拟合

奠基人韦普尔斯的传播思想研究

伯纳德·贝德尔森(Bernard Berelson)将道格拉斯·韦普尔斯(Douglas Waples)誉为大众传播研究的“助产士”,相当于施拉姆口中的奠基人。但是在各种传播历史的书写中韦普尔斯都没有被提到,或者只是一笔带过。贝德尔森为什么将韦普尔斯誉为奠基人呢?他又为什么成为了被遗忘的奠基人呢?其实,韦普尔斯不仅活跃在洛克菲勒传播研讨班,他还与多个传播研究的开端,例如佩恩基金会研究、战时传播研究

学位

道格拉斯·韦普尔斯阅读社会学传播研究民主

早开堇菜的组织培养及再生研究

早开堇菜(Viola prionantha Bunge)是堇菜科堇菜属的优良野生地被草本,观赏价值极高,但目前在园林上还没有被开发利用。本文以早开堇菜幼嫩的叶片、叶柄和子叶节为外植体进行

学位

早开堇菜子叶节叶片叶柄植株再生

双层地基中V-T联合作用下单桩承载特性分析

近年来,随着我国基础建设的不断推进特别是近海资源的持续性开发,跨江跨海大桥等不断兴建,桩基础由于其承载力高、沉降小及施工方便等优点而得到广泛应用。但由于这类桩基础

学位

桩基础V-T联合荷载双层地基荷载传递函数数值模拟

严寒C区户用分布式风电供暖匹配特性研究

随着城镇绿色建筑的发展,国家对可再生能源的大力推广,将太阳能、风能等可再生能源收集并应用在建筑节能研究领域中,将成为建筑行业今后可持续发展的必然趋势。本文以严寒C区

学位

严寒C区风电供暖户用建筑负荷特征功率特性曲线

智能体Petri网融合的多机器人-多任务协调方法研究

随着人口老龄化的发展,未来我国乃至世界都将面临日趋增长的由老年人长期护理需求造成的巨大压力,特别是像养老院这样的场所,需要大量的人力资源来完成对老人的照顾。机器人

学位

多机器人协调满意度Petri网智能体粒子群优化算法

咏叹调《我仿佛在花丛中》多个版本的比较与分析

本文通过研究比才歌剧《采珠人》中的男高音咏叹调《我仿佛在花丛中》的三个演唱版本的比较与分析,进而了解比才所创作这首作品的时代背景与其意义。比才所处的创作时期是浪漫主义时期,不同于古典主义时期的区别是,该时期的创作风格具有极大的自由性和理想性,但这种自由和理想性在极大发展的同时又与古典主义时期风格形成了鲜明的对比,同时又借用了古典主义时期的创作技法与创作理念。本文通过这首咏叹调对比才一生所创作作品及

学位

半声唱法咏叹调演唱

声音场景分类的多尺度特征融合与数据增广方法研究

其他学术论文