论文部分内容阅读
城市环境声音的自动分类,已经成为城市信息化进程中的一个关键点,是指通过计算机自动化的分类手段,针对不同的城市环境声音,如自然环境声音、家庭环境声音、道路环境声音等等,在具备背景噪音的情况下,来识别和分类出周围环境的状况。虽然目前环境声音分类领域的应用潜力巨大,但是效果却还不是特别理想,相对于语音识别和音乐检索这样的热点,环境声音的研究还有很多方面的工作可以进一步深化。本文主要针对环境声音的分类问题,进行了相关的研究。在围绕分类的模型选择和有标记数据集匮乏两大问题上,分别提出了对应的解决方案,并通过实验对本文提出的相关方法进行了验证。主要工作包括了以下三个方面:第一,对环境声音分类研究的发展状况以及当前主流的研究方法进行了综述。第二,目前,环境声音分类主要采用底层特征提取结合无监督聚类的方法,这类方法存在着分类准确率有限的问题,即使有的学者将CNN用于环境声音分类,但由于使用的是原始声音数据,从而造成计算代价过大。为此,本文提出了一种基于MFCC结合CNN的混合模型分类方法,该方法首先进行MFCC底层特征提取,然后,再通过CNN模型对其进行高层特征提取,最后进行Softmax分类。实验结果表明:本文提出的混合模型方法,在兼顾计算复杂性和准确率方面,都具有较好的效果。第三,针对当下的环境声音数据集面临着数量少、规模小的困境,提出了声音数据集扩充的办法,该方法共选用了四类数据扩充算法,对原有数据集进行扩充,随后本文将扩充后的数据集在CNN网络中进行训练,实验结果表明:本文提出的数据集扩充方法,其在提高CNN网络的分类准确度方面有明显的优势,能够获得较好的效果。