基于支持向量机的新闻音频分类

来源 :天津大学 | 被引量 : 0次 | 上传用户:a410539939
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今的数字信息时代,多媒体信息处理技术的日益成熟,计算机处理能力和网络速度的快速提高,使包含了图像、视频、音频等越来越多的数字化多媒体信息开始进入人们的日常生活,随之而来的对数字化多媒体信息进行分析和查找的需求也越来越迫切。因此,基于内容的音视频处理和检索已成为近年来多媒体处理、信息检索以及数据管理研究领域的重要课题之一。现有的基于内容的多媒体检索系统多针对视频图像内容的转换进行分类分析,而音频往往能够提供关于内容场景变化的辅助信息,从而成为现在多媒体检索系统中不可或缺的重要组成部分。而原始的音频数据是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,因此,选择能够代表不同类别音频信息的特征,以及选择合适的音频分类系统成为该方面上的研究重点。本文提出了一种基于支持向量机的层次化新闻音频分类系统,由语音/非语音/静音分类器、现场报道/纯语音分类器、男性声音/女性声音分类器、音乐/噪声分类器组成,结合新闻视频语义特点,将音频信息分为男性声音、女性声音、现场报道、噪音、音乐、静音六种不同类别。在音频特征选择方面,本文选用了包括美尔倒谱系数、频谱能量分布、子带能量分布、频谱质心、高过零率比例,低短时能量比率,谱通量,静音帧比率等音频特征,并结合单独最优特征组合和序列前向选择方法对不同分类器进行特征向量选择。在分类器构造方面,由于支持向量机很好地解决了小样本学习问题,具有很好的泛化能力,本文选用支持向量机作为分类器,并针对多类分类问题,提出了决策树的层次化音频分类系统结构。实验结果表明,本文提出的音频分类算法对语音/非语音/静音得到了接近98%的分类精度;现场报道/纯语音近92%的分类精度;男性声音/女性声音95%的分类精度以及音乐/噪声近98%的分类精度,能够达到预期分类要求。
其他文献
随着嵌入式技术的快速发展,智能终端逐步走向智能化、多样化,逐渐趋向个人电脑的标准,拥有了强大的CPU处理能力、较大的内存和更多扩展能力。智能手机厂商在智能手机中提供了
Ogg/Vorbis是一种完全免费、源码开放并且没有专利限制的感知音频编解码技术,具有很高的编码灵活性。由于它不受专利限制、源码开放以及技术上的优势,Ogg/Vorbis已经在数字音
光码分多址(OCDMA)是未来高速全光通信网络的备选方案之一,是目前光通信研究领域的热点。与其他的复用方式相比,OCDMA目前还处于相对不成熟的阶段。本文主要围绕二维WDM/OCDM
无线通信中的MIMO(Multiple Input Multiple Output)系统指的是利用多根发射天线和接收天线进行无线传输的技术,使用这种技术的无线通信系统即为MIMO系统。MIMO技术的实质是为
信息科技高速发展,越来越多的数字信息通过互联网等途径广泛传播,这极大地提高了我们学习工作的效率并丰富了我们的日常生活内容。其中,数字图像文件传递了大量的信息,是传播