基于韵律序列特征和非时序特征的音频场景识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wuww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频场景识别是语音及音频信号处理研究中的一个新领域,其目的是通过分析观测到的音频特征来判别该段音频数据录制时的背景环境。由于准确的识别音频场景和环境可以为如语音识别、说话人识别以及基于语音的检索等提供有价值的辅助信息,因而该领域越来越受到广泛的重视。本文从特征数据的获得开始,逐步使用不同分类器建立音频场景的参数模型并对其不断完善。文中研究了基于聚类的音频场景特征数据的提取和纯净化方法。在特征数据的获取阶段,使用基于层次聚类结合人工听辩确认方法来保证得到的特征数据的代表性和纯净性。在这一阶段重点探讨了在层次聚类的过程使用GMM作为数据聚类单元时,GMM间相似性度量以及合并的方法。其次对音频场景特征数据进行了分析,提取了音频场景的韵律序列特征和非时序特征分别训练HMM和GMM以及SVM分类器。在HMM的解码过程方面,提出一种后验转移概率解码方法来尝试解决HMM与数据不匹配时的性能下降问题。本文还使用最小错误分类准则来训练GMM提高其对特征数据的区分能力。最后使用自训练的学习算法,在未标记的数据集上对SVM和GMM分类器进行半监督学习。在合适选取预测置信度阈值的情况下提高了分类器的性能。本文还使用了线性加权法对分类器进行融合,融合后的分类器性能可以超越单一分类器。
其他文献
随着虚拟仿真技术的不断发展,虚拟教学实验系统的研究日益深入。但目前使用的大部分微机接口虚拟实验系统在自主性、逼真性、交互性和实时性等方面均存在不足。为了解决此类
延迟容忍网络(Delay Tolerant Network, DTN)是一种新型的自组织网络。这种网络具有高延迟、高动态拓扑、间歇性连通以及节点资源有限等特点,网络中的节点转发消息采用“存储
图像配准是医学图像处理中的基本处理方法。实现医学图像的配准,将多幅图像上的信息结合起来,在各种临床应用例如疾病诊断、术前评价和外科手术计划等方面有着非常重要的意义
新一代网络的变革式发展,也将网络安全带入了一个新的时代。病毒、木马、黑客攻击等各种安全威胁产生的非授权流量充斥着互联网。这些非授权流量一方面会侵犯网络用户自身的
在数据库事务管理中,并发控制机制是重要的组成部分,它是衡量一个数据库系统性能好坏和功能强弱的重要标志之一。网格技术的兴起,实现了对地理上广泛分布的大量异构资源进行共享
随着计算机及网络技术的同益发展,各高等园校的教学管理及行政办公的方式、方法和手段也发生着巨大的变化。而兴起于20世纪80年代的校园网,为学院的建设以及发展提供了更加富有
Agent组织是多Agent系统研究的重要问题之一,基于Agent组织的求解可以减少系统的内部冲突,协调问题求解,是一种有效地问题求解方式。将能力、角色等概念引入组织,构建了一个A
现有的多策略本体映射都有其固有的缺点,一方面不能动态的确定其权值,另一方面容易产生错误的映射关系。本文对此进行研究。首先,论文简单介绍了课题的研究背景,阐述了当前多
车辆牌照自动识别是智能交通系统中的关键技术。在高速公路收费,车辆检测,停车场监控与管理,路面行驶车辆监控等领域有着广泛的应用前景。本文对车辆牌照识别系统中汽车牌照
无线传感器网络作为一种新型无线数据采集技术手段,在未来具有无限光明的应用前景,对其进行研究具有非常重大的意义。传感器节点的软硬件资源非常有限,无线传感器网络的良好
学位