说话人识别鲁棒性研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:dfklfgkffh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着说话人识别技术的发展,说话人识别系统的性能已经达到实用的水平,例如在2010年NIST的说话人识别评测中,核心测试的等错误率达到1%左右。然而在实用环境中,说话人识别系统将会面临各种复杂的鲁棒性问题,例如复杂的信道和环境噪声,说话人年龄、情绪等自身因素的变化,以及冒认者语音是合成语音的情况。本文主要针对说话人识别的噪声鲁棒性问题以及合成语音鲁棒性问题展开研究,具体内容如下:   关于噪声鲁棒性问题,本文首先对信号域、特征域和模型域的经典噪声鲁棒性方法进行调研。其中信号域采用基于MMSE_LSA的语音增强算法;特征域采用特征高斯化和相对频谱滤波;模型域则是采用多样训练。通过观察以上方法在多种噪声环境下的性能,本文较为全面地分析了不同噪声鲁棒性方法的特点,并验证了相应融合策略的有效性。在完成对不同域鲁棒性方法调研的基础上,本文将丢失特征理论引入说话人识别系统,并且提出相应的改进方法:第一,将丢失特征理论中的重建模型与说话人识别系统中的通用背景模型进行绑定,一定程度上使得重建特征与后端模型匹配;第二,利用线性谱域和对数mel滤波器输出域的互补性,对语音的丢失特征进行更加准确的二次重建;第三,采用不确定度解码方法,将重建特征的不确定度传播到得分域。实验表明,以上提出的改进方法对系统性能有一定的提升作用。   关于合成语音鲁棒性问题,本文的目标是构建自然语音与合成语音区分系统,从而保证说话人识别系统不会将合成语音冒认者错误接受为目标说话人。本文首先根据自然语音与合成语音在mel倒谱统计特性上的差别,提出从倒谱统计特性的角度来区分自然语音与合成语音。接下来,通过分析参数语音合成系统的特点,本文发现合成语音相对自然语音具有更小的发音差异性,进而提出基于音素发音差异性的自然语音与合成语音区分系统。实验表明,本文提出的方法能在一定条件下区分自然语音与合成语音,提高说话人识别的合成语音鲁棒性。
其他文献
本论文课题来源于山东大学信息科学与工程学院无线移动通信与传输实验室袁东风教授承担的山东省自主创新成果转化重大专项“低成本、低耗能、高可靠嵌入式终端与信息服务平台
随着现代无线通信业务的快速发展,人们对更高速率和更好质量服务的要求和日益紧张的无线频谱资源之间的矛盾越来越大。多输入多输(MIMO)技术已被证明能在不增加带宽和发射功
在现代电子设备中,印刷电路板PCB发挥着越来越重要的作用,其质量的好坏在一定程度上决定了电子产品的性能。因此,PCB缺陷检测在工业生产中具有极其重要的价值。基于自动光学
随着信息产业的飞速发展,通信网络、广播电视网络与IP网络三网融合进程的快速推进,多媒体业务正成为网络的主要业务之一。多媒体业务数据传输量大,如何有效地利用信道带宽,成为运
网络多媒体技术、通信技术和传输技术的迅速发展给人们带来极大的便利的同时,信息安全成为人们不容忽视的问题。而无线网络因为其特殊的性质,安全问题尤其突出。加密哈希函数
结构化LDPC(Low-Density Parity-Check,LDPC)码是一种逼近香农限的实用好码,工程中通常用结构化的方法进行构造。而准循环LDPC(Quasi-Cyclic LDPC,QC-LDPC)码因为其校验矩阵
喉振式话筒是放置在喉部附近的皮肤振动传感器,是一种典型的非空气传导语音的设备。由于它采集不到外界空气传播的噪声,它被广泛应用于各种强噪声环境下的语音采集。但由于喉
超高频RFID技术读写距离远、读写速度快,是目前的研究热点之一。从系统角度展开对超高频RFID技术的数据传输研究,有利于从整体上改善系统性能。本文在对ISO/IEC18000协议数据传
医学图像聚类就是把图像中的不同物质依据某种属性聚集成类,并使得类内相似性尽量大,类间相似性尽量小的一种图像分析方法,具有重要的临床应用价值。近年来,随着影像学诊断应
图像分割是图像处理和图像分析中的关键步骤,分割的目的是提取图像有意义的区域。图像分割问题的典型定义就是如何在图像处理过程中将图像中的一致性区域和感兴趣对象提取出