说话人识别鲁棒性研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：dfklfgkffh

【摘要】

：

随着说话人识别技术的发展，说话人识别系统的性能已经达到实用的水平，例如在2010年NIST的说话人识别评测中，核心测试的等错误率达到1％左右。然而在实用环境中，说话人识别系统将会

【作者】

：

陈联武

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2012年期

【关键词】

：

说话人识别技术丢失特征理论相对频谱滤波鲁棒性合成语音

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着说话人识别技术的发展，说话人识别系统的性能已经达到实用的水平，例如在2010年NIST的说话人识别评测中，核心测试的等错误率达到1％左右。然而在实用环境中，说话人识别系统将会面临各种复杂的鲁棒性问题，例如复杂的信道和环境噪声，说话人年龄、情绪等自身因素的变化，以及冒认者语音是合成语音的情况。本文主要针对说话人识别的噪声鲁棒性问题以及合成语音鲁棒性问题展开研究，具体内容如下：　　关于噪声鲁棒性问题，本文首先对信号域、特征域和模型域的经典噪声鲁棒性方法进行调研。其中信号域采用基于MMSE_LSA的语音增强算法；特征域采用特征高斯化和相对频谱滤波；模型域则是采用多样训练。通过观察以上方法在多种噪声环境下的性能，本文较为全面地分析了不同噪声鲁棒性方法的特点，并验证了相应融合策略的有效性。在完成对不同域鲁棒性方法调研的基础上，本文将丢失特征理论引入说话人识别系统，并且提出相应的改进方法：第一，将丢失特征理论中的重建模型与说话人识别系统中的通用背景模型进行绑定，一定程度上使得重建特征与后端模型匹配；第二，利用线性谱域和对数mel滤波器输出域的互补性，对语音的丢失特征进行更加准确的二次重建;第三，采用不确定度解码方法，将重建特征的不确定度传播到得分域。实验表明，以上提出的改进方法对系统性能有一定的提升作用。　　关于合成语音鲁棒性问题，本文的目标是构建自然语音与合成语音区分系统，从而保证说话人识别系统不会将合成语音冒认者错误接受为目标说话人。本文首先根据自然语音与合成语音在mel倒谱统计特性上的差别，提出从倒谱统计特性的角度来区分自然语音与合成语音。接下来，通过分析参数语音合成系统的特点，本文发现合成语音相对自然语音具有更小的发音差异性，进而提出基于音素发音差异性的自然语音与合成语音区分系统。实验表明，本文提出的方法能在一定条件下区分自然语音与合成语音，提高说话人识别的合成语音鲁棒性。

其他文献

视频点播在新型社区信息化中的应用研究与实现

本论文课题来源于山东大学信息科学与工程学院无线移动通信与传输实验室袁东风教授承担的山东省自主创新成果转化重大专项“低成本、低耗能、高可靠嵌入式终端与信息服务平台

学位

社区信息化嵌入式Linux终端WebKit浏览器B/S模式视频点播系统开发

协作MIMO多中继系统的预编码技术研究

随着现代无线通信业务的快速发展,人们对更高速率和更好质量服务的要求和日益紧张的无线频谱资源之间的矛盾越来越大。多输入多输(MIMO)技术已被证明能在不增加带宽和发射功

学位

协作通信多中继预编码多输入多输出

基于AOI的印刷电路板缺陷检测

在现代电子设备中,印刷电路板PCB发挥着越来越重要的作用,其质量的好坏在一定程度上决定了电子产品的性能。因此,PCB缺陷检测在工业生产中具有极其重要的价值。基于自动光学

学位

印刷电路板PCB缺陷检测图像处理DM6467处理器自动光学检测

无线Mesh网络中的QoS组播路由判据研究

随着信息产业的飞速发展，通信网络、广播电视网络与IP网络三网融合进程的快速推进，多媒体业务正成为网络的主要业务之一。多媒体业务数据传输量大，如何有效地利用信道带宽，成为运

学位

无线Mesh网络QoS组播路由判据

基于信源概率分布的加密哈希函数设计

网络多媒体技术、通信技术和传输技术的迅速发展给人们带来极大的便利的同时,信息安全成为人们不容忽视的问题。而无线网络因为其特殊的性质,安全问题尤其突出。加密哈希函数

学位

加密哈希函数映射关系信源概率分布生日攻击平衡度信息安全

结构化LDPC码及在编码调制系统中的应用

结构化LDPC(Low-Density Parity-Check,LDPC)码是一种逼近香农限的实用好码,工程中通常用结构化的方法进行构造。而准循环LDPC(Quasi-Cyclic LDPC,QC-LDPC)码因为其校验矩阵

学位

QC-LDPC掩模星座映射BICM-ID

喉振式话筒语音的修复研究

喉振式话筒是放置在喉部附近的皮肤振动传感器,是一种典型的非空气传导语音的设备。由于它采集不到外界空气传播的噪声,它被广泛应用于各种强噪声环境下的语音采集。但由于喉

学位

喉振式话筒Mel倒谱语音转换人工神经网络高斯混合模型

超高频RFID系统的数据传输研究

超高频RFID技术读写距离远、读写速度快，是目前的研究热点之一。从系统角度展开对超高频RFID技术的数据传输研究，有利于从整体上改善系统性能。本文在对ISO/IEC18000协议数据传

学位

超高频无线射频识别数据传输Simulink仿真差错控制

医学序列图像快速聚类算法与CT图像重建技术应用研究

医学图像聚类就是把图像中的不同物质依据某种属性聚集成类,并使得类内相似性尽量大,类间相似性尽量小的一种图像分析方法,具有重要的临床应用价值。近年来,随着影像学诊断应

学位

医学序列图像聚类CT图像重建距离驱动全变差

基于曲波变换的彩色图像分割算法的研究

图像分割是图像处理和图像分析中的关键步骤,分割的目的是提取图像有意义的区域。图像分割问题的典型定义就是如何在图像处理过程中将图像中的一致性区域和感兴趣对象提取出

学位

图像分割曲波变换马尔可夫随机场多分辨率

说话人识别鲁棒性研究

与本文相关的学术论文