论文部分内容阅读
耳语音是一种有别于正常语音的常见发音方式,广泛地应用于人们的日常交流当中。由于发音器官进行耳语音发声时,声带没有振动,导致耳语音的浊音部分没有基频,并导致耳语音的频谱结构与正常语音存在很大不同。这一发音特点不仅导致耳语音的能量较低,而且也使得其自然度和可懂度比同样条件下的正常语音低。本文主要针对耳语音转换正常语音及耳语音识别的建模方法进行研究。耳语音转换正常语音的目的将一个人的耳语音通过某种方式转换成正常语音,以提高耳语音的自然度和可懂度。在公共场所,人们出于隐私或者避免打扰他人的考虑,在语音通话时通常会采用耳语音。但是现有的通信系统都是针对正常语音发展而来,对耳语音支持度不高。耳语音转换技术有望可以提高耳语音通话的可懂度和自然度。此外,耳语音转换也可以应用在失音患者的辅助发音当中。本文先后进行了基于规则和基于统计的耳语音转换研究。基于规则的转换模型具有高效快速、不需要训练数据等优点,而基于统计的转换模型需要训练数据,实时性也稍逊一筹,但是其转换音质较高,因此都具有研究价值。已有的基于码激励线性预测编码器(Code exited linear prediction, CELP)的耳语音转换模型不仅频谱转换规则复杂,需要对耳语音音素进行预分类,而且又存在基频生成规则过于简单的问题,使得其转换语音音质不佳,而且难以应用在连续耳语音的转换任务当中。为此,本文提出了基于正弦语音(Sinewave speech, SWS)合成的耳语音转换模型。这种模型不仅更加简洁,去掉了耳语音预处理模块,加入了根据共振峰估计基频的模块,而且可以作用于连续耳语音的转换,并使得转换语音的音质有了一定的改善。在基于统计的耳语音转换模型研究中,本文针对传统基于高斯混合模型(Gaussian mixture model, GMM)的耳语音频谱转换模型难以对维间相关性和高维谱包络建模的不足,提出将受限玻尔兹曼机(restricted Boltzmann machine, RBM)应用于耳语音频谱转换建模。由于RBM不仅支持高维的谱包络输入,而且对维间相关性具有较强的建模的能力,使得该模型的转换语音相对GMM模型的转换语音有了明显的主观听感提升。此外,本文还尝试了将深层神经网络(Deep neural network, DNN)用于耳语音频谱转换的建模当中。采用标准的RBM逐层预训练和最小均方误差准则(Minimum mean square error, MMSE)有监督训练得到的DNN,在训练数据较少的情况下容易出现过拟合现象,且网络训练容易受奇异数据影响。为此,本文提出了一种半监督(Semi-supervised)耳语音转换DNN训练流程。在该流程中,各采用一个RBM分别对耳语音和并行的正常语音谱包络参数空间建模,并通过训练得到的模型计算RBM隐层数据,这相当于对谱包络参数进行二值编码。然后,用MMSE准则训练DNN中间网络,建立耳语音谱包络二值编码到正常语音谱包络二值编码的映射关系。最后,将两两端的RBM和DNN中间网络组合成完整的DNN,完成耳语音谱包络参数到正常语音谱包络参数的转换。主观听感实验表明,这种半监督DNN不仅相对标准DNN有了明显的听感提升,而且相对RBM模型也有了一定的主观听感改善。最后,本文在DNN-HMM混合模型框架下对耳语音识别的声学模型建模方法进行了研究。由于耳语音的频谱比较平缓,不同音素之间的声学特征区分性比较小,使得传统的GMM-HMM声学模型在耳语音识别任务上识别率不佳。DNN不仅支持高维的上下文声学特征输入,而且逐层特征提取的结构也更利于建立频谱特征到HMM状态的深层映射关系,相对传统的GMM-HMM更加适合对耳语音进行建模。同时,为了解决耳语音数据资源不足难以进一步提高DNN声学模型性能的难题,本文提出了一种基于知识传递(Knowledge transfer, KT)的耳语音DNN训练流程,可以将海量的正常语音数据和模型资源用于耳语音DNN的训练,大幅提升了耳语音的识别率。此外,由于耳语音中说话人信息收到损失,用于正常语音说话人DNN自适应方法在耳语音说话人自适应中面临很大的不确定性。本文分别进行了基于DNN特征域和模型域的耳语音说话人自适应验证实验,发现可以通过DNN有监督训练的方法从耳语音提取到有效的说话人信息,并且如果将该信息通过全连接矩阵输入到DNN的隐层和输出层,得到的说话人自适应模型在仅需要少量注册数据的情况下,就可以相对说话人无关模型取得一定的识别率提升。