个性化语音生成及其相关问题的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:yeyennn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语音信号处理技术的日趋成熟,说话人的个性语音信息受到人们越来越多的重视。个性化语音生成指的是生成具有特定目标说话人个性特征的语音,它有着广泛的应用前景:如在语音合成领域用于合成个性化语音;在保密通信领域用作说话人身份的伪装;在医疗卫生领域用于受损语音的恢复等。说话人自适应和语音转换可以看作个性化语音生成最常用的两种技术,在很多情况下,说话人自适应可以认为是语音转换的一种特殊情况。语音转换指的是改变一个说话人的语音个性特征,使之具有目标说话人的语音个性特征,而语义信息保持不变的一种技术。本文主要围绕着语音转换的相关方法和技术展开探讨,重点研究了语音频谱特征的转换方法,对于F0的映射方法也进行了讨论,同时,针对非对称语音库情况下的语音转换也提出了切实有效的解决方案。论文的主要工作和创新点包括以下几个方面:  首先,本论文在对基于经典高斯混合模型方法(Gaussian Mixture Model, GMM)的语音转换方法的研究基础上,针对其存在的过拟合、不连续、过平滑等问题分别提出了相应的改进方法。在GMM模型训练阶段,加入了不同高斯分量之问的相似度的约束条件,提高了建模的精度,从而在一定程度上能够提高转换函数的准确性。当训练数据过少而模型复杂度较高时,会产生较为严重的过拟合问题。为了解决过拟合问题,我们提出了两种方法:主成分回归方法(Principal ComponentsRegression,PCR)和核主成分回归方法(Kernel Principal Components Regression,KPCR)。相关实验结果分析表明:由于特征转换是基于帧进行的,忽略了相邻帧之间的相关性,在很大程度上会造成转换后语音的不连续;同时,由于高斯模型的加权平均效应会造成转换语音频谱的过平滑。针对这两个问题,本文从研究后验概率信息的角度出发,发现对于一帧语音频谱特征,GMM模型的某一高斯分量总是占据主导地位,并且相邻帧的最大后验概率在不同高斯分量之间的变换是非常快速的,这在很大程度上造成了转换语音的不连续性。针对不连续问题,本文采用自适应中值滤波对后验概率进行平滑;同时,针对过平滑问题,我们选择后验概率最高的两个高斯分量对应的映射函数作为转换函数。这些算法在一定程度上解决了GMM语音转换方法存在的过拟合、不连续和过平滑等问题,从而实现了提升转换性能的目标。  其次,针对频谱特征的转换,本文利用支持向量回归方法(Support Vector Regression,SVR)做了深入的研究,通过SVR方法构建了源说话人和目标说话人之间的非线性映射关系。由于传统的SVR方法是针对多维输入单维输出的情况提出的,而本文研究的频谱特征转换是一种多输入多输出的情况,针对这一问题,我们采用了多输出SVR方法;同时,由于单一映射很难准确描述不同说话人的频谱特征之间的关系,进而我们提出了GMM和SVR相结合的方法;最后,针对说话人语义和个性特征分离的情况,我们做了初步的分析讨论,提取低阶的频谱特征来表达语义信息,同时提取高阶的频谱特征来表示说话人个性特征,通过SVR方法建立语义和说话人个性特征之间的映射关系。实验结果表明,SVR方法能够取得比传统GMM方法更好的转换效果,同时基于说话人语义信息和个性特征分离的语音转换方法是可行的。  第三,目前的语音转换主要是集中在频谱特征转换方法的研究上,但是韵律特征特别是基音频率(F0)对语音转换也至关重要。本文围绕着F0转换这一话题进行了讨论与研究,详细分析了目前几种主要的FO转换方法。我们从频谱特征和F0相关性的角度出发,提出通过转换后的频谱特征对F0进行预测;同时,为了进一步提升F0转换的准确度,进一步提出了F0预测和高斯归一化方法相融合的转换方法。本算法在主客观实验中都取得了比传统高斯归一化和GMM等方法更好的效果。  最后,现实条件下对称语音数据很难录制和直接获取,在这种情况下,传统的语音转换方法很难直接运用。针对这一问题,我们首先提出了一种基于说话人模型对齐的语音转换方法,在这种方法里,通过对说话人模型分量进行迭代对齐来训练得到频谱特征转换函数,取得了明显优于传统INCA语音转换方法的效果。同时,目前的语音转换方法需要大量的源说话人和目标说话人的语音数据,在实际情况中大量的对称语音数据很难获取,针对这一情况,受到说话人识别中自适应思想的启发,本文提出了基于模型自适应技术的语音转换方法。在这种方法里,首先训练得到背景说话人模型,然后通过MAP自适应方法分别自适应训练得到源说话人和目标说话人的模型,接着利用自适应说话人模型的均值和协方差等模型参数,分别提出了基于高斯归一化和模型均值映射的频谱特征转换方法。为了进一步提高转换函数的准确度,进而提出了高斯归一化和模型均值映射相融合的方法。同时,由于训练数据有限,很难保证说话人模型的每一高斯分量的参数都被更新,我们采用了KLD(Kullback-Leibler divergence)在转换过程中对模型进行优化。实验结果验证了基于模型自适应的语音转换方法在性能上接近基于对称语音库的GMM方法的效果。
其他文献
目标机动性和环境复杂性大幅增加了数据关联的难度。针对传统目标关联方法过度依赖先验信息,对监视区域内大规模、运动模型各异的目标关联效果较差的问题,本文主要研究基于点
物体的热胀冷缩是极为普遍而又非常重要的物理现象,特别是对于金属的热胀冷缩规律的研究,在机械制造、精密仪器的设计以及工程建筑等各个领域都十分重要。因此金属线膨胀系数的
蜜罐就是一个虚拟的系统或网络,专门用于诱骗黑客;发现,保存和分析计算机系统上黑客留下的蛛丝马迹,并随时跟踪他们的行踪,借而了解黑客使用的最新技术和工作思路。通过获取这些技
国内互联网接入市场已经历了连续数年的高速增长,保持着较高的增长率,将逐步进入稳定发展期。与之相应的,业务收入的ARPU值也在逐年下降。如何保持互联网业务发展的活力,巩固固网
近年来,软件无线电技术倍受关注,被认为是未来通信乃至未来无线电技术的发展方向。它突破了传统无线电台以功能单一、可扩展性差的硬件为设计核心的局限性,强调了要使通信系统摆
随着信息化技术和市场经济的快速发展,传统的机构单靠自身内部资源与优势已很难适应市场的快速变化,虚拟合作联盟以其自身的优势,成为了当今社会日趋重要的合作组织模式。虚拟合
语音信号作为信息的最普遍最直接的表达方式,在许多领域具有广泛的应用前景。然而在实际语音通信过程中,不可避免地会受到来自周围环境、传输媒介引入的噪声、通信设备内部电噪
小波理论是近年来迅速发展起来的一种时频信号分析理论,它在时频域同时具有良好的局部性,并且具有可变的时频域分辨率的性质,这些都是传统的傅立叶变换所不具备的,这些特性使得小
作为多媒体技术中的关键技术,流媒体技术在IPTV、移动通信、宽带网络通信和家庭消费电子等高技术产业群中得到广泛应用。流媒体技术融合了流媒体数据的采集、压缩、存储、传输
随着我国城市轨道交通建设的普及和交通信息化建设的迫切需求,国内大中城市如北京、广州、上海和南京等地都纷纷着手建设城轨智能交通系统。但是,由于各阶段、各部门建立的系统