汉语说话人转换系统的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：yuzhou519

【摘要】

：

随着基于语料库语音合成技术的日益成熟,合成语音的自然度、可懂度都有了很大的提高,使语音合成的应用日益广泛.但由于容量和语料库制作代价的限制,合成语料库通常只保留少数

【作者】

：

双志伟

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2004年期

【关键词】

：

说话人转换码本映射 GMM STASC STRAIGHT

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着基于语料库语音合成技术的日益成熟,合成语音的自然度、可懂度都有了很大的提高,使语音合成的应用日益广泛.但由于容量和语料库制作代价的限制,合成语料库通常只保留少数、甚至只有一个发音人的语音数据,合成语音的音色只能是特定发音人的音色.然而随着人们个性化需求的日益强烈,人们希望听到自己喜欢的音色.该文提出一种与语音合成系统相结合的说话人转换技术,仅需少量的目标发音人训练数据,便能够使合成系统合成出具有目标发音人特征的语音.该文分为三部分:第一部分首先对说话人转换的方法进行总体介绍,说话人转换技术就是对源说话人的音色进行转换使其听起来像目标说话人发出的.为了实现说话人音色的转换,通常需要对语音信号进行激励源和声道滤波器的分离,以便对激励信号和声道模型分别进行修改,然后再重新生成语音.为了更好的理解这一过程,这一部分我们也对人的发音过程的声学机理和数学模型进行了系统介绍.最后我们对说话人转换技术的发展和常用的方法进行一个简要介绍.第二部分则是对最常用的两类说话人转换方法:基于GMM的方法和基于码本映射的方法,进行一个系统的分析与比较.通过分析和对比,我们发现两种方法存在很多相似之处.而相对而言,基于码本映射的STASC方法所需训练数据少、训练复杂度较低,这对于系统实用化非常有利.因此我们最终选择了STASC码本映射的方法作为基本框架进行改进.然而目前码本映射方法的最大问题在于:1.转换后语音音质较差;2.转换频谱共振峰不清晰,语音与目标发音人不接近.转换后音质较差主要是因为原有的LPC分析方法不能实现激励源和声道模型的良好分离,对激励源和声道进行转换后两者无法很好的配合,导致音质下降.而转换语音与目标发音人不接近则主要因为原有加权叠加方法很可能将听感上差异较大的频谱进行叠加,这种叠加会带来说话人频谱特征的平滑.根据以上分析,在第三部分我们提出一种新的基于码本映射的说话人转换方法.首先我们利用STRAIGHT算法对激励源和声道滤波器进行良好分离以分别转换.同时我们实现了一个编解码算法以对STRAIGHT分析得到的参数进行有效存储.接下去我们提出了一种基于音素绑定的码本加权策略转换频谱,以降低码本加权叠加时对说话人特征的平滑效应.最后我们提出一种基于决策树的韵律转换方法以转换复杂的汉语韵律.听觉测试证实我们的方法仅需少量的训练数据便能够有效地对说话人特征进行转换,同时保持良好的音质.由于我们的算法复杂度低,因此他能够被广泛应用于手机、PDA等资源受限领域,具有极大的实用价值和应用前景.

其他文献

第三代移动通信系统信道建模和相关技术研究

移动通信是当今通信领域最为活跃和发展最为迅速的领域之一,随着对移动通信服务业务要求的提高,在世界范围内掀起了第三代移动通信系统研制热潮.而无线信道的研究又是移动通

学位

信道仿真3GRayleigh

大规模无线传感器网络性能分析

在过去十年的时间里，随着无线传感器网络技术的迅猛发展和人们对无线网络服务需求的增长，大规模无线传感器网络中的渐进性能分析一直受到国内外学者和研究机构的重视。无线传感

学位

无线传感器网络渐进性能分析异构网络混合网络移动多播网络拓扑分布容量时延

基于三维激光扫描技术的隧道收敛分析研究

近年来,随着我国在基础设施建设方面大力投入,我国隧道建设规模也在快速增加。在挖掘隧道时,挖掘区域周边的地应力被重新分布。应力场的重新分布导致了该区域存在向挖掘出的

学位

三维激光扫描隧道收敛分析椭圆拟合

无线通信网MAC协议QoS分析

无线通信网中的介质访问控制(MAC)协议QoS具有双重含义:尽可能地提高吞吐量并减小时延;在保证吞吐量和时延的前提下实现优先级的控制.该文在对各种无线通信网络中MAC协议进行

学位

无线通信服务质量介质访问协议

无线路由器防掉电文件系统设计与实现

在嵌入式系统中,由于闪存具有容量大、速度快、功耗低等优点,越来越广泛地用作系统的外部存储设备。闪存是EEPROM的一种,主要分为NOR或非和NAND与非两种。大部分闪存文件存储

学位

嵌入式Linux文件系统防掉电

基于VLIW DSP的图像处理算法与实现研究

基于VLIW技术的C6000系列DSP是TI公司推出的高性能数字信号处理器,在图象处理中有着广泛的应用.为了在应用中将C6000DSPs地性能充分释放出来,有两个关键因素:一是合理地硬件

学位

VLIW DSP二维卷积离散余弦变换数学形态学信号完整性

基于MPEG-4的视频编解码理论与应用研究

随着计算机技术和通信技术的发展,多媒体监控系统已经有了广泛的应用.该课题的目的是对监控系统的关键技术——视频的压缩和传输问题进行研究.视频压缩采用目前代表多媒体数

学位

帧MPEG-4VOPDIVX压缩解压视频传输

UMTS切换子系统的设计与实现

移动通信已经渗透到人们的工作、生活当中.人们对移动通信的要求越来越高,希望能提供更高的速度和更多的业务.无线通信技术取得了重要的突破,由FDMA和TDMA发展到现在的CDMA,

学位

UMTS移动交换中心服务器切换切换策略切换实现

GPRS数据传输技术及其在ITS中的应用

随着信息化社会的发展，移动通信已经渗透到日常生活的每一个细节，现有的话音业务已不能满足各种信息通信的需求，移动数据通信业务作为一种新兴的业务得到日益广泛的应用。由中国

学位

GPRS网络MC35模块GPS智能交通系统车载终端

汉语说话人转换系统的研究

其他学术论文