汉语说话人转换系统的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:yuzhou519
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基于语料库语音合成技术的日益成熟,合成语音的自然度、可懂度都有了很大的提高,使语音合成的应用日益广泛.但由于容量和语料库制作代价的限制,合成语料库通常只保留少数、甚至只有一个发音人的语音数据,合成语音的音色只能是特定发音人的音色.然而随着人们个性化需求的日益强烈,人们希望听到自己喜欢的音色.该文提出一种与语音合成系统相结合的说话人转换技术,仅需少量的目标发音人训练数据,便能够使合成系统合成出具有目标发音人特征的语音.该文分为三部分:第一部分首先对说话人转换的方法进行总体介绍,说话人转换技术就是对源说话人的音色进行转换使其听起来像目标说话人发出的.为了实现说话人音色的转换,通常需要对语音信号进行激励源和声道滤波器的分离,以便对激励信号和声道模型分别进行修改,然后再重新生成语音.为了更好的理解这一过程,这一部分我们也对人的发音过程的声学机理和数学模型进行了系统介绍.最后我们对说话人转换技术的发展和常用的方法进行一个简要介绍.第二部分则是对最常用的两类说话人转换方法:基于GMM的方法和基于码本映射的方法,进行一个系统的分析与比较.通过分析和对比,我们发现两种方法存在很多相似之处.而相对而言,基于码本映射的STASC方法所需训练数据少、训练复杂度较低,这对于系统实用化非常有利.因此我们最终选择了STASC码本映射的方法作为基本框架进行改进.然而目前码本映射方法的最大问题在于:1.转换后语音音质较差;2.转换频谱共振峰不清晰,语音与目标发音人不接近.转换后音质较差主要是因为原有的LPC分析方法不能实现激励源和声道模型的良好分离,对激励源和声道进行转换后两者无法很好的配合,导致音质下降.而转换语音与目标发音人不接近则主要因为原有加权叠加方法很可能将听感上差异较大的频谱进行叠加,这种叠加会带来说话人频谱特征的平滑.根据以上分析,在第三部分我们提出一种新的基于码本映射的说话人转换方法.首先我们利用STRAIGHT算法对激励源和声道滤波器进行良好分离以分别转换.同时我们实现了一个编解码算法以对STRAIGHT分析得到的参数进行有效存储.接下去我们提出了一种基于音素绑定的码本加权策略转换频谱,以降低码本加权叠加时对说话人特征的平滑效应.最后我们提出一种基于决策树的韵律转换方法以转换复杂的汉语韵律.听觉测试证实我们的方法仅需少量的训练数据便能够有效地对说话人特征进行转换,同时保持良好的音质.由于我们的算法复杂度低,因此他能够被广泛应用于手机、PDA等资源受限领域,具有极大的实用价值和应用前景.
其他文献
移动通信是当今通信领域最为活跃和发展最为迅速的领域之一,随着对移动通信服务业务要求的提高,在世界范围内掀起了第三代移动通信系统研制热潮.而无线信道的研究又是移动通
在过去十年的时间里,随着无线传感器网络技术的迅猛发展和人们对无线网络服务需求的增长,大规模无线传感器网络中的渐进性能分析一直受到国内外学者和研究机构的重视。无线传感
近年来,随着我国在基础设施建设方面大力投入,我国隧道建设规模也在快速增加。在挖掘隧道时,挖掘区域周边的地应力被重新分布。应力场的重新分布导致了该区域存在向挖掘出的
无线通信网中的介质访问控制(MAC)协议QoS具有双重含义:尽可能地提高吞吐量并减小时延;在保证吞吐量和时延的前提下实现优先级的控制.该文在对各种无线通信网络中MAC协议进行
在嵌入式系统中,由于闪存具有容量大、速度快、功耗低等优点,越来越广泛地用作系统的外部存储设备。闪存是EEPROM的一种,主要分为NOR或非和NAND与非两种。大部分闪存文件存储
基于VLIW技术的C6000系列DSP是TI公司推出的高性能数字信号处理器,在图象处理中有着广泛的应用.为了在应用中将C6000DSPs地性能充分释放出来,有两个关键因素:一是合理地硬件
随着计算机技术和通信技术的发展,多媒体监控系统已经有了广泛的应用.该课题的目的是对监控系统的关键技术——视频的压缩和传输问题进行研究.视频压缩采用目前代表多媒体数
移动通信已经渗透到人们的工作、生活当中.人们对移动通信的要求越来越高,希望能提供更高的速度和更多的业务.无线通信技术取得了重要的突破,由FDMA和TDMA发展到现在的CDMA,
随着信息化社会的发展,移动通信已经渗透到日常生活的每一个细节,现有的话音业务已不能满足各种信息通信的需求,移动数据通信业务作为一种新兴的业务得到日益广泛的应用。由中国