汉语语音转换方法的研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:xuzhangzhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语语音转换研究内容是通过语音处理手段改变汉语语音中的说话人个性信息,使得改变后的语音听起来像是由另外一个说话人发出的。本文分析了语音特征中蕴藏的说话人个性信息,针对转换语音音质下降的问题提出了在时域和频域抑制转换特征过平滑问题的方法,针对汉语基频的特点提出了基于pitchtarget模型的基频转换算法,最后将汉语语音转换技术应用在汉语情感语音合成研究中。论文涉及到的主要工作有:   1.分析了说话人个性信息的声学表征问题。我们把基于同一文本的语音所存在的差异分为生理性差异和态度性差异。在生理性差异分析中,论文研究了不同说话人在以共振峰为代表的声道特征和以声门波参数为代表的声源特征中的差异性。在态度性差异分析中,论文主要分析了情感语音相对于中性语音在韵律参数上的不同。   2.提高了转换语音的音质。针对高斯混合模型映射方法的过平滑转换特征导致的转换语音音质下降问题,论文从时域和频域两个方面来解决。针对时域过平滑现象提出了高斯混合模型和码本映射相结合的混合映射算法,针对频域过平滑问题提出使用锐化共振峰带宽的后滤波方法。   3.提出了适用于汉语的基频转换方法。针对汉语基频的特点,提出了基于pitchtarget模型的基频转换方法。实验表明pitchtarget模型具有很强的汉语基频描述以及转换能力,通过转换pitchtarget模型参数既可以转换基频曲线所在的调域,又可以改变基频曲线的走势使得转换基频曲线和目标基频曲线在形状上更趋于一致。   4.构建了汉语情感语音转换系统。论文选择使用可重建高质量语音的STRAIGHT算法构建汉语语音转换系统,并将此系统应用在情感语音转换中。由于使用了基于pitchtarget模型的基频转换算法,不但转换了中性基频曲线的调域,而且改变了基频曲线的形状获得了对应情感基频曲线的走势,因此成功地实现了情感语音转换。   5.提出了基于频域子带预测的非线性共振峰估计算法。论文提出了一种基于频域子带自动预测的语音多成分分离算法,避免了以前方法的经验参数选择问题。以提出的频域子带为基础,我们将此非线性分析方法应用在共振峰估计中,准确鲁棒地进行了共振峰估计并且避免了繁杂的共振峰轨迹跟踪算法。
其他文献
如何提高信息检索系统的准确性一直是研究人员最关心的问题。本文首先简单介绍了信息检索的一些基本概念及其评测的相关内容,然后从以下几个方面展开,研究提高信息检索系统准确
学位
随着人类对化石燃料消费的不断增加及其储量有限之间矛盾的加剧正使能源危机日趋逼近,探测和开发海洋资源,具有可持续发展的深远战略意义。海洋可控源电磁探测法是目前进行海洋
目前,道路交通拥挤问题日益严重,其中由交通事件引起的偶发性交通拥挤对路段通行能力和交通安全的影响尤为突出。采用先进信息技术手段对交通流特性参数进行主动提取和分析,及时
扩散张量成像(Diffusion Tensor Imaging)是一种新型的MR成像方式,它的发展使得对大脑白质纤维的无创伤性研究成为可能。基于扩散张量图像的脑白质研究已是现阶段脑影像研究领
混凝剂投加是自来水生产过程中净水处理的重要环节,混凝剂投加自动化是实现自来水生产自动化的重要一环。准确地投加混凝剂可以有效地减轻过滤、消毒设备的负担,在保证满足出厂
随着社会经济的高速发展和人口的急剧增长,交通问题已经成为现代社会发展所必须解决的难题之一。智能交通系统(Intelligent Transportation System,简称ITS)的研究与建设将是
提高系统的可靠性与安全性已成为航空、航天、工业过程领域的迫切需求,故障诊断和容错控制技术是提高动态系统可靠性、安全性的一种重要途径。因此深入研究故障诊断与容错控制
过程安全对于现代化工过程十分重要,一个微小的故障可能导致巨大的经济损失,甚至人员伤亡。过程监测是保障过程安全、提高产品质量的一项有效手段。过程监测方法可以分为三类:
近年来,全球老龄化日趋严重,老年人又是脑卒中的高发人群。脑卒中造成的肢体运动功能障碍给患者带来极大不便和精神压力,同时也给家庭和社会带来了沉重的负担。如何帮助患者