少量语料的语音转换算法

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:lonely
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号包含了多种信息,例如说话人身份信息、情感状态和语义内容等。而语音转换就是用目标说话人的身份信息来替换源说话人的身份信息,但是保持语义内容不变的一种语音处理技术。语音转换技术在伪装/反伪装、人工智能语音发声、恢复受损语音、语音趣味互动等多方面都有着广阔的应用前景。然而转换前需要大量源和目标说话人语料以及转换后的语音质量等问题制约了语音转换的应用。针对目标说话人可能存在语料不足的情况,本文提出了一种应用统一张量字典的少量训练语料情况下的语音转换算法。从语料库中随机选取N个说话人作为语音张量字典的基础说话人,通过多序列动态时间规整算法使这N个说话人的平行语音段对齐,从而建立由N个二维基础字典构成的张量字典。在语音转换阶段,源、目标说话人语音都可以通过张量字典中各基础字典的线性组合,构造出各自的语音字典,实现了语音转换。实验结果表明,当基础说话人个数达到14时,只需要极少的目标说话人语料,便可获得与传统的基于非负矩阵分解转换算法相当的转换效果,这极大地方便了语音转换系统的应用。针对稀疏表示类算法存在的“细节丢失”问题造成的语音质量不佳的问题,本文提出了一种基于谐波冲激分离的语音转换算法。该算法是在统一张量字典的语音转换算法基础之上的改进,在统一张量字典的语音转换算法基础上增加了一个谐波冲激分离的预处理过程,将谐波信号和冲激信号分别经过各自的转换系统进行转换,并在转换之后相加得到最终的转换语音。针对预处理的分离技术,该算法在训练阶段分别训练出谐波字典和冲激字典。由于转换系统采用的特征参数是语音频谱,在此基础上论文提出了两点改进措施:频谱压缩和残差补偿。实验结果证明该算法可以有效的提高统一张量字典语音转换算法的语音质量,实现少语料情况下的高质量语音转换算法。并且本文算法的语音转换质量高于非负矩阵分解算法的语音转换语音质量。实验结果同时表明,残差补偿可以很好地改善转换系统的客观评价指标,而频谱压缩在转换性能的主观评价上改善更明显。
其他文献
无线传感器网络(Wireless Sensor Networks,WSNs)作为物联网的主要组成部分,在诸多应用领域中扮演着重要角色,例如医疗、交通监测、环境监测等等。但WSNs的诸多固有特性,例如通信信道的公开性、传感器节点存储空间的有限性以及其无人值守等特性,使其易遭受多种安全攻击。密码学技术是WSNs抵御攻击的最有效技术手段,而其中认证协议又是最为常见的密码机制。分析近期四个此类协议中存在的
卒中,特别是缺血性脑卒中,是一种危害人类健康的重大疾病,具有很高的致死率。脑缺血再灌注(cerebral ischemic reperfusion,CIR)是缺血区血液供应恢复的过程,它会导致比单纯
波达方向(Direction-of-Arrival,DOA)估计技术是阵列信号处理领域研究的重点课题,在很多领域中占有重要地位,如雷达、声呐、医学以及通信等领域。DOA估计的研究对象从窄带信
人类和机器进行语音交流,让机器听懂人类的语音,一直是人类长久以来的梦想。随着深度学习技术的应用,语音识别声学模型建模方式发生了巨大的变化。但相关的研究主要集中在英语和汉语普通话这样的数据资源充足的语言中,对于藏语这样的资源稀缺的语言研究较少。本研究首先建立TDNN-HMM藏语拉萨话语音识别基线系统,针对藏语拉萨话数据资源稀缺的问题,研究使用半正交因式分解TDNN-HMM声学模型对藏语拉萨话语音数据
目的:以中医“肾藏精,精生髓”为理论基础,基于GRP78/CAMKⅡ信号途径,探讨六味地黄丸含药血清对Aβ1-42诱导SH-SY5Y细胞内质网应激的影响,揭示六味地黄丸防治阿尔茨海默病的
随着社交网络的发展,人们越来越乐于发布和分享日常生活中的各种信息,位置信息的数据量更是呈指数级增长。挖掘位置信息和揭示人类移动模式是许多下游应用的重要任务,例如兴趣点(Point of Interest,POI)推荐和交通拥塞预测等都是非常热门且被广泛研究的领域,根据挖掘用户的移动模式而进行个性化行程推荐更是一个重要且亟需解决的难题。移动互联网不仅为用户提供了前所未有的便利,更为个性化行程规划的研
近年来,随着视频会议、高清电视和云计算等新兴业务的不断涌现,网络带宽资源需求迅速增长,传统的网络架构面临着严峻的挑战。基于光正交频分复用技术的弹性光网络采用了灵活
研究背景扩张型心肌病(dilated cardiomyopathy,DCM)以左心室或双心室扩张和心肌收缩力受损为特征,发病时除外高血压病、心脏瓣膜病、先天性心脏病和缺血性心脏病,是在世界范
术后认知功能障碍(postoperative cognitive dysfunction,POCD)是老年患者术后常见的并发症之一,主要临床表现为术后出现记忆力减退、工作及执行能力下降、注意力不集中、对
背景肥胖及2型糖尿病等胰岛素抵抗相关疾病已成为威胁全球的公共健康卫生问题。流行病学调查显示,我国成人糖尿病患病率已达10.4%,糖尿病前期状态更是高达35.7%。环境改变与