基于对抗训练的端到端语音翻译研究

来源 :信号处理 | 被引量 : 0次 | 上传用户:ERICAMBER
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了进一步利用源文本数据来提高语音翻译的性能,本文提出了一种基于生成对抗网络的端到端语音翻译算法。通过加入判别网络来判断语音特征序列和文本特征序列的真伪,从而引导生成模型来学习文本真实序列的分布,以使语音序列特征分布更加逼近文本特征序列的分布。引入了Wasserstein GAN(WGAN)来计算语音特征序列和文本特征序列通过判别器的标量似然值的Earth-Mover(EM)距离,来解决语音特征序列和文本特征序列存在长度不一致的问题。整个模型遵从多任务学习和对抗学习的训练准则,本文在How2数据集上和Mu
其他文献
教育评价事关教育发展方向,有什么样的评价指挥棒,就有什么样的办学导向。职业教育是培养技能人才的摇篮,职业教育技能人才评价制度由“双证书”制度向“1+X”证书制度发展,
植物多样性的生态茶园建设是今后我国茶园生境管理的长期性任务。为了更加科学地选择利用靶标植物而构建植物多样性生态茶园,本文根据已有研究报道详细划分和定义了八种次生
在室内指纹定位中,室内环境会影响以接收信号强度指标(Received Signal Strength Indicator,RSSI)或信道状态信息(Channel State Information,CSI)的指纹数据,使得采集指纹数
近年来,情感识别成为了人机交互领域的研究热点问题,而多模态维度情感识别能够检测出细微情感变化,得到了越来越多的关注多模态维度情感识别中需要考虑如何进行不同模态情感信息的有效融合。针对特征层融合存在有效特征提取和模态同步的问题、决策层融合存在不同模态特征信息的关联问题,本文采用模型层融合策略,提出了基于多头注意力机制的多模态维度情感识别方法,分别构建音频模型、视频模型和多模态融合模型对信息流进行深层