【摘 要】
:
说话人语音提取是说话人语音分离领域中的一部分,有监督学习的情况下,针对从单声道观测语音信号中提取目标说话人语音,本文提出了基于注意机制的说话人语音提取算法,该算法充
论文部分内容阅读
说话人语音提取是说话人语音分离领域中的一部分,有监督学习的情况下,针对从单声道观测语音信号中提取目标说话人语音,本文提出了基于注意机制的说话人语音提取算法,该算法充分利用已知目标源语音信号的辅助信息,针对性的提取我们想要的目标语音信号。近年来随着深度学习的发展,深度学习模式已广泛应用于图像和语音信号的处理领域中。本文主要研究了基于深度学习的注意机制目标说话人语音的提取。论文主要贡献如下:1.构建两个深度神经网络:一个时频掩蔽估计网络、一个说话人信息提取的辅助网络。将混合语音和不同于混合语音中的目标说话人额外语音分别作为两个网络的输入。针对辅助网络对目标说话人额外语音进行目标说话人的信息参数提取,采用了语音序列汇总法和带有注意功能的语音序列汇总法两种信息参数提取方法。将辅助网络输出的信息参数作为权重向量引入到掩蔽估计网络的隐藏层中,对其每一个单元的输出按照权重进行缩放,得到对应于目标说话人的内部嵌入向量。最终利用目标说话人对应的嵌入向量在掩蔽估计网络中传递训练并估计目标说话人的掩蔽。2.构建语音分离和提取的统一神经网络框架,提出了基于嵌入式注意机制的目标说话人语音提取算法。首先该算法将基于深度神经网络的语音谱映射分离视为是源信号对应的内部嵌入向量的分离过程,并将语音谱映射网络内部嵌入向量的分离作为构建分离和提取的统一神经网络框架中的分离模块。然后将分离后的嵌入向量和目标说话人额外语音作为嵌入注意机制模块的输入,在嵌入注意机制模块中提取出目标说话人的嵌入向量。最后利用目标说话人的嵌入向量作为掩蔽估计器模块的输入,以最小均方误差准则训练整个网络并估计出目标说话人语音的掩蔽,并且利用估计的掩蔽提取目标说话人语音。
其他文献
改革开放三十多年以来,我国经济取得了巨大的成功,伴随着经济增长奇迹的礼赞,产能过剩问题如影随形。目前,产能过剩对我国经济发展的负影响变得更为突出,产能过剩的特征也越
现在许多基于深度学习的人脸识别算法已经在现实生活中得到了广泛的应用,但是这些人脸识别的算法大多数需要待识别的人脸具有比较正面的姿态,如果人脸的姿态比较歪或者是整个
沥青混合料中集料的重量占据了沥青混合料总重量大约90%,决定了沥青混合料大部分的路用性能,其中集料的棱角特性对该混合料的物理特性影响最为显著,与沥青混合料的其他很多性
环境危机事件衍变的新问题不断挑战国家的传统治理秩序时,在新闻传播领域诞生了环境传播新兴领域,而具备该领域学科定位优势的“环境危机传播与管理”研究取向不仅是环境意义
单像素成像应用了压缩感知(Compressed Sensing,CS)理论,可以通过一个点探测器实现二维成像。单像素成像具高灵敏度的优势,因此被广泛应用于生物医学检测、航天遥感、三维成
多标记学习是机器学习领域的一个重要研究方向,其学习对象可同时与多个标记相关联。与单标记学习相比,多标记学习的输出空间呈指数级膨胀,导致学习任务变得异常困难,因而利用
逢山开路,遇水架桥,这是桥梁功能最初的表述。交通是经济的命脉,桥梁是交通的咽喉。随着国家对基础建设投资的增加,截至2016年底,我国已建成80.53万座桥梁,但是,在桥梁发挥着
深度学习近年来发展迅速,应用广泛,并且取得了许多显著的成果。在这种背景下,从事深度学习研究的研究人员也越来越多,但是大部分研究人员面临调优模型困难的问题。模型的调优
山药(Dioscorea opposita Thunb),作为一种药食同源的传统“滋补品”,因富含黏蛋白、多糖等活性物质,具有益气、养肺、延缓细胞衰老等滋补养生作用,被誉为“神仙之食”。贵州
随着教育技术的发展,多媒体教学越来越多地被应用到中小学课堂中。科学纪录片一直都是受中小学教师所青睐的教育素材。它不仅可以帮助教师教授课本上的概念,还能给同学们留下