基于非负矩阵分解和深度聚类的语音分离研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:jshldd1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音分离是一项从各种复杂的声学场景中提取出目标语音的技术。目前大多数主流的语音分离算法为有监督类算法,这类算法使用非负矩阵分解(Non-Negative Matrix Factorization,NMF)或深度神经网络(Deep Neural Networks,DNN)从预先给定的训练数据中得到混合语音与目标语音之间的映射关系,在实际使用时以类似滤波器的方式从混合语音中提取出目标语音。尽管有监督类语音分离算法能够取得优于传统算法的性能,但由于日常生活中存在各式各样的非平稳噪声,使得原先学习得到映射关系并不适用于所有情况,所以在实际使用时这类算法会产生过多的误差,从而影响提取目标语音信号的整体质量。针对这一问题,本论文分别在两种语音分离,即语音增强(声噪分离)和人声分离情况下研究了改进方法,主要的工作内容为:(1)针对不准确的噪声估计会影响语音增强的结果,研究了一种基于掩蔽估计与优化算法的算法。首先,在时频域内使用NMF估计出背景噪声并以此计算初始分离掩蔽。然后,利用计算听觉场景分析(Computational Auditory Scene Analysis,CASA)计算噪声的存在概率,以此作为凸优化(Convex Optimization)的优化目标并对初始分离掩蔽进行迭代处理,减少其中因噪声过估而存在的误差。最后,使用优化后的分离掩蔽从混合语音中提取出目标语音。实验分析表明,经算法处理后的增强语音具有更高的主观听感和可懂度。(2)针对背景噪声会影响人声分离的结果,研究了一种在噪声情况下结合NMF与深度聚类(Deep Clustering,DC)的人声分离算法。首先,使用NMF从带噪混合语音中分离出人声和噪声的系数矩阵。然后,使用DC将人声系数矩阵映射到高维嵌入空间中。在这个嵌入空间里,根据不同声源语音高维特征值之间的相似度不同,计算得到各目标语音的分离掩蔽。最后,使用分离后的系数矩阵重构多个目标语音。实验分析表明,算法能够在不同的噪声环境下减少目标语音的损失和非目标语音的干扰,得到整体质量更高的分离语音。
其他文献
图像匹配在无人飞行器视觉导航中发挥着重要的作用。通过将航拍图像与电子地图进行图像匹配,或对相邻两帧航拍图像进行匹配,能够得到飞行器的位置与速度信息。传统的图像匹配
此次设计研究课题是——自然形态视觉化及其应用研究-以品牌“言由”为例。通过对自然界中叶片形态的分析、研究和解构,运用现代设计思想和造型思想,艺术与设计结合的理念进行视觉呈现。笔者通过构建一个文创品牌,在概念与图形上与视觉化的自然形态相结合,利用孔板印刷、数字绘画等艺术性的表现语言,营造一定的文化内涵,显示品牌的独特个性,富创造性。设计目标是用现代平面设计方式方法与艺术思维相结合,进行自然形态的视觉
近年来,无线通信技术快速发展,智能终端以及物联网设备在大众生活中得到广泛的普及,无线接入点(Access Point,AP)被密集部署在各种场所中来满足用户的网络需求。高密度的AP会
随着当今社会的发展和科学技术的不断进步,对在室内环境工作的移动机器人的服务能力要求越来越高,对于室内移动机器人的研究首先要解决定位的问题。但是在室内环境下无法稳定
在海关安检中,动植物由于具有携带病毒的可能,被列为违禁物品。目前对此种违禁物品的检测主是X射线安检机,它能在不打开行李包裹的前提下检测其中物品,被广泛应用在交通运输
当下,制造业在先进的科学技术不断发展的推动下朝着精密化的方向不断进步,而如何提高数控机床的加工精度、减小加工误差成了各界人士的关注重心。而在其中,数控机床的热误差
随着深度卷积神经网络的发展,生成对抗网络被应用于图像翻译领域并取得了优异的效果。素描与彩色图像之间的翻译(Sketch-to-Image,S2I)就是从素描图像稀疏的信息中重建出其他
非易失性、高读写速度、高存储密度、低功耗和设备小型化是未来磁存储器的主要发展趋势。磁信息写入过程中,由于电流密度必须大于临界电流密度才能达到目标,这将导致能源消耗
中国卒中发病率是全世界最高的国家之一,由于国家的高度重视,我国的脑血管病防治工作已初显成效,但脑卒中依然是我国成年人致死和致残的首要原因。因此,我国脑卒中的防治工作
明胶包裹单一活性药物的传统胶囊已经被广泛的应用于日常生活中,然而,传统口服胶囊的原料明胶来源鱼龙混杂、明胶包裹单一药物、胶囊爆发式释放模式等问题很难满足人们日益增