【摘 要】
:
现如今,智能语音设备在普通家庭中逐渐普及,智能音箱、智能家电等智能设备更多地出现在了人们的日常生活当中;与此同时,智能移动设备也逐渐开始配置了更多的语音功能:包括手机、平板电脑的语音唤醒,声纹识别等功能逐渐融入我们的生活。然而,如何利用智能设备中配置的麦克风阵列板来解决噪声场景下远场拾音的降噪问题,仍是学界与工业界有待解决的一大问题。目前,影响当前的智能语音设备使用效果的最重要原因是复杂的噪声场景
论文部分内容阅读
现如今,智能语音设备在普通家庭中逐渐普及,智能音箱、智能家电等智能设备更多地出现在了人们的日常生活当中;与此同时,智能移动设备也逐渐开始配置了更多的语音功能:包括手机、平板电脑的语音唤醒,声纹识别等功能逐渐融入我们的生活。然而,如何利用智能设备中配置的麦克风阵列板来解决噪声场景下远场拾音的降噪问题,仍是学界与工业界有待解决的一大问题。目前,影响当前的智能语音设备使用效果的最重要原因是复杂的噪声场景。室内混响、室内噪声、竞争说话人等等都是组成日常噪声场景的重要因素。对于以上噪声场景,研究性能出色的噪声抑制算法已经成为学界与语音从业者们共同努力的方向。针对不同类型的噪声场景,我们通常选用不同的噪声抑制算法。目前主流的噪声抑制算法包括噪声抑制、回声消除、波束形成等等。其中噪声抑制算法就是将干净的语音信号从麦克风阵列采集到的混有噪声的混合信号中剥离出来。本文正是从噪声抑制算法中的音频信号分离算法切入研究,重点研究了在多声源情况下的基于深度学习算法实现的与基于麦克风阵列的盲源分离算法实现的音频信号分离算法,提出了几种对音频信号分离算法的算法性能与算法架构方面的优化方法。音频信号分离,即从采集到的混有干扰信号的混合音频信号中提取到目标音频信号的过程,其子问题就是语音分离问题。其中,采集到的干扰信号可能是高斯噪声、音乐噪声,也可能是来自其他说话人的语音信号。本文首先从学界主流的基于深度学习的单通道音频信号分离算法与基于麦克风阵列的多通道盲源分离的原理与基本架构开始介绍。之后,基于深度学习单通道音频信号分离算法,本文提出了两种相位补偿的训练目标,通过相位补偿的方式,优化了单通道音频信号分离算法的分离性能。对于基于麦克风阵列的多通道盲源分离算法,本文通过采用传统声源定位算法,对独立向量分析的盲源分离算法进行了初始值优化,从而减少了独立向量分析算法的分离信号耗时,减少了迭代周期数。最后,我们专注于欠定麦克风阵列的音频信号分离算法,提出了结合使用基于深度学习的单通道音频信号分离算法与基于麦克风阵列的多通道盲源分离算法的欠定多通道音频信号分离算法,并对其分离性能进行了实验验证。最后我们通过对比语音音质指标与信噪比指标等,证明了我们提出的分离方法的有效性。
其他文献
面对日益突出的能源紧张和环境污染问题,电动汽车因其节能、环保和使用成本低等优点被视为是汽车产业未来的发展方向。然而,由于现有动力电池的能量密度远远低于汽油和柴油的能量密度,导致电动汽车的续航里程短。而且在电动汽车中,电池的研发和制造成本约占整车成本的40%左右,而使用寿命通常只有3到5年。因此,研究提升电动汽车能效和延长电池寿命对于电动汽车的发展至关重要。本文基于V2X通信技术,从降低能耗和延长电
浦东国际机场三期扩建工程主要包括卫星厅、T1捷运站、T2捷运站、VVIP贵宾楼、能源中心工程等建设以及扩建工程的网络通信系统与原T1/T2航站楼的网络通信系统的互联互通。在项目实施的过程中,需保障原T1/T2航站楼的正常生产运行,还要做到扩建工程的不间断施工。由于卫星厅建筑面积大,楼层功能分布复杂,再考虑到人流密度及其他相关干扰因素,卫星厅的网络工程建设总体来说较为庞大且复杂。基于以上原因,本文主
毫米波通信提供了30-300GHz的频带,可以提供千兆位的通信服务,是5G网络的一项有前景的技术。然而,由于极高的频率,毫米波信号会遭受严重的路径损耗和降雨衰减。因此,它通常与大规模天线阵列结合使用,以提供较大的波束赋形增益。要利用这一波束赋形增益,系统必须具有准确的信道状态信息。由于配置了大规模天线阵列,信道矩阵维度高,获得准确的信道状态信息面临着许多挑战,包括大量的训练开销、严重的导频污染和较
随着移动通信技术的发展,车辆与基础设施(V2I)之间的交互愈加频繁,通信需求也在不断变化。无论是为自动驾驶准备的大容量传感信息共享,还是为车载娱乐服务的高质量媒体传输,这些应用都迫切地希望增加无线网络的吞吐量。采用毫米波通信是一个可行的方案。通常,毫米波系统由于频段较高,其信号在空间衰减强,通信范围小,会采用波束成形技术提高通信链路的质量。另一方面,混合波束成形架构由于良好的经济效益,在实际工程中
基于量子力学的具有理论无条件安全性的量子密钥分发(Quan-tum Key Distribution,QKD)技术 的当前实现方案分为连续变量量子密钥分发(Continuous-Variable Quantum Key Distribution,CVQKD)和离散变量量子密钥分发(Discrete-Variable Quantum Key Distribution,DVQKD)。其中CVQKD鉴于
近年来,特征模理论在天线设计领域中广受欢迎,被广泛用于研究任意形状的辐射体或散射体的模式谐振特性。特征模式只与辐射体或散射体的几何结构和材料特性有关,而与馈电无关。该理论能够从物理角度对天线辐射机理进行解释,降低了天线设计过程中对设计者知识储备的要求,且不再依赖于设计者个人经验,对天线设计具有指导性的意义。本文从特征模理论出发,提出了一种新的广义特征值方程,用于直接反映特定模式的辐射能力,并研究了
随着世界各国对海洋重视程度的提高,海洋科技的发展引来越来越多科研工作者的关注,而水下无线通信技术便是其中重要一项技术。水声通信作为目前水下唯一有效的远距离无线通信方式,得到了广泛的应用。然而水下复杂多变的环境以及声波的特性使得水声通信技术面临诸多挑战。水声信道被公认为最复杂最具挑战的无线信道之一,窄带宽、多径效应、多普勒效应以及各种噪声都严重影响水声通信的效率与质量。水声通信过程中的多普勒效应会对
光交叉连接(Optical Cross-Connect,OXC)是波长路由光网络节点的核心部件之一,它的主要功能是执行光路交换。随着高清电视、云计算和在线游戏等高带宽业务的出现,网络带宽需求爆炸式增长,对OXC的规模提出了越来越高的要求。然而,传统OXC扩展性不足,具体表现为内部连线复杂,所需的光开关规模随OXC端口数增加而增加。为此,本文对大规模OXC的构造方法进行了研究,并提出了两种模块化的O
随着高清与超高清视频的不断发展与普及,海量视频数据的存储和传输已经成为目前业界的巨大挑战。为了进一步降低视频流媒体的传输压力,VP9和HEVC等新一代视频编码标准随着发展应运而生。由于VP9格式开源且免费授权,其在流媒体行业中受到了更多的支持与推广。相较于其上一代编码标准VP8,由于引入了大量新技术,VP9能够提升接近一倍的编码性能。然而其编码复杂度也随着编码性能的改善而大幅提高,限制了VP9视频
近年来,无线智能终端的普及,各类多媒体业务的涌现,使得移动数据流量呈指数级增长。这给通信网络造成了巨大的压力和挑战。基于无线融合网络的数据卸载技术是一种有效的解决方法。然而,传统无线融合网中采用集中式缓存机制,效率还有待进一步提高。为此,本文在无线融合网中引入分布式缓存技术,重点研究基于强化学习的分布式缓存技术。首先,针对分布式两跳缓存网络的情况,研究了在路由节点受缓存空间和带宽的约束条件下,如何