论文部分内容阅读
无线声传感器网络(Wireless acoustic sensor networks, WASN)作为新一代的音频采集与处理技术,相比单麦克风或麦克风阵列有着更大的空间覆盖范围,对覆盖范围内的声源处理有更大的灵活性。在无线声传感器网络的众多应用中,获取纯净的、清晰的目标语音是主要目的之一,因而语音增强技术研究有着重要意义。由于无线声传感器网络结构的特殊性,其语音增强方法与传统的单麦克风或麦克风阵列有着一定的差异。本文将无线声传感器网络中的语音增强研究分为三个类别,每一类对应一种应用场景:单目标声源语音增强,单声源有效的多目标声源语音增强和多目标声源同时有效的语音增强。单目标声源语音增强对应的是传感器网络中只有一个目标声源的场景。该类语音增强的重点在于麦克风节点选择,即从众多节点中选择有效的节点数据用于语音增强。针对该问题,本文提出了一种节点效用盲评估方法,该方法基于麦克风节点接收信号的高阶统计信息(峭度)与其信噪比间存在的单调递增关系,以单个麦克风接收数据各频点峭度值的加权和作为节点效用值。仿真测试结果表明,该方法简单有效,能得到与理论信噪比极为相似的结果。单声源有效的多目标声源语音增强对应的是传感器网络中存在多个目标声源,但同一时刻只有一个目标声源处于活动状态的场景。该类语音增强的主要任务是确定每一时刻活动的目标声源。本文引入隐马尔可夫模型来描述活动声源间的切换,将麦克风节点接收信号的短时能量作为观测数据,以最大似然准则估计模型参数,并得到各个目标声源的活动性概率,再比较每一时刻该概率的大小,从而判定该时刻活动的目标声源。仿真测试结果表明,该方法能有效地确定每一时刻的活动声源,性能远好于基于阈值判定的方法。多目标声源同时有效的语音增强对应的是传感器网络中存在多个同时活动的目标声源。该类语音增强的难点是分离各个声源的语音。本文以独立向量分析方法(Independent vector analysis, IVA)为基础,提出了一种分布式语音信号盲分离算法,并将该算法在OMAP3530平台上予以实现。该算法将传感器网络中的节点按区域分为多个集合,每个集合执行频域盲信号分离算法,在将各个集合得到的分离语音进行融合,最后输出所有目标声源的语音。仿真测试和实际实验结果表明,该算法能有效地处理多目标声源同时活动的情况,得到较高质量的目标语音。