低信噪比环境下说话人识别研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:dfddfasfafjdkjfkekjk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不同人语音信息中包含的语音特征存在差异性,通过说话人识别技术提取特征差异可以验证不同说话人身份。但是在现实应用中,受到环境中不同噪声影响,系统性能对比纯净环境出现明显降低,严重阻碍了说话人识别技术的应用发展,因此提高噪声环境下的说话人识别性能逐渐成为新的研究方向。在低信噪比环境下,现有说话人特征参数鲁棒性受到噪声干扰,性能下降,无法满足系统识别要求,同时I-vector(Identity vector,身份认证矢量)说话人识别模型受到信道因素影响,使得模型对说话人区分度较差,在噪声环境下识别准确率低,难以满足大规模多场景应用。本文对噪声环境下说话人识别存在的问题进行了研究,针对低信噪比环境下说话人系统识别性能下降问题,分别研究特征参数提取和信道补偿方法。论文主要工作如下:(1)通过预处理、特征提取等步骤得到I-vector说话人识别模型,将此模型作为本文的基础,后续作为基线的特征提取方法和改进方法均基于此模型。(2)研究低信噪比环境下特征提取方法,使用鲁棒性能更好的耳蜗倒谱滤波器进行特征参数提取,对耳蜗倒谱滤波器进行改进,得到新的特征提取方法,并使用改进的维纳滤波器作为前端处理方法。与梅尔频率倒谱系数等传统特征提取方法做对比,新的特征提取方法鲁棒性更强,提高了噪声环境下系统识别准确率。(3)研究特征空间信道补偿技术,利用特征弯折技术对前端语音信号进行处理,对线性判别分析进行改进,并使用类内协方差规整进行信道补偿,与传统线性判别分析结合类内协方差规整处理以及和基线进行对比,在外部环境噪声干扰下,改进方法提高了说话人的区分性,识别准确率有一定提高。
其他文献
在互联网信息时代的今天,人们每时每刻都在产生大量与地址有关的信息。中文地址是描述空间坐标最有效的信息,这些信息与人的行为密切相关,可以通过这些信息定位推测出一个人一整天的行为流程和运动轨迹,这些记录普遍存在于网上购物、短视频APP、通信、银行等领域,对于这些数据进行充分的挖掘与分析,会对个人发展和国家经济产生积极的影响。目前,国内对于中文地址的研究还处在刚刚萌芽的阶段,中文地址研究的困难点在于其地
随着数字信息时代的快速发展,由此引发的信息过载现象日益严重。如何在海量文本中快速获取关键信息,显得尤为重要,因此文本自动摘要相关算法,成为目前研究的热点方向。本文以呈现高质量摘要的角度出发,对中文文本摘要抽取算法进行相关研究。本文针对中文文本摘要任务,基于TextRank算法进行优化,改进主要分为三个方向:(1)改进TextRank算法对中文文本直接摘要抽取首先,本文从能够影响摘要生成质量的各类因
互联网的发展可以说颠覆了传统模拟有线电视的存在。现如今,集各种功能于一体的机顶盒几乎存在于中国的每家每户,与传统的观看方式相比,机顶盒有其独特的优势,可以为用户带来良好的使用体验,然而相比于机顶盒,遥控器给用户的体验却不那么友好。用户更多的会受到由于遥控器丢失、没电带来的困扰,所以设计一款能够替代遥控器对机顶盒进行管理操作的软件是很有必要的。虽然每家每户对于机顶盒的需求不同,但所有人都会希望有一个
近年来,互联网的快速发展给人们带来了海量信息的同时也带来了信息过载的问题。因此研究如何在海量信息中快速获得关键信息变得愈发重要,而自动文本摘要技术正是相关研究的重点领域。随着深度学习的发展,它在文本摘要领域的应用研究也是层出不穷,本文则是针对现有文本摘要模型的生成摘要中的语义表示不够准确以及关键信息不足等问题,在中文文本摘要任务上对自动文本摘要技术进行改进研究,主要的研究工作如下。针对上文所提到的
2020年是中国全面建成小康社会的一年,随着经济的发展和城市化的推进,我国汽车保有量快速增长,这一趋势直接造成了在城市中的停车难问题。在城市的商业密集地带,车主想要找到一个车位往往需要花费大量时间。尽管配套的大型商业停车场显著缓解了该问题,却带来了另一个新的问题,即寻车难。由于停车场面积过大,停放密度过高,加之内部结构的高度相似性以及车主对环境不熟悉,以致难以辨别方向。本文从实际问题出发,结合大型
文本图像识别技术在脱机手写字符识别和具有单一背景、统一字体样式等规范排版的扫描文档识别领域已经得到了广泛部署,而受到噪声、运动模糊、低分辨率、拍摄角度、光照等因素影响的低质量自然场景文本图片的识别仍然是一个技术难点。本文将对低质量的中文场景文本图像识别算法中存在的缺陷展开研究,具体研究内容如下:(1)目前低质量图片的识别问题均倾向从图像重建层面解决,但这种方式没有考虑到模型的鲁棒性与泛化性。所以,
伴随着移动通信技术的快速发展,人类逐步迈入了万物互联的时代,大量新的服务与应用出现在了人们的面前。然而,爆炸性增长的流量需求已经逐渐逼近通信网络的系统容量,同时高速率传输与低时延等通信需求也同样给现有的通信系统带来了巨大的挑战。随着5G技术的推广与商用,通信领域正处于一个崭新的发展阶段,亟需创新性的方法与技术来推动其下一步发展。近年来,深度学习成为了学术界和工业界的关注热点。深度学习可以通过神经网
生物识别具有广阔的研究前景,说话人识别作为生物识别的重要组成部分,在人们日常生活的许多方面均有涉及。随着高保真录音设备及回放设备的普及,说话人识别系统的安全性面临录音回放攻击的严重挑战,由于回放攻击语音与真实语音具有相同的声纹,导致常规的说话人识别系统很难有效鉴别声音的真实性,且环境中存在噪声,在一定程度上会干扰系统的识别,这也对防录音回放攻击的声纹识别系统鲁棒性提出了要求。本文提出了一种基于信道
随着物联网的飞速发展,越来越多的感知设备被安装和部署到现实环境中。作为最为普遍使用的感知设备,摄像头在开放空间中的精准定位需求越来越迫切。在不考虑成本、精度等因素时,GNSS定位系统、基站定位等方案可以实现开放空间摄像头的定位。然而在开放空间摄像头定位中,由于需要定位的摄像头数目较多,定位精度需求较高等因素限制,使得人工辅助定位及地面基站定位方案不可行。开放空间摄像头定位要求功耗较低,定位稳定性较
物联网,人工智能等新兴技术的发展使得网络中的业务种类和数据总量迅速增加。光传送网(OTN)技术在网络中承担着重要的基础设施的角色。随着网络中业务量的扩展,OTN组网规模也越来越大,其建设和管理维护成本越来越高。运营商通过网络规划系统对网络中的业务进行合理地规划,可以以较少的成本建设成高质量的传输网络。本文设计并实现了网络规划系统。网络规划系统包括数据导入与导出,网络规划和故障模拟等功能模块。该系统