基于注意力机制和端到端模型的语音伪造检测研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ylalh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的快速发展,语音合成和语音转换等语音生成技术越来越成熟,已经能够生成非常自然流畅、逼真的语音。语音深度生成技术给人们生活带来多元化娱乐方式的同时也给声纹识别系统带来了极大的安全威胁。因此,学术界开始设计专门的语音伪造检测算法。然而,目前的语音伪造检测算法采用的网络结构都是针对图像进行优化的经典结构,效果并不理想。为了有效地检测出语音信号中的伪造痕迹,根据伪造语音信号的特点对网络结构进行了一系列的优化改进,主要研究内容有:1)针对传统卷积网络不适应语音伪造检测任务而导致性能不佳的问题,从频率、通道和时域三个方面对网络结构进行了优化改进。传统卷积网络无法捕捉伪造语音频率间谐波相关性,随着层数增加通道数过多存在一定的信息冗余,最后的全局平均池化易丢失有效信息。针对以上问题,分别提出频率注意力模块、通道注意力模块和时间自注意池化层对提取的声学特征进行优化,得到一个更具判别性的声学特征。2)针对传统人工设计的声学特征提取过程中存在信息损失,单一特征无法同时检测出多种伪造攻击算法的问题,对端到端的语音伪造检测方法进行了探索。通过分析语音信号处理中傅里叶变换的计算过程,提出了使用时域卷积进行时频变换的方法,并通过实验验证了该方法的可行性;针对时域卷积参数过多且无法学习到有效的滤波器等问题,引入了SincNet中的sinc函数构建仅含两个可学习参数的带通滤波器卷积,减少参数的同时带来了性能的提升;另外受RawNet2启发,提出将二维卷积网络残差块替换为一维时域卷积残差块并利用循环卷积网络GRU对时间帧特征进行建模的方法。3)通过在ASVspoof2019 LA数据集上的大量对比实验,表明了所提方法的有效性和可行性,其中基于注意力机制模型的最优算法EER为1.87%,超越了目前已知的所有单系统模型。
其他文献
负磁泳是指磁性溶液中的非磁性或者抗磁性物质因自身磁化强度小于溶液磁化强度而受到梯度磁场力作用,进而远离梯度磁场源方向运动的一种现象。基于负磁泳的磁操控技术解除了传统正磁泳操控模式要求被操控物质需具有磁性的限制,成为一种极具发展潜力的无标记物质操控方法并衍生出诸多操控技术和相关应用。其中,基于负磁泳的磁悬浮技术因在物质密度测量、分离、组装和质量检测等领域具有重要的应用前景而得到了广泛关注。尤其是近年
【目的】对在本中心接受CD19/CD22 CAR T细胞序贯治疗的90例复发/难治(R/R)急性B淋巴细胞白血病(B-ALL)患者在CAR T细胞治疗前30天至CAR T细胞治疗后90天内(-30d至+90d)的感染情况进行回顾性研究,以分析R/R B-ALL患者在接受CD19/CD22 CAR T细胞序贯治疗后的感染发生情况及相关危险因素,并对CAR T细胞治疗前有原发感染的患者在CAR T细胞
塔吊倒塌事故是建筑施工过程中常见的塔吊事故类型,连接结构的损伤往往是此类事故的直接原因;塔吊使用过程中产生剧烈的振动,结构遭受频繁的循环荷载、冲击作用,连接结构性能在受长期持续的振动影响下发生逐步退化,具体表现为螺栓的松动、脱落;而在当前维保工作中,人工检测成本高、效率不稳定,螺栓连接结构的性能不能得到充分保证,导致塔吊结构安全管理效能低下,结构安全风险较高,常常形成可能导致倒塌事故发生的隐患。基
近年来,随着石墨烯被成功制备,其优异的电学、光学、力学等特性也被人们广泛研究,这些特性使得石墨烯成为了多个领域中的研究热点。而随着现代信息技术的高速发展,天线在通信领域的重要性进一步凸显。将石墨烯优异且独特的物理性能应用于天线设计和制备中,能有效改善天线的性能,推进无线通信领域的发展。本文主要对石墨烯材料的化学气相沉积(CVD)法生长和新型石墨烯可重构天线的设计进行了创新性的研究:(1)根据石墨烯
当前,随着5G、人工智能和物联网等技术的迅速发展,各个领域对高性能实时计算的需求正在持续增长,现有硅基硬件功耗呈指数式上升,使得基于新硬件的类脑计算研究越来越被重视。储层计算(Reservoir computing,RC)是一种低训练成本、快速学习的神经网络计算架构,已有研究显示单壁碳纳米管网络可以构建物理储层计算。本文利用磷钼酸对单壁碳纳米管网络进行修饰,并搭建储层计算的实验研究系统,对该物理储
水下作业装备是实施深海空间资源开发的重要载体。天然海水作为水下作业装备液压系统的工作介质,简化液压系统,实现深海装备绿色化,从原理上解决了深海作业时油压系统的油水互渗带来的污染及装备可靠性下降等问题。水下作业装备的主要作业功能离不开深海机械手的配合,当机械手腕部相邻的三个关节轴线相交于一点,即机械手肘部采用摆动形式时,机械手存在解析解,能够实时控制、精确定位。然而,国内外尚无以水液压摆动缸作为机械
锆钛酸铅及铌镁酸铅-钛酸铅等铅系铁电材料,因其具有优异的铁电、压电、热释电性能被广泛应用到微机电系统、传感器、驱动器等功能器件中。而器件薄膜化、轻薄化的发展需求对薄膜的性能、稳定性、可集成性及工艺兼容性都提出了新的要求和挑战。对于柔性铁电薄膜的直接生长工艺、构效关系、器件结构以及稳定性等问题仍是目前铁电材料器件化应用进程中不可避免的难题。因而本文主要针对锆钛酸铅及铌镁酸铅-钛酸铅两种铁电材料,利用
为保证质子治疗的安全性,针对治疗头入口处束流横截面监测需求,本文以像素电离室为基础,结合束斑旋转以及像素电离室体积效应等问题,开展了基于高斯曲面拟合的束流横截面二维分布监测方法研究。进行了算法改进、性能评估以及基于蒙特卡罗仿真的剂量学误差分析,设计并工程实现了图形化治疗头二维束流分布在线诊断软件。论文在传统二维高斯模型中引入相关系数以增加对束斑旋转、分布不正确等异常束流的监测能力,并在数据预处理中
传统的电磁吸波器件具有体积大、集成难度高以及吸收率低等缺点,因此受到了很多限制。而超材料吸收器具有结构尺寸小、制备工艺简单、集成度高等优点,逐渐成为了吸收器发展的热门方向。通过设计合理的超材料吸收结构的参数,可以在微波、红外、可见光波段实现完美吸收。本文设计了三种超材料吸收结构,采用时域有限差分算法对其吸收特性进行了研究,该结构通过对光场的高度局域化,实现了在长波红外波段的吸收增强,在光电探测领域
第三方入侵监测对于保障国家新基建的安全至关重要,分布式声波传感技术(DAS)具有传感覆盖范围广、灵敏度高、抗恶劣环境、无盲时盲区监测等优点,使其成为地下结构、轨道交通、管道等基础设施的第三方入侵监测主要技术手段。但是在DAS系统的实际监测过程中,强度衰落现象会使系统生成坏道数据,背景噪声会降低系统信噪比,干扰信号和鲁棒性不强的识别算法会降低事件的识别准确率。这三方面问题导致入侵事件的监测识别经常出