【摘 要】
:
自动说话人确认系统(ASV)作为一种常用身份确认系统,目前被广泛地应用于银行身份验证、手机解锁登录等场景。近年来,出现了一些不法分子利用语音合成和语音转换技术,攻击ASV系统,以盗取他人的信息和钱财的情况。这无疑给ASV系统带来了严重的安全隐患。目前,常用的语音合成和语音转换技术中,大多数都是通过基于音素的拼接和调整方法来生成语音的。这种方法会导致生成的语音与自然语音相比,不同的音素中,存在很多明
论文部分内容阅读
自动说话人确认系统(ASV)作为一种常用身份确认系统,目前被广泛地应用于银行身份验证、手机解锁登录等场景。近年来,出现了一些不法分子利用语音合成和语音转换技术,攻击ASV系统,以盗取他人的信息和钱财的情况。这无疑给ASV系统带来了严重的安全隐患。目前,常用的语音合成和语音转换技术中,大多数都是通过基于音素的拼接和调整方法来生成语音的。这种方法会导致生成的语音与自然语音相比,不同的音素中,存在很多明显的差异。如果能够有效地利用这些差异信息,可以很好地提升合成语音检测任务的性能。此外,语音合成技术通常是基于文本信息进行合成的,在合成的过程中往往没有考虑到语音中的情感因素。因此,通过分析语音中的情感,也是一种有效地区分合成语音的重要方法。针对合成语音中存在的上述问题,本文提出了两种合成语音检测的算法。首先,是使用音素级的F-Ratio分析方法,来寻找频域中合成语音与真实语音之间差异信息分布较为集中的频段,再根据分析的结果,修改语音特征滤波器设计,从而得到更适合于合成语音检测的语音特征。其次,是针对合成语音缺乏情感的问题,基于迁移学习的思路,提出了一种利用预训练的情感识别网络对合成语音进行情感特征提取的方法。本文通过实验,验证了提出的两种方法在合成语音检测任务中的识别能力。其中,基于音素分析的方法,在ASVspoof 2019 LA数据集中的EER和t-DCF两项评价指标均优于目前最佳的单系统结果;而基于情感特征的识别方法,则表现出了良好的泛化能力。
其他文献
近年来,随着互联网带宽的增加和计算机处理能力的提高,多媒体数据,特别是视频数据在世界范围内呈增长趋势。拥有大量的视频数据还需要有效地存储、汇总、索引和检索这些数据的技术。近年来,由于体育视频的商业性,人们越来越重视对其进行总结、索引和检索的技术。本文提出了一个将板球视频分为四个项目之一的框架,即Bowled Out、captured Behind、Catch Out和LBW Out。该框架使用每个
大脑分割对于疾病诊断和治疗的脑结构评估是个关重技术。本研究对脑分割进行了大量的研究。然而,先前的研究并没有考虑从大脑图像的背景中分离出实际的脑像素。不进行这种分离可能造成以下的結果:(a)扭曲大脑分割模型,(b)增加建模性能的开销。在这篇论文中,我们使用三维全卷积神经网络来改善脑分割的性能模特儿们婴儿和成人数据集,以及多实例丢失方法,用于从背景中分离实际的大脑像素,并应用Gabor滤波器组和K均值
阻塞性睡眠呼吸暂停(OSA)是一种常见的睡眠障碍,是心血管疾病的危险因素之一。打鼾是阻塞性睡眠呼吸暂停综合征患者的典型症状。上气道阻塞和振动的位置,决定了打鼾和阻塞性睡眠呼吸暂停综合征的手术方案的选择。为了寻找一种能够替代药物诱导睡眠内窥镜检查(DISE)的非侵入式的方法,实现对打鼾时上气道阻塞和振动位置的准确定位,本文提出了一种基于特征融合的深度语谱特征的鼾声分类方法。本文使用的数据是Munic
藏语是藏族使用的主要交际工具,属汉藏语系藏缅语族,是藏缅语族中分布最广的语言,在国内外都有较为广泛的分布。在历史发展的过程中,由于各方面的原因,不同地区使用的藏语相比古藏语来说都产生了较为明显的变化,一些地区的藏语产生了音调,一些地区藏语的浊音开始清化,形成了不同地区的方言。我国藏语方言的划分普遍接受的是三大方言划分法:安多方言,卫藏方言(又称拉萨方言)和康方言。本文将致力于研究这三种方言之间关于
作为音乐识别与音乐信息记录与检索的基础组成部分,乐音信号的识别估计与乐音信号的记录检索越来越受到相关研究人员的关注,乐音的多样性决定了乐音信号识别的复杂性与困难性。为了解决乐音信号识别中的问题,本文对语音或乐音识别中的声音信号的分析方法进行了改进,主要做了如下工作:根据听觉场景分析等知识,结合信号处理、乐理以及音乐声学知识,提出了乐音信号听觉元素分离与重构的方法。该方法针对现阶段乐音识别中的信息量
图像超分辨率是从低分辨率图像恢复高分辨率图像的技术。在这个领域中,研究者通过使用不同技术提出了各种个样的方法。基于学习的方法一直致力于获得更好的表现,由于卷积神经网络在效率方面的显著性能,使计算机视觉的各个领域包括单幅图像超分辨率都发生了革命性的变化。相比于其它卷积神经网络,残差网络因其更深的结构和更高的精度,在近年来得到了广泛的应用。另一方面,很少有超分辨率方法试图通过融合不同先验知识,如邻域嵌
本文旨在提高说话人识别系统的性能,实现并测试了多种系统方案,从输入特征、网络架构和模型扩展三个方面探讨提高说话人识别性能的可行性。(1)解决输入特征的有效性问题。说话人识别系统通常提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)作为输入特征,但MFCC会导致语音信息过度压缩。本文用最原始的声学参数——语谱(Spectrogram)特征代替MFC
随着近年来我国网络强国战略不断推进,用户对“最后一公里”的接入网提出了高对称带宽的要求;而下沉市场带动中小城市及农村地区的互联网规模快速增长,系统除了需要保证指数级增长的用户接入,还需要控制建设和维护的成本。因此,具有超大容量潜力的超密集波分复用无源光网络(UDWDM-PON)成为了接入网研究和建设的热点。为了适应下一代接入网需求,本文设计并研究了一种基于注入锁定的全网波长同步UDWDM-PON方
移动自组织网络(Ad-Hoc)是一种自治、无中心的多跳网络,在无法使用网络基础设施(基站、AP)的情况下,仍能做到网络终端之间的相互通信。近年来,由汽车、飞行器、导弹等组成的新型协同自组网络逐渐引起人们关注。在此类网络中,网络节点移动性高、通信空间规模大,网络拓扑变化快,通信质量差,导致传统Ad-Hoc网络协议无法有效适用,为此需要研究新型的协同自组网络协议。基于地理位置信息的路由技术具有扩展性好
通信辐射源识别是信息安全以及电子对抗中的关键技术,通信辐射源识别的准确性影响着整个信息对抗系统的水平。因此,研究通信辐射源识别方法,提高通信辐射源识别准确率具有重要意义。首先,本文提出了基于威布尔校准支持向量机(Weibull-calibrated Support Vector Machines,W-SVM)的多类通信辐射源开集识别方法。该方法基于1-class SVM(OCSVM)生成紧凑衰减概