噪声环境下基于深度卷积神经网络的多模态语音转换研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:tower2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换是一项将源说话人个性化语音转换为特定目标说话人个性化语音的技术,广泛应用于话者身份的隐藏、影视作品的配音、多媒体娱乐、医学等领域。目前语音转换研究主要集中于干净无噪的环境中,而由于噪声的存在会严重影响语音转换系统的性能,在日常生活中,人与人之间的交流和人机交互都很难避免噪声的干扰,因此提高噪声环境下语音转换模型的鲁棒性是实际应用中一个亟待解决的问题。相关研究表明噪声环境下加入视觉信息能够提高语音增强的效果,受此启发,本文拟建立噪声环境下视觉与声学信息相结合的多模态语音转换模型,以此提高噪声环境下语音转换系统的鲁棒性。本文的研究内容主要包括以下两个方面:(1)建立普通话多模态语音库根据调研发现,目前国内暂无公开的完整多模态语音库,为了进行中文多模态语音转换研究,本文录制了一个普通话多模态语音库。此语音库包含了正常语音和耳语音的音视频信号,因此在选取语料时依据普通话以及耳语音发音的特点进行选取,共选取了汉语中常用的103个音节和100个短句作为发音语料。语音库由5男5女共10名普通话发音标准的人员录制完成,最终采集了4060个视频和4060段语音。对录制的语音库经过一系列处理,最终的多模态语音库包括:语音、发音时原始视频序列、面部图片序列、唇部图片序列、脸部106个关键点坐标以及语音音节标注数据。(2)提出一种噪声环境下的多模态语音转换方法人类言语感知在本质上是多信道的,视觉信息与听觉信息存在非常显著的互补关系,可以将视觉信息作为声学信息的一种补充,因此通过加入唇部图片作为辅助信息来提高语音转换模型在噪声环境下的性能,故本文提出一种噪声环境下基于深度卷积神经网络的多模态语音转换模型(Multimodal voice conversion using Deep Convolutional Neural Network,MDCNN)。此模型使用两个卷积神经网络(Convolutional Neural Networks,CNNs)分别用来提取唇部图片序列特征和语音序列特征,随后对CNN提取的视觉特征和语音特征进行融合并送入到全连接层,以此来建立源说话人的视听特征和目标说话人声学特征之间的映射关系。为了测试本文提出的基于MDCNN的语音转换模型,文中从NOISEX-92噪声库选取了6种不同的噪声混合7种不同信噪比构造了42种不同的噪声环境。实验结果证明了本文提出的MDCNN方法在噪声环境下的有效性。
其他文献
电化学传感器具有操作简单、响应迅速和灵敏度高等特点,被广泛应用于环境检测、食品检测和生物检测等领域。将有着独特物理和化学性质的纳米材料修饰到电极表面,能够改善和提高电化学传感器的性能。基于二维层状石墨烯和硒化钼(MoSe_2)纳米材料,本论文采用不同方法制备出四种功能化的纳米复合物,分别构建了四种用于测定有机环境污染物的电化学传感器。开展的主要工作如下:(1)采用化学沉淀法制备Ni基金属有机框架/
近年来,随着我国经济的飞速发展,创新成为我国在新时代发展的核心战略布局,创新发展理念也被写入我国的“十三五”规划中,成为现今社会关注的重要议题。企业的研发创新活动是引领我国创新发展的重要动力源泉,新时代促进我国企业研发创新对建设创新型强国和提高人民生活水平具有重要意义。税收作为调节经济和社会发展的有效手段,应充分发挥其导向作用,促进企业进行研发创新活动,但目前我国税收优惠政策与研发创新体制的协调配
在钢铁企业中,炼铁、炼钢等许多生产过程都会产生大量废热,循环冷却水系统对于整个企业的正常运转起到了不可或缺的作用。然而,由于多方面的局限性,循环水系统中往往存在很多
激光诱导击穿光谱技术(Laser-induced breakdown spectroscopy,LIBS),作为一种新兴的原子光谱分析方法,因其具有快速分析、无需复杂的样品前处理、可实现现场原位检测和远距离
基于多发多收体制的分布式外辐射源雷达成像是利用空间展开的多个外辐射源和多部接收机同时对目标进行观测的一种成像方式,其任意一对外辐射源和接收机均可构成一路观测通道,因此能够获得关于成像目标更多角度和更广范围的信息。本文对多发多收体制的分布式外辐射源雷达成像技术展开研究,重点突破了多测量矢量模型成像、网格失配模型成像和无网格压缩感知成像等关键问题。主要工作内容如下:1、推导了基于多发多收体制的分布式外
在科技蓬勃发展的二十一世纪,人们对于能源的依赖越来越强,迫切需要发展能量转换和存储的新技术,这种技术需要具有高稳定性,成本低廉,环保等优点,所以广大研究人员不断探索,促使该领域获得了快速发展。在本研究中,利用聚(丙烯胺盐酸盐)(PAH)修饰的还原氧化石墨烯以及聚丙烯酸(PAA)制备(PAA/PAH-rGO)自组装薄膜,并在此薄膜上负载氢氧化钴(Co(OH)_2),获得具有高电容性能和高催化效率,成
碘化亚铜(CuI)作为无机铜基p型半导体材料,凭借其低成本和易制备等优点,近年来引起了人们的普遍关注。CuI具有宽的光学直接带隙、高的空穴迁移率和薄膜对可见光透明等优点,因而在钙钛矿太阳能电池、半导体薄膜晶体管和发光二极管等光电子器件的制备与研发领域得到广泛应用。众所周知,在压力作用下半导体材料的晶体和能带结构会发生变化,因此材料可能会表现出之前所不具有的新性质与新现象。基于此,本论文利用金刚石对
生物发酵气体分离脱除CO_2提纯氢气和甲烷是温室气体减排和生物质能清洁转化的重要途径。膜分离CO_2技术具有能效高、易维护和环境友好等突出优势备受青睐,而开发高渗透性和高选择性的膜材料是膜分离CO_2的技术关键。本文通过掺杂金属有机骨架制备聚氧乙烯混合基质膜,增强膜分离CO_2的渗透性和选择性,高效脱除生物氢烷气中CO_2。将锌钴沸石咪唑酯骨架(Zn/Co-ZIF)碳化形成富含吸附CO_2碳氮活性
药物和个人护理品(PPCPs)作为典型的微量有机污染物,化学结构复杂,稳定性较强,难以自然衰减,并且在去除过程中受低浓度传质阻力的限制,其高效去除是一个具有挑战性的课题。论文以TiO_2纳米线(TiO_2NW)和氧化石墨烯(GO)纳米片为前驱物,在采用常温共还原法优化预制石墨烯/TiO_2纳米线(GNW)的基础上,经过二次常温共还原将预制的GNW植入石墨烯水凝胶。采用XRD、Raman,FESEM
手性杂环骨架广泛存在于药物分子和天然产物中,部分化合物展现出良好的抗菌、抗肿瘤、抗疟疾等药理活性。目前,过渡金属催化不对称碳-杂偶联反应是构建手性杂环骨架较为重要