基于深度特征融合的人脸-语音多模态身份识别研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:lz251667032
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多模态的生物特征识别是指利用两种及以上生物特征,通过综合不同模态特征的信息来进行身份识别,得到比只利用单一生物特征更加准确和稳定的识别结果。而人脸和语音的多模态识别因为其数据的易采集性,识别率高,活体检测功能等优点一直是多模态生物特征识别技术中的研究热点。深度学习的特征提取能力以及端到端的学习模式对于多模态特征融合有很大帮助,因此本文主要研究如何利用深度学习方法对人脸和语音特征进行特征层级的融合识别,主要研究内容概括如下:(1)提出结合多模态卷积和循环神经网络的人脸和语音融合识别模型。首先对如何利用卷积网络对人脸和语音特征进行融合识别进行研究,设计出了4种不同的多模态卷积网络结构,并通过实验对比来确定最佳的网络结构。多模态卷积网络的特征提取能力强,并且在训练过程中特征提取和融合部分能通过学习互相适应,所以能够提取出判别性强的融合特征。接着提出了将多模态卷积网络与循环神经网络结合,将一段时间的视频分帧并利用多模态卷积网络提取出一段时间序列的融合特征并将融合特征放入循环神经网络利用时间序列信息得到更准确的识别结果的方法。并且提出了3种不同的循环神经网络对序列特征进行分类的方法并进行了实验对比。(2)提出基于注意力机制的人脸和语音特征融合识别模型。首先在特征提取阶段利用改进的卷积神经网络残差网络来提取人脸特征,用长短时记忆网络提取语音特征来减少网络参数。在特征融合方面,利用注意力机制来综合处理一个序列中的人脸特征和语音特征,然后利用序列中融合特征的注意力权重来赋予序列中判别性强的特征更高的权重同时减少被噪声污染的特征的权重,使得噪声信息带来的影响进一步降低,提高了模型的判别能力。此外还通过实验来探究不同特征融合方法和网络结构对识别结果的影响,并研究如何将模型应用到实时的以及序列的人脸和语音多模态融合识别中,经过实验验证模型能够适用于实时的以及时间序列的人脸语音多模态身份识别。
其他文献
基于涡度相关技术,于2004~2006年连续3年对三江平原天然湿地、人工湿地(水稻)和旱地(大豆)生态系统CO2、水汽和能量通量进行了观测。研究了涡度相关技术应用于三江生态系统通量长期
竹笛重奏作为竹笛表演艺术形式之一,在教学实践中有着重要的功能和意义,在一般的竹笛教学系统中,往往重视独奏而忽视重奏练习。竹笛作为一件极富个性的民族吹管乐器,在重奏整
现代教学论重视课堂教学的各个环节的优化。一堂好的音乐课,需要有一个合理的导入方法,来集中学生的注意力,引起学生的学习兴趣,激发学生大脑的思维。好的导课,要根据教学内
陆地生态系统碳循环是全球变化研究的核心内容之一,而陆地生态系统生产力是碳循环研究中的重要组成部分。基于涡度相关技术的植被与大气间CO2、H2O和能量通量的长期连续观测为
对《青年钢琴协奏曲》这部将"钢琴协奏曲"这一源自欧洲的音乐艺术形式,进行"民族化"、"中国大众化"大胆尝试的音乐艺术作品进行历史性解读,可以看出它是20世纪中国音乐创作历
毕加索的光绘作品给二十世纪中期的艺术界带来了跨越时空般的冲击,对于现在的我们也仍然存在着深远的影响,在那个科技水平贫乏的时代,这种看似突兀的创作手法实则有着扎实的
《野火春风斗古城》这部歌剧中不同的人物呈现出不同的演唱风格特点,其中金环是这部歌剧中的亮点人物之一。本文以金环这一人物作为研究对象,一方面让我们进一步认识和了解这
<正>估测、估算是人们在日常的生活生产、工作学习中对一些数据进行估计时所用的一种方法,在科技高速发展的今天,也是一种重要的科学研究方法,能否灵活运用可以体现出个人的
我国近年来对离婚产生的精神损害赔偿问题的研究主要集中在无过错配偶方的请求权上,文章通过对重婚、事实婚姻、非法同居以及有配偶者与他人同居等概念的辨析,指出了我国现行
树立领导者的威信是年轻领导干部必备的条件。年轻领导干部必须从 “廉”、“勤”、“公”、“绩”方面树立领导威信,必须努力从培养良好的工作作风以及提高自身修养等方面提