利用深度学习从面部表情和语音识别抑郁症方法的研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:kensenwey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
世界卫生组织的数据表明,到2030年,抑郁症将成为最常见的精神疾病,将会给个人、家庭和社会带来严重的负担。然而,由于世界范围内医患比例严重失衡,很多患者可能无法得到及时的诊断。目前,对抑郁症的诊断主要以量表和问卷调查为主,但这些方法存在主观性大、隐藏性高、专家依赖性强、误诊率高等因素的影响。近年来的研究发现,抑郁状态影响患者的面部表情表达和言语声学表达。因此,面部表情和语音已成为抑郁症识别的核心行为指标。近年来,深度学习凭借其强大的特征表征和融合能力,在抑郁症识别领域取得了大量成果,但在基于人脸表情和语音的抑郁症识别中的困难与挑战依然存在。首先,由于伦理道德和隐私保护的要求,抑郁症患者的人脸和语音数据的采集非常困难,数据集规模严重不足,为深度学习方法的应用带来挑战。其次,在有限的数据样本上,如何提取能够充分描述抑郁患者特有的面部表情特征和语音特征需要进一步研究。最后,由于抑郁患者是一类特殊人群,数据质量很大程度上取决于被试的配合程度,被试不配合将会导致采集到的面部表情数据和语音数据在时间维度上很难保持一致,从而使得音视频多模态融合方法的效果不理想。针对以上问题,论文基于我们自己构建的包含语音数据、视频数据、深度视频数据和情绪状态数据的中国本土抑郁症数据集,开展了利用深度学习从面部表情和语音识别抑郁症的研究。在基于面部表情的抑郁症识别方面,论文首先提出了一种在小数据集上融合2D和3D不同数据源的视觉信息对抑郁患者的面部表情建模的方法;考虑到抑郁症患者的长时面部表情对抑郁症识别的影响,也提出了一种融合视觉注意力机制对长时面部表情建模的方法,来获得抑郁患者显著表情变化的全局时空特征表征。在基于语音的抑郁症识别方面,论文联合说话人个性特征和语音情感特征获得抑郁患者的语音特征表征,通过混合专家模型识别抑郁症。最后,为了进一步考虑面部表情和语音表达对抑郁症识别的综合影响,论文提出了一种基于自注意力的跨模态深度学习网络,以获取面部表情和语音的多模态联合表征来识别抑郁症。论文的主要工作与贡献如下:1.针对抑郁症识别的音视频数据集不足的问题,论文在自建的中国本土抑郁症数据集基础上,提出了一种基于两种不同深度信念网络(Deep Belief Network,DBN)模型的抑郁症识别方法。第一种DBN模型从光学摄像头采集的面部图像中提取2D静态的面部表情特征,第二种DBN从Kinect深度摄像头采集的3D面部点中提取3D动态的面部表情特征。通过两个网络的联合微调实现表情静态特征和动态特征的融合,以实现抑郁症的识别。实验结果表明,论文提出的方法在自建的中国本土抑郁症数据集上的精度达到72.14%;结合2D和3D特征模型的识别性能优于单独使用2D和3D特征模型的识别性能;在积极和消极情绪刺激下,抑郁识别的精确率更高,且女性的精确率普遍高于男性。表明论文所提方法能够在小样本数据集上识别出具有潜在抑郁风险的抑郁症患者。2.针对抑郁患者认知偏差引发的面部表情迟滞现象,论文提出了一种通过融合视觉注意力机制对长时面部表情编码,以获得抑郁患者显著表情变化的特征进行抑郁症识别的方法。论文在3D卷积残差网络的基础上,利用全局平均池化特征和最大池化特征计算时间注意力、通道注意力和空间注意力,并沿着时间、通道和空间三个维度依此计算注意力图,得到时间-通道-空间组合的注意力,并将其选择性地嵌入到3D卷积残差网络。同时将卷积长短时记忆网络(Long Short-Term Memory,LSTM)变体插入3D卷积残差网络,以获取长时的、具有显著表情变化的全局时空特征。实验结果表明:论文提出的方法中国本土抑郁症数据集上的精度达到78.60%,在AVEC2014数据集上的平均绝对值误差(Mean Absolute Error,MAE)为5.68,优于其他方法。论文提出的时间-通道-空间注意力机制模块可以学习到识别抑郁症的重要特征。3.针对语音的个性特征和情感特征会对抑郁患者的言语表达造成不同程度的影响,论文提出了一种基于混合专家模型(Mixture-of-Experts,Mo E)的联合说话人个性特征和语音情感特征的抑郁症识别方法。首先,利用大规模说话人识别数据集预训练一个基于时延神经网络(Time Delay Neural Network,TDNN)的说话人个性特征提取器,同时利用大规模语音情感数据集预训练一个语音情感特征提取器。在此基础上,将提取的抑郁症患者的说话人个性特征和语音情感特征融合后,利用多源域自适应算法训练Mo E模型用来进行抑郁症识别。实验结果表明,论文提出的方法在自建的中国本土抑郁症数据集上获得74.3%的精度;在AVEC2014数据集上的MAE值为6.32,优于现有的基于语音特征和深度模型的抑郁症识别方法;在语音问答和朗读任务中,论文提出方法的精度更高。论文提出的方法能够有效利用语音识别抑郁症。4.针对抑郁症患者在面部表情和语音表达抑郁情绪时,时间维度上很难保持一致的问题,论文提出了一种基于自注意力跨模态编码的抑郁症识别方法。借鉴自注意力编码器设计了引导注意力单元和自注意力单元来协同学习语音和面部表情的跨模态表示和单个模态的特有信息。论文搭建了5种共注意力模块,运用叠加和编解码两种级联方式构建了共注意力网络来实现抑郁症的识别。实验结果表明,论文提出的方法在自建的中国本土抑郁症数据集上达到83.9%的精度,优于单独从面部表情或语音识别抑郁症的性能;在AVEC2014数据集上的MAE为5.38,优于现有最好的方法。实验结果进一步表明:1)共注意力网络中,利用语音模态或面部表情模态建模的自注意力单元能够突出单个模态的特征,而跨模态的互引导注意力单元能够学习到语音特征和面部表情特征之间的相互关系;2)最后学习到的自注意力特征要比之前学习到的更优,以更优的特征引导另一模态将会学习到更优的特征,因此编解码级联方式的共注意力网络识别性能优于堆叠级联方式的性能。
其他文献
<正>建设自主互联网社交平台,拥有独立的信息传播渠道,时不我待。30多年前,武昌珞珈山,当时还是本科生的笔者,坐在教室里听著名哲学家邓晓芒讲授康德的认识论:我们所能认知的是现象,而本体(真相)是不可知的。年少无知的笔者当时反问老师:既然是不可知的,人类又怎么认识到本体不可知这一特性呢?
期刊
李家庄冶铁遗址位于山西省高平市李家庄村东,总面积近24万平方米。遗址密布坩埚碎片、炉渣、炉灰和少量铁块等冶铁废弃物堆积,最厚处达7米。坩锅数量丰富,与河南洛阳东周王城遗址和洛阳吉利东汉墓出土坩锅相似。采集的陶豆、绳纹陶片等具有东周两汉的特征。遗址时代约为东周两汉时期。李家庄冶铁遗址是晋东南地区冶金考古的重要发现,也为探讨晋东南地区东周铁器的来源提供了重要线索。
解决大党独有难题的根本在于中国共产党能够始终坚持和持续践行党的指导思想。中国共产党的指导思想系统规定了党的性质宗旨和初心使命,科学回答了中国共产党是什么、干什么、怎么干的根本问题,这是解决大党独有难题的思想基石。中国共产党指导思想中蕴含的解决大党独有难题的内在逻辑是:通过管党治党、全面从严治党始终保持党的先进性的性质、党的全心全意为人民服务的根本宗旨和党的不谋私利。中国共产党指导思想蕴含的三大思想
分析俄乌冲突中深度伪造技术应用的类型,以及深度伪造技术对国际信任体系、俄乌双方及其他行为体的影响,可以归纳出俄乌冲突中伪造技术应用的本质。这是冲突双方在认知领域的博弈:“双方国家行为体与非国家行为体”利用“选择性”的信息舆论,意图实现瓦解对方士气、重塑民众认知、赢得国际支持、影响对手行为,进而改变冲突进程的目的。针对数字化时代深度伪造技术影响认知的情况,需要更新的信息战思维,提升检测伪深度造技术的
本文主要利用变分法研究几类具有深刻物理和生物背景的非局部方程解的存在性、多解性以及唯一性,并分析了解的性质.本文主要分为以下几方面内容.首先,考虑如下带周期磁势和临界非线性项的分数阶Choquard方程ε2s(-Δ)A/εsu+V(x)u=ε-α(∫RN|u(y)|2s,α*/(|x-y|N-α)dy)|u|2s,α*-2u+ε-α(∫RNF(y,|u(y)2)/(|x-y|N-α)dy)f(x,
<正>2021年12月31日,市场监管总局、国家标准委发布第17号国家标准公告,其中包括新版《小麦粉》(GB/T 1355-2021)国家标准。这是该标准的第二次修订,历次版本依次为GB 1355-1978、GB 1355-1986;2017年,标准性质由强制性改为推荐性,标准编号改为GB/T 1355-1986。新标准将于2023年1月1日起正式实施。为帮助小麦粉加工企业、消费者、
期刊
从根本上说,“大党独有难题”是党在“历史这么长、规模这么大、执政这么久”的条件下,在面临极为复杂的环境下,如何依靠党自身的力量来保持党的先进性和纯洁性,巩固党的长期执政地位的问题。党的十八大以来,党的自我革命的实践创新及其理论概括为破解“大党独有难题”提供了基本答案。党的自我革命是党在政治清醒和理论自觉的基础上,通过自我要求、自我约束、自我反思,进行自我调整、自我扬弃、自我变革,实现党的自我修复、
新版国家标准GB/T 1355—2021《小麦粉》于2021年12月31日发布,2023年1月1日起实施,即将代替国家标准GB/T 1355—1986《小麦粉》。根据多年来面粉检测实践,比较分析新版标准指标的设置变化与检测方法的变化,指出某些指标在执行中可能会遇到的一些问题。从面粉加工企业角度谈新版《小麦粉》国家标准的合理性以及对面粉行业发展的重要意义,仅供参考。
由于固着生长的特性,自然界中的大部分植物必须应对环境中的各种不利因素。机械力作为如膨压、重力、触碰、风、雨、损伤、虫食、空间障碍等环境因子的重要组成部分,对植物的生长发育十分重要。相应地,植物进化出了感知和响应机制以应对不同的机械力刺激。目前认为机械压敏离子通道蛋白在植物对机械力的感知过程中发挥重要功能。近十年以来,有关动物中机械压敏离子通道Piezo的研究取得了一系列突破性进展。Piezo作为机
背景:幽门螺杆菌(Helicobacter pylori,H.pylori)是人体最常见的病原微生物之一,其感染可导致胃炎、消化性溃疡和胃癌等多种胃肠疾病。研究表明,临床上至少75%的胃癌与H.pylori感染密切相关。因此,H.pylori已被世界卫生组织列为I类致癌因子。幽门螺杆菌感染过程中可分泌多种毒力因子,如,脲酶(urease,Ure)、细胞毒素相关基因A(cytotoxin-assoc