基于多模态融合的幽默识别研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:foreverfreedom5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
幽默是人类交流中一种独特的表达方式,它能够创造轻松愉快的氛围,促进人与人之间的沟通。幽默饱含智慧与创造力,研究幽默的产生机理,使用计算机对幽默建模,识别和生成幽默有助于计算机模拟人类的认知,对人工智能的发展至关重要。近年来已有许多基于文本的幽默识别研究,但是随着社交媒体的发展,幽默识别的对象不再局限于文本,音频、视频等多模态信息中也包含着丰富的幽默。多模态幽默识别成为该领域新兴的研究课题,它需要挖掘单一模态的内部信息和多种模态间的交互信息,是一项十分具有挑战的任务。本文重点研究了文本、音频和视频三种模态信息融合下的幽默识别。首先,针对多模态幽默识别领域现有公开数据集不足的问题,本文构建了一个包含多语种的多模态幽默数据集。本文详细介绍了数据采集、数据处理和数据标注的过程,并对数据标注的一致性进行了检测。数据分析部分展示了数据集的主要统计信息以及数据分布情况。本文将自制数据集与现有的多模态幽默数据集进行了对比,对该数据集的应用方向进行了展望。后续章节的实验会在公开数据集和自制数据集上展开。其次,本文提出了一种基于注意力机制的多模态融合方法。该方法设计了不同神经网络结构对不同模态进行句内建模,获取单模态句子表示。然后使用层级注意力机制对两种模态的特征序列进行混合编码,同时对段落上下文信息和模态间交互信息进行学习,挖掘多模态信息在上下文中的关联与交互。该方法在包含上下文的段落中能更好地融合多模态信息,取得了超过基线方法的结果。并且消融实验证明融合多模态特征和引入上下文给幽默识别带来了提升。最后,本文从多任务学习角度研究多模态融合。将不同模态信息视为不同任务,采用各模态独立网络进行单模态内部建模,并使用参数共享模块学习多模态交互信息。该方法在模型参数较少的情况下仍能取得较好的识别结果。此外,本文还在自制数据集上开展了幽默和情感多任务学习。模型通过共享层进行多模态融合,后使用任务独有的注意力模块整合上下文信息,完成情感和幽默各自的分类任务。实验结果表明,多任务学习比直接引入情感特征更能提升幽默识别的效果。
其他文献
随着国内土木工程结构向着高度更高、跨度更大、结构形式更加复杂的方向发展,对大型复杂结构进行模态测试,获取结构的动力学特征,并以此进行状态评估与安全预警,已成为学界关注的热点问题。如何从大型复杂工程结构上采集到更加准确完整的结构响应,是模态测试首先需要解决的问题。国内外学者为此提出了一系列测点优化布设评价准则,用以指导测点位置的选择,提升模态测试中信息采集的准确性。但是利用这些准则选取测点需要以结构
人体运动识别作为计算机领域的前沿方向,具有十分重要的研究意义,相关算法可以被应用到许多领域,例如动作内容分析、人机交互、视频合成、视频检索等。特别是近几年来短视频平台的高速发展,使得相关的人体动作视频越来越多,对于这些视频信息的处理研究都需要有高效准确的识别算法作为支撑,因此研究人体动作识别算法在计算机领域势在必行。在人体动作识别的算法研究中,有很多经典的视频分类数据集,例如UCF101、HMDB
脑肿瘤分为恶性脑肿瘤和良性脑肿瘤,前者是癌性的,容易扩散到大脑的其他部位,后者则不然。然而,在这两种情况下,脑肿瘤在刚性脑部空间的生长都可能导致人体功能障碍,甚至危及生命。脑肿瘤的发病率正在逐年增加,对公共卫生造成了极大的负担。诊断脑肿瘤的主要方法为利用脑部核磁共振成像图(MRI)对脑肿瘤区域进行分割,然而目前对脑肿瘤进行分割仍由脑外科医生手动进行。以这种方式分割需要花费脑外科医生大量的时间进行标
图像语义分割技术是计算机视觉领域中的一项重要的研究内容,在无人驾驶、医学影像、场景理解等领域中都有着不可或缺的作用。近几年随着深度学习的飞速发展,图像语义分割技术的整体性能得到了巨大提升,但深度学习模型对于大规模高精度数据集的依赖也成为了很多算法在泛化性和鲁棒性上的主要瓶颈。高精度的语义标注需要大量的人力和时间成本,如何在短时间内实现准确的数据标注,是图像语义分割技术面临的主要挑战之一。针对这一问
随着科学技术的不断发展,无人机航拍技术被广泛应用到农业、工业、军事等领域。但是受到相机视角的限制,单张航拍图像中所涵盖的内容,无法满足研究人员对信息获取的需要,因此,为了获得大比例尺、信息全面的图像需要对采集的航拍图像进行拼接。针对航拍图像具有易受光照、尺度和旋转等特性变化影响,以及图像不连续、存在视差的特点,本文以特征提取和图像扭曲变形两个阶段为切入点,致力于研究能够适应航拍图像特点的特征提取算
由于司法流程公开与共享的不断推进,我国的司法大数据公开化已趋于成熟,蕴含于法律文书中的丰富法律信息成为了值得深入研究的珍贵资源。但由于法律文书以自然语言形式进行记录,机器难以直接对文档内容进行理解和分析。因此,通过文本挖掘技术对非结构化的司法领域文本进行信息提取和结构化存储,对司法领域信息化发展以及司法效率的进一步提高都具有积极意义和深远影响。文本挖掘中的实体识别和关系抽取技术对于法律文书中关键信
随着软硬件技术的飞速发展,大规模知识图谱的构建和存储成为了可能,并为问答系统、药物发现等人工智能应用提供了知识基础。问答系统作为人工智能领域一项前景广阔的落地应用受到人们的广泛关注。与通过搜索引擎获取知识的方式相比,问答系统能更加智能和高效地给出确切的答案。基于知识图谱的问答系统(Knowledge Based Question Answering,KBQA)结合二者的优势,将用户的查询解析为逻辑
随着信息时代的到来,人们在网上获取知识的渴望越来越高。传统的基于搜索引擎的信息检索方式会返回大量与问题相关的网页,这不仅对网页的排序准确率有较高的要求,还需要人工的去点击链接筛选信息,这无疑会耗费一定时间。因此,问答系统应运而生。问答系统可以直接理解用户的问题,返回简洁正确的答案,降低用户查询成本。知识图谱是一种新型的数据库,可以看作是巨大的语义关系网,表示客观世界实体之间的关系,其以图结构存储知
汽车工业和计算机深度学习等技术的进步使无人驾驶汽车(Automatic Vehicle,AV)逐渐成为一种不可替代的交通方式。自主代客泊车(Autonomous Valet Parking,AVP)功能作为无人驾驶汽车的重要功能之一,使汽车能自主完成导航和泊车任务。在自主代客泊车领域,分为短程自主代客泊车(Short-range Autonomous Valet Parking,SAVP)和远程自
当前是一个信息爆炸的时代,人们都在创作或者接受各种各样的文本资讯。让机器学会生成文本在一定程度可以避免人们机械重复的信息生产过程,在提高效率的同时还可以为人类创作提供灵感或者辅助。文本的内容通常会围绕特定的主题进行展开,如果文本内容松散,缺乏明确的主题,文本可读性就会下降。当前的许多文本生成研究也较少对于主题信息进行建模研究,因此,本文主要探究融合主题信息的文本生成技术。首先,本文对主题模型的主题