基于视觉和语言的跨媒体问答与推理研究综述

来源 :计算机科学 | 被引量 : 3次 | 上传用户：jin_liu

【摘要】

：

基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展。文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算

【作者】

：

武阿明姜品韩亚洪

【机构】

：

天津大学智能与计算学部

【出处】

：

计算机科学

【发表日期】

：

2021年03期

【关键词】

：

跨媒体问答与推理图像问答与推理视频问答与推理视觉常识问答与推理多模态融合注意力机制预训练 Cross-media question answerin

【基金项目】

：

国家自然科学基金“重点项目”(61932009):跨媒体智能问答与推理关键理论与方法研究(2020/01-2024/12)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

提升煤巷掘进效率的技术措施研究

为了解决鑫都煤业因地质环境复杂导致的巷道掘进效率低下问题,通过对井下大巷掘进现状的分析,提出了以优化巷道卸压孔、优化巷道支护结构的快速掘进技术方案。新的快速掘进方

期刊

巷道掘进方案roadwaydrivingscheme

多媒体模型对抗攻防综述

近年来,随着以深度学习为代表的人工智能技术的快速发展和广泛应用,人工智能正深刻地改变着社会生活的各方面。然而,人工智能模型也容易受到来自精心构造的"对抗样本"的攻击。通过在干净的图像或视频样本上添加微小的人类难以察觉的扰动,就能够生成可以欺骗模型的样本,进而使多媒体模型在推理过程中做出错误决策,为多媒体模型的实际应用部署带来严重的安全威胁。鉴于此,针对多媒体模型的对抗样本生成与防御方法引起了国内外

期刊

对抗攻击对抗防御深度学习图像对抗样本视频对抗样本Adversarial attackAdversarial defenseDeep learnin

视觉目标跟踪十年研究进展

视觉目标跟踪指在一个视频序列中,给定第一帧目标区域,在后续帧中自动匹配到该目标区域的任务。通常来说,由于场景遮挡、光照变化、物体本身形变等复杂因素,目标与场景的表观会发生剧烈的变化,这使得跟踪任务本身面临极大的挑战。在过去的十年中,随着深度学习在计算机视觉领域的广泛应用,目标跟踪领域也迅速发展,研究人员提出了一系列优秀算法。鉴于该领域处于快速发展的阶段,文中对视觉目标跟踪研究进行了综述,内容主要包

期刊

视觉目标跟踪深度学习计算机视觉Visual object trackingDeep learningComputer vision

暗斜井新型支护方案的应用研究

针对岳城煤矿暗斜井在施工过程中,支护结构复杂、严重影响暗斜井掘进效率的现状,提出了采用锚、网、喷组合系统补强支护方案,解决了支护效率和支护强度的冲突。自该方案应用

期刊

暗斜井支护强度效率dark inclined wellssupportstrengthefficiency

15119工作面无煤柱开采技术研究与应用

为提升15119工作面采出率,确定15117工作面回采期间进行沿空留墙,随后15119工作面回风巷沿墙掘进。基于沿空留墙墙体所受压力分析结果,确定墙体采用1.5 m宽的C40柔模混凝土,

期刊

无煤柱厚煤层混凝土no coal pillarthick coal seamconcrete

视频人脸识别进展综述

人脸识别是生物特征识别领域的一项关键技术,长期以来得到研究者的广泛关注。视频人脸识别任务特指从一段视频中提取出人脸的关键信息,从而完成身份识别。相较于基于图像的人脸识别任务来说,视频数据中的人脸变化模式更为多样且视频帧之间存在较大差异,如何从冗长而复杂的视频中抽取到人脸的关键特征成为当前的研究重点。以视频人脸识别技术为研究对象,首先介绍了该技术的研究价值和存在的挑战;接着对当前研究工作的发展脉络进

期刊

视频人脸识别图像集合建模子空间学习流形学习深度学习Video-based face recognitionImage set modelingSu

深孔预裂爆破技术在综放工作面中的应用

针对恒泰煤矿13020综放工作面坚硬顶板不易垮落等问题,提出在工作面和两顺槽进行深孔预裂爆破,从工作面初次来压20 m和周期来压15 m左右的实际效果来看,预裂爆破效果良好。

期刊

综放深孔预裂fully mechanized top coal cavingdeep holepresplitting

视觉问答与对话综述

视觉问答与对话是人工智能领域的重要研究任务,是计算机视觉与自然语言处理交叉领域的代表性问题之一。视觉问答与对话任务要求机器根据指定的视觉图像内容,对单轮或多轮的自然语言问题进行作答。视觉问答与对话对机器的感知能力、认知能力和推理能力均提出了较高的要求,在跨模态人机交互应用中具有实用前景。文中对近年来视觉问答与对话的研究进展进行了综述,对数据集和算法进行了归纳,对研究挑战和问题进行了总结,最后对视觉

期刊

视觉问答视觉对话视觉语言视觉推理深度学习Visual question answeringVisual dialogueVision and la

跨媒体分析与推理技术研究综述

当前,以网络数据为代表的跨媒体数据呈现爆炸式增长的趋势,呈现出了跨模态、跨数据源的复杂关联及动态演化特性,跨媒体分析与推理技术针对多模态信息理解、交互、内容管理等

期刊

跨媒体分析与推理深度学习多模态融合视觉-语言分析Cross-media analysis and reasoningDeep learningMul

面向协同过滤推荐的新型混合评分函数

协同过滤技术在现代推荐系统中得到了广泛的应用,其基本思想是相似的用户会喜欢相似的物品。评分函数(Score Function,SF)是协同过滤推荐模型的一个关键技术,用于评估用户对

期刊

推荐系统协同过滤评分函数Recommendation systemCollaborative filteringScore function

基于视觉和语言的跨媒体问答与推理研究综述

其他学术论文