【摘 要】
:
视觉问答是计算机视觉和自然语言处理的结合应用领域,模型需要根据图片和问题的信息进行逻辑推理并做出回答。本文针对视觉问答模型设计了一种用于图片特征提取的层叠注意力
论文部分内容阅读
视觉问答是计算机视觉和自然语言处理的结合应用领域,模型需要根据图片和问题的信息进行逻辑推理并做出回答。本文针对视觉问答模型设计了一种用于图片特征提取的层叠注意力机制,该注意力机制由两层不同功能的子注意力机制堆叠组成。第一层注意力机制使用目标检测网络作为基础网络,目标检测网络是一种与图像处理有关的计算机技术,用于检测图像或视频中的语义对象,该层注意力机制将原始图片作为输入,输出图片中物体的特征值,第二层注意力机制将第一层注意力机制的输出和由循环神经网络提取的问题特征作为输入,输出经过问题指导的图片特征,此时的图片特征因为过滤了背景信息,且引入了问题信息,对当前任务有更好的表征能力,实验结果显示层叠注意力机制对计数类问题的回答准确率有较大提升,对其他类问题的回答也有帮助。本文针对Zhou Yu等人提出的基于多模态双线性分解池化的特征融合模块进行改进,改进后的特征融合模块由全卷积层和全局池化层实现,取消了对输入特征维度的限制,使融合模块可以接收多尺寸的输入,并通过使用非线性激活层提升了模型的非线性表达能力。随着深度学习模型的层数逐步增加,模型对硬件设备性能的要求也逐步提高,尤其是在训练阶段,会消耗大量的显存,带宽,磁盘空间和计算资源,这导致深度学习的研究成果难以走出实验室。为了降低视觉问答模型对资源的需求量,本文使用卷积核剪枝算法,计算统计学参数判断卷积核的重要程度,根据设置的阈值裁剪不重要的卷积核。剪枝技术在保证准确率的下降在可接受范围内的前提下,降低模型的显存占用率,前馈传播时延等指标。在测试阶段,本文使用VQA开放型数据集针对各个模块测试其对模型性能的贡献率,并与国内外研究成果进行横向对比。结果显示本文提出的模型,对计数类问题的回答准确率有较大幅度的提升,超过现有模型约5%,对其他类型的问题回答准确率也有提升,总的测试准确率超过现有模型。经过压缩的模型在准确率仅下降0.8%的前提下,将占用的显存空间压缩13%,网络的前馈传播时延降低16%,证明了对视觉问答模型压缩的可行性。
其他文献
动脉粥样硬化(AS)是指在动脉血管壁上积聚类似于黄色粥样状的脂质斑块的慢性炎症性疾病。研究显示,在AS病变易发区,血液流动方式由层流变为湍流,产生异常的剪切应力,使血管内皮细胞中促炎因子水平升高,从而激活多个炎症信号传导通路,导致血管内皮细胞中氧化还原态失衡,蛋白质发生氧化修饰以及生物学形态、结构、功能状态的改变,最终导致斑块的形成。近年来,由AS引发的多种急性心脑血管事件逐年升高,已成为威胁人类
保温和透光是塑料薄膜应用在农用大棚膜领域的基础特性。大棚膜常应用于春季或冬季。当气候变冷时,棚膜内外部之间的温度和湿度存在巨大差异。这种现象导致在薄膜内表面产生
植物修复技术是土壤重金属污染治理的环境友好型技术。选择合适的植物样本,基于外源强化措施,诱导植物对土壤重金属的胁迫反应产生较强的耐适性,是修复技术应用的关键研究问
移动边缘计算(Mobile Edge Computing,MEC)作为5G核心技术,通过在移动网络边缘提供IT服务和计算资源,显著降低数据传输时延并控制网络拥塞情况。随着新型应用对计算需求日益增长,针对多用户多服务器MEC系统,设计合理任务卸载策略,提供优秀服务质量日趋重要。由于移动设备经常受到其自身电量的限制,将中断计算任务的执行和传输,导致用户体验不佳。能量收集(Energy Harvesti
随着制造业的转型升级,大量工业机器人的应用,使得工业产品的生产效率、生产成本及产品质量均得到明显提高,但是同时也带来了机器人运行时能量损失过大的问题。而且国家在节能减排方面的政策要求也为研究机器人提供了一个明确的方向,即降低机器人在作业过程中的能耗。本文以IRB140工业机器人作为研究对象,规划了能耗最优的运行轨迹。依据机械臂系统的能量流,综合考虑电机热损耗、关节摩擦损耗和机械运动能耗后,建立机器
35CrMo钢作为一种综合机械性能好,强度高,淬火性能好的中碳合金钢,在机械制造行业有着极其重要的地位,是十分具有发展前景的钢种。为了提高35CrMo钢的冶金质量,满足更高强度
在老龄化日益严峻及“未富先老”的背景下,经过历届政府与社会工作者的努力,我国已经初步形成“三支柱”养老保障体系。但是,我国的社会保障体系长时间存在一支独大的发展情况,我国居民退休后社会保障收入主要来源于“第一支柱”的基本养老金,而“第二支柱”的企业/职业年金和“第三支柱”的个人补充养老金存在严重的不足,随着我国老龄化现象持续加剧,第一支柱所面临的支出压力变得越来越沉重,而且第一支柱是由政府财政进行
晶态材料由于具有均匀性、各向异性、自范性、对称性、固定的熔点以及对X射线具有衍射等性质引起了科学家的广泛关注。近年来,由于光功能晶态材料在有机发光二极管(OLED)、有机激光器、荧光传感器、生物成像等方面展现了广泛的应用前景,因此,具有光功能性质的晶态材料的设计与开发逐渐引起了科学家的关注。本论文中我们设计并合成了几例新型的具有光功能性质的晶态材料,结合它们的结构特点,我们分别详细研究了它们各自的
边缘计算利用众多边缘设备为用户提供近地的实时计算与存储功能,能够满足用户低时延、快响应的需求,减轻了云计算中心以及网络带宽的压力。然而,边缘设备协作时需求各异,再加上边缘计算的开放自治、多源异构等特性,导致设备间缺乏必要的信任,难以抵挡内部的服务操纵、数据篡改等恶意攻击。信任机制能够有效抵御网络内部攻击,保证设备提供可靠服务,但边缘层海量的信任信息形成了庞大的信任网络,资源受限的边缘设备难以承担复
钒钛磁铁矿是我国重要的铁矿石资源,是一种组成较为复杂的共(伴)生矿,含有丰富的铁、钒、钛等元素,具有极高的综合利用价值。钒钛磁铁矿烧结特性较差,其烧结矿质量较劣,主要