基于视觉注意力机制的图像描述方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:ceshi110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是机器能自动地理解图像内容,并且以自然语言的形式准确表达出来的一项计算机视觉任务,能为视觉障碍辅助、医学报告生成等问题提供基本的解决方案,是目前图像理解及其应用领域中的一项核心技术。由于图像数据规模的限制以及传统机器学习特征提取能力的不足,早期的图像描述研究面临着极大的挑战。近些年,基于神经网络编码解码的图像描述方法因其优越的性能受到研究者的广泛关注。特别地,视觉注意力机制因具有从庞大视觉信息中提取关键特征的能力,在计算机图像、视频处理等相关领域发挥着重要作用,基于注意力的图像描述方法也已成为当前的研究热点。然而,现有的模型只考虑了视觉注意力的空间特性与单一尺度,忽视了时间特性与多尺度表达在图像描述中的作用,影响了图像描述方法的性能。为了解决上述不足,本文完成了如下两个研究工作:(1)为充分利用视觉注意力的时间特性,建立注意力特征间重要的时序关系,本文提出了一种时空记忆注意力模型(Spatio-temporal Memory Attention,STMA)。STMA在输入门、遗忘门、更新模块和输出门控制作用的基础上,运用记忆单元存储特征的动态时间变化,将注意力从现有的空间模型拓展为时空模型。值得指出的是,STMA是一种通用的注意力模型,不仅能与现有的基于注意力的图像描述方法相结合,还有望应用于其它计算机视觉任务。在图像描述公开数据集MS COCO上的实验结果表明:相较于现有的注意力模型,本文提出的STMA在增加少量神经网络参数的条件下,显著提升了图像描述方法的性能,表现出较强的有效性与通用性。(2)为有效发挥不同视觉尺度下注意力表达的优势,进一步提升图像描述的性能,本文提出了一种基于多尺度融合注意力的图像描述方法(Multi-Scale Fusion Attention,MSFA)。MSFA通过多尺度融合注意力编码模型(MSFA-E)和多尺度融合注意力解码模型(MSFA-D)将图像的目标尺度特征和均匀空间尺度特征进行融合,用以增强对图像信息的表达能力。首先,多层的MSFA-E通过自注意力模型和指导注意力模型,对输入的图像进行编码,实现两种尺度特征的初步融合;其次,多层的MSFA-D基于语言描述时序向量的指导,在神经网络解码阶段进一步实现多尺度特征的融合,并生成符合当前描述语境的注意力特征,辅助语言模型生成描述语句。在图像描述公开数据集MS COCO上的实验结果表明:相较于单一的注意力尺度,本文提出的多尺度融合注意力方法实现了两种尺度特征间的优势互补,图像描述性能得到明显的提高,与现有的方法相比具有很强的竞争力。本文的研究工作分别从视觉注意力机制的时空特性和多尺度融合两个角度对注意力模型结构进行了改进,不仅提高了现有基于视觉注意力的图像描述方法的性能,而且丰富了图像描述方法的研究,有助于推动相关研究的进一步发展。
其他文献
当亚波长结构的特征参数与工作波长相当或具有更小的周期(或非周期结构)时,光栅表现出的反射率、透射率、偏振特性、光谱特性和相位延迟特性都与常规的衍射光学元件有着截然
隧道近距穿越建构筑物基础问题一直都是隧道近接施工的研究重点。特别是对于重庆这样的山地城市来说,由于地形条件、周边环境、地铁选线等因素的限制,隧道近距穿越既有建构筑
动力电池的荷电状态即电池的剩余容量常用SOC(state of charge)表示,其值的准确估计意义重大,现有SOC估算算法存在计算周期长、精度低等其他缺陷,在众多SOC估计算法中,数据驱动模型能够很好地消除模型驱动自身的一些缺陷,同时数据驱动模型能够有效缩短预估周期,使预估更高效。首先,搭建动力电池性能分析评测平台,获得数据驱动模型所需的试验数据,在此基础上将对模型驱动算法进行建模、参数辨识以
梁,作为工程结构的最基本、同时也是最常用的构件。被广泛的应用于各种类型的结构工程中,在航空、机械、工民建等领域中都发挥着重要的作用。由于现在有很多单独的梁构件或者
阻抗是描述电路中元件对电流产生的阻碍作用的参数。交流阻抗谱是通过阻抗测试系统测得的不同频率下阻抗数据的集合,将这些数据进行分析处理得到坐标图及所需参数能方便研究
旋转超声加工在硬脆材料等难加工材料的加工中有较高的应用价值。旋转超声加工装备中,非接触电磁耦合器克服了传统碳刷滑环式传能转速低、加工精度不高的问题,成为目前旋转超声加工装备的研究方向之一。目前,较为常见的非接触电磁耦合器的设计结构有上下环式、内外环式等,这些耦合器结构能够实现超声能量的高效率非接触传输,但由于结构设计的局限性,无法在加工中心进行自动换刀,导致加工效率大幅降低。因此,本文在浙江省重点
环境影响评价法律制度是在我国境内进行的开发活动都要履行的一项法律制度,是我国一项重要的环境保护方面的制度,对于促进我国经济的发展、生态环境的保护已经起到了非常重要
近年来,随着社会经济持续稳定增长,人们对水资源的利用程度日益加剧,过度的水资源开发利用,加剧了污染,水环境功能下降,全国水污染重大突发事故屡有发生。突发性环境污染事件
建筑结构在地震作用等外部激励下将产生变形,如果设计方案不合理将导致结构出现变形过大或抗力不足等问题,因此需要进行结构抗震优化设计。对建筑结构进行优化设计,不仅能够
随着我国建设资源节约型、环境友好型社会进程的发展,间歇式沥青混合料搅拌设备高耗能、高排污的缺点日益突出。连续式沥青混合料搅拌设备凭借其节能、环保、高效的特点表现出良好的应用前景,但其级配精度低、搅拌均匀性差的问题尚有待解决。针对以上问题,本文开发了一种兼具连续式与间歇式搅拌设备优点的新型连续式强制拌和搅拌设备,并从以下几个方面对连续式强制拌和搅拌设备关键技术进行了研究:连续式强制拌和搅拌设备的级配