基于文本引导的图像字幕生成方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:candry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的蓬勃发展,人工智能迎来了新热潮。深度学习作为人工智能领域的主要技术之一,在计算机视觉、自然语言处理、语音识别等诸多领域取得了突破性的进展。在物体检测、对象识别、机器翻译等单模态任务中达到了媲美人类的水平。近年来,越来越多的研究者将关注点从单一模态信息处理扩展到跨模态任务,诸如视觉叙事、自动问答等更加复杂且具有应用价值的多模态任务成为新兴的研究热点。图像字幕生成任务就是其中一种,旨在用一句话去描述图像的主要内容。图像字幕生成任务主要分为三个部分:图像视觉的理解、视觉和语言之间的语义对齐,以及自然语言的生成。对于图像视觉理解部分,目前主流的图像字幕生成方法的优化重点大多集中在对图像内部显著区域进行的处理上,而忽略了不同区域之间的内在联系,导致产生的视觉表达相对匮乏,最终生成的图像描述也相对简单、琐碎。对于视觉和语言的语义对齐部分,大多数的图像字幕生成方法采取直接学习图像和文本之间的跨模态映射策略,然而视觉信息和语言信息之间存在语义鸿沟,导致学习到的跨模态映射在细节方面不够准确,最后生成的图像描述在内容细节和用词多样性方面表现不佳。本文主要针对上述两点问题,展开对图像字幕生成问题的研究,主要工作包含以下两个方面:(1)针对图像视觉理解部分缺乏关系考虑的问题,提出了一种基于文本引导图构建的图像字幕生成方法。该方法以相似图片的描述作为线索,引导模型去关注图像中语义重要而视觉显著性缺乏的部分、帮助学习图像内部各区域之间的内在联系,同时在无需额外制作知识库的前提下,引入一些图片之外的有用信息,以提高图像特征表达的准确性与多样性,使得生成的图像字幕中描述物体之间关系的用词更准确、更丰富。(2)针对视觉和语言之间存在跨模态语义鸿沟,导致生成的图像描述在细节方面不够准确的问题,提出了一种基于文本引导编码与自适应解码的方法。首先,该方法进一步探讨了图像相关文本在图像字幕生成过程中的作用,设计了一个文本引导编码模块以丰富图像的视觉表达。其次,提出了一个基于“生成+微调”的自适应解码结构。在生成阶段,更注重图像字幕整体方面的学习(比如逻辑通顺、语言流畅),而在微调阶段,则会更关注图像字幕细节方面的学习(比如内容准确、用词丰富),从而生成语言通顺、内容准确的高质量图像描述。
其他文献
机器视觉技术作为当前的研究热点,其在工业自动化生产的过程中得到越来越广泛的应用。在传统流水线模式下,机器人常常要完成对工件的抓取操作,而工件空间位置的获取与姿态计算的准确性是执行抓取操作的前提与关键。当抓取任务需要目标物空间位姿信息时,不同于单目视觉只能获取目标的二维信息,双目视觉具备获取目标三维信息的能力。提出一种基于双目立体视觉系统的箱体工件空间位姿检测方案,对箱体工件空间位姿检测过程中目标识
随着电影数量的不断增多,视频网站的电影数量也在不断地增加,但是视频网站常常会给用户推荐一些低质量或者用户不感兴趣的电影。如何提高推荐电影的质量以及与用户兴趣相关的电影成为了电影推荐的研究重点之一。虽然视频网站的电影推荐系统日益复杂化,相关的推荐算法也多种多样,但是以目前的推荐系统来说也难以满足要求。因此为了解决推荐电影的低质量问题和电影与用户兴趣相关性的问题,本论文展开了相关研究,主要包括以下内容
行为识别是视频分析领域的重要研究课题,在视频监控、医疗辅助、人机交互等场景中应用广泛,其目的是借助计算机视觉技术自动分析和识别视频中的人体行为,并给出分类标签。然而,由于视频内容的复杂性和行为本身的多样性,使行为识别面临着巨大的挑战。现有的行为识别方法,在分析和识别视频中的人体行为的过程中,仍然受到复杂场景信息和背景噪声的干扰。当前的多数方法局限于从外观和光流中学习行为模式,使得模型在分析理解复杂
MEMS压力传感器因其结构特点和工作原理,具有测量精度高、易于大批量生产、长期稳定性好等优点,且制造过程与传统集成电路工艺兼容,已经广泛应用于航空航天、智能制造、汽车电子及生物医学领域。随着先进制造、人工智能技术发展,结合谐振式传感器具有灵敏度高、成品体积小、驱动功耗低的特点,谐振式MEMS压力传感器一直以来是国内外高校、科研机构研究的重点。传统压力传感器主要采用静电激励、电热激励、压电激励等驱动
近年来,随着人们公共安全意识的提高,智能安防监控系统在公共安全领域中起到了越来越重要的作用,而行人再识别作为其中一项关键技术,受到了广泛的关注和研究。但在复杂的实际应用场景中,通常会存在行人姿态变化、空间错位等不理想的情况,导致算法提取到的行人特征难以达到理想的效果。因此,本文主要围绕如何增强行人特征的表示能力展开研究,提出了两种能够有效增强行人特征的行人再识别网络。本文的主要工作内容及创新点总结
随着柔性电子皮肤的发展,研究用于人体运动监测、手势识别、医疗健康和人机交互等领域的柔性应变传感器具有重要的意义,基于裂纹的柔性应变传感器由于其超高的灵敏度,近年来受到了广泛的关注。论文利用仿生概念,受蝎子对细微机械振动敏感能力的启发,设计并制备一种基于微裂纹结构,兼具高灵敏和高稳定特性的柔性应变传感器。本研究选取具备优良导电性、强化学稳定性和高热稳定性的羟基化石墨烯导电材料,强粘接性和可快速固化等
结构光立体视觉技术具有非接触,快速,便携性好,精度高等优点,因此在工业制造,生物医学,和文物保护等领域应用广泛。近年来随着人工智能的兴起,人脸识别、人脸支付技术、AR技术等对三维测量的要求越来越高,如何实现快速、高精度和低成本的三维测量技术变得尤为重要。常见的结构光三维测量技术通过投影正弦条纹来获取被测物体的相位信息,通过相位展开算法进行三维信息恢复。但该技术存在两方面问题:首先,由于投影的正弦条
据统计,2018年至今,由于种种客观原因造成电力杆塔倾斜和倒塌事故累计发生900多起,直接造成经济损失超14亿元,所以电力杆塔的安全监测对于输电线路的稳定运营具有重要价值。由于杆塔属于大型钢结构件,振动对杆塔的倾斜度监测数据影响较大,引入了大量观测噪声,导致杆塔倾斜度测量精度低,杆塔倾斜度监测系统难以发挥作用。因此对于杆塔倾斜度监测方法进行研究,实现电力杆塔在线监测和预警,这对于输电线路稳定运营具
随着物联网与半导体技术的发展,工业中对于流量仪表设计从传统的机械式结构向着数字化、智能化、网联化的方向不断推进;同时伴随着近年来工业物联网技术的兴起,工业生产制造过程中对于支持物联功能的工业设备的需求也越来越多,而已经得到广泛应用的数字流量仪表是其中之一。现有的数字流量仪表的物联技术以定制化为主,导致物联技术向其它流量仪表移植的匹配难度大、通用性差;在物联功能方面以实现低刷新率的仪表日志数据转发功
红外成像技术需求日益增长,因成本和工艺水平的原因,限制了红外成像技术的应用。为实现对较弱的红外辐射进行成像且节约成本并提高成像的细节分辨率,提出将光学层析技术与调频调制盘成像技术相结合的方法来实现一种低成本情况下获得更高分辨率和极高信噪比的成像系统。经实验验证,该技术能够在红外焦平面阵列无法进行成像的情况下仍能保证成像的稳定性。本文主要研究工作和成果包括:1、以层析成像中的傅里叶中心切片定理为基础