基于多模态嵌入融合的图像语义理解问题研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:wuheli0811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像语义理解是指对图像中包含的信息进行解析,研究图像属于哪一类场景、图像中有哪些目标、各目标间的语义交互关系等。人类生活在一个多种信息交融的环境中,每一种信息的来源或形式都称为一种模态,要想让计算机能够从人类的角度理解世界,多模态信息的利用是必不可少的。本文围绕图像语义理解问题,以深度学习作为研究工具,以多模态嵌入融合作为研究方法,针对图像语义理解中的场景识别、场景图生成、图像描述三个任务开展研究。本文主要工作包括:(1)针对场景识别任务,选取目标交互关系复杂、相似度较高的五种典型室内场景为研究对象,提出一种基于多模态融合的场景识别方法。首先提取图像特征和语义特征,分别建立基于图像特征和语义特征的单模态场景识别模型;其次,基于图像和语义信息建立特征级融合模型和决策级融合模型;最后,对上述各模型分配不同的权重,建立混合融合模型,为每张图片分配场景语义标签。(2)针对场景图生成任务,考虑到数据集存在长尾分布、高级语义交互关系出现频次少等问题,提出一种基于语义描述的多模态融合场景图生成方法。首先对图像进行目标检测、关系推理,构建图像场景图;其次,将语义描述转化为语义图,将语义图输入到预先训练的场景图解析器构建语义场景图;最后,将两个场景图进行显示对齐,更新节点和边的信息,从而得到覆盖更全面、语义交互信息更准确的融合场景图。(3)针对图像描述任务,考虑到现阶段图像描述简单、结果过于依赖训练数据等问题,构建一种基于场景图和语义先验的图像描述模型。首先,将原始图像特征与场景图特征初步融合,并将场景图编码嵌入到特征空间;其次,使用现有数据集中的图像描述,通过语句重构任务训练一个记忆网络来存储语义先验知识;最后,将场景图特征与语义先验知识融合进行特征重构,将重构后的特征输入语句解码器生成图像描述。
其他文献
为了进一步提升电机驱动系统的功率密度与效率,降低系统的体积与成本,电机与驱动电路的集成化技术逐渐成为研究人员的关注热点。磁功能集成电机驱动的概念指电机与驱动电路共享磁性元件实现各自运行所需的不同功能,从而为系统减少磁性元件的数量。然而磁功能集成电机驱动方案中电机和驱动电路同时包含功率耦合和磁耦合,无法用传统思路独立设计。确定电机励磁绕组参数是解决这一问题的关键。针对此问题,本文提出一种将驱动电路设
随着互联网技术的发展、应用的快速普及,不受时空限制的线上教学风起云涌,特别是受新冠疫情的影响,人们对于无接触式的线上教学的需求变得更加迫切。线上教学打破了时间空间限制,使人们的学习更加自由便捷。但相比于传统课堂,在线课堂环境下师生互动性差,沟通存在一定障碍,教师很难有效监测到学生的学习专注度,学生也可能会因为没有监督而学习效率下降。基于此,本文结合网络线上教学环境的特点,提出了一种视觉特征融合的注
互联网经济的发展,推动着传统物流模式不断变革升级。同时,人口老龄化加剧以及新冠疫情在全球范围内的爆发与持续蔓延,使得高度自动化的智慧物流成为迫切需求。以托盘叉车AGV为代表自主移动机器人在物流业的应用越来越广泛,高重复性和高强度的任务逐步被机器人完成。物流仓储环境复杂多变,由于托盘叉车AGV缺乏对装载目标的自动识别与局部定位能力,智慧物流搬运环节在很大程度上还无法实现完全自动化。本文以托盘叉车AG
人类视觉系统对于外界信息的处理精确而复杂,可真实而高效地感知外部环境,进而快速而准确地识别出不同场景内的目标。近年来,更多学者开始探究生物视觉感知高效性的内在机理,借助神经科学形成了相应的衍生理论如深度学习等,并将其运用到图像的相关目标检测任务中。本文从实际应用出发将图像目标具体化,首先面向自然图像中的目标轮廓,构建双侧注意通路交互响应与融合模型;接着面向视网膜图像中的目标血管,构建双通道非对称卷
大脑作为生物高级神经活动的物质基础,负责对外界刺激的表达响应和编码整合,视觉系统在大脑的作用下可以更好的感知世界。借鉴视觉神经信息处理的工作方式,本文通过模拟视觉神经系统的颜色拮抗机理、层级编码机理以及双目视差机理等,探讨了轮廓检测、颜色恒常以及图像去雾等计算机视觉应用的可能机制。(1)提出一种双目视差前馈补偿的轮廓检测方法。首先,给出一种颜色通道中不同拮抗细胞连接权重动态调整的机制,获得初始轮廓
光电振荡器(Optoelectronic oscillator,OEO)是一种非线性的,耗散的,封闭性的微波光子系统,由长距离的光学支路和电学支路两部分组成一个封闭环路。光电振荡器的相位噪声极低,且其不随频率的上升而恶化,该特点使其有望替代微波振荡器。单频光电振荡器的研究已经在性能优化、系统集成、系统应用等方面取得了非常大的进展,但对于多频光电振荡器的研究还比较欠缺,无法直接振荡产生低相噪的多频率
模块化多电平矩阵变换器(Modular Multilevel Matrix Converter,M3C)作为模块化多电平系列拓扑的一员,具有模块化设计、输出谐波含量低、扩展性强等优势。在分频输电,电力牵引,风力发电等领域具有广阔的应用前景,并引起了工业界和学术界的广泛关注。在对多电平技术的发展和模块化多电平系列拓扑研究分析后,本文的工作以M3C作为研究对象展开,主要内容包含:首先,本文介绍了M3C
近年来,随着无线传感器网络技术的发展,基于位置的服务受到的关注与日俱增,相关的应用需求和定位技术层出不穷。而受限于室内墙体对卫星信号的遮蔽,全球卫星导航系统无法在室内实现精准定位,国内外学者针对室内定位进行了大量的研究,进而催生了许多室内定位技术。无线局域网(Wireless Local Area Network,WLAN)在室内广泛分布,智能移动终端也不断普及,为组合导航定位技术的发展、应用和推
第五代移动通信(5th Generation,5G)中的关键技术之一的非正交多址接入(Non-orthogonal Multiple Access,NOMA)是实现海量用户接入的方案之一,通过在功率域中区分不同的用户使得多个用户信号能够复用同一个时频资源块也即同一个子信道进行通信,能够极大地提升频谱利用率。与此同时也引入了一个新的问题,即如何在有限的时频域中进行资源分配。资源的分配主要包括两个方面
传感器网络因其造价低廉、易于维护、可靠性高的优点无论在民用还是军用领域都应用广泛。值得关注的是,传感器的测量信号在传输过程中极易受到不稳定信道的干扰导致测量衰减,影响系统的性能。另外,如果大量数据同时传输,不仅会占用公共网络资源,而且还容易影响传输效果和滤波性能。因此,研究测量衰减下基于通讯协议的非线性系统的分布式滤波问题,既具有重要的理论意义又具有实际应用价值。本文将针对测量衰减下基于通信协议的