融合未知目标检测的无监督图像描述生成算法研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:yufengdong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习技术的兴起,使得自然语言处理领域与计算机视觉领域得到了进一步的融合。图像描述生成是计算机视觉、自然语言处理和人工智能交叉的一个新兴的跨学科问题,任务描述为对一幅图像生成相对于图像内容的文本描述,即看图说话。图像描述生成不仅可以为有视觉缺陷人提供帮助,更可以对大规模的图像、视频进行分类归纳。图像描述生成不仅要求识别图像中的重要对象、属性及其关系,还需要生成语义和语法正确的句子。基于监督学习的图像描述生成算法需要巨大的人工标注代价,因此本文提出了一种新的基于无监督的图像描述生成算法。现有的基于无监督的图像描述生成算法中缺乏注意力机制,直接将图像经过神经网络的卷积池化等操作转化成一个固定长度的向量来进行特征表示,在解码过程中只会基于全局特征进行词汇生成,而忽略了人眼会注意某些局部区域。现有的大部分图像描述生成都是基于监督学习的,因为数据规模的问题,生成的描述语句中物体类别不超过100种,所以,如何识别只出现在测试集中的那些相对于训练集未知的目标类,是现有的模型框架存在的第二个问题。针对上述两个问题,本文的研究工作主要分为以下两个部分:(1)将注意力机制融合到现有的无监督图像描述生成算法中。针对目前无监督图像描述生成算法将图像整体进行编码,导致在时序信息处理过程中对每个显著性区域缺乏“关注”。因此,我们对无监督图像描述生成算法框架进行改进,融入了注意力机制,我们将生成器模型设置为双层LSTM,一个是基于注意力的LSTM,一个是用来进行语句输出的LSTM。在每个时间步中,将提取Faster R-CNN网络中的低层特征和来自于基于注意力的LSTM的输出一起输入到基于语句生成的LSTM中,这样可以使每次单词预测时,会关注到图像的不同区域,将预测单词与显著性区域进行关联。(2)融合零样本学习算法,实现未知目标的检测进而提高了所提出的无监督图像生成算法的性能。现有的图像描述生成方法大都有这样的限制:无法对目标识别类规模进行扩展。引入零样本学习目标检测旨在能够正确识别测试过程中出现的而没有出现在训练过程中的类。我们将通过元类的概念,最大化类间距离,并使同一元类实现语义空间的聚类。将未知类和背景类归为一个超类,并在超类中对每一个未知目标进行判断,不断缩小超类的规模。通过在MS COCO数据集上进行F1指标评估,可以验证我们的算法性能。
其他文献
岸边集装箱起重机(也称岸桥)是港口集装箱装卸的主力设备,随着岸桥不断向大型化发展,岸桥在遭受地震时更容易破坏。目前对于岸桥的地震响应分析方法缺少系统性的研究,并且现有地震工况设计方法简单,按照现有地震工况设计的岸桥偏重,导致平时运行维护成本提高。本文以岸边集装箱起重机为研究对象,采用有限元仿真与振动力学模型相结合的方法,对岸桥结构在不同水准地震作用下的弹性响应特性、弹塑性响应特性及抗倒塌能力展开了
图像生成问题作为机器学习领域的一个重要问题,近年来更是随着生成对抗网络的兴起而吸引了越来越多的研究关注,这种生成式模型除可以直接用作于对某些缺失数据的增补、产生接近真实的数据之外,也可以用于诸如验证模型对于高维概率分布问题表达能力、处理多模输出问题以及用于强化学习等。常规的单模态图像生成任务基于随机噪声或者基础图像的输入,通过条件变量的控制实现朝着一种或者数种固定模式的方向变换,然而借由这种方式训
伴随着城市的不断发展,地铁成为大多城市炙手可热的交通出行工具,地铁隧道的爆破开挖为施工人员带来便利的同时,其对临近建筑物产生的不利影响同样引起了人们的广泛关注,目前由于爆破振动引起的建筑结构破坏事故时常发生。因此如何在达到爆破施工目的的同时,预测和减少结构的爆破地震效应,对采取安全有效的爆破振动防治措施具有重要指导作用,故爆破地震效应预测是众多学者长期研究分析的重要课题。本文以青岛某隧道爆破开挖为
钢渣作为我国大宗工业固体废弃物之一,其最重要的资源化利用途径是用作水泥混合材。针对钢渣活性低、难利用的问题,采用“分选出钢渣中RO相等惰性矿物”的技术路线,从本质上
随着现代水声技术的飞速发展,对目标模拟器的工作性能有了更高的要求。目标模拟器主要应用于主动声呐的反潜训练当中。潜艇是声呐主要的探测目标之一,在声呐研制过程中,可用目标模拟器来替代真实潜艇目标,以节约试验成本,提高试验效率。因此,目标模拟器具有十分重要的研究价值。本论文主要对搭载于小平台的水声目标模拟器的主动干扰抑制技术进行研究。首先,对目标模拟器的国内外研究现状进行概述,并对目标模拟器的主要工作模
水下管汇是水下生产系统的关键组成设备之一,起到汇集生产流体的作用。水下管汇多以防沉板作为基础支撑结构,通过水下控制模块执行水下管汇阀门的开闭功能,且水下控制模块失效率较高。针对水下管汇基础稳定性差、失效模式复杂和可靠性评估模型精确低的问题,本文从防沉板基础、水下管汇结构本身和水下控制模块结构三方面入手,对水下管汇的稳定性和结构可靠性进行分析,并开发水下管汇结构可靠性评估软件。在水下管汇组成系统的历
在过去的几十年中,碳纤维增强聚合物复合材料因兼具质量轻、高比刚度和模量等优异特性而在提高燃油效率以及减少排放等重要领域中具有巨大的应用潜力。然而碳纤维表面因表面
视觉和触觉作为人类探索世界的重要感官通道,若能在当今的虚拟现实应用场景中引入视触觉交互,必将极大地增强虚拟现实应用体验的沉浸感。如今已有多种方式可用来提供交互过程中的视触觉反馈,其中非接触式磁悬浮视触觉交互方式克服了机械式交互中的固有摩擦,具有广阔应用前景,但目前仍存在交互过程中虚拟工具穿透物体、视触觉反馈不够真实、视觉渲染与触觉渲染速率不一致等问题。为此,本文针对磁悬浮视触觉交互中的视触觉渲染关
我国现有的多晶硅制备的过程中会产生四氯化硅有毒气体,直接排放会对环境造成污染,而其回收成本也很高,故为了循环利用四氯化硅气体,减少生产能耗以及保护环境,需要一套能够
水声阵列信号处理具有抗干扰能力强以及阵增益高等优点,发展到现在已经取得了丰硕的研究成果。目标角度估计算法(DOA,Direction of Arrival)是水声阵列信号处理中的一个重要