【摘 要】
:
中文图像描述任务(Chinese Image Caption)作为跨学科跨领域的交叉研究问题,实质就是使计算机能够自动的对图片生成一句描述性中文,这对人来说很容易,对机器来说却很有挑战性。计算机需要提取图像的物体特征、空间联系、语义关系等信息,生成人类可读的能清晰表达出图像内容的句子,并力求句子准确、通顺。在中文图像描述任务中,基于神经网络的图像描述成为目前主流的研究方法,其中大多数都是采用编码器
论文部分内容阅读
中文图像描述任务(Chinese Image Caption)作为跨学科跨领域的交叉研究问题,实质就是使计算机能够自动的对图片生成一句描述性中文,这对人来说很容易,对机器来说却很有挑战性。计算机需要提取图像的物体特征、空间联系、语义关系等信息,生成人类可读的能清晰表达出图像内容的句子,并力求句子准确、通顺。在中文图像描述任务中,基于神经网络的图像描述成为目前主流的研究方法,其中大多数都是采用编码器和解码器结构,卷积神经网络充当编码器,编码器负责图像视觉特征的提取,循环神经网络充当解码器,解码器负责句子的生成。针对当前中文图像描述所存在的问题,本文主要做了如下的研究工作:为了降低卷积神经网络提取图像视觉特征的损失,加入了注意力机制的方法,注意力机制关注着每一个中文词信息和它对应的图像内容,并聚焦于图像内容的所在区域。实验表明加入注意力机制后切实提高了全部的评价指标。同时,针对循环神经网络(RNN)存在梯度消失的问题,即随着RNN时间片的增长,句子的生成将缺乏先前信息的指导,本文提出了记忆助手的方法,该方法提取已经分词的中文句子中重要的词信息,并将它们加入到RNN预测每一轮中文词信息的过程中。记忆助手的名字由来是受到了句子问答任务中记忆网络的启发,在加入注意力机制的基础上结合记忆助手的方法构建出的新模型,能够进一步提升各项评价指标。实验对比了编码器端不同的卷积神经网络,如Inceptionv3、Inception-v4、Inception-Res Net-v2对中文图像描述的影响,对比了解码器端不同的循环神经网络,如LSTM、GRU对中文图像描述的影响。实验发现不同的卷积神经网络对于各项评价指标的影响明显不同,针对当前卷积神经网络模型层次深、参数多、计算量大的问题,本文提出了一种轻量级的卷积神经网络模型BCNN(Bifurcate CNN),BCNN的名字是因为该模型中采用了有较多分叉路径的模块。该模型共有36个卷积层,模型总参数为22015628,相比较于有47个卷积层,总参数量为24734048的Inceptionv3模型,甚至比较于有上百个卷积层,更多参数量的Inception-v4模型、Inception-Res Net-v2模型,称为轻量级的模型,模型结构借鉴了Resnet和Inceptionv4的思想,提出了过渡模块,它的主要作用是从堆积的卷积层模块过渡到分叉模块,实验表明BCNN模型提升了图像描述任务的各项评价指标。
其他文献
工业硅由于其丰富、无毒且较成熟的加工技术,在下游多晶硅、有机硅及硅合金行业占有至关重要的作用。其夹杂物微观结构与分布不仅直接决定杂质的湿法浸出效率,而且对下游有机硅单体合成的效率及品质起到决定性因素。此外,夹杂物微观结构对西门子法和硅烷法提纯多晶硅过程也具有一定影响。因此,研究硅中夹杂物微观结构与分布则尤为重要。本文针对硅中夹杂物微观结构与赋存状态,系统研究了电磁强化–湿法浸出技术强化杂质去除及对
开关电源以其效率高,体积小,功耗低等优点广泛应用于计算机系统、通信设备、军事装备等领域,在其工作过程中功率开关管的高频通断会引起很大的瞬变电压/电流,与电路中的寄生参数相作用产生电磁干扰。随着开关电源高频化、小型化、模块化的发展趋势,其EMI问题愈发严重,不仅影响自身正常工作,还会污染周围电磁环境。因此如何准确预测和有效抑制开关电源EMI,改善系统EMC性能是目前研究的重点和难点。本文以DC/DC
推荐系统对于在线商业系统是一种非常重要的工具,能够在用户没有明确目标的情况下帮助他们发现感兴趣的内容,提供个性化的推荐服务。推荐系统的核心是推荐算法,在众多算法中,
我国个人所得税自1980年开征,此后个人所得税的征管一直是我国税收工作的重点内容,2018年个人所得税改革后,个人所得税的征收模式由分类制向综合与分类相结合的模式转变。在新的个人所得税征收模式下,哈尔滨市个人所得税增加了必要的专项附加扣除,个人所得税在增加税收收入和实现社会公平方面发挥着重要的作用。然而,哈尔滨市个人所得税在征收管理方面还存着税收收入增长缓慢、基层征管力量薄弱、信息化征管不高、申报
随着云计算、大数据在全球范围内的广发应用,数据中心的数量和规模不断增长,其高能耗、高费用等问题日益突出。越来越多的数据中心运营商尝试利用风能或太阳能等可再生能源为其数据中心供电。然而,可再生能源具有间歇性和随机性,给数据中心的供电管理带来了诸多挑战。虚拟电厂能够整合大量的可控负荷、分布式电源以及储能等多种分布式能源,为数据中心的能量管理提供了有效的途径。本文在虚拟电厂环境下,基于随机规划,重点探讨
随着传统汽车造成的环境污染危机愈发严重,纯电动车和可再生能源受到人们越来越多的关注。相应地,质子交换膜燃料电池(PEMFC)由于较高的能量转换率(30%~60%),运行噪声小和环境友好的特点,并且凭借高能量密度的优势,在新能源汽车发展中有巨大的潜力。通过引入动力电池组可以弥补燃料电池电动汽车无法回收制动能量、启动速度慢和输出特性偏软的缺点。双动力源可以使燃料电池混合动力汽车发挥更好的动力性,但是如
随着我国经济社会的高速发展和城市化进程的推进,机动车的数量日益增加,随之带来的城市交通问题也日益凸显。诸如交通拥堵、交通事故和汽车尾气造成的环境污染等问题,对城市区域路网的通行效率和市政交通管理都造成了严重的影响,城市交通管理者们迫切需要寻找合理高效的交通管制方案解决这些问题。而在影响城市区域交叉口通行能力的众多因素中,交叉口信号灯优化控制是至关重要的因素之一,也是现代交通管理的主要内容。利用在线
进入21世纪以来,我国经济快速发展,环境污染、生产隐患、资源浪费等问题随之产生且日趋严重。社会公众高度关注企业履行社会责任。能源企业作为我国国民经济支柱性产业,它关
随着人工智能技术的飞速发展以及知识图谱在垂直领域应用技术的成熟,知识图谱在医疗领域有着广阔的应用前景。医疗知识图谱可以帮助医生做决策、帮助大众了解疾病常识、帮助病人了解患病情况,知识图谱在医疗领域的价值不仅仅是一个医学知识库,更重要的是提供诸如医疗智能搜索等功能,是辅助诊疗的基础。随着医学信息化水平的提高以及大数据的发展,医疗领域积累了大量未被充分利用的数据,构建医疗知识图谱可以充分挖掘数据的潜在
随着建筑业的快速发展,因升降机人数超标而导致的重大安全事故时有发生,给国家和人民生命财产造成重大损失。论文设计了一种基于人数检测的施工升降机安全监控系统。论文讨论了远红外信号的空间传输通道问题,详细设计了安装传感器的多腔体结构。设计了远红外人数检测模块和升降机安全监控模块的硬件电路,包括ARM处理器电路、远红外信号调理电路、重量和高度传感器调理电路、NB模块连接电路、声光报警电路、升降机供电控制电