基于区域注意力机制的图像描述算法

来源 :武汉大学 | 被引量 : 7次 | 上传用户:fengk9000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是计算机视觉与自然语言处理的重要交叉领域,是通向机器智能的许多日常情景应用,如图像检索,儿童教育和视力受损人士的生活辅助等的至关重要的一步。随着计算机的硬件性能大幅提升,海量存储空间和GPU超强的运算能力,深度神经网络快速崛起,并在图片分类、目标检测、目标分割等领域取得了巨大突破,为图像描述算法的研究奠定了基础。本文使用深度神经网络对图片描述任务进行设计和建模,并实现了 web服务器端程序,可以对任意图片自动生成对应的文字描述。本文提出了基于区域注意力的图像描述算法。首先使用Faster R-CNN模型中的RPN生成候选区域,然后通过在最后一层共享卷积层进行Rol pooling提取图片特征,最后将图像特征通过注意力机制提供给LSTM生成描述语句。通过将描述生成过程进行可视化,显示了在描述生成过程中注意力的变化,实验表明算法在多个指标下达到目前技术前沿水平。在此基础上基于Flask搭建了图像描述生成的服务器端程序,用户可通过浏览器上传图片,查看机器描述并给出评分。管理员可通过后台查看用户上传图片,对机器描述给出的评分,及描述生成过程中的注意力分布,便于查看算法性能,对算法做进一步改进。
其他文献
以河南省及其下辖18个地级市为研究对象,根据1978—2016年耕地面积和粮食产量数据,采用趋势分析和比较分析方法进行研究。分析查找改革开放四十年河南省耕地面积变化的原因,
在网络经济日益普及的背景下,各行各业的生产与销售均在尝试与互联网结合,烟草行业也不例外,提升营销效率也必须充分利用现代的互联网技术和手段。在传统营销方式限制和不足日益凸显的情况下,烟草企业通过互联网拓宽营销渠道、提升营销效率是必然趋势。目前有很多企业已经将自己产品的营销与互联网进行结合了,但是在结合方式以及运用效果上却参差不齐,有的企业能够很好的发挥网络营销的优势,促进自己营销效果以及经营绩效的提
构造性和演化性是软件的两个基本特性.软件演化由一系列复杂的变化活动组成.软件演化的复杂性决定了对软件演化的研究首先应从宏观层面入手.软件体系结构SA作为软件的蓝图和
会计报表是企业集团规定编制的正式财务报表,是投资者判断企业集团投资价值的重要依据。本项目首先研究合并会计报表准则的变化及我国合并会计报表准则的提出,再对比分析修订
社会经济发展下医药企业面对的市场问题日趋严峻,医药企业自身的规模、效益以及厂房原料药的特殊性,对工程设计者和管理人员提出了更高要求。本文作者从原料药GMP生产线的厂房
分析珠宝产业升级趋势,提出珠宝业人才培养机构需了解自身的优劣势,整合可利用的资源,确定人才培养的方向和定位。
强度和耐久性是限制多孔沥青混合料应用的主要因素,本文通过大量试验证明OGFC-13的抗压回弹模量、抗剪强度、残留稳定度及疲劳作用次数与其压实度密切相关,提高压实度能有效
目的:探讨通心络胶囊对老年冠心病心绞痛患者血脂水平的影响及其临床疗效分析。方法:选择我院2017年10月-2018年9月间收治的74例老年冠心病心绞痛患者,采用随机数字法分为对
根据篮球运动的特点,结合运动员篮球比赛意识形成的过程,对篮球运动员意识的培养进行探讨。认为比赛意识的形成是一个较为复杂、细腻的,需要长期学习、培养的连续性的过程,是
内蒙古自治区作为全国五大牧区之一,是我国重要的畜牧业生产基地,其中,肉羊养殖产业不仅是内蒙古的优势产业,更是广大牧民赖以生存的物质生活基础。近年来肉羊的养殖成本与价