基于深度学习的图像描述模型研究及应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhangchenglin427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来图像描述生成技术逐渐成为一个新的研究热点。图像描述主要是研究通过机器理解图像内容并生成描述文本的方法。然而,图像的机器解读常常会受到图像自身背景等非显著性信息干扰,使得图像描述容易产生偏差。本文提出了一种多重注意力的图像描述模型,采用Faster rcnn提取图像特征作为编码层,用多重的注意力模型LSTM-Attend进行解码,生成描述文本,并采用强化学习中的策略梯度优化来对模型中的参数进行优化,模型在常规图像数据集的实验结果验证了模型具有很好的图像理解和描述文本生成能力,生成文本效果优于目前流行的同类模型。此外,针对医学图像诊断文本生成领域中的深度学习训练过程中容易出现信息遗忘和损失的情况,本论文搭建了一个多模态汇聚层有效地将医学图像信息和文本信息进行融合,并在此基础上提出一种反复回看的图像描述方法,在encoder-decoder框架上,将医疗图像抽象为向量化的表达,作为解码层LSTM的初始向量,同时在解码的过程中,采用多模汇聚方式,该模型在X射线医疗影像数据集上验证了模型的有效性,与当前同类模型相比,具有更好的性能。本文所提出的两个基于图像描述生成的深度学习模型,分别在常规图像数据集及医疗图像数据集上进行实验验证,实验表明,采用多重注意力机制在编码层可有效避免非显著性信息的干扰,也可以为解码过程中选择性地输出相对应的描述文本。而采用的反复回看方法,及多模态汇聚能有效融合信息,对整体性能起到了明显提升的效果。
其他文献
在当前全球可持续发展思潮的影响下,人们已开始认识到旅游发展必需摆脱过去的模式,走一条可持续发展的道路,而实现旅游可持续发展的最佳途径即为开发生态旅游.然而目前我国生
在法语教学过程中,时态始终是重点和难点,尤其是直陈式复合过去时、简单过去时和未完成过去时这3个时态。什么时候使用完成体时态(复合过去时、简单过去时),什么时候使用未完
1993年以来,我国高职教育在高等教育改革地推动下得到了迅猛发展,无论办学规模,还是办学质量,都得到了迅速扩张和大幅度提升,但与构建现代职业教育体系相比,还存在较大差距,
目的:构建社区2型糖尿病患者5年内首次发生心脑血管事件的风险预测模型。方法:选取社区内未发生过心脑血管事件的2型糖尿病患者323例作为研究对象,所有样本均来自深圳市社区
目的:建立凉茶中绿原酸、新橙皮苷、甘草酸的高效液相色谱测定方法。方法:采用ZORBAX SB-C18柱(4.6×250 mm,5μm),以乙腈-0.1%磷酸溶液为流动相,梯度洗脱,流速1.0mL/min;进
目的探究胺碘酮在心律失常中的应用。方法以我院2017年12月~2018年12月收治的23例心律失常患者为本次临床探究对象,分析胺碘酮在心律失常方面的治疗效果。结果本次治疗的有效
编者按:节能减排,始终是纺织行业的热点话题。面对现阶段水资源的短缺和成本上升的影响,使用喷水织机的长丝织造企业,排放的废水处理问题成为业界关注的焦点。近年来大多数企业为
报纸
在英汉两种语言交流过程中,惯用语使用的频率很高,但在使用过程中惯用语出现的错误也很多。对英语和汉语的习惯表达进行研究和探讨,无论是对语言学习者和语言研究者都有十分重要
分别采用水蒸气蒸馏萃取法和同时蒸馏萃取法提取款冬花的挥发油,鉴定出其中的10种和20种化合物,占总峰面积的88.42%和82.03%,而其中相同的化学成分有7种,主要是β-红没药烯和