基于深度神经网络的图像描述系统设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:iloveshe1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉是人类从外界获取信息的重要组成部分,视障人群通过触摸感知物品有许多限制。为了帮助视障人士通过获取图片中的关键信息进而感知周边环境,需要利用计算机自动对图像内容进行识别,提取图片中的关键信息,进而生成一句对应的文字说明。为视障人士提供日常生活场景中的有效信息,并将结果通过声音传递给用户。对图像进行内容理解生成文本描述并转化为语音,涉及到图像描述生成和文本转语音两项技术。图像描述生成,属于图像理解与自然语言生成领域相结合的一个具体问题。目前,描述生成模型多采用基于Encoder-Decoder框架的深度神经网络结构,对图像理解和文本生成做端到端的训练。编码部分,使用深度卷积神经网络模型提取图像特征,将图像编码成一个固定长度的中间向量表示。解码部分,基于带长短时记忆单元的循环神经网络结构来构建语言模型,同时将中间向量解码成对应的文字描述。目前在提取图像特征部分,多基于迁移学习的思想,使用在图像分类问题上预先训练好的模型,如常用的VGG-Net模型,在此基础上对参数进行微调。但VGG-Net算法存在图像分类不够准确和对单张图片处理时间过长的问题。而基于Inception单元和残差单元的Inception-ResNet-v2模型,在增加卷积网络深度的同时减少了需要学习的参数数量,提高了图像分类的准确率并降低了模型处理图片的时间。基于Inception-ResNet-v2和长短时记忆循环神经网络构建的图像描述生成模型,能够满足系统对单张图像处理的速度要求。在此基础上,结合开放的文本转语音技术,基于Android平台实现了一款帮助视障人群感知环境的移动端应用程序—Image2Voice自动图像语音描述应用。调用智能手机的内置摄像头捕捉用户需要理解的视觉信息,上传用户拍摄的图片至后台,再对其进行特征提取、生成对应的自然语言文字描述,随后将描述结果发回给移动端。调用文本转语音功能将描述文本转为语音,通过声音将对应的图片内容的说明告知用户。
其他文献
目的 探讨3D打印技术(three-dimensional printing,TDP)在手术治疗跟骨骨折中的临床应用及疗效。方法 回顾性研究武汉大学中南医院2013年2月-2016年1月收治的80例SandersⅡ、Ⅲ
通过对闭合导体回路在匀强磁场中匀速转动时产生感应电流方向的分析得出:一般情况下,闭合回路中感应电流的方向。并非总是与引起感应电流的磁通量的变化反相。而有一相角φ同
时光荏苒,伴随着社会的进步与科技的飞速发展,软件行业在我国政府的大力支持下发展的如火如荼,经济活动也随之越来越多。在资本市场中,企业作为特殊的商品,其所需要经历的一
裸体艺术这个专题,八十年代末谈得够充分的了。又出著作、又发文章、还捐展览,热潮席卷全国,影响波及世界。美术领域的问题基本都涉及到了。作为一个学术界重视并引起社会广
楼梯间作为多层和高层建筑的竖向逃生通道系统,是火灾发生时楼层人员主要的逃生途径。目前楼梯间的设计主要考虑健康人群的疏散,几乎所有的楼梯间都没有考虑到弱势群体的疏散
住房公积金制度在全国的均衡发展,关系到中低收入阶层的住房保障,关系到制度的整体可持续发展,关系到国家的社会政治稳定。随着经济环境与房地产市场的变化,制度的封闭运作模
政策措施落实情况跟踪审计,是国家审计在当前乃至今后的一项重要任务,是审计机关的一项法定职责所在。近年来,栖霞市审计局持续开展政策措施落实跟踪审计,取得了一定成效,但
目的比较利伐沙班与间歇充气加压泵联合弹力袜两种方案预防腰椎融合术后患者静脉血栓栓塞症(VTE)的效果。方法选择2013年1-7月行腰椎融合术后患者203例,随机分为口服利伐沙班预