论文部分内容阅读
视觉是人类从外界获取信息的重要组成部分,视障人群通过触摸感知物品有许多限制。为了帮助视障人士通过获取图片中的关键信息进而感知周边环境,需要利用计算机自动对图像内容进行识别,提取图片中的关键信息,进而生成一句对应的文字说明。为视障人士提供日常生活场景中的有效信息,并将结果通过声音传递给用户。对图像进行内容理解生成文本描述并转化为语音,涉及到图像描述生成和文本转语音两项技术。图像描述生成,属于图像理解与自然语言生成领域相结合的一个具体问题。目前,描述生成模型多采用基于Encoder-Decoder框架的深度神经网络结构,对图像理解和文本生成做端到端的训练。编码部分,使用深度卷积神经网络模型提取图像特征,将图像编码成一个固定长度的中间向量表示。解码部分,基于带长短时记忆单元的循环神经网络结构来构建语言模型,同时将中间向量解码成对应的文字描述。目前在提取图像特征部分,多基于迁移学习的思想,使用在图像分类问题上预先训练好的模型,如常用的VGG-Net模型,在此基础上对参数进行微调。但VGG-Net算法存在图像分类不够准确和对单张图片处理时间过长的问题。而基于Inception单元和残差单元的Inception-ResNet-v2模型,在增加卷积网络深度的同时减少了需要学习的参数数量,提高了图像分类的准确率并降低了模型处理图片的时间。基于Inception-ResNet-v2和长短时记忆循环神经网络构建的图像描述生成模型,能够满足系统对单张图像处理的速度要求。在此基础上,结合开放的文本转语音技术,基于Android平台实现了一款帮助视障人群感知环境的移动端应用程序—Image2Voice自动图像语音描述应用。调用智能手机的内置摄像头捕捉用户需要理解的视觉信息,上传用户拍摄的图片至后台,再对其进行特征提取、生成对应的自然语言文字描述,随后将描述结果发回给移动端。调用文本转语音功能将描述文本转为语音,通过声音将对应的图片内容的说明告知用户。