论文部分内容阅读
视觉器官在人类获取信息时起到非常重要的作用,人工视觉假体通过向盲人体内植入电极,激发盲人剩余视觉神经功能并产生光幻视。视觉假体辅助盲人识别的物体边缘轮廓比较模糊、分辨率低,为了使盲人清楚地识别周围每一个熟悉的物品,在人工视觉系统获取外界图像之后,通过图像分割技术把物品大致的位置和轮廓显示出来,帮助盲人识别。针对室内应用场景的特点,本文提出一种快速卷积神经网络的图像分割方法对室内场景图像进行分割,构建了用于室内场景图像分割的FFCN(Fast Fully Convolutional Networks)网络,其采用Add技术的层间融合方法,优于Concat技术方法,可以减少网络计算参数量,避免连续卷积对图片特征信息的损失。为了验证网络的有效性,创建了室内环境中的基本生活物品数据集(以下简称XAUT数据集),在原图上通过灰度标记每个物品的类别,然后附加一张颜色表把灰度图片映射成伪彩色图作为语义标签。采用XAUT数据集在Caffe(Convolutional Architecture for Fast Feature Embedding)框架下对FFCN网络进行训练,得到适应于盲人视觉假体的室内场景分割模型。为了对比模型的有效性,对传统的FCN8s、FCN16s、FCN32s等模型进行结构微调,并采用XAUT数据集进行训练得到适应于室内场景分割的相应算法模型。实验结果中各类网络的像素识别精度都达到了85%以上,均交并比(MeanIU)均达到60%以上,其中FCN8s at-once网络的Mean IU最高,达到70.4%,但其分割速度仅为FFCN的1/5。在其他各类指标相差不大的前提下,FFCN快速分割卷积神经网络上平均分割速度达到40fps。本文提出的FFCN卷积神经网络可以有效利用多层卷积提取图片信息,避免亮度、颜色、纹理等底层信息的影响,通过尺度融合技术可以很好地避免图像特征信息在网络卷积和池化过程中的损失,相比于其他FCN网络具有更快的速度,有利于提高图像预处理的实时性。