基于深度学习的场景识别方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:piaobozaiwai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展与科技的进步,人们对机器人技术的要求已经不再是仅仅满足于简单的重复工作,而是提出了更多智能化的要求。人类80%以上信息的获得来自视觉,因此,基于视觉的场景识别与理解是使机器人认识周围环境、提高其智能化水平的关键。而特征提取是场景识别方法中的关键步骤。现有文献的场景识别方法大多采用局部特征,然而,由于局部特征多为人工定义,且提取过程中多有人为干预,因此特征中往往不能全面的包含原始图像中的隐含信息。近年来,深度学习在机器学习领域获得了广泛关注。它在原有的人工神经网络的基础上,利用逐层贪婪算法在加深网络结构的同时,最大程度的回传模型的残差,以提高模型在特征提取时的生成特性。深度学习提取到的全局特征,包含了原始图像中的隐含信息,且特征提取的过程为无监督学习,不需要大量的有标签数据,更适合于实际应用,并在手写体数字识别和物体识别领域取得了令人满意的结果。但是,现有文献中的深度学习算法多是用于处理小尺寸的图像,不适合处理大尺寸自然场景图像。本文针对机器人环境认知问题,研究基于深度学习的场景识别方法,主要内容包括:  (1)提出了一种融合中心因子的卷积限制玻尔兹曼机的场景识别方法:首先,针对卷积限制玻尔兹曼机的参数训练过程存在不稳定性的问题,在卷积限制玻尔兹曼机模型的参数训练过程中引入中心因子,构建融合中心因子的卷积限制玻尔兹曼机,增强模型训练过程的稳定性;然后,为了获得更深度的模型,利用卷积限制玻尔兹曼机建立融合中心因子的深度信念网络模型;最后,利用Softmax分类器实现场景识别。实验结果表明,所提出的方法提取到的特征更加准确,并包含更多原始图像中的细节信息,在不同场景数据集上取得了更高的识别率。此外,所构建的模型利用权值共享,减小了模型参数数量,降低了运算复杂度。  (2)提出了一种基于卷积神经网络与深度玻尔兹曼机的场景识别方法:首先,利用卷积神经网络对大尺寸场景图像进行预处理,经过多层卷积神经网络模型,可以实现原始图像尺寸的缩小并获得卷积特征;然后,将预处理的结果作为深度玻尔兹曼机的可视层输入,进行特征提取;最后,利用Softmax分类器实现场景分类。相较于传统的预处理方法,卷积神经网络能够获得更好的特征信息,而深度玻尔兹曼机模型可以实现参数由上至下和由下至上的两个更新过程,因此输出层的残差可以更加准确的传递回输入层。实验结果表明,与池化预处理方法相比,利用卷积神经网络进行图像预处理,保留了更多的原始图像细节,得到的结果图像也更加清晰,我们的方法在不同场景图像数据集都得到了较高的识别率。但是,研究过程发现,卷积神经网络的计算局限于规则区域内,无法在复杂的场景图像中取得良好的效果。  (3)提出了一种基于超像素与深度玻尔兹曼机的场景识别方法:首先,利用基于简单线性迭代聚类算法对图像进行预处理,将在距离以及颜色上相似的像素点聚集,形成超像素,打破了原有预处理算法受到规则区域的限制,使得原始图像中物体轮廓更加清晰,有效处理复杂场景图像;然后,将每个超像素作为深度玻尔兹曼机的可视层节点,利用限制深度玻尔兹曼机对场景图像进行特征提取;最后,利用Softmax分类器进行特征分类,实现场景识别。实验结果表明,基于超像素的预处理方法可以提高复杂场景图像的处理效果,使得图像中的物体轮廓更加清晰,在多个室内外场景数据集的实验中,我们所提出的方法都取得了最高的识别率。  (4)基于深度学习的场景识别系统原型软件的实现:为了便于在不同数据集上实现算法的研究与结果分析,在算法研究的基础上,我们设计并实现了基于深度学习的场景识别系统原型软件。按照其工作流程,系统主要包括模型训练模块、模型测试模块和识别结果显示模块。该软件满足了场景识别中所需要的功能,可以实现对任意场景图像的识别,并可以直观显示识别结果。
其他文献
该论文的工作是基于教委主持、组织鉴定项目-"OnView工控组态软件"展开的.作 者主要研究工作包括软件框架设计、组态软件控制算法的研究、软件包运行数据库的实现以及软件包
在目前阶段,模糊系统的理论研究仍然存在一定的问题,模糊系统理论仍然缺少一套比较完整的体系结构,在很多方面如模糊控制的稳定性,鲁棒性,模糊系统辩识中的结构参数优化等,很
随着装备制造业信息化程度的不断提高,数控机床在机加工生产线中的应用愈加广泛,要实现机加工生产线的低成本信息化管理,实时掌控生产线中各类数控机床的运行状态及加工数据就显
污水处理过程是一个集物理沉降、化学反应、生物降解为一体的复杂工业过程,容易受到进水水质、水量以及污泥负荷等扰动因素的影响,从过程控制的角度来看,污水处理过程具有多扰动
DNA技术的发展,给肿瘤疾病患者带来了福音,但是产生的基因表达谱数据规模日趋庞大,已经超出人们的认知范畴。人们获得的肿瘤基因表达数据大部分具备“高维小样本”的性质,如何从
该文从方法、软件和应用几个方面对复杂系统辨识进行了一些探讨,主要内容为:1.几类复杂系统的辨识方法研究.(1)针对噪信比高的线性系统,提出了一种基于多分辨分析和正交基展
随着机器人应用范围的日益扩大,其面临的环境也越来越恶劣,这对机器人的地形适应能力和自主运动能力提出了更高的要求。蝗虫的跳跃具有速度快、距离长、能耗少、对地面环境要
该文概述了异构数据库转换管理系统(HDBCMS)的理论基础和实现技术,提出了系统体系结构的实现方案;详细地阐述了作为HDBCMS重要组成部分的基于不同数据库系统(ORACLE、SYBASE
该文针对张力控制系统,设计了这三种方案,在线计算量大大减少,并讨论了误差在线补偿系数的关键作用.该文还对这三种方案进行了比较,分析了各自的特点和适用范围,提出了对意外
当前有关行机群系统的各项研究中,以NASA的Beowrlf项目的应用得最广泛.该文主要介绍了Bewrlf机群系统PCC-32的研制与性能测试过程.文章首先从分析简单机群系统软件硬件结构开