论文部分内容阅读
随着科技和社会的不断发展,人们的日常活动越来越倾向于在室内环境下进行。理解用户所处的室内场景,有助于为用户提供更加智能可靠的服务。然而,相比室外空间,室内空间往往更加复杂多变。无论是在室内情景下的场景识别还是定位导航都面临着巨大挑战。近年来,研究者们针对视觉识别问题开展了大量研究,提出了多种基于卷积神经网络的识别方法,有效地将目标识别精度提高到了接近人类水平。然而,对于场景识别尤其是室内场景的识别,一方面相关的研究较少,另一方面已有的研究中也存在着大量需要解决的问题。包括:(1)传统人工定义的全局特征结合局部特征的方法对室内场景的表达存在着明显不足,使得相应的室内场景识别精度普遍较低。(2)缺乏大规模标注好的室内场景数据集,因而无法使用卷积神经网络从初始状态对室内场景进行表征学习。(3)现有的场景识别方法大多基于监督学习来实现,而基于非监督或半监督的相关研究较少。另外,在室内定位领域,尽管基于信号指纹的方法不需要部署额外的设备,在一些结构简单的场景下能够获得较好的定位效果。然而,由于室内环境的复杂性以及信号传播的不稳定性,使得该方法在部分复杂场景下无法得到稳定精确的定位结果。另外,基于位置-信号指纹库的定位方法也存在着维护和更新困难的问题。针对上述问题,本文首先从监督学习和非监督学习两个角度研究了相关的室内场景识别方法。其次,为了进一步探索室内场景信息在位置服务中的应用以及更好地解决现有室内定位系统中定位不稳定的问题,本文提出了一种基于场景识别的多源融合室内定位方法。文章的主要内容及创新点包括:(1)研究了基于大规模室内场景数据集和卷积神经网络的室内场景识别方法。从监督学习的角度,本文分析对比了多种深度卷积神经网络结构,使用三种不同的策略来解决基于视觉的室内场景识别问题。包括使用大规模的室内场景数据从初始状态训练深度卷积神经网络模型;在预训练模型的基础上,通过网络微调方法训练室内场景模型;通过将预训练模型作为特征提取的工具,使用简单机器学习分类器来进行室内场景识别。在这一过程中,由于从初始状态直接训练深度卷积神经网络模型需要大规模的训练数据,而目前还没有专门针对室内场景的大规模图像数据集。因此,本文在已有数据集的基础上对室内场景数据进行整合,得到了数据量在百万级别的大规模室内场景数据,并提出了对数据集进一步扩充和优化的方法。该研究一方面对室内场景识别问题的研究范围进行了拓展,分析了大规模室内场景数据集上的识别效果。另一方面,对基于卷积神经网络的监督式视觉表征学习方法进行了深入的探讨和分析,为更好地解决室内场景识别问题提供了基础。(2)提出了基于非监督学习的室内场景识别方法。在该研究中,本文提出了基于非标注数据的视觉表征学习方法,通过在非标注数据之间构建k-NN图来挖掘样本之间的内在关系,从而得到正负样本对。然后将挖掘出的正负样本对作为输入数据,引入用于二分类的孪生卷积神经网络(Siamese ConvNet)来实现基于室内场景数据的视觉表征学习。最后再将训练好的孪生卷积神经网络作为特征提取器,结合简单的线性SVM分类器得到室内场景识别模型。该研究针对室内场景识别中标注数据不足的问题,结合室内场景数据类内差异大、类间差异小的特点,提出了基于k-NN图约束条件及孪生网络的非监督视觉表征学习方法,从而使得基于少量样本的室内场景识别成为可能。(3)提出了基于场景识别的多源融合室内定位方法。本文在现有的多源融合室内定位系统的基础上,增加了场景信息来进一步约束定位过程,以提高定位系统的精确度和稳定性。该系统可分为离线采集和在线定位两个阶段。在离线阶段,系统将根据不同场景来采集多源传感器数据并记录用户轨迹,从而构建以场景信息为索引的层级式位置指纹库。在在线阶段,通过识别用户当前所在的场景可将定位区域快速缩小至该场景,从而减少不同场景中因信号不稳定或特征相似而产生的误匹配现象。该方法建立位置指纹库时无需像传统方法一样设置密集的位置参考点,并在每个点停留较长时间来获取稳定的信号指纹,过程相对简单且易于更新和扩展。通过场景信息的约束,很好的解决了Wi-Fi、地磁信号等不稳定和容易混淆的问题,提高了系统的稳定性和定位精度。总的来说,本文首先分别从监督学习和非监督学习两个角度研究了相关的室内场景识别方法,从而以不同角度来解决这一具有挑战性的问题。另外,针对室内场景下定位困难的问题,本文提出了将室内场景识别应用于多源融合定位系统的方法,从而提升了相应的室内定位精度并为构建更加普适的室内定位系统提供了新的策略。因此,本文的相关研究从理论和应用两方面来看都具有重要意义。