论文部分内容阅读
自“大数据”的概念在2005年被提出以来,“大数据”在全球范围内的学术界和商业界掀起一股革新的热潮。空间大数据(SBD)特指具有空间信息的大数据。智能技术和传感器技术的快速发展使得空间大数据成为了目前最具价值的空间产品之一。SBD可以被分为对地观测大数据与人类活动大数据两类。目前,运用先进的技术手段从SBD中提炼知识已经成为学术界以及相关产业中的重要范式;SBD也在地球科学,城市学,环境科学等多个科学领域持续推动着创新。不确定性被普遍认为是存在于空间数据研究中最重要的元素之一。不确定性广泛存在于空间数据生产和分析的全过程当中。对不确定性的不当处理可能会得到错误的结论并且造成巨大的损失。在过去的几十年间,针对空间数据以及空间分析的不确定性理论以及方法研究已经取得了显著进展,并在近年来被进一步扩展至空间数据与空间分析的可靠性研究中以满足应用层级对于可靠性的广泛需求。由于SBD庞大的数据量,涉及众多的数据类型以及复杂的不确定性问题,传统的不确定性分析方法,尤其是涉及大量人力,辅助信息以及个人判断的方法,在应对SBD不确定性问题时变得低效甚至无效。针对这一问题,本文旨在利用数据挖掘技术,提出一些高效并且较少依赖于外部资源的分析方法,用于特定种类SBD的不确定性评估,建模以及数据质量控制。空间矢量数据、轨迹数据和空间时序数据是SBD中最具代表性的数据类型,在实际应用中具有重要意义。本文将针对这三类数据中最显著的不确定性问题进行深入研究。质量评估与控制(QAC)是降低空间数据生产环节中数据不确定性以及提高可靠性的必要手段。传统的QAC方法通常会使用参考数据进行直接对比从而对待检数据进行质量检验。然而,在SBD的范畴下,完整且精确的参考数据通常是难以获取的。造成这种现象的原因很多,例如数据覆盖面积过大而无法获取完整参考信息或者受到行政边界的影响而丧失参考数据的权限。为了使QAC在SBD生产中顺利进行,开发减少参考或无参考数据的QAC方法是有必要和有前景的。因此,本研究首先针对实践中最普遍的多层矢量数据结构,提出了一种无参考方法用以定位矢量数据中的潜在质量问题。该方法利用空间关系的复杂度作为间接指标用于潜在错误的识别。研究首先对复杂地区更容易出现质量错误这一普遍认知进行了讨论。随后建立了贡献度函数用以描述单层矢量数据对于复杂度的贡献度,并进一步将该贡献度作为输入来描述多层矢量数据所造成的总体复杂度。根据在真实数据以及模拟数据上的实验结果,所提出的新方法能够比传统方法提供更真实的复杂度量化结果。同时,该方法中所生成的复杂度地图可期为大范围矢量数据的QAC提供有用信息并辅助人工检查。为进一步将无参考QAC的思路扩展到单层矢量数据,本研究提出了一种检测土地利用与分类数据中潜在分类错误的无参考方法。在该方法中,相同地类的图斑被认为具有相似的光谱和纹理特征。考虑到生产尺度对于图斑内部光学特征的影响,一种自适应的分割策略被设计用来获取具有高同质性的分割结果并进而提取空谱特征。然后,本文设计了一种聚类方法策略用以对分割结果进行聚类并尽可能保守地对其中异常情况进行识别。最后,通过每个图斑内部分割结果的聚类和异常的统计结果,本文提出一种全新的基于熵的指标来描述图斑为分类错误的似然度。通过与经典方法在真实地表覆盖数据集上的实验比较,本文所提出的方法被证明对真实的分类错误具有更高的识别精度。在传统分类数据的QAC过程中,数据生产标准所带来的不确定性往往被认为是可忽略不计的。然而,由于SBD巨大的数据量,忽略这类不确定性可能会给最终的统计结果造成巨大影响。因此,本文针对数据生产中最小上图面积这一普遍性规定所可能导致的分类误差提出了一种不确定性评估方法。为实现评估,本文首先对图斑面积的分布进行了假设并在开放数据集上进行了验证。然后,本文提出一种基于曲线拟合的手段用以确定最优分布并随之对遗漏误差进行评估。随后,根据遗漏误差的估计值以及数据内图斑的空间邻接关系,可得到各地物类型的多余误差。最终,数据的混淆矩阵得以构建并进而用于数据分类精度的评估。通过在真实地表覆盖数据上进行实验,该方法被证明能够有效地评估大部分地物类受到最小上图面积指标的影响。对于SBD中的人类活动数据而言,轨迹数据和空间上的时间序列数据是最常见也是最具有代表性的两种数据类型。这两类数据被广泛用于人类行为分析,行动力分析,公共交通研究等方面。因此,本研究着重对这两类数据中最突出的不确定性问题进行了研究。针对轨迹数据,本研究重点对轨迹中采样误差以及量测误差进行不确定性建模。不确定性模型是轨迹数据研究与应用中的重要内容,是轨迹数据的许多应用,包括空间查询以及轨迹数据可视化,的重要方法。为了减少目前方法所产生的误差椭圆中的冗余不确定性区域,提高结果的可靠性,本研究通过分析轨迹数据内部所呈现出的行为特点,提出了一种基于闵可夫斯基距离的自适应误差椭圆模型来表示轨迹数据采样所造成的位置不确定性。本研究进一步考虑量测误差,提出了一种自适应的宽误差椭圆模型,并给出了近似表达该模型的标准椭圆方程的推导。通过在五个真实轨迹数据集上的实验以及与先进方法的比较,所提出的不确定性模型被证明能够在保持高精度水平的前提下,显著减少不确定性区域的大小,提高结果的可靠性。为说明该方法的应用价值,所提出的模型被进一步应用于轨迹相似性分析的实例当中并能够显著提高分析的精度。最后,本研究分析了空间时间序列数据中的不确定性,并着重对其可预测性进行了研究。为降低人类活动中随机性对于时间序列可预测性评估的影响,本文基于熵与时间序列分解方法,提出了一种新型的可预测性评估方法并在真实的地铁人流量数据集上进行了测试与验证。结果证明所提出的方法相较于传统方式能够反映与真实可预测性结果相关性更高的评估值。为了进一步探索可预测性在提高预测模型效率方面的应用,本研究提出了一种基于不确定性的损失函数,并在经典的长短期记忆网络模型中进行了实现。实验结果显示所提出的损失函数能够显著地提高预测精度。该方法在理论上具有通用性,可扩展至SBD中其他的时间序列数据。总体而言,不确定性将长期处于未来SBD研究中的重要位置。结合数据挖掘技术对现有的不确定性分析方法进行改善有利于提高SBD不确定性分析与数据质量控制的可行性和执行效率,并能够最终达到提高相关应用的可靠性的目的。