空间大数据中的不确定性分析与数据质量控制

来源 :武汉大学 | 被引量 : 0次 | 上传用户:bkln81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自“大数据”的概念在2005年被提出以来,“大数据”在全球范围内的学术界和商业界掀起一股革新的热潮。空间大数据(SBD)特指具有空间信息的大数据。智能技术和传感器技术的快速发展使得空间大数据成为了目前最具价值的空间产品之一。SBD可以被分为对地观测大数据与人类活动大数据两类。目前,运用先进的技术手段从SBD中提炼知识已经成为学术界以及相关产业中的重要范式;SBD也在地球科学,城市学,环境科学等多个科学领域持续推动着创新。不确定性被普遍认为是存在于空间数据研究中最重要的元素之一。不确定性广泛存在于空间数据生产和分析的全过程当中。对不确定性的不当处理可能会得到错误的结论并且造成巨大的损失。在过去的几十年间,针对空间数据以及空间分析的不确定性理论以及方法研究已经取得了显著进展,并在近年来被进一步扩展至空间数据与空间分析的可靠性研究中以满足应用层级对于可靠性的广泛需求。由于SBD庞大的数据量,涉及众多的数据类型以及复杂的不确定性问题,传统的不确定性分析方法,尤其是涉及大量人力,辅助信息以及个人判断的方法,在应对SBD不确定性问题时变得低效甚至无效。针对这一问题,本文旨在利用数据挖掘技术,提出一些高效并且较少依赖于外部资源的分析方法,用于特定种类SBD的不确定性评估,建模以及数据质量控制。空间矢量数据、轨迹数据和空间时序数据是SBD中最具代表性的数据类型,在实际应用中具有重要意义。本文将针对这三类数据中最显著的不确定性问题进行深入研究。质量评估与控制(QAC)是降低空间数据生产环节中数据不确定性以及提高可靠性的必要手段。传统的QAC方法通常会使用参考数据进行直接对比从而对待检数据进行质量检验。然而,在SBD的范畴下,完整且精确的参考数据通常是难以获取的。造成这种现象的原因很多,例如数据覆盖面积过大而无法获取完整参考信息或者受到行政边界的影响而丧失参考数据的权限。为了使QAC在SBD生产中顺利进行,开发减少参考或无参考数据的QAC方法是有必要和有前景的。因此,本研究首先针对实践中最普遍的多层矢量数据结构,提出了一种无参考方法用以定位矢量数据中的潜在质量问题。该方法利用空间关系的复杂度作为间接指标用于潜在错误的识别。研究首先对复杂地区更容易出现质量错误这一普遍认知进行了讨论。随后建立了贡献度函数用以描述单层矢量数据对于复杂度的贡献度,并进一步将该贡献度作为输入来描述多层矢量数据所造成的总体复杂度。根据在真实数据以及模拟数据上的实验结果,所提出的新方法能够比传统方法提供更真实的复杂度量化结果。同时,该方法中所生成的复杂度地图可期为大范围矢量数据的QAC提供有用信息并辅助人工检查。为进一步将无参考QAC的思路扩展到单层矢量数据,本研究提出了一种检测土地利用与分类数据中潜在分类错误的无参考方法。在该方法中,相同地类的图斑被认为具有相似的光谱和纹理特征。考虑到生产尺度对于图斑内部光学特征的影响,一种自适应的分割策略被设计用来获取具有高同质性的分割结果并进而提取空谱特征。然后,本文设计了一种聚类方法策略用以对分割结果进行聚类并尽可能保守地对其中异常情况进行识别。最后,通过每个图斑内部分割结果的聚类和异常的统计结果,本文提出一种全新的基于熵的指标来描述图斑为分类错误的似然度。通过与经典方法在真实地表覆盖数据集上的实验比较,本文所提出的方法被证明对真实的分类错误具有更高的识别精度。在传统分类数据的QAC过程中,数据生产标准所带来的不确定性往往被认为是可忽略不计的。然而,由于SBD巨大的数据量,忽略这类不确定性可能会给最终的统计结果造成巨大影响。因此,本文针对数据生产中最小上图面积这一普遍性规定所可能导致的分类误差提出了一种不确定性评估方法。为实现评估,本文首先对图斑面积的分布进行了假设并在开放数据集上进行了验证。然后,本文提出一种基于曲线拟合的手段用以确定最优分布并随之对遗漏误差进行评估。随后,根据遗漏误差的估计值以及数据内图斑的空间邻接关系,可得到各地物类型的多余误差。最终,数据的混淆矩阵得以构建并进而用于数据分类精度的评估。通过在真实地表覆盖数据上进行实验,该方法被证明能够有效地评估大部分地物类受到最小上图面积指标的影响。对于SBD中的人类活动数据而言,轨迹数据和空间上的时间序列数据是最常见也是最具有代表性的两种数据类型。这两类数据被广泛用于人类行为分析,行动力分析,公共交通研究等方面。因此,本研究着重对这两类数据中最突出的不确定性问题进行了研究。针对轨迹数据,本研究重点对轨迹中采样误差以及量测误差进行不确定性建模。不确定性模型是轨迹数据研究与应用中的重要内容,是轨迹数据的许多应用,包括空间查询以及轨迹数据可视化,的重要方法。为了减少目前方法所产生的误差椭圆中的冗余不确定性区域,提高结果的可靠性,本研究通过分析轨迹数据内部所呈现出的行为特点,提出了一种基于闵可夫斯基距离的自适应误差椭圆模型来表示轨迹数据采样所造成的位置不确定性。本研究进一步考虑量测误差,提出了一种自适应的宽误差椭圆模型,并给出了近似表达该模型的标准椭圆方程的推导。通过在五个真实轨迹数据集上的实验以及与先进方法的比较,所提出的不确定性模型被证明能够在保持高精度水平的前提下,显著减少不确定性区域的大小,提高结果的可靠性。为说明该方法的应用价值,所提出的模型被进一步应用于轨迹相似性分析的实例当中并能够显著提高分析的精度。最后,本研究分析了空间时间序列数据中的不确定性,并着重对其可预测性进行了研究。为降低人类活动中随机性对于时间序列可预测性评估的影响,本文基于熵与时间序列分解方法,提出了一种新型的可预测性评估方法并在真实的地铁人流量数据集上进行了测试与验证。结果证明所提出的方法相较于传统方式能够反映与真实可预测性结果相关性更高的评估值。为了进一步探索可预测性在提高预测模型效率方面的应用,本研究提出了一种基于不确定性的损失函数,并在经典的长短期记忆网络模型中进行了实现。实验结果显示所提出的损失函数能够显著地提高预测精度。该方法在理论上具有通用性,可扩展至SBD中其他的时间序列数据。总体而言,不确定性将长期处于未来SBD研究中的重要位置。结合数据挖掘技术对现有的不确定性分析方法进行改善有利于提高SBD不确定性分析与数据质量控制的可行性和执行效率,并能够最终达到提高相关应用的可靠性的目的。
其他文献
肿瘤被认为是威胁人类公共健康重大疾病之一。近年来,肿瘤免疫治疗是一种新兴的治疗策略并取得了突破性的进展。肿瘤免疫治疗旨在激活免疫细胞,调节免疫系统来抵抗肿瘤。在临床上,几种免疫治疗剂已用于肿瘤治疗。但是,免疫治疗的广泛应用仍存在很多问题。例如,T细胞难以进入到实质肿瘤中、肿瘤微环境对免疫细胞功能的限制和活性的降低、靶抗原表达缺失等。总之,这些因素限制了参与肿瘤治疗的免疫细胞数量和活性。而纳米材料凭
有机合成化学是人类社会的物质支撑,人们生活的方方面面都与合成化学的发展息息相关。传统的交叉偶联反应往往需要对底物预官能化处理,而在氧化条件下直接实现R1-H/R2-H的脱氢偶联反应无疑是非常理想的反应模式。电化学有机合成历史悠久,最早可以追溯到十九世纪三十年代,近些年来,有机电化学合成方法学迎来了蓬勃发展。电化学氧化可以通过调控阳极氧化电势实现底物分子或氧化还原介质在电极表面的活化,无需加入额外的
本文主要介绍新的非交错中心格式(NUCS格式)、修正静水重构格式(MHR格式)、水面重构格式(SR格式)、和界面静水重构格式(IHR格式)求解浅水及其相关的双曲型偏微分方程组的初边值问题。NUCS格式与MHR,SR和IHR格式都属于有限体积法并且MHR,SR和IHR格式都属于迎风格式。非交错中心格式与迎风格式的核心区别在于:迎风格式需要近似的或是精确的黎曼求解器来定义数值通量函数,非交错的中心格式
质子交换膜燃料电池(PEMFC)具有结构紧凑、能量转换效率高、零排放等优点,近年来得到快速发展,但由于其使用昂贵的Nafion膜以及Pt基贵金属催化剂,该类燃料电池造价高昂,大规模应用受到严重限制。碱性聚电解质燃料电池(APEFC)的工作环境为碱性,理论上其核心组件均可使用较为廉价的材料,为降低燃料电池的造价提供了可能。目前,APEFC的发展面临许多重要挑战,其中亟待解决的关键问题是发展高性能的全
祭文是礼仪活动中人与鬼神互动的告祝文本,在历史发展中逐渐以表达情感或思想主张见长,兼具礼仪功能和文学价值。论文以明清时期的祭文为研究对象,通过对明清祭文的文本整理、分析,深入到礼仪文化与各社会阶层的历史和内涵之中。在传统文学研究基础之上,侧重发掘明清祭文所具备的社会、思想价值。根据祭文的功能与对应的社会领域,划分出国家礼仪祭文、儒家士人祭文、民间祭文等类型,主要探讨明清时期祭文所反映的社会思潮或历
基因组的不稳定性与发育缺陷、过早衰老、慢性病、癌症以及抗感染能力下降均具有密切的关系。因此,保证基因组的稳定性对于维持人类健康具有重要的作用。人体内或者所生存的外部环境中存在着各种各样的不利因素使细胞内基因组DNA发生不同类型的损伤,比如双链和单链断裂、碱基损伤等,进而导致基因组不稳定。DNA断裂位点精准、高效的修复对于保证基因组稳定性具有非常重要的作用。在生物体内,DNA双链断裂(DSBs)是最
人群定向是通过对用户的行为,找出具有共同特征的潜在用户集合。为了能够帮助企业或广告主挖掘社交网络中潜在用户,本文针对复杂的社交网络关系,进行了不同网络拓扑结构下的潜在用户挖掘研究。本文针对复杂网络的不同拓扑结构,分别就基于用户行为关系网络、基于位置与行为关系的网络和基于兴趣标签与行为关系的网络中的用户挖掘进行了研究,主要研究内容包括:1.基于行为关系网络的用户挖掘,本文重点研究了基于多种行为关系的
当前随着全球经济一体化的发展,越来越多的跨国企业开始将目光放到国际市场上,其通过在海外其他国家中设立子公司或跨国并购的方式来进行海外扩张,从而在国际市场上打造竞争优势。当前,企业的这种海外扩张行为得到了学术界和商业界的广泛关注。即使是对于跨国企业来说,他们绝大部分的生产经营活动却依旧是在母国市场中完成的,也就是说跨国企业具有很高程度的母国足迹。而跨国企业在母国市场上的经营情况是否能够对其后续的海外
胚胎是一个新生命的开始,胚胎发生和发育受到极其严格且精细的调控,以保证传宗接代正常进行。无论动物还是植物,胚胎都被母体组织层层包裹,多年来的研究揭示了胚胎发育过程中周围母体组织形成的微环境对胚胎发育至关重要,特别是早期胚胎发育极其依赖于这种微环境所传递出的发育信号。对动物胚胎的研究表明,母体-胚胎间存在着复杂的信号交流。母体组织发育缺陷或母源性信号分子异常会导致胚胎发育异常或胎源性疾病。植物胚柄连
虽然生成对抗网络(Generative Adversarial Network,简称GAN)已经被广泛应用于很多实际领域,但是GAN仍然存在缺陷导致无法生成高质量的模拟数据。虽然当前GAN的变体尝试解决这个问题,但是他们在实际运用中仍然存在不少问题。现存的GAN的变体或存在梯度负数(如WGAN)或者生成的数据仍然存在相同图片或者图片模糊等问题(如MGAN)。本文研究的对象主要是在三个方面,即如何解