论文部分内容阅读
近年来,随着全球定位系统、传感器和移动设备的普遍使用,非时空数据和时空数据急剧增加,加之时空数据处理更为复杂,使数据处理任务日趋繁重的形势更加严峻。 标准的原始时空数据是一系列带有时间戳的空间信息,而来自不同区域、不同设备、不同记录者和不同方式产生使这些数据产生了极大的多样性。这种多样性在时空数据中的表现是两个记录点的时间与空间间隔的差异性,这样的轨迹一般被称作不确定性轨迹。由于定位功能在民用中的扩展,事实上轨迹的不确定性已成为一种常态,所有以分析时空数据而建立的模型都必须将克服轨迹的不确定性作为其必要环节。 除了基本的基于图形的轨迹表达模型外,还有基于空间网格及基于语义的轨迹模型。前者在时空数据分析领域有着广泛的应用,本文通过实际实验验证了网格模型在不确定轨迹数据分析时表现出的缺陷并尝试结合基于图形和基于语义的轨迹模型的优势,模块化地构建了一种基于历史的不确定轨迹数据相似度定义,将历史数据以时空切面的形式引入相似度比较中,并设计了相应的计算方法。相对于切分空间的网格模型,时空切面是一种对时间的切分。本算法最大的优势在于其普适性,不需要对所处理的数据进行过多的预处理工作。另一方面,该算法能直接将历史数据纳入轨迹的相似性评价之中,毋须像语义模型那样进行繁琐的兴趣区域发现与匹配。为了验证该方法的有效性,本文设计了一种基于路网拓扑的随机轨迹生成算法来模拟随机轨迹的输出,经过测试,该方法具有一定的鲁棒性。为了提升算法的搜索效率,本文针对时空切面建立了一种基于R树的索引方式。经过验证,该方法能极大地提高运算效率。 最后,在相似度定义的基础上,本文设计了一套通过比较历史轨迹来计算输入轨迹与历史用户吻合度的测试程序。通过真实数据的测试表明,该系统具有良好的运行效果。