论文部分内容阅读
随着全球定位系统(Global Positioning System,GPS)传感器在智能手机、车辆、可穿戴设备中的广泛应用,采集的轨迹数据的规模以指数形式增长。基于位置的服务利用轨迹数据为用户提供服务,但是海量的轨迹数据会给存储,传输,查询,分析和挖掘等方面带来巨大的挑战。例如,传输和存储原始轨迹数据会消耗太多的网络带宽和存储容量,同时会增加传感器端和服务器端的通信次数,增加耗电量。另外,对海量的原始轨迹数据进行查询、分析、挖掘,也会出现延迟等问题。因此,迫切需要一种高效的轨迹数据库压缩技术。主流压缩技术称为轨迹简化,即找到近似原始轨迹的子序列,并尝试最小化给定误差度量下的信息丢失。尽管在过去几十年中已经提出了许多优秀的轨迹压缩算法,但仍然缺乏全面的比较来覆盖所有最先进的算法,并使用多种运动模式的真实数据集来评估轨迹压缩算法的压缩质量。因此,GPS数据采集器在具体应用中确定合适的轨迹压缩算法仍然是一个挑战。此外,几乎整个以前的方法都使用基于误差的度量来评估压缩质量,忽略了它们在压缩之后的数据库之上支持时空查询的准确性。总而言之,对已有的轨迹压缩领域的研究,缺乏全面的对比研究与实验分析,且忽略压缩数据可用性。为了解决轨迹压缩领域存在的问题,本文是迄今为止对已有的轨迹简化压缩算法最全面对比实验分析与算法研究工作。对已有的流行的轨迹压缩算法进行全面对比分析得到的研究结果,有助于帮助基于位置的服务在不同的应用场景选择最佳的轨迹压缩算法,还可以为研究者们提供轨迹压缩算法的改进方向。因此,本文对已有的25种轨迹压缩算法,在5种不同运动模式的真实数据集上,评估4种不同的类别的压缩误差。首次提出在压缩之后的轨迹数据上进行区域查询、6)近邻查询、空间相交查询、轨迹聚类的准确性作为新的算法评价标准。实验结果表明:1)随着硬件性能的提升,离线应用场景,综合考虑算法的性能,Chen等人提出的MRPA算法较为推荐;在线应用场景,Cao等人提出的DOTS算法的综合性能较为理想;2)提出新的误差度量方法可以改进已有的轨迹压缩算法,MRPA、DOTS的性能相对较好,归结原因在于提出了高效的累积平方同步欧式距离(Integral Square Synchronous Euclidean Distance,ISSD)误差度量方法。3)基于方向感知距离(Direction-Aware Distance,DAD)误差度量的轨迹简化算法虽然能很好地保留轨迹的方向信息,但是无法很好地捕捉位置和时间信息,因此除非方向信息是关键信息,否则不推荐此类轨迹压缩算法。4)已有的轨迹压缩算法还是存在压缩速度不够快,压缩率不够高,压缩误差较大,缺乏有效的分布式轨迹压缩系统等问题,需要提出新的基于Spark的轨迹压缩系统,应对智慧城市下的海量轨迹数据规模。