论文部分内容阅读
近年来,随着智能手机的普及和移动互联网的发展,轨迹数据的获取日趋便捷和精确,其产生的场景也更加多样化,如出租车的行车轨迹、共享单车的使用轨迹以及社交网络的签到轨迹等。这些轨迹数据不仅记录了移动对象的位置信息及变化过程,还反映其潜在的行为模式和偏好,具有重大的研究价值。但传统的轨迹挖掘算法很少关注轨迹的时空属性所带来的动态性,使得挖掘结果往往忽略了轨迹的演化过程。此外,面对轨迹数据量的与日俱增,以往基于全量数据集的挖掘手段已经难以适用,其处理速度也无法对在线请求进行即时响应。为此,文章考虑数据流技术来作为解决海量数据挖掘问题的手段,并聚焦流式场景下的轨迹演化过程,分别提出了基于数据流的实时轨迹聚类和实时位置推荐算法。为了解决实时数据流场景下的轨迹聚类问题,文章提出了一种在线轨迹聚类算法AntClu。针对流式场景中轨迹的时空特征不断变化的问题,定义了“轨迹趋势”来表征移动对象当前的运动模式,并借助“时间同步距离”来量化表征误差,提高表征精度。进一步地,研究基于轨迹趋势结构提出了在线密度聚类算法,通过动态维护在线微簇来挖掘轨迹聚集模式的演化过程,并以宏聚类结果来响应实时聚类请求。文章通过实验表明了动态表征结构能够有效地捕捉到轨迹的变化趋势,并通过对比传统轨迹聚类算法体现出AntClu算法在处理性能和聚类效果上的优越性。文章还对基于数据流的在线位置推荐问题进行了研究,并利用成对排序方法提出了一种基于地理影响的矩阵分解模型Geo-SRMF。通过对签到数据的分析推断出用户倾向于访问近邻的兴趣点,并因此做出了邻居兴趣点相对非邻居具有更高偏序的假设。在此基础上,本文构建了基于成对排序的矩阵分解模型,并利用梯度下降法进行参数学习。同时,考虑到在线学习模型无法“记忆”长期的数据分布,引入了基于蓄水池采样的模型更新策略,并对采样候选集进行二次选择,以提高学习精度。对比实验的结果表明Geo-SRMF算法能够有效地进行签到数据的实时处理和在线推荐,并相对传统的推荐算法有较好的精确度。文章通过研究数据流场景下的轨迹聚类和位置推荐问题论述了两类轨迹数据的演化性质和过程,并根据实验结果分析了目前算法的优缺点,对下阶段的研究了进行了展望和规划。