论文部分内容阅读
随着全球定位系统(Global Positioning System,GPS)设备的普及和基于位置的移动社交网络(Location-based social networks,LBSNs)的迅猛发展,海量的轨迹数据正在我们的日常生活中源源不断地积累。因为这类数据包含了人群移动的时空和语义等特征,所以这类数据对分析用户行为模式和预测用户下一个位置都至关重要。通过对近年来相关文献的调研,虽然已经有一些基于时空特征对用户轨迹进行预测的相关研究,但在缺乏语义特征的轨迹数据位置预测问题中以往的研究忽视了用户在当前位置当前时间的语义信息,但该信息对理解用户行为和位置预测是至关重要的,因此本文在数据集中缺乏了地点语义的情况下分析和提取了位置语义并结合语义强化和时空特征提出了一种有效的用户位置预测算法,同时还改进了一种城市“热区”挖掘算法,并构建了一个挖掘移动社交网络大数据的原型系统。首先,通过研究移动社交网络中的多维特征,提出了一种停留点语义化算法和城市“热区”挖掘算法。其中,停留点语义化提升了用户位置预测的准确率,加速了模型训练时的收敛速度;根据轮廓系数对本文的“热区”挖掘算法进行了验证,其聚类效果优于基准模型。在相同数据集下,对比过去研究中同类算法的结果,本文的城市“热区”挖掘算法挖掘出了更细粒度的“热区”,从而提升了本文位置预测的范围精度。其次,本文分析了移动社交网络中的用户行为,构建了一个语义强化和时空关注网络SSTAN(An Semantic reinforcement and Spatial-Temporal Attention Networks),用于融合移动社交网络中用户的多维特征。结合该SSTAN网络的融合特征,本文提出了一种基于语义强化和时空特征关注机制的用户位置预测算法GLP-SSTAN(Geographical Location Prediction algorithm based on Semantic reinforcement and Spatial-Temporal Attention Network)用于对移动社交网络中的用户位置进行预测。接着,基于停留点提取算法、城市“热区”挖掘算法、SSTAN网络和GLP-SSTAN算法,本文构建了一个挖掘移动社交网络大数据中用户行为和位置预测的原型系统(简称为NUPT ST-Data Miner)。原型系统主要功能包括:停留点的可视化、城市“热区”的可视化、用户位置预测的可视化和停留点周围推荐服务。该原型系统对比过去相关文献中的基准模型,拥有结果可视化直观、用户交互性良好和功能模块可延展的三大优势。最后,本文使用微软亚洲研究院提供的真实数据集进行了验证,实验结果表明本文的城市“热区”挖掘算法对比其他算法有更好的聚类效果(轮廓系数更优);GLP-SSTAN算法在准确率、召回率、位置预测精度和模型普适性方面都优于基准模型。