论文部分内容阅读
地理信息系统与无线电通讯网络的紧密结合促进了基于位置服务应用的发展。从这些应用中,可以获取用户的移动性轨迹数据,轨迹数据在不同行业之间的流动可以带来巨大的经济与社会利益。然而,当这些移动性轨迹数据与具有敏感语义的外源数据结合时,就会具备相应的隐私敏感属性,通过分析这些具有隐私敏感属性的知识,攻击者能够进一步获取用户的个人隐私信息。在保证移动性知识可用性的同时,研究应对隐私攻击的防护方法,已成为移动性数据研究的重要内容。在设计防护方法的过程中,最为关键的一点就是找出具有隐私敏感属性的空间区域。传统的判断方法包括空间数据属性叠加和基于遥感影像的特征分类法。然而,具有敏感语义的地图数据一般无法直接获取,基于遥感影像的分类方法则易受到影像分辨率的影响。为此,本文提出一种通过分析移动性轨迹数自身特征,发现隐私敏感空间区域的方法,也即通过统计和分析敏感空间区域的时空和网络特征的监督分类方法。具体步骤主要包括:(1)时空特征获取,将用户移动性数据与空间节点匹配运算得到时空序列模式包含的空间节点的时空特征;(2)网络特征获取,首先基于时空序列模式构建以空间节点为单元的移动性网络,然后通过复杂网络结构特征计算方法得到空间节点的网络特征;(3)建立分类训练模型,将时空序列模式的空间节点与指定敏感属性的地理要素进行拓扑运算,得到时空序列模式的空间节点的分类标签,并联合空间网络的时空与网络特征,采用Spark MLlib机器学习平台进行监督分类;(4)基于分类模型的预测,利用训练模型对测试数据进行分类预测,并计算精度。实验结果表明:(1)设置适当的训练数据与测试数据比值可以得到较好的分类性能:当训练数据与测试数据的比值不断增大时,分类的精度、F值、曲线下面积均达到最佳,且均方根误差最小,但当训练数据与测试数据比值由8:2转变为9:1时,分类的各项评估指标呈下降趋势;(2)综合考虑空间节点中移动性数据的时空特征和网络特征相对于只考虑单一特征(时空特征或网络特征),预测分类算法在分类的精度、F值、曲线下面积等指标方面具有更好的性能。