论文部分内容阅读
知识图谱也称为语义网络的知识库,是对知识的一种描述,更能描述实体间的联系。目前公安领域对大数据挖掘技术的应用还未完全普及,更多是建立大数据的基础平台,而知识图谱在公安领域对用户画像的研究有较为重要应用。本文建立公安公共交通领域的知识图谱,涉及数据主要包括地铁刷卡数据、公交刷卡数据,公交GPS数据,电子身份信息数据。建立知识图谱目的在于可快速查询实体属性与实体之间的关系,为用户画像提供事实标签。本文基于公安知识图谱的用户画像研究,提出基于公安知识图谱的用户画像建立以及用户画像在积分模型中的应用来验证其有效性,主要做了以下几方面工作:1)建立基于公共交通数据的公安知识图谱。知识图谱的建立包括知识融合、知识提取、知识存储。本文采用数据主要为公安领域的公共交通数据,电子身份信息等,由于各数据主键不一,多源数据不能通过某一关键字进行融合,本文采用最长公共子序列算法对时空数据求轨迹相似度进行融合;知识提取大多来自于关系型数据库,不存在语义分析等问题;知识存储采用图数据库Neo4j。知识图谱的建立是为用户画像标签建立提供信息输入。2)用户画像的建立需要两部分数据,一是公安知识图谱数据,二是具有完整用户出行轨迹的公共交通数据。依托Hadoop大数据平台,对公共交通数据进行处理,最主要的是对公交下车站点进行预测,由于公交只在上车时刷卡,而用户画像关注用户个人的出行习惯,故需要预测出个人公交乘车轨迹。本文采用基于出行链、基于出行习惯、基于站点吸引度三种方法串联使用对公交下车站点进行预测。3)用户画像标签由事实标签和模型标签组成。通过知识图谱获取用户事实标签,从而筛选出用户行为数据作为输入,输出模型标签,主要包括职住标签、伴随出行标签、异常身份标签、出行目的标签。前三类标签采用规则进行统计计算,出行目的标签用到改进的K-means聚类算法通过POI数据对站点进行聚类,再根据站点属性推测出行目的。4)通过用户画像在公共交通积分模型中的应用,检验基于公安知识图谱的用户画像的可用性。本文积分模型是针对于公共交通人员监测管控设计的,积分模型包括人员类别、积分项、积分数值、管控分、处置分等,积分项由基础分、动态分组成。通过积分模型预警的人员具有犯罪可疑性。本文通过对多源数据建立用户画像,对警务工作起到了一定的辅助决策作用。