论文部分内容阅读
道路交通安全是广受关注的社会问题。交通事故的产生主要有人、车、路、环境四方面的因素,其中路和环境都与交通事故的空间属性密切相关,但已有研究在空间数据采集、研究手段等方面都有所欠缺。随着数据科学的快速发展,城市空间相关的各类开放数据越来越丰富,数据挖掘工具也愈发完善,为研究交通事故的空间特征提供了良好的基础。本文基于深圳市2014-2016年的道路交通事故数据,利用多种数据挖掘技术,对交通事故空间特征进行研究,并探索了具体的应用场景。本文首先关注事故的个体性空间环境特征。利用逻辑回归和随机森林算法建立了基于空间环境特征的事故严重程度预测模型,并识别了对严重程度产生主要影响的特征。同时考虑到事故的异质性对预测模型表现的影响,对事故数据集分别按照类型、区域、时间进行了分类,比较了不同分类下预测模型的分析结果。研究表明,基于上述两种算法的模型预测表现相近,但随机森林模型在数据处理效率和影响因素分析结果可解释性方面要优于逻辑回归模型。分类后的结果显示,分类处理可以提升预测模型的表现,同时也可以发现不同类别事故影响因素的差异。本文随后考虑事故的群体性空间分布特征。利用地理编码方法对事故进行了空间定位,然后利用密度分析和聚类分析2种空间数据挖掘技术,分析了深圳市事故高频度和高严重程度的区域。研究表明,深圳市交通事故的空间分布呈现出较显著的区域特性,深圳市中心城区单位面积上的事故频度高于郊区,但郊区单位道路长度上的事故频度高于中心城区,郊区事故严重程度也普遍高于中心城区。密度分析和聚类分析两种方法所得到的事故空间分布特征基本相符,聚类分析可提供更为丰富的空间特征信息,而密度分析则在计算效率上有显著优势。本文最后研究考虑城市路网约束的事故空间分布特征,并基于此进行事故查勘区域划分。首先从互联网开放数据源获取了城市路网数据并对其内容进行解析,提取了不同等级道路的空间位置信息,根据位置信息将事故数据和城市路网数据同时映射到地理空间网格中,并利用数学形态学算法对路网结构进行优化。在此网格基础上计算了考虑主干道距离惩罚的事故元胞间距离,并基于此距离和谱聚类算法得到了考虑主干道约束下的事故空间分布特征,进而划分了交通事故查勘区域。通过与业务方目前使用的实际方案的对比,验证了上述划分方案的有效性。