论文部分内容阅读
城市公交是城市公共交通系统的重要组成部分,发展城市公交可以改善城市发展带来的多种交通问题。公交站点间的客流量反映了乘客出行的时间和空间分布特征,是进行公交系统评价、公交车辆调度和公交线网优化的重要基础数据。公交IC数据包含了海量的乘客出行数据,是获取公交客流的主要数据资源。然而目前多数城市中IC数据只记录了乘客的上车相关信息,缺失了下车相关数据,无法直接获取客流,如何准确地推断出乘客的下车站点,进而获取公交站点间的客流量,是亟需解决的现实问题,对城市公交系统的优化有着重大的意义。本文针对公交客流推断问题,基于公交IC数据,提出了一种结合规则和序列化标注算法的两阶段的公交客流推断方法。首先设计了两种强规则推断方法:换乘推断和往返推断,分别针对两种常见的出行模式,通过引入时间、空间等方面的限制和规则,挖掘出了符合条件的部分乘客和记录,对其进行规则推断,可以得到高准确率的结果;接着,将问题看成是序列化标注问题,抽取出乘客的基本出行特征并加以选择,结合第一阶段得到的结果构造了训练集和测试集,本文采用了循环神经网络嵌套条件随机场的序列化标注模型(Bi-LSTM-CRF),训练完成的模型可以对所有记录的下车站点进行预测;方法的最后为了达到最优的结果,对两阶段产生的结果进行整合。本文分别在三条公交线路上进行了实验,使用了百万级的真实公交IC数据,分别对本文方法的各个步骤都进行了有效性的验证,并与多种方法在多个角度上进行了对比,实验表明本文提出的两种规则推断方法得到的结果准确率高,可以覆盖一定比例的记录,使得低成本应用序列化标注方法进行公交客流推断成为可能,本文提出的结合规则和序列化标注算法的框架在不同线路、不同时段、不同类型乘客上都达到了较高的精度,均远好于传统的行程链模型,其中本文应用的Bi-LSTM-CRF模型的表现最好,本文提出的方法具备低成本、准确性、鲁棒性等特点。