论文部分内容阅读
近年来,旅游业蓬勃发展,居民旅游消费逐年攀升,乘坐飞机出行已经成为一种较为普遍的出行方式。与此同时,民航业的信息化程度大大提高,大量的旅客个人信息及其历史出行记录信息并未得到有效利用。如果能够从这些海量的信息中挖掘出具有价值的知识,对于实际的生产应用有着十分重要的意义。家庭是社会的基本单位,也是客运领域中最常见的出行消费单元之一。由于家庭出行受到时间、经济等多种因素的影响,因此家庭出行呈现出不确定性。如果能够准确地预测出家庭在未来一个时间段内是否出行,将有助于客运、酒店等服务业为家庭制定个性化的服务与产品,出行目的地的相关组织及时调整工作计划,从而提高家庭旅客出行的便捷度与满意度。本文对家庭出行进行了研究与定义并将预测一个家庭在未来一段时间是否会出行定义为一个分类问题。首先根据旅客的个人信息及其家庭的历史出行信息构建了家庭的人口统计学特征、历史行为特征以及预测时间窗口特征,这些特征描述了不同家庭的自然属性以及行为属性。为了达到更加理想的分类效果,还构建了基于共同出行关系的旅客社会网络,提出通过构建家庭成员社会网络的属性来进一步描述家庭特征。在此基础上使用多种分类算法进行家庭出行的预测。最后,我们对多种分类算法的效果进行了对比并对家庭团体的出行行为特征进行了统计。本文的实验数据基于民航领域的真实数据集。通过对比多种方案的多种分类器的分类效果,我们发现,针对民航旅客社会网络中的家庭出行预测问题,随机森林算法是效果最优的分类算法。实验结果表明,使用随机森林分类算法对家庭在未来一个月是否出行进行预测,准确率可以达到85%以上。针对家庭团体的出行行为特征统计分析结果也对于相关组织的决策者具有十分重要的参考价值。