论文部分内容阅读
客户流失预测是数据挖掘算法在客户关系管理(CRM)的一个具体应用。数据挖掘领域目前面临的主要问题之一就是数据不平衡性。传统的数据挖掘算法以整体预测精度为训练目标,这样就导致多数类预测精度高,而少数类预测精度差。客户流失预测同样也面临了数据不平衡的问题,即流失客户预测精度差。例如,据调查,电信业的月平均流失客户为2%左右,如果全部将客户预测为正常客户,那么预测的整体精度就高达98%。虽然整体预测精度很高,但是对流失客户的预测精度却为0%。显然,这样的预测结果不能体现客户流失预测的价值,因此数据不平衡性成为影响客户流失预测精度的主要障碍。随着电信、金融等服务业对客户流失的关切度逐渐提高,研究如何解决客户流失预测中面临的数据不平衡问题就变得越来越重要。本文从研究数据挖掘领域中解决数据不平衡问题的方法入手,对克服客户流失预测中的数据不平衡问题进行了两个主要方面的研究,一是对数据的平衡处理,二是对传统机器学习算法的改进,具体有以下三方面内容:(一)本文研究了数据挖掘领域中常用于克服数据不平衡性的随机欠抽样法、SMOTE抽样法在客户流失预测领域的应用。实验结果表明,这些抽样法不一定能有效提高客户流失预测的精度,甚至可能降低。针对这两种抽样法的缺陷,本文对客户流失预测应用了重复随机欠抽样法,实验结果表明,该方法能有效提高客户流失预测精度。结论是该方法适合用于数据不平衡的客户流失预测。(二)本文研究了目前解决不平衡数据分类问题的算法之一的优化AUC算法在客户流失预测领域的应用。AUC是目前评价分类器对不平衡数据分类性能的主要评价标准。优化AUC算法即是以优化AUC值来获得最优的分类器算法,目前研究比较成熟的是基于梯度法优化AUC的线性分类器算法。本文基于梯度法容易陷于局部极值的缺陷,提出了用具有全局优化能力的遗传算法来优化AUC。实验结果表明,本文提出的改进算法优于原方法,但两种方法均不适合于数据不平衡的客户流失预测。(三)本文研究了加权支持向量机及其改进在客户流失预测的应用。加权支持向量机认为边界支持向量一定会被错误分类,从而提出通过根据正类和负类数量之比来确定正类和负类的惩罚参数,以调节数据不平衡的影响。本文提出的定理5.3.1证明了边界支持向量不一定会被错误分类,在一定程度上否定了加权支持向量机。在此基础上,本文提出了IWSVM,该算法以优化AUC为训练目标,采用遗传算法优化惩罚参数和核函数参数来获得最优的加权支持向量机。实验结果证明,IWSVM优于的加权支持向量机,也优于传统算法之一的C4.5。该方法适合于数据不平衡的客户流失预测。本文的研究工作是基于国家自然科学基金项目——客户流失预测理论与实证研究(项目号:70801021)的基础上进行的。