基于不平衡数据集的客户流失预测研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:juliediar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
客户流失预测是数据挖掘算法在客户关系管理(CRM)的一个具体应用。数据挖掘领域目前面临的主要问题之一就是数据不平衡性。传统的数据挖掘算法以整体预测精度为训练目标,这样就导致多数类预测精度高,而少数类预测精度差。客户流失预测同样也面临了数据不平衡的问题,即流失客户预测精度差。例如,据调查,电信业的月平均流失客户为2%左右,如果全部将客户预测为正常客户,那么预测的整体精度就高达98%。虽然整体预测精度很高,但是对流失客户的预测精度却为0%。显然,这样的预测结果不能体现客户流失预测的价值,因此数据不平衡性成为影响客户流失预测精度的主要障碍。随着电信、金融等服务业对客户流失的关切度逐渐提高,研究如何解决客户流失预测中面临的数据不平衡问题就变得越来越重要。本文从研究数据挖掘领域中解决数据不平衡问题的方法入手,对克服客户流失预测中的数据不平衡问题进行了两个主要方面的研究,一是对数据的平衡处理,二是对传统机器学习算法的改进,具体有以下三方面内容:(一)本文研究了数据挖掘领域中常用于克服数据不平衡性的随机欠抽样法、SMOTE抽样法在客户流失预测领域的应用。实验结果表明,这些抽样法不一定能有效提高客户流失预测的精度,甚至可能降低。针对这两种抽样法的缺陷,本文对客户流失预测应用了重复随机欠抽样法,实验结果表明,该方法能有效提高客户流失预测精度。结论是该方法适合用于数据不平衡的客户流失预测。(二)本文研究了目前解决不平衡数据分类问题的算法之一的优化AUC算法在客户流失预测领域的应用。AUC是目前评价分类器对不平衡数据分类性能的主要评价标准。优化AUC算法即是以优化AUC值来获得最优的分类器算法,目前研究比较成熟的是基于梯度法优化AUC的线性分类器算法。本文基于梯度法容易陷于局部极值的缺陷,提出了用具有全局优化能力的遗传算法来优化AUC。实验结果表明,本文提出的改进算法优于原方法,但两种方法均不适合于数据不平衡的客户流失预测。(三)本文研究了加权支持向量机及其改进在客户流失预测的应用。加权支持向量机认为边界支持向量一定会被错误分类,从而提出通过根据正类和负类数量之比来确定正类和负类的惩罚参数,以调节数据不平衡的影响。本文提出的定理5.3.1证明了边界支持向量不一定会被错误分类,在一定程度上否定了加权支持向量机。在此基础上,本文提出了IWSVM,该算法以优化AUC为训练目标,采用遗传算法优化惩罚参数和核函数参数来获得最优的加权支持向量机。实验结果证明,IWSVM优于的加权支持向量机,也优于传统算法之一的C4.5。该方法适合于数据不平衡的客户流失预测。本文的研究工作是基于国家自然科学基金项目——客户流失预测理论与实证研究(项目号:70801021)的基础上进行的。
其他文献
随着环境污染问题越来越受到重视,LNG (LiquefiedNatural Gas)作为一种清洁能源受到越来越多企业的青睐。由于LNG具有易燃、易爆的特点,LNG气化站安全等级要求很高。因此,构
电力谐波自交流电产生之日起就一直存在着。随着科技的发展,越来越多的电力电子装置的使用造成电网中谐波的污染日益严重,给整个供电系统和电网中的用电设备造成了严重的安全隐患。同时近些年来,随着国家经济的发展各种高精度的电子仪器进入生产生活领域使得各行各业对供电质量的要求不断的提高。因此实现电力系统参数快速、准确的测量具有很高的安全和经济价值。本论文就是针对电力系统谐波测量的实际要求而提出的设计方案。针对
随着我国电力系统的发展,微机保护技术也得到了快速的发展,所以说微机保护仿真的研究是非常重要的。由于故障停电会造成一定的不利影响,电力系统安全可靠的运行,有着十分重要的意义,而微机保护装置具有将电力系统由于故障而造成的损失减小到最小的作用。变电站是电力系统的主要组成部分,也是联系发电厂和用户的中间环节,起着变换和分配电能的作用。在电力系统中,除应采取措施消除或减少发生故障的可能性外,必须保证,故障一
激光视觉焊缝跟踪是焊接智能化的关键技术之一。国外自上世纪70年代末即展开研究,至今已推向实际应用,而国内无论是关键技术,还是系统实现均存在较大差距。本研究在江苏省重
我国学位授权点实行定期评估制度,以达到加强学术队伍建设、增强科研创新能力、提高学生培养质量的目的。基于以上要求,本文建立了理工类学位授权点科研业绩评估模型及管理系
学位
直接浸出工艺砷盐净化的主要目的是通过添加锌粉除去中性上清液中的杂质离子,为电解提供合格的新液。钴是危害最大也是最难除的杂质,钴的存在不仅影响电解的电流效率,而且还
随着云计算,大数据时代的到来,移动环境下的多模态自然人机交互,包括面向服务机器人的语音交互需求,对话系统及安全验证系统,都对当前的说话人识别技术提出更大的挑战。互联
不确定系统中的重要一类系统是参数不确定型,按照对参数依赖关系可分为仿射线性型和多项式型论文针对多项式型单参数不确定连续时间系统。本文选取了参数依赖Lyapunov函数(PD
随着智能机器人逐渐走向人类家庭,机器人在未知动态室内环境下的导航方式也越来越引起人们的关注。然而,由于室内家庭环境固有的动态性和不精确性,想让机器人经过与人的交流