论文部分内容阅读
随着电子商务不断发展,人们出门不再携带大额现金,更多的是刷卡消费,这带动了越来越多商户办理了POS机。收费机构在不同行业的POS机上所提取的费率也不一样。第三方支付机构根据商户所经营的行业主要营业收入为商户拟制一个类别码--商户类别码(Merchant Category Code),中国银联就是根据商户类别码收取不同手续费。因此衍生出了套用商户类别码的违法行为。“商户类别码套用”是指第三方支付机构套用商户类别码享受低手续费率的行为。欺诈检测作为目前国内外研究热点,是金融领域的一个重要课题。为此本文主要做了以下工作:1)基于商户类别码的标准行为模式库建立本文将不同的行业有不同的营业时间区间、营业高峰或者低谷等的现象称为该行业的“行为模式”。不同商户类别码的行为模式不同,本文采用机器学习的层次聚类算法,得到同一个商户类别码下具有代表性的N个行为模式。2)商户套用欺诈检测模型的建立。本文利用商户的交易行为与商户信息提取特征。在分类器选择上面,本文采用概率分类器—逻辑斯蒂回归解决该类问题。通过实验结果也表明了利用本文的检测方法,准确率,召回率均在80%以上,同时,即使训练样本数据量较少的情况下,该分类器准确率,召回率也没有很大的降低。3)欺诈检测模型的分布式实现。面对爆炸式增长的数据需求,分布式计算是未来大数据发展的重要方向。因此,基于这方面的要求,本文设计了商户类别码欺诈模型的分布式版本,即利用Hadoop平台,通过HDFS分布式文件系统存储海量数据文件,并使用Map Reduce计算模型并行计算提高检测效率,包括如何上传数据到HDFS,然后如何利用三个Job对原始数据进行预处理,以及最后如何设计分类器,本文都进行了详细介绍。综上所述,本文所提出的商户类别码欺诈检测模型,不但具有优秀的准确率,也具有良好的时间效率。本文的研究不但解决了实际问题,也为其他金融领域的大数据问题提供了很好的借鉴意义。