基于数据挖掘的商户套用欺诈检测研究与应用

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:luyan135
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务不断发展,人们出门不再携带大额现金,更多的是刷卡消费,这带动了越来越多商户办理了POS机。收费机构在不同行业的POS机上所提取的费率也不一样。第三方支付机构根据商户所经营的行业主要营业收入为商户拟制一个类别码--商户类别码(Merchant Category Code),中国银联就是根据商户类别码收取不同手续费。因此衍生出了套用商户类别码的违法行为。“商户类别码套用”是指第三方支付机构套用商户类别码享受低手续费率的行为。欺诈检测作为目前国内外研究热点,是金融领域的一个重要课题。为此本文主要做了以下工作:1)基于商户类别码的标准行为模式库建立本文将不同的行业有不同的营业时间区间、营业高峰或者低谷等的现象称为该行业的“行为模式”。不同商户类别码的行为模式不同,本文采用机器学习的层次聚类算法,得到同一个商户类别码下具有代表性的N个行为模式。2)商户套用欺诈检测模型的建立。本文利用商户的交易行为与商户信息提取特征。在分类器选择上面,本文采用概率分类器—逻辑斯蒂回归解决该类问题。通过实验结果也表明了利用本文的检测方法,准确率,召回率均在80%以上,同时,即使训练样本数据量较少的情况下,该分类器准确率,召回率也没有很大的降低。3)欺诈检测模型的分布式实现。面对爆炸式增长的数据需求,分布式计算是未来大数据发展的重要方向。因此,基于这方面的要求,本文设计了商户类别码欺诈模型的分布式版本,即利用Hadoop平台,通过HDFS分布式文件系统存储海量数据文件,并使用Map Reduce计算模型并行计算提高检测效率,包括如何上传数据到HDFS,然后如何利用三个Job对原始数据进行预处理,以及最后如何设计分类器,本文都进行了详细介绍。综上所述,本文所提出的商户类别码欺诈检测模型,不但具有优秀的准确率,也具有良好的时间效率。本文的研究不但解决了实际问题,也为其他金融领域的大数据问题提供了很好的借鉴意义。
其他文献
本系统根据学院需求,专门设计了企业详细信息,优秀毕业生及紧急招聘信息。为解决企业无法了解学生特别添加了招聘考试,方便企业在面试前测试学生基本技能的掌握情况,同时还调
汉字是汉语的书写工具,它在对外汉语教学中有着十分重要的地位。对外汉语的汉字学习策略研究起步较晚,而针对预科留学生这种速成、强化模式下的汉字学习研究就更为稀缺。汉字学习对于来华预科留学生来说既是汉语学习的重点又是难点。因此,对预科留学生汉字学习策略使用情况进行调查,是有重要的实践价值的。本文以北京第二外国语学院汉语学院2018级来华的六个班的预科留学生作为调查的对象。通过访谈、课堂观察、问卷调查的形
本文将研究企业价值评估的相关方法,特别是自由现金流量估值模型,阐明该模型的定义和计算,通过对估值结果的检验,明确该模型适用于我国企业价值评估,并指出其优劣势,为科学、
马洛创作的浮士德是英国文艺复兴时期的悲剧英雄。对其悲剧的理解应当置于英国文艺复兴时期的历史语境之中。浮士德的悲剧在于其追求理想和世俗生活中的罪恶性与这一时期的秩
英汉两种语言在否定概念的表达上存在着很大的差异,尤其是英语中某些特殊否定结构更是我们在理解和翻译上的一个难点。本文着重对英语中某些特殊否定句的结构及其含义作了系
依据全电介质法布里—珀罗干涉滤光片的原理提出了多层减反射膜的理论模型。使用了有效界面,并引进了一个新的由两层膜组成的替换对的概念。指出了在多层膜中,这个对的结合将
马年落马的第一位省部级高官,与中石油项目在海南落地的时点颇有交集。中石油贪腐窝案的终局正朝着难以剧透的情节演进。下一个会是谁?2月18日傍晚18时31分,中纪委监察部网站
目的探讨不同实习阶段教学总结模式在泌尿外科护理教学中的应用效果。方法选择在该院泌尿外科实习的护生60名,2014年实习的护生作为对照组,给予传统护理带教,2015年实习的护
新疆贫困程度最深、贫困发生率最高区域是和田地区,和田地区位于喀喇昆仑山山脉和塔克拉玛干沙漠之间,处于新疆交通网络尾部,脆弱的生态环境、恶劣的自然条件,导致基础设施落