基于大数据金融云平台的信用风险预测方法研究

来源 :长安大学 | 被引量 : 9次 | 上传用户:anyok1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信用卡发卡量的增长,各种互联网消费贷的兴起,客户的信用逾期风险预测一直是金融行业研究的重要方向。在大数据时代背景之下,建立一个全方位的统一的数据平台用来整合多方的数据信息,在平台上对数据进行多维度建模,利用spark技术对数据进行处理加工。同时结合近年来机器学习最流行的xgboost算法框架,构建出信用逾期风险的预测模型。为了适应逾期记录数据的不平衡性,在xgboost算法基础之上融入代价敏感学习的思想,提出cs-xgboost算法来解决不平衡数据集上的分类问题。本文的主要研究工作如下:(1)通过对互联网行业大数据应用的成熟技术进行调研和分析,确定在使用Hadoop框架基础之上使用spark计算框架作为实验的环境,最后使用Ambari进行创建、管理、监控Hadoop集群。(2)对于数据整合模块设计,结合传统数据仓库的建模方式根据业务需求在hive上对多源数据进行分层建模,同时选择MOAI作为大数据平台上ETL处理的调度,进而完成数据整合模块的设计。(3)针对不平衡数据集上的二分类问题,提出了以代价敏感与xgboost算法框架相融合的cs-xgboost算法,并在公开数据集Data Hackathon 3.x AV进行了cs-xgboost算法分类性能的验证。使用RFE、基于随机森林的特征重要度度量等多种特征选择方法进行特征排序。在特征选择的基础之上使用随机森林和cs-xgboost进行信用逾期风险的预测,在训练集和测试集上比较算法性能。
其他文献
运动已成为人们生活中的一部分,随着时代的发展,也赋予它更多的含义。人们已不再单纯的为了生存而从事运动,强身健体成了现代运动的一个重要内容。对于运动后饮食方面的管理
在城市发展的历史进程中,森林保障和推动了城市的健康发展,大力发展城市森林,建设森林城市,是新世纪世界生态城市的发展方向。本文简述了城市森林和森林城市的概念及其发展现
目的构建基于证据的成年住院患者用药差错预防及管理的临床实践指南,为促进护理人员的用药安全提供参考。方法以JBI循证卫生保健模式、业务流程管理及项目管理作为理论指导,
旅游中心城市作为区域旅游的目的地、管理中心、旅游交通中心、旅游服务中心,对区域旅游发展有着重要作用。研究福建省旅游的空间结构,构建福建省旅游中心城市体系,是推动福
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通
对“中国近代化”的诠释 ,史学界莫衷一是。有学者提出“近代化”即“工业化” ,另有学者提出“近代化”即“资本主义化”。文章运用唯物史观 ,从“中国近代史”的含义、条件
基于主动锁相相干偏振合成系统实现了四路500 W级全光纤窄线宽保偏放大器的共孔径合成输出。当相位控制系统处于闭环状态时,整个合成系统的输出功率达2164 W,合成效率为94.5%
企业人力资源规划存在的问题主要有规划不清晰、目标不明确,人力资源规划不能随着环境的变化而快速调整,人力资源规划中缺乏沟通与协作性,缺乏人力资源管理的专门人才,在制定
公共治理理论形成于20世纪70年代。作为补充政府管理和市场调节不足的一种方式,它逐渐成为公共管理领域重要的概念和价值追求。在公共治理理念的支持下,许多国家进行了政府改
榄香烯(主要是β-榄香烯)是安全性好的多谱抗癌活性成分。榄香烯原料药存在稳定性差、易挥发、非水溶性等问题,其制剂在给药时用药剂量大、生物利用度低。目前,通过肿瘤靶向