面向金融反洗钱的集成学习方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:michael2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济全球化的进程,金融活动日益活跃,洗钱犯罪行为也日益猖獗。而银行作为金融活动的主要机构,是洗钱的主要渠道,因此建立一套高效准确的风险防控系统可以给银行在日常的交易活动中带来很多便利。银行以往的反洗钱系统都是基于专家经验知识,在面对手段多样化,团伙作案、高效化的洗钱犯罪行为时,显得有些捉襟见肘。基于这种情况,本文在银行提供的丰富的日常交易数据的基础上,建立了一个高效准确的反洗钱监测服务系统。本文的主要研究内容和创新点如下:首先,针对银行提供的数据存在的数据不平衡的问题,本文从数据、算法、指标等三个层面上采用了多种措施来缓解数据不平衡带来的影响。在数据层面,提出了一种基于时间窗口的数据增强方案,在保证数据量扩增的同时,也增加了数据集的多样性。除此之外,还采用多种采样方法,使洗钱账户和正常账户的样本量基本达到平衡。在算法层面,选用了在数据不平衡问题上表现良好的决策树算法,尽量减少数据不平衡对于分类结果的影响。在指标方面,用F1值,PR曲线等来衡量模型性能,不使用accuracy这种比较模糊的指标。接着,本文提出了一种“三明治”式的特征提取方案,在原有的业务特征的基础上添加时序特征和社区特征,混合特征具有更强的信息表征能力。本文利用DTW算法来获取时序的相似度,作为样本的时序特征,利用社区分割算法提取社区特征。在对模型的特征重要性分析后,结果表明时序特征和社区特征占总体特征比例接近50%。有效的提高了模型的预测性能。最后,本文设计了模型集成的方案,将集成学习算法中基于Bagging集成的随机森林算法和基于Boosting集成的XGBoost算法相结合。将两者结合起来,在缓解数据不平衡问题带来的影响的同时,有效地提高了系统的识别准确率。实验结果表明,利用模型集成方案,复合模型的准确率和召回率等与单一模型相比有所提高。
其他文献
随着无人船集群技术的加速发展,海上无人系统的研发与训练也变得至关重要。有效的海上无人系统能够打破单船能力的局限性,协同集群中每艘无人船从而激发出整个集群的力量。然而训练海上无人系统需要大量且有效的无人船实验数据,无人船实验数据的获取不可避免地受到时间,环境,人力,财力等多种因素的限制,如何在短时间内低成本地获取海量训练数据将成为传统无人船训练系统一项新的挑战。本文经过对无人船训练系统的研究和分析,
学位
近年来,随着数据资源和计算能力的增长,机器学习快速发展,被应用到各个领域,例如:图像识别、行人检测、航空监管等等。在机器学习训练阶段使用的数据越多,则预测阶段机器学习模型精度越高。然而,海量数据的使用对本地计算资源带来了挑战。得益于云服务的应用,大量的机器学习的训练和预测都被外包到云服务器上进行。然而云服务自身数据安全事件频发,这加剧了公众对于数据泄露的担忧。为了解决云服务环境下机器学习中的数据泄
现如今,随着人们的生活压力和工作压力的不断提高,人们的健康问题日益凸显,据统计数据显示中国人民约70%的人处于亚健康状态,因此关注自身健康变得愈发重要。目前健康管理的理念逐渐走进人们视野,并且健康管理的国内市场也逐步火热。健康管理中比较重要的一部分就是营养摄入平衡,而人体每日所需营养中通过液体摄入的不占少数,例如水,维生素,蛋白质等,因此液体检测技术作为营养监测的一种途径显得尤为重要。液体检测技术
随着异构无人系统的应用越来越广泛,多机器人协同成为趋势,而异构多机器人协同的基础是要实现异构平台或设备的互联互通并进行有效的信息交互。但是由于执行协同任务的无人系统并非来自于同一生产厂商的同一型号,所以无人系统间建立互联互通就会带来诸多问题。比如最常见的由于无人系统间接口标准、数据传输方式以及能力的不同,使得无人系统表现出很强的个体异构性,影响无人系统的通信效率,为了屏蔽异构性,通常的实现方式是将
随着数字化时代的到来,人们在问答系统、智能客服、信息检索、文本复述、机器翻译等人工智能领域的需求日益增长。为了提供高质量、高效性的服务,无数学者投入到文本语义匹配的相关技术研究中。作为自然语言处理领域的一项基本问题和研究热点,过去文本语义匹配问题的相关研究主要是基于统计机器学习技术的。该类语义匹配模型需要消耗大量的人力成本才能挖掘出文本潜在的特征。随着深度学习技术的日新月异,文本数据的特征提取不再
多标签文本分类作为自然语言处理领域的一项基础任务,广泛应用于情感分析、问答系统和推荐系统等领域。本文主要研究基于深度学习的多标签文本分类,通过深入分析了多标签文本分类的难点并从当前的国内外研究现状中受到启发,提出了两种多标签文本分类模型:1.本文第一个模型提出一种融合标签注意力机制和自注意力机制的方法来获取文本特征表示,同时在模型预测层加入了关系网络来获得标签间的相关性。标签信息对文本分类起重要作
随着人工智能技术的不断进步,现有机器模型已经基本达到了感知智能,正朝着认知智能前进。自然语言处理是智能认知的基础,是学界和工业界的研究热点。为了满足社会对各种语言的需求以及世界各国日益频繁交流更加的便捷,价格低廉的机器翻译研究正在逐渐兴盛。随着深度学习技术的持续提高,机器翻译也逐渐融合了这些方法和策略,并且在多个任务中斩获不错的成绩。但是还存在一些不足的地方。首先,大多数的翻译模型都基于注意力机制
飞机在结冰气象条件下飞行时,机翼、尾翼、发动机、传感器等核心部件易发生结冰现象,其中机翼结冰不仅会影响飞机的气动性能,严重时还会导致飞行事故的发生。因此,开展飞机结冰原理研究、预测翼型结冰及其气动特性变化具有重要意义。当前飞机结冰预测方法主要包含飞行试验、风洞试验以及数值计算等方法,这些方法往往存在预测周期长、所耗资源大等问题,无法实现快速、高效地预测。对此,本文利用深度学习开展翼型结冰相关研究,
实体关系抽取是自然语言处理领域中处理非结构化文本的重要方法,能够从非结构化文本中提取出有效的实体对和关系,形成(头实体,关系,尾实体)的关系三元组结构,进一步生成实体关系网络,是搭建知识图谱及后续拓展研究的技术基础。生物医学领域存在大量的非结构化文本,同时业界对这些文本的分析处理也有浓厚的兴趣,因此本文选择该领域作为应用场景。随着深度学习技术的发展,基于深度学习的实体关系抽取方法较传统的特征提取方