基于Stacking模型融合的通信欺诈用户识别

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:dvvicky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通信欺诈行为是指用户利用网络,电话,短信等方式来为自己获取非法利益的一种行为,其对运营商和社会各界都产生了恶劣的影响。随着通信技术的不断成熟,通信欺诈行为有愈演愈烈的趋势,急需找到一种能够准确识别欺诈用户的方法,为了更好地识别通信欺诈用户,有必要通过技术手段建立相关的判别模型进行识别。尽管此前学者们对于这一主题的研究已有一些成果,但是与实际应用场景仍存在差距,判别角度和判别效果都有提升的空间,特别是在特征挖掘和模型选择上值得进一步深入研究。本文集中论述了利用Stacking模型融合方法解决通信欺诈用户识别问题,首先介绍了欺诈行为与欺诈用户识别的相关理论,实证过程根据用户行为数据做了数据清洗和特征提取等相关工作,应用了特征筛选和数据集平衡化的方法,剖析了模型评估指标的选择,讨论了各类基学习器的优劣势以及效果对比,最后做了模型比较和特征重要性排序工作。本文对通信欺诈用户识别问题进行专题研究。全文分三个部分:首先,是通过文献研究法和理论研究法对文章研究背景,研究意义进行讨论,对国内外研究现状进行分析,并对文章中涉及的概念和运用的方法进行论述;其次,根据联通大数据公司提供的数据,通过实证研究法对各用户45天以来的通话行为数据,短信行为数据,流量行为数据进行数据清洗和特征提取工作,再利用嵌入式的特征选择方法进行特征筛选工作,然后利用Boderline-SMOTE方法处理数据不平衡问题;最后构建一个以随机森林模型,Ada Boost模型,XGBoost模型,Light GBM模型为基分类器,以Logistic模型为次层分类器的Stacking模型融合方法来处理通信欺诈用户识别问题,发现其在精确率上相比基模型略有下降,但在召回率,F1值和AUC值都有较大程度的提升,召回率达到了0.88,F1值达到了0.823,AUC值达到了0.912,因此我们认为Stacking模型融合方法能很好地处理通信欺诈用户识别问题,并在此基础上得出了特征的重要性程度排序,提出一些相关意见,当用户与非正常号码之间存在较多的通话和短信联系,或者用户的通话频率发生明显变化时,需要引起运营商的关注。最后给出了后续研究的展望,希望在对业务有更深入地了解,对数据有更全面地收集下,尝试更多的方法得到更优的识别方法。
其他文献
实时时钟(RTC)是一种具有广泛应用用途的用于跟踪时间信息的专用集成电路,适用于需要准确计时和低功耗的场合,当前的实时时钟大多采用同步电路结构,然而同步时钟树和无效电平翻转产生的动态功耗限制了实时时钟芯片可以达到的最低功耗,因此使用异步电路模型实现实时时钟具有意义。本文使用异步Link-joint自时钟电路模型,提出了一种基于四线SPI接口,具有计时、定时和异步中断响应功能的异步实时时钟体系结构。
目的 分析硝苯地平缓释片治疗高血压合并糖尿病疗效,为高血压合并糖尿病的治疗提供帮助。方法 选取2021年6月—2022年5月福建省连江县马鼻镇卫生院160例高血压合并糖尿病患者,均采取常规控制血糖疗法,随机分为对照组80例,行氯沙坦治疗,观察组80例,行硝苯地平缓释片治疗,比较两组临床疗效。结果 观察组治疗有效率为98.75%,明显高于对照组的90.00%;治疗后观察组的DBP、SBP、2hPBG
碳普惠制是通过对小微企业、社区家庭与个人的节能减碳行为进行量化,并赋予一定价值的城市低碳经济建设制度,商业激励机制和政府鼓励政策等则是引导企业低碳经营、家庭与个人低碳生活的有力保障。也就是说,民众或企业在践行低碳理念时,其所带来的减排效益可累积成碳币,并使用碳币兑换商业折扣和政府奖励。本文在参考前人研究结果的基础上,以抚州市“双碳”工作开展实际为例,总结几点构建城市低碳经济评价指标体系的策略,以供
地方基础建设涉及招商引资等发展地方经济的关键因素,而地方城投平台过度举债时有发生。本文通过分析2010—2019年浙江县域地方城投平台的债券发行情况,结合2014年国家出台的“43号文”,分析县域经济适度举债增强基础建设对于促进该地区的经济发展、增强当地城镇居民和农村居民可支配收入与缩小区域贫富差距的影响。同时,本文解析了“43号文”出台的宏观经济背景和环境,以及当时金融市场对地方城投债的非理性热
鲁迅小说《示众》中没有明确的主人公,但却在短篇幅内以象征化、符号化的方式刻画了近二十个人物,本文分别从成人与孩童、大众与个体这两个方面对小说中的"看客"形象进行分层剖析,进而探究国民"看"的心理与内在认知。
空气质量的好坏直接影响着人们的日常生活,因此,了解空气质量的变化趋势尤为重要。文章以鹤壁市2021年6月1日—12月31日的空气质量指数(AQI)日报数据为样本,基于时间序列分析建立预测模型。首先,利用多种时间序列方法建立拟合模型,经过分析对比得出预测效果较好的ARMA模型;其次,使用此模型对鹤壁市未来10天的空气质量指数进行预测,预测结果与实际数据非常接近,并且此模型并不复杂,具有一定的应用性和
目的:应用实时三维经食管超声心动图(RT-3DTEE)观察卵圆孔(Foramen ovale,FO)形态特征并对其进行分型,同时探讨RT-3DTEE联合经胸超声心动图右心声学造影(c TTE)对PFO的诊断价值。方法:随机纳入2020年5月至2021年12月就诊于河北省人民医院临床怀疑PFO相关疾病及健康查体疑似PFO患者236例,所有患者均行经胸超声心动图(TTE)及c TTE,其中102人行R
随着媒介技术的发展,传媒业面临着前所未有的挑战。人工智能、大数据等技术在传媒业的应用衍生虚假新闻、技术偏见等新闻传播伦理现象,严重影响网络空间的清朗。区块链技术的时间戳功能、数据不可篡改等技术在传媒业应用、信源审核及保护版权方面,也存在新技术的问题和风险。
【目的/意义】预测新冠疫情背景下福建省旅游业发展趋势,为推动福建省旅游业的发展提供建议。【方法/过程】基于2020、2021年新冠疫情下福建省旅游相关数据,依托时间序列预测方法与灰色预测方法相结合构建的动态预测组合模型,对比分析福建省旅游业发展预测数值与实际情况,判断福建省旅游业的发展趋势。【结果/结论】结果显示,2020年后福建省旅游业发展趋势受到影响,但疫情期间福建省旅游业发展趋势向好,建议福
当前地方政府隐性债务不断扩张,其背后所蕴含的风险及风险外溢效应加剧了诱发区域金融风险的可能。基于风险网络视角,采用LASSO-VAR模型构建我国地方政府隐性债务风险溢出网络,分别从全国、经济区域与省际层面探讨隐性债务风险溢出网络截面特征与动态变化。研究发现:第一,地方政府隐性债务风险总体溢出效应显著存在,网络结构具有“无标度特性”,风险溢出水平较高省份,其风险溢入水平也较高,反之则较低;第二,中部