一种改进的随机森林并行分类方法在运营商大数据的应用

被引量 : 7次 | 上传用户:com_cn121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电信运营商为电信消费者提供网络服务,能够取得丰富的数据资源。为了发掘这些数据的价值,本文设计并实现了一个基于运营商大数据的二手房产中介客户分类系统,利用改进的随机森林分类方法、MapReduce并行计算框架、聚类分析等大数据处理技术,并结合数理统计、复杂网络方面的数据分析方法与网络爬虫技术,从每天的运营商通话记录中提取房产中介潜在客户并对其按照租房者、出租者、购房者、售房者以及其他等类别进行划分,以供房产中介进行精准营销。分类算法是整个系统的核心,本文提出一种改进的随机森林分类算法,包括三个改进:(1)通过数学和实验证明,对平衡数据,增加重复抽样的样本量可以有效提高准确率;(2)通过采用简单随机抽样等效替代原有的重复抽样,减少该算法的运行时间,提高系统效率;(3)采用回归分析得到不平衡度与重复抽样的定量关系为..,最终根据运营商大数据的不平衡度得到适用于本系统的重复抽样样本量。系统分为数据采集子系统、数据预处理子系统、数据分析子系统和反馈调整子系统。数据采集子系统主要负责收集房产经纪人数据。数据预处理子系统通过并行化处理技术过滤掉与房产经纪人无关的通话记录,并通过并行化处理技术从中提取出潜在的客户,以及他们的所有通话行为信息。数据分析子系统利用改进的随机森林算法对潜在客户进行分类,特别当系统处于冷启动阶段还没有训练样本时,系统利用数理统计的R语言构建可视化维度图,利用复杂网络中的分析软件Cytoscape构建可视化交互作用网络,利用机器学习的聚类分析方法对初始样本集进行分析,帮助快速获取训练样本以及梳理特征维度组合。反馈调整子系统是将后续系统运行中获得的符合条件的带标签样本加入到训练样本库中,不断对分类系统进行调整,细化分类边界让后续的分类更加准确。通过将改进的随机森林分类算法应用到基于运营商大数据的二手房产中介客户分类系统,采用最初的训练样本作为测试样本进行测试,得到分类错误率为21.1379%左右,比未改进的分类错误率(21.5274%)低0.3895%。应用了改进随机森林算法的分类系统准确率在79%左右,对房产中介销售业绩提升有促进作用。
其他文献
关于协商民主的研究最早起源于西方,后来被逐渐介绍到中国。中共中央在加强政协工作会议的过程中,提出人民通过选举、投票行使权力和人民内部各方面在重大决策之前进行充分协
近年来,随着我国经济水平的快速增长和人们日益需求的增长,生活水平在不断地提高,同时对生活品质方面的要求也越来越高。科技综合体项目的建设的发展程度受到越来越多的重视
校本课程是学校根据自己的办学思想自主进行的课程实践,它是依据不同学生的特点、为适应学生个性差异而开设的课程,以期满足不同地方、学校和教师的需求,最终满足学生发展需
技术课程标准作为技术课程的中观形式,对课程的具体实施与发展具有指导意义。了解韩国课程标准的独到之处,找出我国可以借鉴之处,促进我国通用技术课程标准的完善是本研究的
随着社会的发展,旅游业已经成为推动经济发展的重要力量。然而激烈的市场竞争,引发了对旅游资源和项目的盲目开发与投资、生态环境破坏严重、旅游素质低下等一系列问题,加之
通过文献调研,分别讨论了纳米孔高效隔热材料在微米尺度和纳米尺度下气体导热,纳米尺度孔结构气固耦合等效热导率,添加遮光剂颗粒的气凝胶复合等效热导率和高温辐射等效热导
科学有效的企业管理,可以有效提高企业的经济效益,实现企业的可持续发展。对于煤矿企业而言,若要提高经济效益,就必须要注重相应的企业管理,本文主要介绍了企业管理,提升煤矿
<正>中轴线的保护和申遗,对北京全国文化中心建设意义重大。"历史文化名城"是首都北京的金名片,而中轴线申遗就是一次全面的"文化遗产保护行动"。市委、市政府高度重视中轴线
手术室是医院对病人实施手术治疗、检查、诊断并担负抢救工作的重要场所,其护理质量直接关系到病人的生命安危[1].护理查房是提高护士业务能力、全面考核护士素质的重要途径
立足于美国黑人的女子教育观,从政治、经济、历史学的角度,选取具有代表性的黑人女性作为研究范例,纵观了19世纪美国黑人女子高等教育的发展历程,揭示出美国黑人女性接受高等