论文部分内容阅读
根据调查显示,我国普通高等学校中贫困生的数量还相对较多,因此如何资助贫困生已成为非常重要的问题,而贫困生的评定则是高校贫困生资助的前提和难点所在。目前许多高校所采用的人工评定贫困生的方法存在着主观依据多、客观依据少等缺点,而如今利用大数据挖掘技术对贫困生的评判已是大数据技术在校园中的一项重要应用。本课题以我校真实的校园一卡通消费数据为例进行分析,完成从数据的预处理、数据导入、算法设计、模型建立到贫困生挖掘算法实现的整个过程。首先利用腾讯云服务器搭建大数据分析平台,将校园一卡通数据经过预处理,利用Sqoop工具导入至大数据分析平台并存储在HDFS中,基于SparkMLlib机器学习库进行数据挖掘,将挖掘结果展现出来。本文首先利用机器学习库中的Logistic回归算法进行训练,然后将SVM算法引入到传统的Logistic回归模型中,利用新的集成判别分析规则对贫困生进行挖掘。通过计算学生的食堂消费金额,超市消费比例,校园网网费等变量,从而组成特征向量,依据这些特征向量构成数据集,对贫困生进行挖掘。通过实验建立模型,最后对新的消费数据预测该数据对应的学生是否为贫困生,并对结果进行说明和分析。