论文部分内容阅读
随着互联网技术的快速发展,MOOC方式的在线教育得到传播,得到了众多学习者的追捧,特别是高校的教育工作者开始广泛进行MOOC在线学习与线下课堂结合的教育实践。在学习者进行MOOC学习的过程中产生大量的用户行为数据,这些数据能够客观地反映学习者的实际情况。因此,关于MOOC的行为数据挖掘成为教育领域的研究热点。本文关注的重点在于挖掘MOOC学习行为数据的实际应用价值。首先利用改进的决策树TG-C4.5算法,对学习行为数据进行数据挖掘,实现成绩的预测分类目标;其次,解决缺乏数据挖掘知识的教育工作者对挖掘结果理解的问题,将算法集成应用到教育辅助系统中,实现预测分析结果的可视化,为教师对教学预警等信息的决策提供依据。本文的主要研究工作如下:(1)基于传统的决策树C4.5算法的改进。在传统决策树C4.5算法中,对算法存在的时间消耗多和准确率有待提高等问题,通过采用加入泰勒级数和GINI指数两种方法对其进行改进,得到TG-C4.5算法,并通过在UCI数据集上进行实验,验证该算法的有效性。(2)数据的获取和预处理。我们采用某高校学生在MOOC上的行为日志等,利用Java等相关技术对MOOC相关日志进行解析和清洗,实现数据的预处理,并且选择预处理后的数据作为改进算法实际应用的数据源。(3)改进算法在MOOC中的应用。对预处理得到的数据源,采用皮尔森系数和信息增益两种方法进行属性选择,然后通过属性选择后的MOOC数据集将相关算法与提出的TG-C4.5算法进行对比实验,验证了 TG-C4.5算法实际应用的有效性,为后文中系统的实现做铺垫。(4)融合MOOC学习行为的教育辅助系统的设计与实现。该系统在HTML、Flask框架和Python等相关技术完成基本功能需求的基础上,将提出的TG-C4.5算法集成到教育辅助系统中,实现MOOC学习行为成绩的预测和预测结果的可视化,为教师和学习者提供良好的预警信息等决策支持。