论文部分内容阅读
随着人类生活进入信息社会,以信息技术为核心的信息时代对教育领域产生了深刻的影响,并将成为教育改革的技术基础与动力。数据教育挖掘也随之成为一个新兴的、备受关注的研究方向。显而易见,教育领域的各类数据将随着信息化的发展而极速增加,人们也因此开始思考如何从这些海量和复杂繁冗数据中获取有用的信息,并将这些信息用以提高人类教育水平和学习效率。正是这一问题的提出使教育数据挖掘意义重大。 本文针对如何更好地从海量数据中挖掘出对学习者有用的信息,并为教育决策部门与机构提供有用的参考信息而提出基于海量数据挖掘的知识学习效果预测方法研究。该系统以训练学生数学答题行为为模型,根据其以往行为表现,预测学生将来的答题准确率,从而达到对学生学习效果的评测,并及时根据学生学习效果调整教学过程。本系统主要包括以下两部分。 (1)特征生成阶段。根据学生与学校的智能辅导教学系统的交互日志对数据进行分析,并选择合适特征。因为原始数据集属性复杂,记录间有时间先后顺序且数据量大等特点,本文在特征提取部分工作主要包括:使用基于时间特征的方法生成验证数据集,对原始数据集的部分复杂结构属性,如组合属性进行分离处理。因为学生学习过程会随着时间的变化而变化,为克服测试集无时间属性转而针对原始数据集的特点进行其他时间特征生成。此外,在本文中为了对更好地表示分类器输入,还将对特征进行归一化与二值化处理,并用稀疏矩阵表示。 (2)学习效果预测阶段。为了达到较好的实验结果,本文主要尝试使用了两种分类器,一种是K-近邻算法,并在两个方面改进了该算法,另一种是逻辑回归。对K-近邻的改进,本文将改进过程中涉及到的权值调整进行了大量的实验,主要是为了使其在大数据集上能够训练出结果,并且训练、分类的时间可以让人接受。对于逻辑回归,本文采用原始数据集升维方式将非线性问题转化为线性问题,其中逻辑回归中使用的调整参数的方法为梯度下降法。 经实验,在小数据集上,K-近邻算法的训练速度以及分类效果可以接受,但在大数据集上表现不佳,而逻辑回归方法在本问题上的表现较好,训练速度较快,分类结果也比较正确。本文还展示了两个算法在不同特征选取下的实验结果。最终本文的分类结果在KDD CUP2010 student team排第十二名。