基于海量数据挖掘的知识学习效果预测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:k1389520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类生活进入信息社会,以信息技术为核心的信息时代对教育领域产生了深刻的影响,并将成为教育改革的技术基础与动力。数据教育挖掘也随之成为一个新兴的、备受关注的研究方向。显而易见,教育领域的各类数据将随着信息化的发展而极速增加,人们也因此开始思考如何从这些海量和复杂繁冗数据中获取有用的信息,并将这些信息用以提高人类教育水平和学习效率。正是这一问题的提出使教育数据挖掘意义重大。  本文针对如何更好地从海量数据中挖掘出对学习者有用的信息,并为教育决策部门与机构提供有用的参考信息而提出基于海量数据挖掘的知识学习效果预测方法研究。该系统以训练学生数学答题行为为模型,根据其以往行为表现,预测学生将来的答题准确率,从而达到对学生学习效果的评测,并及时根据学生学习效果调整教学过程。本系统主要包括以下两部分。  (1)特征生成阶段。根据学生与学校的智能辅导教学系统的交互日志对数据进行分析,并选择合适特征。因为原始数据集属性复杂,记录间有时间先后顺序且数据量大等特点,本文在特征提取部分工作主要包括:使用基于时间特征的方法生成验证数据集,对原始数据集的部分复杂结构属性,如组合属性进行分离处理。因为学生学习过程会随着时间的变化而变化,为克服测试集无时间属性转而针对原始数据集的特点进行其他时间特征生成。此外,在本文中为了对更好地表示分类器输入,还将对特征进行归一化与二值化处理,并用稀疏矩阵表示。  (2)学习效果预测阶段。为了达到较好的实验结果,本文主要尝试使用了两种分类器,一种是K-近邻算法,并在两个方面改进了该算法,另一种是逻辑回归。对K-近邻的改进,本文将改进过程中涉及到的权值调整进行了大量的实验,主要是为了使其在大数据集上能够训练出结果,并且训练、分类的时间可以让人接受。对于逻辑回归,本文采用原始数据集升维方式将非线性问题转化为线性问题,其中逻辑回归中使用的调整参数的方法为梯度下降法。  经实验,在小数据集上,K-近邻算法的训练速度以及分类效果可以接受,但在大数据集上表现不佳,而逻辑回归方法在本问题上的表现较好,训练速度较快,分类结果也比较正确。本文还展示了两个算法在不同特征选取下的实验结果。最终本文的分类结果在KDD CUP2010 student team排第十二名。
其他文献
随着互联网时代的到来,信息在传播途径上发生了翻天覆地的变化,人们可以轻易的从网络上下载海量数据,文本聚类作为一种有效的文本组织手段,可以帮助人们发现网路上热点的问题
近年来,搜索技术的发展推进了以搜索为基础的在线问答系统的出现,以及更高级的交互式问答系统在各个领域的应用。交互式问答系统是指人与系统之间能够用自然语言的形式,进行
移动设备中的实时手势控制方法研究,主要是通过文中提出的“基于运动肤色的混合模型”从实时视频信息中确定手势区域、提取手势对象,并通过数字图像的相关操作,优化提取到的
随着Internet的高速发展,互联网信息量变得越来越庞大并保持高速增长。同时,互联网的用户规模也快速的增加,网民需要一种有效的工具快速的获取信息。搜索引擎作为海量信息获
无线 Mesh网(Wireless Mesh Network, WMN)是一种融合了无线局域网(WLAN)和无线Ad hoc网络两者优势的新型网络,WMN具有动态拓扑、自组织、自愈合、多跳传输等众多优点,被认为
随着虚拟现实技术与真实感渲染技术的日渐成熟,在社会的各个领域已变得不可或缺,尤其给人们的日常生活带来巨大的变化,接踵而来的是日益增加的相关研究需求。沙画表演是21世纪开
教育信息化是国家信息化建设的重要基础,教师则是教育信息化的中坚力量。随着教育信息化的推进,教师教研的方式也随之改变。“网络教研”已成为当前教师参与教研活动的首要方
无线传感器网络(Wireless Sensor Network,WSN)可靠性是保障网络正常工作的前提,是提高网络性能的基础。WSN可靠性不仅是网络设计的关键指标,同时也是保障网络正常运行和管理
近年来,智能规划已经成为人工智能的研究热点,可能性规划作为不确定规划的一种,由于能够定性的刻画现实世界中的不确定性,更适合于求解现实世界中的规划问题,而逐渐得到人们
从互联网诞生的那天起,信息量每日都在快速增长,搜索引擎是用户在海量数据中快速准确的寻找需要数据的最常用途径。随着网民数量的不断增长,特别是Web2.0技术的发展,互联网信