论文部分内容阅读
个性化学习旨在根据学习者个体的认知水平、学习能力等,选择合适的学习资源与学习方式,使其弥补知识不足,获得最佳发展。近年来,在线学习系统的快速发展,不仅打破了传统课堂学习的时空约束,还提供了丰富的学习资源,吸引了越来越多的学习者,留下了大量的学习数据。这些学习数据蕴含着巨大的科学及市场价值,为实现数据驱动的个性化学习服务,提供了有力的支撑。因此,如何利用数据挖掘等技术对学习者学习数据进行理解、分析,实践个性化学习,已经成为计算机及相关交叉学科的研究热点。现阶段,尽管基于认知心理学等理论的相关方法已取得了一定的成效,但在线场景中的个性化学习研究人面临着学习资源表征苦难、学习过程复杂易变以及学习策略难以量化等挑战。为此,本文系统性地开展了面向个性化学习的数据挖掘方法及应用的探索性研究工作。具体地,针对练习题对象,提出了练习资源的深度表征方法,并在语言类和逻辑类两类典型练习题目的应用中进行验证;针对学生对象,分别提出了融合学习因素的知识跟踪方法和融合题目语义的知识跟踪模型;针对学习策略对象,提出了基于多目标学习的个性化推荐方法,提高学生学习效率。本文的研究工作依托于科大讯飞开发的国内领先的在线学习平台系统“智学网”,研究问题和研究数据均来源于实际应用场景,且研究方案均在真实平台中验证,具有实际应用价值。本文主要的工作与贡献可以概括如下:首先,本文研究练习题深度表征方法。一方面,本文针对语言类练习,提出了基于语义理解的练习题表征方法。语义理解是语言类练习表征的基础,传统方法基于固定的规则匹配,忽略了题目文本的语义丰富和依赖等特点。本文将该类练习题表征分解成语句理解和语义关联两个部分,首先使用卷积神经网络提取句子级别特征,然后,基于注意力机制,量化练习文本对于题目的语义依赖。最后,针对于题目难度预测任务,提出一种基于偏序学习的模型训练方法,消除不同测试范围带来的难度误差。该方法在高考英语阅读理解难度预测任务中进行了大量实验验证,其结果表明该方法能够有效提高难度预测的准确性和稳定性。另一方面,针对逻辑类练习,提出了基于结构理解的练习表征方法。区别于语言类练习,逻辑类练习通常含有特定结构的元素(如公式)。然而,传统方法直接将其视为文本序列进行表征,忽略了其结构特性。本文首先设计辅助工具,构建练习层面的公式依赖图,然后提出基于点注意和边注意两种策略的图网络学习其结构表征。最后,提出嵌套序列模型,融合练习的文本语义和公式结构关联。在数学简答题自动解答任务中验证了该方法能够有效挖掘数学练习中的公式结构,提高解题精度。其次,针对于学生用户,本文研究动态认知诊断方法。一方面,考虑到知识关联因素和人脑记忆/遗忘因素对于学习活动的影响,提出一种融合学习因素的知识跟踪模型EKPT。该模型首先基于练习-知识关联信息,将学生和练习映射到具有明确含义的知识空间中。然后,融合教育学经典的学习曲线和遗忘曲线理论,在知识空间中量化建模了学生知识学习的演化过程。实验结果表明该方法提高了认知诊断的精度。另一方面,考虑到学习过程中的题目语义(知识共性语义和文本个性语义)的影响,本文提出一种融合题目语义的知识跟踪框架。该模型首先设计动态增强记忆网络存储知识共性信息,刻画了学生对于知识的动态掌握情况。其次,提出题目特征提取器,挖掘文本个性信息,且将其融入到学生的知识变化建模过程中。最后,本文分别基于马尔科夫性质和注意力机制两种策略,提出两种实例化模型。实验在大量学生练习记录上进行,结果验证了具有精准的预测性能和知识跟踪可解释性。最后,在学习策略设计方面,本文提出一种基于多目标学习的个性化推荐算法。区别于传统推荐系统,在线学习推荐任务具有更大的挑战。传统方法通常遵从“推荐未掌握的练习”的单一推荐策略,为考虑复杂学习目标(如复习与探索平衡性、难度平滑性、参与度等)的影响。为了解决此问题,本文设计了不同的回报函数量化三种学习因素,然后提出一种深度强化学习方法,在学生交互学习中协同优化多个因素,从而找到最优推荐结果。本文在离线和在线两类场景中进行实验,结果均充分显示了该推荐算法的有效性。