基于EM算法的IRT模型参数估计及应用研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:zhangnaiyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
项目反应理论(Item Response Theory,IRT)的发展为完善测评数据的分析提供了新的思路。IRT的显著特点是以概率模型的形式表达被试的作答反应结果是如何受被试潜在能力水平与项目参数共同影响的,当项目的难度与被试的潜在能力水平相匹配时,测验的效率将大幅提升。如何准确快速的估计IRT模型的参数是有效应用IRT的关键内容,尤其是在大数据的背景下,研究高效的参数估计算法以及明确有效的特征数据对提高参数估计的准确性具有非常重要的意义,在一定程度上推动着IRT的理论发展与实际应用。期望最大化算法(Expectation Maxization Algorithm,EM)作为一种迭代优化策略,由于其思想简单成为了近年来处理不完全数据问题的有效方法,基于EM算法可以利用被试的作答反应数据有效的解决IRT模型的参数估计问题。本文基于EM算法对IRT模型的参数估计问题进行了研究。主要研究内容如下:首先,在连续潜变量离散化的形式下,根据EM算法的原理推导了项目参数和潜在能力分布参数的估计过程,分析了影响参数估计准确性的因素并通过三个模拟实验确定了影响因素的最优参数设置,并将估计结果与模拟真值、基于Gauss-Hermite积分的MML/EM算法以及MCMC算法的估计结果进行了对比,说明了本文实现的EM算法参数估计的准确性。其次,针对EM算法在大数据量下需要较长的执行时间才能得出最终结果的问题,本文提出了一种基于并行思想的改进算法PE-PM算法,利用Python中的dask并行计算库通过自定义的方式实现了EM算法的E步内并行和M步内并行的运算,有效的提高了算法的执行速度,减少了内存的占用,为EM算法处理大规模测评数据的分析提供了条件。然后,在EM算法的基础上,针对不同特征数据对参数估计的影响,本文主要研究了两方面的内容,其一研究了区域数据与整体数据对参数估计的影响,通过模拟实验分析的方式得出了被试能力分布的均值和方差与项目参数中的难度和区分度参数估计结果之间的关系;其二研究了出现被试答对率与项目难度不一致现象的异常数据时对参数估计结果的影响,通过模拟实验分析的方式得出了异常数据对参数估计的影响关系,并通过异常数据检测统计量证明了在异常数据量较小的情况下项目反应模型参数估计的稳定性。最后,将基于EM算法的IRT模型应用于考试数据的分析中,收集和整理了某校数学科目测评的被试作答反应数据,对原始数据进行预处理后,通过本文研究的EM算法估计出了IRT模型中的项目参数以及被试能力水平参数,并分析了项目参数设置的合理性以及被试能力水平与难度参数的匹配性,为更好的测量被试的能力水平提出了合理化的建议。本文的创新之处在于:1、通过模拟实验的方式分析了实现EM算法参数估计过程中的影响因素,并给出了最优的参数设置。2、提出了一种基于并行思想的改进算法PE-PM算法,实现了EM算法的E步内并行和M步内并行的运算,有效的提高了算法的执行速度。3、基于EM算法研究了不同特征数据对IRT模型参数估计结果的影响,为获得精确的参数估计结果的数据处理过程提供了参考。
其他文献
随着我国社会发展总体水平的提升,人们对电力的要求越来越高。变电站为了能够满足供给控制、自动装置、信号等不间断的安全用电,就需要具备十分可靠、安全的直流电源。本文主
从农耕时代到工业时代,再到如今的互联网、人工智能时代,技术一直是推动人类社会变革的最大力量。如今,媒介技术的飞速发展改变了人类触及社会信息的方式,为社会生活带来了诸