论文部分内容阅读
计算机自适应测验(Computerized Adaptive Test,CAT)是现代测量理论与计算机技术相结合的产物。其基本思想就是“因人施测”、“量体裁衣”,依据项目反应理论,计算机自动地挑选适合被试能力水平的题目给被试作答。而且当题目的难度与被试能力水平匹配时,测验的效率最高。与传统的纸笔测验相比,CAT具有高效节约、施测灵活和安全性较高的优势,因此国内外学者对CAT的理论研究和应用实践研究越来越多。计算机化自适应测验主要包括以下六个部分:项目反应模型、题库建设、初始题的选择、选题策略、能力估计方法以及测验终止的条件,其中的选题策略是CAT测验过程中最关键和核心的部分。在实际测验过程中,CAT的常用选题策略会导致题库使用率偏低、项目曝光不均匀等问题(陈平,李珍,辛涛,2011)。毛秀珍(2013)的文章中指出测量的精度和项目曝光率往往是相互制约、此消彼长的关系。因此,好的选题策略应该能够平衡测量的精度和项目曝光均匀性。国内外对计算机自适应测验的研究众多,但没有对影响项目曝光的诸多因素做过讨论研究。本研究将对可能影响项目曝光和能力估计精度的因素进行探讨,以期发现各种条件下项目曝光和能力估计精度之间的平衡关系,为后来的CAT应用提供参考,特别是在高利害测验中,为决策者在题库设计、选题策略的选择等方面提供参考。为了解决上述问题,本文采用Monte Carlo模拟并以3PLM模型为例展开一系列的研究,以期发现各种条件下项目曝光和能力估计精度的平衡关系。我们运用模拟法和对比分析法开展这两项研究。对比分析五种常用选题策略优劣的同时,还研究讨论CAT中测验长度、题库分布、题库数量等因素对能力估计精度以及项目曝光的影响。本研究发现:(1)在不同的实验条件下,MFI的能力估计精度较高;如果综合能力估计精度和项目曝光指标,a分层表现较好,其次是OID法。(2)总体上,综合能力估计精度和题库的使用均匀性、测验重叠率等指标,a分层处在第一梯队,能力估计精度中等,项目曝光控制较好;OID法与a分层不相上下,略差于a分层。K-L为第二梯队,能力估计能力较好,项目曝光控制一般;MFI最差,能力估计精度最高,但项目曝光很差。(3)测验长度与能力估计精度成正比,与项目曝光成反比。当测验长度为30题时,各选题策略的能力估计精度与项目曝光达到相对平衡的最佳状态。测验长度在能力估计精度与项目曝光之间起到了调节的作用。(4)四种题库分布下,各选题策略的能力估计精度和项目曝光指标没有统一的变化趋势。在题库三(a~U(0.2,2.5),b~N(0,1),c~Beta(5,17),各种选题策略的能力估计精度最好,项目曝光也最低。(5)题库数量越多,供被试选择的题型更丰富,对被试的能力估计越准确,项目的曝光均匀性也更好。题库为2000题时,各种选题策略下的能力估计精度和项目曝光表现最好。(6)本研究还模拟了被试数量和被试分布这两个实验,但由于CAT是每个被试单独作答,不受其他被试的影响。因此,被试数量和被试分布只对项目曝光产生影响,并不能对能力估计的精度有所影响。但本文作为模拟研究,将被试因素对项目曝光的影响结果列出,以供参考。在实践应用中,被试的分布形态我们没法改变,也不可能为了提高测验精度而选择符合这种分布的群体,只能为我们提供指导意见。而被试数量要综合测验目标、测验题目等因素,被试数量在1000以上,能力估计都比较稳定。