不同选题策略下CAT的项目曝光和能力估计精度的比较研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:neubupt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机自适应测验(Computerized Adaptive Test,CAT)是现代测量理论与计算机技术相结合的产物。其基本思想就是“因人施测”、“量体裁衣”,依据项目反应理论,计算机自动地挑选适合被试能力水平的题目给被试作答。而且当题目的难度与被试能力水平匹配时,测验的效率最高。与传统的纸笔测验相比,CAT具有高效节约、施测灵活和安全性较高的优势,因此国内外学者对CAT的理论研究和应用实践研究越来越多。计算机化自适应测验主要包括以下六个部分:项目反应模型、题库建设、初始题的选择、选题策略、能力估计方法以及测验终止的条件,其中的选题策略是CAT测验过程中最关键和核心的部分。在实际测验过程中,CAT的常用选题策略会导致题库使用率偏低、项目曝光不均匀等问题(陈平,李珍,辛涛,2011)。毛秀珍(2013)的文章中指出测量的精度和项目曝光率往往是相互制约、此消彼长的关系。因此,好的选题策略应该能够平衡测量的精度和项目曝光均匀性。国内外对计算机自适应测验的研究众多,但没有对影响项目曝光的诸多因素做过讨论研究。本研究将对可能影响项目曝光和能力估计精度的因素进行探讨,以期发现各种条件下项目曝光和能力估计精度之间的平衡关系,为后来的CAT应用提供参考,特别是在高利害测验中,为决策者在题库设计、选题策略的选择等方面提供参考。为了解决上述问题,本文采用Monte Carlo模拟并以3PLM模型为例展开一系列的研究,以期发现各种条件下项目曝光和能力估计精度的平衡关系。我们运用模拟法和对比分析法开展这两项研究。对比分析五种常用选题策略优劣的同时,还研究讨论CAT中测验长度、题库分布、题库数量等因素对能力估计精度以及项目曝光的影响。本研究发现:(1)在不同的实验条件下,MFI的能力估计精度较高;如果综合能力估计精度和项目曝光指标,a分层表现较好,其次是OID法。(2)总体上,综合能力估计精度和题库的使用均匀性、测验重叠率等指标,a分层处在第一梯队,能力估计精度中等,项目曝光控制较好;OID法与a分层不相上下,略差于a分层。K-L为第二梯队,能力估计能力较好,项目曝光控制一般;MFI最差,能力估计精度最高,但项目曝光很差。(3)测验长度与能力估计精度成正比,与项目曝光成反比。当测验长度为30题时,各选题策略的能力估计精度与项目曝光达到相对平衡的最佳状态。测验长度在能力估计精度与项目曝光之间起到了调节的作用。(4)四种题库分布下,各选题策略的能力估计精度和项目曝光指标没有统一的变化趋势。在题库三(a~U(0.2,2.5),b~N(0,1),c~Beta(5,17),各种选题策略的能力估计精度最好,项目曝光也最低。(5)题库数量越多,供被试选择的题型更丰富,对被试的能力估计越准确,项目的曝光均匀性也更好。题库为2000题时,各种选题策略下的能力估计精度和项目曝光表现最好。(6)本研究还模拟了被试数量和被试分布这两个实验,但由于CAT是每个被试单独作答,不受其他被试的影响。因此,被试数量和被试分布只对项目曝光产生影响,并不能对能力估计的精度有所影响。但本文作为模拟研究,将被试因素对项目曝光的影响结果列出,以供参考。在实践应用中,被试的分布形态我们没法改变,也不可能为了提高测验精度而选择符合这种分布的群体,只能为我们提供指导意见。而被试数量要综合测验目标、测验题目等因素,被试数量在1000以上,能力估计都比较稳定。
其他文献
妇科肿瘤(Gynecologic Oncology)是威胁女性生命健康的杀手,且发病率居高不下,呈逐年增长的趋势。妇科肿瘤的发生、发展以及转移的机制一直是国内外研究的重点。肿瘤干细胞在
北京钢铁设计研究总院与航天工业部国营清华机械厂合作研制成功了新型数控脉冲液压缸。本文介绍数控脉冲液压缸的结构与工作原理及试验结果。 Beijing Iron and Steel Desig
介绍了邳州市建设农村科技服务超市的建设内容、服务目标、服务规范与流程、运行机制及配套政策,以期为基层农业推广体系的建立提供参考。
武汉市某项目典型二元结构地层,稳定砂层平均埋深约50m,合理桩长范围内无较好持力层,灌注桩沉渣控制困难、成桩工效低。选择深度〉30m的粉细砂夹粉质粘土层为桩端持力层,通过