论文部分内容阅读
本篇论文采用基于现代项目反应理论(IRT)的多侧面Rasch模型来研究四种评分员因素:严厉度/宽松度、评分不稳定、光环效应以及集中趋势对评分的影响。本文从湖南大学美雅学院ESL国际项目的写作试卷中随机抽出30份试卷并由9位评分员进行评分。评分采用的量表为Jacob的7级分项评分量表,从“内容”、“结构”、“语言”、“词汇”、以及“写作规范”五个评分维度对考生的写作水平进行考察。所得的数据由多侧面Rasch模型的FACETS软件包进行分析。多侧面Rasch模型基于现代项目反应理论,以考生的心理特质为依据进行建模,运用项目反应函数预测考生在考试中的表现,有别于经典真分数理论框架下的对原始分进行观测分析而得出结论的方法。研究首先用多侧面Rasch模型对单个评分员的评分严厉度以及光环效应进行了分析,然后运用多侧面Rasch模型的偏差分析来探讨评分员在不同的写作任务和不同的评分维度上的评分是否保持了稳定性。最后通过假设各个评分员有独立的评分量表,由此建立模型以分析评分员的集中趋势。通过分析,本研究得出以下发现:1)评分员的严厉度水平有着显著性的差异。其中9号评分员的严厉度水平是最高的,而5号评分员的严厉度水平是最低的。2)所有评分员在评阅不同的写作任务时保持了内在的一致性,但在评阅不同的评分维度时却表现出了评分不一致的情况;3)1号和2号评分员在评分时表现出显著的光环效应,即他们倾向于在5个维度上给出相似的分数。其他的7位评分员都能较好的区分5个评分维度的差异。4)4号评分员和6号评分员没有用评分量表的全距进行评分,1号评分员、4号评分员、以及6号评分员表现出明显的集中趋势。基于以上研究,本文的研究对如何改善和提高写作评分中的评分员信度有着重要的意义。首先可以改善评分量表,对评分量表有歧义或者欠详细的部分进行修改;其次,由于本模型可以考察单个评分员的表现,因而它可以为评分员的选拔提供参考,再次,对于评分不准确的评分员,可以做进一步的培训或者加以替换,最后,对于高风险的大规模测试,可以根据模型对某些特别不准确的评分进行适当的修正。本研究也表明,多侧面Rasch模型可以较好的考察单个评分员在评分中的表现,因而是写作阅卷质量监控的一种强有力的工具,对保证写作测试的信度和科学性有着极为重要的意义。