论文部分内容阅读
摘 要 对语文高考选择题两种命题模式及其评分标准进行实验研究,采用spss16.0版软件对数据进行统计分析。结合个案研究和理论探讨,得出以下结论:第一,高考语文选择题原命题模式中词汇捆绑叠加,故意增加答题难度,给部分考生带来一定的心理障碍和阅读障碍。第二,语文高考选择题命题模式脱离生活实际倾向,导向不良;第三,分值过大的二值评分式语文高考选择题在一定程度上会误判部分学生的实际语文基础知识掌握程度,引起较大的测量误差。
关键词 语文高考;选择题;实验研究
[中图分类号] G424.79 [文献标识码] A [文章编号] 1008-004X(2013)02-022-04
收稿日期 2012-07-15
[作者简介] 林娟,女,福建莆田人,福建师范大学教育学院硕士研究生,主要从事高等教育考试与评价研究。
语文高考中,选择题是检测学生基础知识掌握与应用能力的一种重要题型,历年为高考所采用。此类选择题每题3分(也有更高分的),答对得3分,而答错则得0分。然而,经过调查研究发现,语文高考选择题的命题模式存在不合理之处。本文对语文高考选择题采用的两种不同命题模式和评分标准进行对比研究,为高考命题改革探索更为合理的命题模式及其相应的评分标准。
一、实验设计与数据分析
1.实验设计。本测验原题目选自2011年北京市、江苏省、山东省、广西省以及2009年湖北省的语文高考试卷,挑选其中5道选择题。运用两种命题模式及评分标准进行重新整合编制成试卷并对考生进行对比测验,两种命题模式的选择题都是四选一,但其词汇量及评分标准不同。第一种命题模式及其评分标准,按照高考实际进行操作,称为原题目。第二种命题模式及其评分标准,是把一道高考选择题的16个成语,分别编成4道简单式选择题,简称为分解题。每道分解题答对0.75分,答错0分。考虑到语文学科具有工具性质,所以选择研究生作为被试者也无妨。本次实验从福建师范大学教育学院一年级研究生中随机抽取35人作为被试者。共发放试卷35份,回收34份,回收率97%,有效问卷34份,有效率97%。
本次实验采用spss16.0 for windows软件对收集的数据进行统计分析,主要是进行了变量计算、描述性统计、配对t检验和相关性分析等。
2.实验结果与数据分析。第一,实验结果。测验要求每个被试者在规定的时间内对高考原题目及相应的分解题进行同时作答。分别对每个被试的原题目得分情况、分解题得分情况及其相关性,还有对在两种命题模式和评分标准下出现的差别进行统计检验和调查分析。
从表1各题的得分情况来看,在5道不同的高考原题中,34位被试者中总有某些题目上得满分者。但并不是所有的被试者在原题目得满分之后,其分解题也得满分。如表1中9号被试者和13号被试者在题1的原题中均得3分,而在分解题中却得0.75分,在其他被试者中,分解题还有得2.25分和1.5分的。这种原题得满分而分解题未得满分的情况占总体的36.5%。这意味着,3分的原命题模式的测量结果并不能完全代表学生的知识掌握程度。否则的话,原题目的得分应该与分解题的得分一致。然而,从表1中也可发现另外一种与众不同的情况,即被试者在原题中得0分,在分解题中却可以得到一定的分数,如题1中的16号被试者、题5中的25-31号被试者,虽然他们在原题中得0分,但在分解题中得到0.75分-2.25分。具体的原因将会在下文中具体分析和阐述。
第二,两种命题模式的得分差异分析研究。从表2的数据可以看出,原题目总分得满分者才7位,占所有被试的21%。而更令人感到奇怪的是,这些原题目总分得满分的被试者在分解题中却未全得满分。而照常理说,原题目得满分者其分解题也应该得满分,因为无论是哪种命题模式,都是被试者在尽量对学过的知识进行统合之后所选出来的答案。而原题目只得3分和6分的被试者,分解题的得分却远远高于原题目的得分。为进一步了解出现此差别的原因,笔者对出现这两种异常情况的被试者进行访谈。2号和7号被试者认为,原题目得满分完全出乎他们的意料之外,由于高考原题每题的词汇量大于分解每题的词汇量,每个选项平均有4个词语或成语甚至更多,要在同样的时间内完成具有一定的难度。因此也没办法对词语逐个的分析推敲,只能通过“猜测”“排除”和“直觉”等捷径进行作答。由此可见,在这种做题情况下,高考选择题的原命题模式无法真正测出考生知识掌握的真实程度,即违背了出题者的初衷。
第二种情况是原题目只得3分和6分的被试者。对此,笔者对27号和29号的被试者进行访谈,其结果表明,不管是原题目还是分解题,被试者都较认真对待,但由于原题目词汇量较多,无法在有限的时间内既保质又保量。恰恰相反,分解题虽然有四小题,但每题的词汇量较少,思考时间相对较少,做的速度也会更快,也能保证相对较高的正确率。再者,7号被试者认为就高考原题来说,做错一题是完全得不到分的,但如果按四小题的模式,考生还可以得1分甚至更高,这样就会缩小考生之间的分数距离。
统计显示,在该测验中,原题目分数高于分解题分数的人数占总人数比例38.2%,而原题目分数低于分解题分数的人数占总人数比例为52.9%。从这个数据初步可以断定,高考原题和分解题中,后者分数高于前者的更为普遍。结合表1的分析以及访谈结果来看,可以认为语文高考选择题的命题模式难度大于分解题的难度,这种捆绑式的命题模式欠合理。
第三,两种命题模式评分标准的比较和分析。从评分标准来看,原题目一题3分,错则得0分。假若两位考生A和考生B同时做题,因为出了一点小差错,A考生不得分,而B考生却“误打误撞”的得3分,那这样我们就可以断定A考生的知识掌握不够?而B考生的基础知识则掌握的不错吗?显然不行。为了验证两种命题模式评分标准的公平性,笔者在34位被试者中随机抽取了10位被试者进行访谈,结果发现,有9位被试者认为,分解题模式中的评分标准显得更为公平,且认为高考命题应该进行改革。 第四,两种命题模式的均值差异显著性检验。为了进一步了解两种命题模式的均值是否具有显著性差异,我们对该样本进行配对样本t检验(双侧),结果显示,原题目平均分与分解题平均分的相关性系数r=0.617,t=14.616,p<0.001,即认为原题目得分与分解题得分的测量值之间存在着中等程度的显著相关。且表3的统计检验结果表明,原题目均值x=10.41,标准差s=3.32,而分解题均值x=11.12,标准差s=1.96,t=-1.573,p>0.05,说明两种命题模式总得分均值不存在显著性差异。为什么如此,其原因有待进一步探索,或许跟选择的题目有关,或许与样本大小有关。尽管如此,仔细分析每个题目的得分数据和对个别访谈结果来看,至少可以得出这样的结论:原命题模式和评分标准设计对于部分语文高考选择题和部分考生欠合理的命题,仍然是成立的。
二、小结与讨论
本文的结论是:第一,高考语文选择题原命题模式中词汇捆绑叠加,故意增加答题难度,给考生带来一定的心理障碍和阅读障碍,这样的结果就难以准确检验学生的基础知识掌握程度。第二,这种捆绑叠加多个词汇的题目在现实生活中几乎没有需要或应用的情景和价值。语文考试选择题命题脱离生活实际,给学生带来不好的导向。第三,二值式评分标准设计一定程度上误判学生的实际语文基础知识掌握程度,累积起来,对一些处于特殊能力水平位置的群体来讲,将引起较大的测量误差,降低测验信度和效度,况且简单依据语文高考选择题原命题模式的设计而得出来的这种检验结果——3分或0分来判断学生的知识掌握程度以及应用能力而中间缺少一个合理的评价过程,这样的评分结果对此类群体来说也是不客观、不公平、不够合理的。这些结论已经在上文的一系列数据分析中得到进一步验证。
接下来笔者将对以下几个问题进行讨论:首先,针对本次实验所抽取的对象是否必须是高三生。笔者认为未必,因为语文学科具有工具性的特点,社会上的任何一个人都应该掌握,它不像英语、物理、化学等学科必须要求具有相关专业或学科背景的人才才可以参与实验。因此,各个专业的本科生、研究生以及教师都可以作为本次研究的被试对象,而绝非一定是高三生。其次,本次实验中,虽然只抽取了5道高考原题,但绝不会影响研究结果,因为此类的研究,在题目来源及设计恰当合理的前提下,只要样本够大,能够在一定的样本情况下得出检验结果、能说明问题就都是合理的,而题量则不需要太多。此次研究中惟一不足的只能说是被试者人数不够多,造成研究结果不太明显。基于上文的研究分析和讨论,对于高考语文选择题命题模式和评分标准的设计,笔者提出以下建议:一是,出题者在命题时不要误导学生去死记硬背,不要人为增加难度;二是,试卷中的词汇,不要毫无意义的增加,以免增加考生的心理障碍和阅读障碍;三是,在诸如此类的考查学生基础知识掌握程度和应用能力的辨识选择题的(如:找错别字、辩形辨音题等)命题过程中,应注意题量多而题分要少。因为这种客观性试题主要是用于测量知识的掌握、理解、应用和分析,因此在限定的时间内测验可以包含足够数量的试题,能保证对知识的覆盖就足矣。题分少则可以保证评分结果的科学性、合理性和公平性。如果要从中国的实际出发,笔者建议一道选择题可以设1分,最好不要超过两分。当然,绝对的合理和公平是不可能的,我们的分析和探讨是为了寻求更为合理、更为公平的考试命题模式,以改革为动力,不断促进高考命题迈着更为合理和公平的步伐前进。
[参考文献]
[1]廖平胜.考试学原理[M].武汉:华中师范大学出版社,2003.
[2]朱小蔓.教育的问题与挑战[M].南京:南京师范大学出版社,2000.
[3]何颖.更好的公平与更高的效果[J].教育科学,2008,(3).
[责任编辑:钱道赓]
关键词 语文高考;选择题;实验研究
[中图分类号] G424.79 [文献标识码] A [文章编号] 1008-004X(2013)02-022-04
收稿日期 2012-07-15
[作者简介] 林娟,女,福建莆田人,福建师范大学教育学院硕士研究生,主要从事高等教育考试与评价研究。
语文高考中,选择题是检测学生基础知识掌握与应用能力的一种重要题型,历年为高考所采用。此类选择题每题3分(也有更高分的),答对得3分,而答错则得0分。然而,经过调查研究发现,语文高考选择题的命题模式存在不合理之处。本文对语文高考选择题采用的两种不同命题模式和评分标准进行对比研究,为高考命题改革探索更为合理的命题模式及其相应的评分标准。
一、实验设计与数据分析
1.实验设计。本测验原题目选自2011年北京市、江苏省、山东省、广西省以及2009年湖北省的语文高考试卷,挑选其中5道选择题。运用两种命题模式及评分标准进行重新整合编制成试卷并对考生进行对比测验,两种命题模式的选择题都是四选一,但其词汇量及评分标准不同。第一种命题模式及其评分标准,按照高考实际进行操作,称为原题目。第二种命题模式及其评分标准,是把一道高考选择题的16个成语,分别编成4道简单式选择题,简称为分解题。每道分解题答对0.75分,答错0分。考虑到语文学科具有工具性质,所以选择研究生作为被试者也无妨。本次实验从福建师范大学教育学院一年级研究生中随机抽取35人作为被试者。共发放试卷35份,回收34份,回收率97%,有效问卷34份,有效率97%。
本次实验采用spss16.0 for windows软件对收集的数据进行统计分析,主要是进行了变量计算、描述性统计、配对t检验和相关性分析等。
2.实验结果与数据分析。第一,实验结果。测验要求每个被试者在规定的时间内对高考原题目及相应的分解题进行同时作答。分别对每个被试的原题目得分情况、分解题得分情况及其相关性,还有对在两种命题模式和评分标准下出现的差别进行统计检验和调查分析。
从表1各题的得分情况来看,在5道不同的高考原题中,34位被试者中总有某些题目上得满分者。但并不是所有的被试者在原题目得满分之后,其分解题也得满分。如表1中9号被试者和13号被试者在题1的原题中均得3分,而在分解题中却得0.75分,在其他被试者中,分解题还有得2.25分和1.5分的。这种原题得满分而分解题未得满分的情况占总体的36.5%。这意味着,3分的原命题模式的测量结果并不能完全代表学生的知识掌握程度。否则的话,原题目的得分应该与分解题的得分一致。然而,从表1中也可发现另外一种与众不同的情况,即被试者在原题中得0分,在分解题中却可以得到一定的分数,如题1中的16号被试者、题5中的25-31号被试者,虽然他们在原题中得0分,但在分解题中得到0.75分-2.25分。具体的原因将会在下文中具体分析和阐述。
第二,两种命题模式的得分差异分析研究。从表2的数据可以看出,原题目总分得满分者才7位,占所有被试的21%。而更令人感到奇怪的是,这些原题目总分得满分的被试者在分解题中却未全得满分。而照常理说,原题目得满分者其分解题也应该得满分,因为无论是哪种命题模式,都是被试者在尽量对学过的知识进行统合之后所选出来的答案。而原题目只得3分和6分的被试者,分解题的得分却远远高于原题目的得分。为进一步了解出现此差别的原因,笔者对出现这两种异常情况的被试者进行访谈。2号和7号被试者认为,原题目得满分完全出乎他们的意料之外,由于高考原题每题的词汇量大于分解每题的词汇量,每个选项平均有4个词语或成语甚至更多,要在同样的时间内完成具有一定的难度。因此也没办法对词语逐个的分析推敲,只能通过“猜测”“排除”和“直觉”等捷径进行作答。由此可见,在这种做题情况下,高考选择题的原命题模式无法真正测出考生知识掌握的真实程度,即违背了出题者的初衷。
第二种情况是原题目只得3分和6分的被试者。对此,笔者对27号和29号的被试者进行访谈,其结果表明,不管是原题目还是分解题,被试者都较认真对待,但由于原题目词汇量较多,无法在有限的时间内既保质又保量。恰恰相反,分解题虽然有四小题,但每题的词汇量较少,思考时间相对较少,做的速度也会更快,也能保证相对较高的正确率。再者,7号被试者认为就高考原题来说,做错一题是完全得不到分的,但如果按四小题的模式,考生还可以得1分甚至更高,这样就会缩小考生之间的分数距离。
统计显示,在该测验中,原题目分数高于分解题分数的人数占总人数比例38.2%,而原题目分数低于分解题分数的人数占总人数比例为52.9%。从这个数据初步可以断定,高考原题和分解题中,后者分数高于前者的更为普遍。结合表1的分析以及访谈结果来看,可以认为语文高考选择题的命题模式难度大于分解题的难度,这种捆绑式的命题模式欠合理。
第三,两种命题模式评分标准的比较和分析。从评分标准来看,原题目一题3分,错则得0分。假若两位考生A和考生B同时做题,因为出了一点小差错,A考生不得分,而B考生却“误打误撞”的得3分,那这样我们就可以断定A考生的知识掌握不够?而B考生的基础知识则掌握的不错吗?显然不行。为了验证两种命题模式评分标准的公平性,笔者在34位被试者中随机抽取了10位被试者进行访谈,结果发现,有9位被试者认为,分解题模式中的评分标准显得更为公平,且认为高考命题应该进行改革。 第四,两种命题模式的均值差异显著性检验。为了进一步了解两种命题模式的均值是否具有显著性差异,我们对该样本进行配对样本t检验(双侧),结果显示,原题目平均分与分解题平均分的相关性系数r=0.617,t=14.616,p<0.001,即认为原题目得分与分解题得分的测量值之间存在着中等程度的显著相关。且表3的统计检验结果表明,原题目均值x=10.41,标准差s=3.32,而分解题均值x=11.12,标准差s=1.96,t=-1.573,p>0.05,说明两种命题模式总得分均值不存在显著性差异。为什么如此,其原因有待进一步探索,或许跟选择的题目有关,或许与样本大小有关。尽管如此,仔细分析每个题目的得分数据和对个别访谈结果来看,至少可以得出这样的结论:原命题模式和评分标准设计对于部分语文高考选择题和部分考生欠合理的命题,仍然是成立的。
二、小结与讨论
本文的结论是:第一,高考语文选择题原命题模式中词汇捆绑叠加,故意增加答题难度,给考生带来一定的心理障碍和阅读障碍,这样的结果就难以准确检验学生的基础知识掌握程度。第二,这种捆绑叠加多个词汇的题目在现实生活中几乎没有需要或应用的情景和价值。语文考试选择题命题脱离生活实际,给学生带来不好的导向。第三,二值式评分标准设计一定程度上误判学生的实际语文基础知识掌握程度,累积起来,对一些处于特殊能力水平位置的群体来讲,将引起较大的测量误差,降低测验信度和效度,况且简单依据语文高考选择题原命题模式的设计而得出来的这种检验结果——3分或0分来判断学生的知识掌握程度以及应用能力而中间缺少一个合理的评价过程,这样的评分结果对此类群体来说也是不客观、不公平、不够合理的。这些结论已经在上文的一系列数据分析中得到进一步验证。
接下来笔者将对以下几个问题进行讨论:首先,针对本次实验所抽取的对象是否必须是高三生。笔者认为未必,因为语文学科具有工具性的特点,社会上的任何一个人都应该掌握,它不像英语、物理、化学等学科必须要求具有相关专业或学科背景的人才才可以参与实验。因此,各个专业的本科生、研究生以及教师都可以作为本次研究的被试对象,而绝非一定是高三生。其次,本次实验中,虽然只抽取了5道高考原题,但绝不会影响研究结果,因为此类的研究,在题目来源及设计恰当合理的前提下,只要样本够大,能够在一定的样本情况下得出检验结果、能说明问题就都是合理的,而题量则不需要太多。此次研究中惟一不足的只能说是被试者人数不够多,造成研究结果不太明显。基于上文的研究分析和讨论,对于高考语文选择题命题模式和评分标准的设计,笔者提出以下建议:一是,出题者在命题时不要误导学生去死记硬背,不要人为增加难度;二是,试卷中的词汇,不要毫无意义的增加,以免增加考生的心理障碍和阅读障碍;三是,在诸如此类的考查学生基础知识掌握程度和应用能力的辨识选择题的(如:找错别字、辩形辨音题等)命题过程中,应注意题量多而题分要少。因为这种客观性试题主要是用于测量知识的掌握、理解、应用和分析,因此在限定的时间内测验可以包含足够数量的试题,能保证对知识的覆盖就足矣。题分少则可以保证评分结果的科学性、合理性和公平性。如果要从中国的实际出发,笔者建议一道选择题可以设1分,最好不要超过两分。当然,绝对的合理和公平是不可能的,我们的分析和探讨是为了寻求更为合理、更为公平的考试命题模式,以改革为动力,不断促进高考命题迈着更为合理和公平的步伐前进。
[参考文献]
[1]廖平胜.考试学原理[M].武汉:华中师范大学出版社,2003.
[2]朱小蔓.教育的问题与挑战[M].南京:南京师范大学出版社,2000.
[3]何颖.更好的公平与更高的效果[J].教育科学,2008,(3).
[责任编辑:钱道赓]