美国黄金玛卡:浅谈标准分数在教学评价方面的应用

来源:百度文库 编辑:偶看新闻 时间:2024/04/30 17:10:52
教育测量专指按一定规则对学生的知识、智能、个性发展、思想品德等所进行的量的测定。而考试是是对动态的教学情况进行的有限度的测量,测量对象是参考的学生,考试卷则是教育测量的测量工具。但是,考试的测量不同于一般物理学的测量。一般的物理测量,测量工具和被测对象都是静态的。而教育测量除测量工具是静态的以外,测量者和被测对象都是动态的,由此产生的较大测量误差不可避免。而减小物理学测量误差的通常方法是多次测量后取平均值。教育测量通常也采取多次考试取平均分的办法。表面看来,这种方法比较合理,实际上这里就犯了一个测量上的一个不容忽视的错误。多次测量取平均值的前提是用同一测量工具测量。作为考试来讲,多次考试使用的是不同的试卷,也就是说,使用的是不同的测量工具,这样处理,有时不但不会减少误差,而且会增大误差。
影响教育测量的误差除测量对象和测量工具以外,还有参照点和单位。
由于原始分数没有统一的参照点,和统一的单位,所以使用起来有很大的局限性。
它的局限性具体表现在以下几个方面:
1.原始分数位置含义不明确。
比如,一个学生数学原始分数是89分,这个分数是高还是低?单从这一分数看不出来,因为没有一个稳定的参照点。例如今年一年级期中考试有一个同学的数学原始分数为90分,如果在2009年,当时一年级数学平均分为95分,原始分数90分应算一般的成绩了,但如果在2008年,当时该科平均分为80分,原始分数90分则是比较好的成绩。由此可见,原始分数很难准确说明分数所反映的考生实际水平,也不能确定分数在群体中的位置。
2.原始分数不可比。
因为考试使用的是不同的测量工具(即不同的试卷),原始分数往往受试题难度和区分度大小的影响,具有不稳定性。题目难,原始分数就偏低;试题浅了,分数就偏高,从而导致了同一学科的不同次考试,同一次不同学科的考试成绩中的“1”分不等值的现象,使原始分数不具有可比性。
比如,今年期中考试,某一年级学生的语文和数学原始分数都是85分,我们通常认为他的语文和数学的成绩一样高。但是,如果我们再查一查这两科的平均分,我们就可以发现,他的语文超出平均分2分,数学却低于平均分5分。显然,这里语文“l分”与数学的“1分”不等值,分数与考生水平不一致,两次考试的相同分数反映考生不同的水平,使用原始分数难以对考生的水平进行科学的比较。
3.原始分数不加。
由于存在着同一学科的不同次考试,同一次不同学科的考试成绩中的“1”分不等值的现象,也就是说,同一学科的不同次考试,同一次不同学科的考试,虽然他们的单位都是分,但它们的单位也不同,原始分数其实不具有可加性。将原始分数相加得到总分的方法,就好比直接将68元人民币加上72元港币再加上10元美元得到150元或150美元或150元港币一样。
由此可见,原始分数不具有简单地可加性,总分由原始分相加而得的合成方法是不合理、不科学的。
那么,我们应该如何克服原始分数的这些局限,对考试成绩进行科学的分析,从中找出规律性的东西。
为了解决类似难题便诞生了一门新的边缘科学——教育统计学。统计学在教学管理中的运用解决了这个难题。它把“标准分制”引入到教学评价与教学管理中来。
下面我来简单介绍一下标准分及其相关的几个概念
1.平均分:平均分能够准确地反映数据的集中程度,也是我们选取的参考点,大家共同以平均分为参考点进行比较。计算公式略
2.标准差:标准差能反映数据相对平均分的离散程度,是一组被测试的全体与平均值差的一个平均数,我们把它叫做标准差,也就是我们所取的单位,大家都以标准差为同一单位进行量度。计算公式略
3.标准分:标准分是以标准差为单位来度量考分与参考点平均分之间的离差,即考分距平均分相差了多少个单位。计算公式:标准分Z= (X-X平)/S  (也叫Z分数)
假如,某次期中考试,抽出其中10名同学的成绩统计如表1所示:可见,任何一组数据转化成标准分后,它都会转化成的平均分都是0,标准差都是1的标准形式。
标准分是原始数据与平均数之差除以标准差所得的商,无实际单位。
如果原始数据大于平均数则Z值为正;如果原始数据小于平均数则其Z值为负;如果原始数据等于平均数则Z值为零。标准分数有如下性质:
原始分
标准分
65
-0.25725
55
-0.77174
75
0.257248
80
0.514496
85
0.771744
45
-1.28624
35
-1.80074
95
1.28624
85
0.771744
85
0.514496
平均分:70
0
标准差:19
1
(1)标准分数的分布与原始数据的分布相同。
(2)任何一组数据的标准分数的标准差为1。平均数为0
(3)当总体都服从同一分布时,总体的标准分数之间具有可比性。
(4)用标准分数表示的样本间可以进行加减运算。
使用标准分进行教学评价,由于采用的单位过大,数值出现小数形式,运算、使用都不方便。并且,由于参照点(平均数)为0,故有一半左右的标准分为负值,使用起来不习惯。为了克服标准分的这些缺陷,一般都把标准分数转化成标准的百分制T分数。T分数与Z分数的关系为T=10Z+70.由于Z分数的大小在-3和3之间,当Z是3时,加上70之后满分正好是100.这就和我们传统的计分方式相同,最高分为100分。而且分数不会出现负数。标准分克服了原始分的缺陷,弥补了原始分在教学评价方面的不足,使教育教学评价更趋于公平、合理。标准分数在教育评价中有重要作用,具体表现在如下几个方面:
1.标准分可以反映某考生在全体考生中的位置
例如赵明和高敏两同学,在期中考试中,语数外三科的成绩如下表:
考试科目
姓名
年级平均分
年级标准差S
标准分
赵明
高敏
赵明
高敏
语文
87
93
75
10
1.2
1.8
数学
86
96
80
15
0.4
1.061
英语
86
70
78
12
0.667
-0.667
总分
259
259
2.267
2.194
平均分
86.3
86.3
通常情况下,由于这两个人的总分相同,所以,我们把他们两个在年级排队便并列放在了一样的位置上。但是,换算成标准分后,可以看出,赵明的成绩显然优于高敏的成绩。
2.标准分可以比较同一次考试不同学科学生考试成绩的高低。
从以上实例可以看出:赵明同学的数学和英语的原始分数相同,但转化成标准分后可以看出,赵明同学的英语成绩要高于数学成绩。高敏同学的数学成绩高于语文成绩。但转化成标准分后可以看出,结果刚好相反。。
3.标准分可以比较相同学科的不同次考试成绩的高与低。
如,高敏同学这次期中考试语文成绩是93分,年级平均分是75,年级标准差为10。而上学期期末成绩是96,年级平均分是85年级标准差是8。如果从原始分来看,她的语文成绩下降了。但转化成标准分后,这次期中考试成绩的标准分为1.7.,上次期末考试成绩的标准分是1.375,显然,高敏同学的语文成绩是提高了。
4.标准分可以比较不同教师的教学效果的好坏。
下面是七年级上学期甲、乙两个班的期中考试成绩统计表
(这次期中考试全年组的平均分为86,标准差为16)
甲班
乙班
85
98
68
75
95
89
69
85
78
85
87
84
85
84
76
81
98
87
78
80
87
82
74
84
87
81
71
87
89
93
75
89
79
91
76
83
85
94
73
82
86
98
96
74
84
93
93
65
94
91
86
64
平均分
88.4
平均分
79.0
及格率
100%
及格率
100%
优秀率
73%
优秀率
31%
根据此表,我们可以计算出甲班的标准分为Z=(88.4-86)÷16=0.15。转化成标准T分数=10×0.15+70=71.5分。同样办法,可以求出乙班的标准T分数为65.6分。下面是七年级上学期甲、乙两个班的刚入学时摸底考试成绩统计表
甲班
乙班
98
97
98
65
94
90
85
68
91
83
85
69
96
85
87
68
90
84
88
71
91
86
85
75
90
87
81
74
91
88
82
73
88
89
86
76
66
91
84
85
92
96
76
87
91
98
75
88
94
97
74
92
平均分
90.1
平均分
79.9
及格率
100%
及格率
100%
优秀率
100%
优秀率
45.8%
(这次摸底考试整个年级组平均分为87,标准差为15)
通过计算甲班的标准T分数是72.1,乙班的标准T分数是65.3
通过观察这两个统计表我们可以看出,乙班学生刚入学时基础就比甲班差了许多。甲班比一般成绩好是正常的。那么我们应该如何比较这两个班老师的教学成绩呢?
我们采用分别把各班前后两次考试的平均分当作一个原始分数,并将它转换成标准T分数,再分别以各班后次考试的标准T分数减去前次考试的标准T分数,计算出各班两次考试的标准分之差的办法,就可以知道结果了。
对于甲班:71.5-72.1= -0.6. 对于乙班:65.6-6503= 0.3.
由此可见,虽然后次数学考试的成绩是甲优于乙,但从发展水平来看,是乙优于甲,乙班成绩提高了,甲班成绩下降了。
以上说明用标准分能客观评价原有基础不同的对象通过教学后的教学效果好坏。
笔者曾多次使用标准分校准原始分,都取得了理想的效果。
例如,某A次考试,由于试卷题量大,难度亦偏大,两个教学班共100人考试结果如下表。
某次考试数学考试原始数据统计表和语文原始数据统计表
数学
语文
分数段
人数
分数段
人数
70~79
26
>90
16
60~69
16
80~89
26
50~59
32
70~79
12
40~49
23
60~69
33
40<
3
<60
13
用原始分评价,数学最高分78分,最低分33分,优良率为0,不及格率为58% 。
语文最高分98分,最低分45分,优良率为40%,不及格率为13%。语文成绩远远高于数学成绩。用T=10z+70转化成标准分后的情况如下表
数学
语文
分数段
人数
分数段
人数
>90
13
>90
14
80~89
17
80~89
18
70~79
42
70~79
37
60~69
28
60~69
31
<60
0
<60
0
标准分评价,语文最高分96分,最低分65分,优良率为26.5%,不及格率为0。
数学最高分94分,最低分为68分,优良率为28.3%,不及格率为0。
很明显,若用原始分评价,很容易埋没教师或学生的成绩,严重打消了由于试题难、题量大造成原始分数偏低的老师教学积极性和学生的学习兴趣。
我国一贯采取原始分数作考试评价的依据,而且人们普遍认同了原始分数的公平性。加之,标准分对于缺乏统计知识的人难以理解、使用起来不直观、计算又相当的麻烦。因而,笔者认为对标准分数的认同需要宣传,让人们更了解标准分的意义和应用,尽快地接受标准分,运用标准分对常模参照考试的结果作科学的解释,使选拔性考试具有真正公平性竞争,同时,有利于考生学科的平衡发展,促进应试教育向素质教育的转轨。用发展的光评价教师和学生,使学生的学习处在动态的竞争中,大面积提高我国的教育质量。