13款雪铁龙世嘉:大规模教育考试历史试题的命制技术和要求

来源:百度文库 编辑:偶看新闻 时间:2024/05/09 17:57:41
作者:朱启胜    文章来源:本站原创    点击数:797    更新时间:2009-8-21
热 荐
【字体:小大】
一、大规模教育考试关注的基本问题
教育考试的目的是多种多样的。学校进行的教育考试一般是对学生的学习情况进行诊断,或者进行分级和分层次。大规模教育考试的目的主要在两个方面:一是对学生进行筛选,如中考和高考;二是确定学生是否达到合格要求,如会考、学业水平考试等。还有教学评估、质量检测等。
考试考学生什么?
考试分数准确可靠吗?
考试对所有考生公平公正吗?
考试的价值观与社会的公认价值观一致吗?
考试对学校的教育、教学有正面的作用吗?
二、大规模教育考试的质量指标
教育考试的目的,决定了考试的测量目标、考试的信度、效度等质量指标要求,也决定了如何命题以及试题的技术参数要求等。如:
考试的信度——可靠性或分数的误差;
(多次教育测量结果的一致性)
考试的效度——考试的有效性或对考试结果的解释和使用适当有效;
(考试分数是是考生能力的标志)
考试的公平公正性——对所有考生对一样;
考试的后效影响——考试对学校的教育教学、对考生、对社会带来的影响。
三、有关试题的几个定义
1、试题的定义:试题是一个测量单元;具有刺激情景和对应答形式的规定。
2、试题构成要素(三要素):
立意——测量目标;
刺激情景——情景材料(服从测量目标和涉及的知识内容;科学可信;根据学生的生活经验和理解程度设计情景,否则是偏题怪题);
引导考生做出什么样的应答。
3、试题的分类
客观题和主观题的划分主要是以阅卷方式为依据的。一般将能够用光电阅读机或其他机器进行分数评判的试题,称为客观题;将需要由评分教师进行人工评分的试题称为主观题,因为后者涉及到对考生应答与评分要求一致程度的主观判断。国外一些文献将选择题和简单的填空题和简答题归为客观题,因为这些简单的填空题和简答题也可以采用机器评分,但在我国,除了选择题外,简单的填空题和简答题毫无例外地都是人工阅卷,都涉及到评分教师的主观判断,因此我们依据主观题和客观题的这一划分标准,将选择题归为客观题,将填空题和简答题归为主观题。
四、客观性试题(选择题)的命制技术和要求
编撰试题最重要的是要了解试题题型的基本特征、题型的功能和编撰该题型试题应该注意的问题。
1、选择题的基本特征
选择题通常是由一个问题和一组备选答案组成,在很多情况下,一道或多道选择题还共有一段情景材料。选择题的问题可以是一个直接提问,也可以是一个不完整的陈述,它们就是选择题的题干。备选答案可以是文字、数字或符号等,备选答案中一般有一个或一个以上是正确的或最好的,它们被称为答案,其余的备选答案又称为干扰项或迷惑项。情景材料可以是文字、图、表、符号等,含有考生应答需要的相关信息。
在我国的教育考试的选择题中,直接提问形式的题干和不完整陈述形式的题干,都很常见。一般直接提问形式的题干,问题呈现得比较清楚明确,不容易产生歧义;不完整陈述形式的题干更加简明,如果题干撰写得好,也能够比较清楚明确地呈现问题,但如果题干撰写有缺陷,就有可能产生歧义。
选择题的类型有:
直接提问式;不完整提问式。
以下为两种形式的选择题的例子。
【直接提问形式的选择题】
“地道战”、“地雷战”、“鸡毛信”、“小兵张嘎”是哪个时期的象征?
A北伐战争     B解放战争     C抗日战争     D十年内战
学习明清史后,有四位同学分别就下列主题作了演讲,你认为其中哪一个概括了这段历史的全过程?
A帝国的彷徨   B中华的荣耀   C东方的曙光   D王朝的振兴
【不完整陈述式的选择题】
1909年荣获诺贝尔物理奖,被后人誉为“无线电之父”的科学家是
A马可尼       B贝尔         C西门子       D赫兹
山西大同云冈石窟开凿的时代和所宣传的宗教是
A西汉,佛教   B东汉,道教   C北魏,道教  D北魏,佛教
2、选择题的主要测量功能
选择题是最常见的一种客观性题型。从测量功能的角度看,它可以测量最简单的行为目标,也可以测量比较复杂的行为目标。从涉及到的内容领域看,它适合于几乎所有的学科和所有的内容领域。因此,无论是在常模参照考试还是标准参照考试中,以选择题为代表的客观性题型都得到广泛的应用。要非常完整地列出选择题的测量功能是很困难的,但我们可以从对知识的理解、技能的应用、对过程和方法的理解等角度大致列出选择题的主要测量功能。
(1)测量对知识的记忆和理解
①测量对一般事实性知识的记忆水平
这种选择题题干最常用的动词包含:“是”、“属于”、“有”等,选择的对象常见的是“谁”、“什么”、“何时”、“何地”等。还可以采用比较、分类、归纳或概括等形式考查考生对一些重要的事实性知识的记忆水平。
②测量对一般事实性知识的理解水平
对事实性知识的理解比记忆更加重要,在理解基础上的记忆往往比单纯的记忆更加长久。一般如果需要理解的知识在题干中,则选择项就是要考生理解的内容以及迷惑项,在这种情况下正确选项应该与事实性知识间存在逻辑联系,这种联系都是通过题干问题中的动词发生的;如果需要理解的知识在选项中,那么题干一般给出了需要理解的内容或规律,试题题干中的设问要求考生确定理解的事实性知识。
这里有一个技巧:事实性知识在题干中,理解部分在选项中;
理解内容在在题干中,事实性内容在选项中。
(2)测量对历史基本知识、基本原理的理解和应用能力
测量考生对基本原理的理解和应用能力,关键在于让考生在一种类似的或新的情景中,通过鉴别基本原理、应用基本原理来解释问题。显然,在新的情景中鉴别基本原理,应用基本原理来解释问题比在类似的情景中更加困难,对考生理解、应用基本原理的能力要求更高。命制这种测量功能的选择题重要的在于两个方面,一是设计好两种不同的情景——类似的和新的情景;二是要求考生解释的问题,如分析各种关系、解释因果关系、根据条件作出推论、对事物作出评价等。
【例题,2009年芜湖市中考】
“朝为田舍郎,暮登天子堂。将相本无种,男儿当自强。……”高明的这首《琵琶记》赞颂的是我国古代的
A.禅让制        B.分封制        C.科举制        D.郡县制
【例题,2009年芜湖市中考】
下表反映了我国人均居住条件的变化,产生这一变化的主要原因是
城镇人均居住面积(M2)
农村人均居住面积(M2)
1978年
3.6
8.1
2000年
10
24
A.三大改造的完成                  B.人民公社化运动的开展
C.家庭联产承包责任制的推行        D.改革开放政策的实行
(3)测量基本技能的掌握水平
一般而言,单独测量考生的基本技能是比较困难的,因为考生基本技能的掌握和运用一般都是与基础知识一道的,正因为如此,教育部颁发的国家课程标准将学生在学习中应该掌握的基础知识与基本技能结合在一起进行描述。
(4)测量辨别、选择、运用和评价过程或方法的能力
教育部颁发的国家课程标准中,将“过程和方法”作为学生学习的重要目标之一。对教育考试而言,测量考生对解决问题的过程和方法的辨认、选择、使用和评价能力应该成为重要的测量目标。考生也许知道解决问题正确的方法和过程,但不能解释它为什么是最好的;也许有些考生根本就不知道解决问题正确的方法和过程;也许有些学生知道一些,但又不完全了解。从考试测量的角度看,我们希望通过观察考生如何辨认、选择、使用和评价某一特定的方法或过程,来推测考生在这一方面的能力。利用选择题可以测量这方面的能力,即让考生从可能的方法和过程中选择最佳的方法或过程,或者从可能的方法和过程中辨认正确的或不完全正确或错误的方法或过程,或者根据一系列的过程步骤,理清过程中各步骤的逻辑关系等。
【例题,2009年芜湖市中考】
周杰伦的歌曲《爱在西元前》的歌词写道:“古巴比伦王颁布了汉谟拉比法典,刻在黑色的玄武岩,距今已经        多年。”请推算出应该在空白处填上的数字是
A.三千七百       B.两千八百       C.一千八百      D.一千七百
3、选择题的优缺点
与其他题型相比,选择题有两个基本的优点:
(1)应答一般不受考生应答倾向的影响,如果考生不知道答案,一般不会选择某一特定的选项;
(2)干扰项的使用,使得考试结果具有一定的诊断功能,学生对错误选项的选择,可以揭示出其对问题理解上的错误,或者揭示出学校教学上存在的问题。
(1)与是非题相比
与是非题相比,选择题的最大优点是:学生必须知道什么是错误的、什么是正确的,才能作出有效的应答。
试比较下面有关是非题和选择题的例子。
【是非题例题】
中华人民共和国全国人民代表大会和中国人民政治协商会议都是代表人民行使国家权力的组织。
【选择题例题】
中华人民共和国全国人民代表大会和中国人民政治协商会议都是
A实现社会主义民主的重要途径       B国家政权机关
C代表人民行使国家权力的组织       D通过选民选举产生其成员
在前一个例子中,考生只要知道中国人民政治协商会议不是代表人民行使国家权力的组织,他就会选择“非”,这样就能够得分,但这并未反映出考生对这两个机构的性质有了确切的了解。因此,在是非题中,考生分数的高低,未必一定是考生能力高低的标志。
而在后一个例子中,考生必须知道A项是正确的,其他三项是错误的,他才能够得分。
其次,选择题不一定需要有错误选项,有些情况下,只要考生选出最佳答案即可,如最好的方法、最有说服力的证据、最好的解释等。而是非题的陈述要么正确,要么错误,以使考生能够作出是或非的判断。
选择题的考试结果信度比较高。一般选择题的选项至少四个,有的甚至有五个或六个,选项越多,作出正确猜测的概率就越小,因此选择题中对正确答案的猜测概率比是非题要小得多。有些学者认为,选择题选项数目的增加与测验长度的增加效果是一样的,由于正确猜测的概率降低,考试结果的信度应该相应地增加。
(2)与匹配题相比
与匹配题相比,选择题的优点在于其不需要同质的材料。命制匹配题时,需要寻找一系列的同质材料,分别形成前提项和匹配项。很多情况下,要想获得足够的同质材料比命制选择题难得多。选择题不存在这个问题,因为选择题只对一个问题进行考查,命制这样的试题要容易得多。
(3)与填空题相比
与填空题相比,选择题一般不易出现填空题中经常出现的歧义和含糊不清的缺点,因为选项可以使得选择题问题情景不易产生歧义或含糊不清。
请比较下面的两个例子。
【填空题例题】
“万家灯火闹春桥,十里光相照。舞凤翔鸾势绝妙。可怜宵,波间涌出蓬莱岛。香烟乱飘,笙歌喧闹,飞上玉楼腰。”作品描写的是传统节日          的盛况。
【选择题例题】
“万家灯火闹春桥,十里光相照。舞凤翔鸾势绝妙。可怜宵,波间涌出蓬莱岛。香烟乱飘,笙歌喧闹,飞上玉楼腰。”作品描写的是哪个传统节日的盛况?
A元宵节      B端午节      C中秋节      D重阳节
前一个例子中命题者的主观意愿是要求考生填写出传统节日的名称,以考查考生是否理解这首词描写的是哪个传统节日的情景。但是如果考生将这个填空题理解成要考查对整个作品描写的盛况的理解,则考生可能会对整个作品描写的盛况作一概括,进行填空。如填上“灯火辉煌,人头攒动,歌舞升平”等。如果将本题改写成如后一个例子的选择题,则考生不可能产生这些理解上的错误。
【例题,2008年芜湖市中考】
20世纪以来,人类在发展过程中面临着一系列共同问题,以下两幅图反映的问题是
A.地球生态环境恶化                  B.核战争的威胁
C.国际恐怖主义的泛滥                D.贫富差距拉大
尽管选择题有诸多的优点,但其也存在一些明显的不足。
首先,选择题测量的是当学生面对一个问题情景时,他是否知道或理解要做什么,而不是一定能够做什么。也就是说,选择题测量的是考生“纸上谈兵”的能力。
其次,选择题要求考生从若干选项中选出一个正确或最佳答案,它不太适合测量考生解决问题的实际能力,也不太适合测量考生的思想、观点的组织能力和表述能力。
第三,设计出好的选择题干扰项往往比较难。设计选择题干扰项的基本要求是:干扰项应该似是而非,不能迷惑真正掌握了的学生,而要将没有真正理解的考生迷惑倒。要找到这样的迷惑项,需要命题教师非常了解学生学习中经常犯的错误,这实非易事。
4、选择题编撰的基本要求
选择题具有适用性广、优点比较多的特点,但这并不等于选择题天生就具备这些特点,要使得选择题真正具备这些特点,在编撰选择题时,应该按照一些基本要求进行。
(1)题干本身应该有意义,并以明确的问题形式呈现。
编撰选择题时应该保证题干中包含一个明确的问题,这个问题即使在没有备选项的情况下也有意义,同时,备选项具有比较好的同质性,以降低可能的猜测概率。
【例题,2009年芜湖市中考】
哥伦比亚前总统桑佩尔说:在经济全球化过程中,蛋糕做大了,“但是大蛋糕分给了富人,其他的人只得到面包屑”。这句话告诉我们,经济全球化带来的问题是
A.环境污染严重   B.恐怖主义泛滥   C.毒品走私猖獗   D.贫富差距悬殊
该例中,题干问题意义明确,备选项具有很好的同质性,不会的学生很难作出有效的猜测。
【例题,2008年芜湖市中考】
1984年初,芜湖一户农民家庭正在召开会议,商量“包产到户”后的土地耕作计划。他们在执行我党的一项农村经济政策,这就是
A.农业生产合作社                  B.家庭联产承包责任制
C.人民公社化运动                  D.发展乡镇企业
(2)题干中不要包括无关的内容,选项中相同的内容应尽可能置于题干中。
与考生应答无关的内容不会对考生答题有任何帮助,只会增加考生阅读的时间,甚至会干扰考生的应答。如果设计的试题不是专门考查考生选择相关材料的能力的话,题干中应该删去这些无关的内容。
【题干中无关内容的例题】
2003年3月,在北京举行了十届全国人大一次会议和全国政协十届一次会议。人民代表大会和人民政协都是
A实现社会主义民主的重要途径       B国家政权机关
C代表人民行使国家权力的组织       D通过选民选举产生其成员
【选项中相同内容的例题】
上世纪80年代末,华沙条约成员国相继发生危机,社会动荡,风起云涌。突出表现在
A社会制度的变化                   B文化观念的变化
C国家名称的变化                   D民族构成的变化
应该修改为:
上世纪80年代末,华沙条约成员国相继发生危机,社会动荡,风起云涌。这些国家中发生的最突出变化是
A社会制度       B文化观念       C国家名称       D民族构成
【九年级下历史教材第15课习题】
下面关于科索沃战争的说法,不正确的是(    )
A科索沃战争是首次不经过联合国发动的战争
B科索沃战争以南联盟的胜利而结束
C科索沃战争表明世界格局多极化受阻
D美国首次打出“人权高于主权”的幌子
(3)应答所要求的思维过程不要过于复杂。
所有的客观题都是通过考生思维的结果对考生的能力或思维品质进行测量,如果思维过程过于复杂,既有比较强的分析要求,又有比较复杂的计算等过程,则考生应答错误时,就很难判断考生究竟是在哪一个环节上出现了问题,如果我们主要考查的是考生分析问题的能力,而过于复杂的计算过程可能会导致某些粗心的考生出错,这样的结果会导致对考生的分析能力作出不正确的判断。
(4)所有的干扰项都应该似是而非。
设置干扰项的目的是要迷惑那些没有真正掌握测试内容的考生。对这些考生而言,干扰项与正确选项的迷惑力几乎是相同的。如果所有的干扰项与正确选项看起来都很相似,即所有的选项都是同质的,那么测量效果就会更好。但是干扰项不应该迷惑真正掌握了测试内容的考生,否则这样的干扰项就可能有问题。
【干扰项例题】
下列现象中,与城市化进程有必然联系的是
A绿化面积不断减少               B非农业人口比重不断增加
C住房紧张与交通拥挤             D环境污染日趋严重
本例中的所有迷惑项都是我国城市化进程中出现的问题,都具有较好的同质性。统计结果显示,迷惑项A、C、D迷惑了将近40%的考生,且越差的学生,被迷惑的越多;最好层次的学生被迷惑了近13%,且主要是被选项C所迷惑;考生层次越低,除了被选项C迷惑的越多外,为选项A和D迷惑的也越来越多;最低层次的考生将近75%都被迷惑项所迷惑。对能力差的学生而言,这些迷惑项的确是似是而非的,起到较好的迷惑作用。
【干扰项例题,2009年芜湖市中考】
“让统治阶级在共产主义革命面前发抖吧。无产者在这个革命中失去的只是锁链。他们获得的将是整个世界。”这句名言出自下列哪部历史文献
A《人权宣言》   B《权利法案》   C《共产党宣言》   D《独立宣言》
编撰选择题时,迷惑项的设计是非常重要的。迷惑项设计得好,可以有效地提高试题的测量效果,测量结果也具有比较高的信度;反之,试题的质量就得不到保证,考试结果的信度也比较差。关于编撰好的迷惑项的某些建议:
①用学生经常或易于犯的错误作为迷惑项。
②迷惑项尽可能与题干某些部分相关,使得每个迷惑项看起来都是可能的。
③利用教材上的语言或真理性的措辞作为迷惑项。
④尽可能使迷惑项与正确选项保持同质或相似。
⑤所有选项在形式上保持平行,语法上与题干保持一致。
⑥所有选项本身在长度、结构和内容复杂程度上基本一致或相似。
(5)避免题干与正确选项之间存在语言联系,以免阅读能力比较强的考生从中获得有用的线索。
正确选项的表述看起来或听起来与题干存在语言联系,会给聪明的考生以语言线索,从而分析出正确答案;对于那些不知道正确答案的考生来说,这种语言联系是不允许出现的。从测量学的角度看,这样的试题也违反了局部独立的基本原则。然而,如果迷惑项的表述看起来或听起来与题干存在语言联系,可以增加迷惑项的迷惑能力,使得那些想依靠记忆和语言联系获得答案的考生上当,则未尝不可。
下例是一个选项与题干之间存在语言联系的例子。
【选项与题干联系的例题】
1955年,周恩来总理在万隆会议上说,中国代表团不是来吵架的,“是来求同而不是来立异的”。为此,他代表中国政府阐述了
A亚非国家的革命策略               B社会主义的发展目标
C第三世界的南南合作               D和平共处的五项原则
上例中考生可以根据“中国代表团不是来吵架的,‘是来求同而不是来立异的”’一句话,推断可能的答案是C或D,因为“求同”与“合作”或“和平共处”存在语言上的联系。这里“合作”一词增加了该项的迷惑性,而“和平共处”却增加了正确选项与题干的联系。如果考生知道“第三世界”的概念是70年代提出的,就很容易从“1955年”这个时间限制,确定D是正确选项。
(6)使正确应答随机分布在选项中,以防止考生觉察出正确选项的分布。
有些命题教师喜欢将正确选项安排在中间,正确选项出现在A或D或E选项中的可能性较小,这样做易于为聪明的考生提供线索。
五、主观性试题的命制技术和要求
1、主观题的主要类型
这里主观题是指必须要通过人工阅卷,评分教师根据对评分标准的理解,进行评分的试题形式。我国教育考试中经常出现的主观题包括:填空题、材料分析题、简答题以及问答题或小论文题,这里的问答题是广义的问答题,包括解答题、实验设计题等。
填空题是由不完整的陈述构成的,这个不完整的陈述就是题干。考生可以用一个词、短语、数字、符号、等式或公式等作出回答。
材料分析题是由基于同一材料的试题构成的试题形式,这些材料既可以是文字材料,也可以是图表材料,或者兼而有之;相关的试题可以是一题,但多数情况下是若干道试题组成一个系列,这些试题既可以是选择题,但多数情况下可能是主观题,如填空题、简答题等。这些材料和试题组成了整个材料分析题的题干。
【例题,2009年芜湖市中考,材料分析题】
材料一:三大战役示意图             材料二:淮海战役人民支前统计
材料三:1949年4月20日晚,中路大军的突击队首先发动渡江战役。一声令下,在水面待命的解放军部队千船竞发。第27军某团5班的渡船冲在最前面,他们不怕牺牲,迎着敌人的火力冲锋,第一个在繁昌县保定乡夏家湖登上长江南岸,成为“渡江第一船”。
——综合人教版《中国历史》八年级上册和《二十七军军史》
(1)根据材料一完成下列问题:
①解放东北全境,使人民解放军在数量上取得优势的战役是         。
②淮海战役中解放军的主要歼敌地点有        、        。
③三大战役的历史意义是:                                           。
(2)结合材料二,联系自己所学知识,分析人民群众在解放战争中的作用。(3分)
(3)请你根据材料三归纳出“渡江第一船”的精神。(2分)
问答题或者小论文题都有一些简单的情景材料,并根据这些简单的情景材料,对考生提出应答要求。简答题不一定有情景材料。但简答题与问答题或小论文题的主要区别是,简答题考察的能力表现行为比较单一,涉及到的内容领域相对较单一,内容范围相对较小,而问答题或小论文题则相反,它们往往测量多个行为目标,或某一行为目标下的多个行为表现水平。
【例题,2007年芜湖市中考】
新中国成立后的“三大改造”和“一五计划”完成,奠定了中国现代化的初步基础。之后,中国共产党领导中国人民进行不懈的探索,最终找到了一条实现中国现代化的正确道路。请根据所学知识,回答下列问题:
(1)“三大改造”指什么?
(2)请列出“一五计划”期间国家经济建设的三项成就。
(3)结合中共十一届三中全会、十二大、十三大、十四大的内容,简要说明中国现代化道路探索的过程。
2、主观题的主要测量功能
主观题的最大优势是能够测量各种比较复杂的行为目标。我国教育考试中,主观题经常测量的复杂的行为目标包括:
(1)辨认或汲取相关信息的能力和表达相关信息的能力;
(2)分析归纳或分析说明材料的能力,包括文字、图表、数据和关系材料;
(3)解释各种关系的能力;
(4)应用概念或原理解决问题的能力;
(5)提出、组织和表达观点的能力或用事实、资料支持观点的能力;
(6)陈述推理的能力;
(7)设计实验或调查程序的能力;
(8)提出假设的能力以及对资料进行分析支持或驳斥假设的能力;
(9)对论点或观点进行评价的能力。
这些行为目标既可以用材料分析题进行测量,也可以用简答题、问答题或小论文题进行测量。
以下是一些测量以上行为目标的试题示例。
【问答题例题】
对经济全球化的历史过程,西方学者存在两种截然相反的观点:沃勒斯坦认为:“15世纪末16世纪初,一个使我们所说的欧洲世界发生了……现代资本主义的技巧和现代科学技术……使这个世界经济体得以繁荣、增值和扩展。”弗兰克写道:“正如历史学家所“知道”的,欧洲人以欧洲为中心组建了一个世界……人们甚至丝毫没有想到,也许还有另一条相反的道路,也许是世界创造了欧洲。”
(1)两位学者争论的焦点是什么?
(2)你持什么观点?请结合史实扼要阐述。
上例是一道问答题,考查考生对论点或观点进行评价的能力。评价有若干个要素:第一,定义要评价的事物;其次,陈述评价的目的或理由;第三,定义标准或判据;第四,一致性地应用这些标准;第五,收集并记录每一个标准的证据;第六,列举证据或理由来支持判断。并非每个评价都要包含这六个方面的要素,但评价至少必须包含其中若干个要素。第(1)小题要求考生答出二者争论的焦点,就是考查考生定义要评价的事物的能力;第(2)小题要求考生提出自己的观点,即对争论的焦点作出评价,并且列举史实来支持自己的评价。
【活动探究题例题,2008年芜湖市中考】
小张是个军事迷,对战争中的新式武器比较感兴趣,同时也有不少困惑。他摘录了以下两段材料,并提出了一些问题,请你帮助他解决。
第一次世界大战是人类历史上第一次空前规模的战争,欧洲战场的争夺最为激烈。交战双方争相使用了各种新式武器,造成了大量的人员伤亡。1916年的凡尔登战役,造成双方共70多万人的伤亡,被称为“凡尔登绞肉机”。
——人教版《世界历史》九年级下册
1945年8月6日早晨,保罗•蒂贝茨一行14人乘B-29轰炸机飞临日本广岛上空,投下了一枚代号为“小男孩”的原子弹。天空霎时升起了恐怖的蘑菇云,广岛在顷刻间成为废墟,数万人当场死亡。3天以后,第二颗原子弹在长崎上空投下,又有数万人当场丧生。后来,两地又有几十万人因此死亡。8月15日,日本天皇广播《终战诏书》,宣布无条件投降。
——《他投下了人类第一颗原子弹》(载《南方人物周刊》)
请回答:
(1)第一次世界大战中使用的新式武器有哪些?
(2)原子弹是二战中杀伤力最大的新式武器。请评价原子弹在对日作战中的作用。
(3)你对日本遭受原子弹轰炸的悲剧有何认识?
(4)结合以上两段材料,分析现代战争与科技发展的关系。
3、主观题的评分标准
主观题最大的缺点是需要评分教师根据其对评分标准的理解进行评分,而每个评分教师对评分标准的理解又不可能完全一致,这样就增大了主观题的评分误差,降低了主观题测量结果的信度。为了减少主观题的评分误差,命题人员在编制出主观题后,必须制定尽可能详细的评分标准(又称评分量表),来指导考试后的评分。
主观题编制出来后,尚未施测前制定比较详细的评分标准,一方面是为了完成主观题的编撰任务,更重要的是可以通过制定评分标准,对试题讲行进一步的反思,从而使试题的表述更加清晰,有利于使学生明白试题要求其作出的反应,作出合适的应答。
制定评分标准一般应考虑下列因素:
(1)选择最合适于试题和评价目的的评分方法。
总体上看,评分方法可以分为两类:总体评分法和分析评分法,选择的评分方法不同,制定的评分标准或评分量表也不相同。
(2)评价的行为特征应该与测量的行为目标相一致。
(3)在分析评分法中,每个评分项目一般应只包含一个独立的行为特征。
(4)要明确评价的行为特征等级数。
一般情况下,评分教师能够区分出的等级数不超过7个,最多不超9个。
(5)对评价的行为特征和标准中的每个等级应该进行清楚的定义。
许多评分误差起因于评价的行为特征的模糊和标准中评分等级定义的不清,对评价的行为特征和量表中的每一个等级进行清楚的描述、定义,有助于克服这种误差。这样既可以对标准中的每一个等级作出解释,也可以对要评价的行为特征作出解释。
【简答题,总体评分法例题】
十三年来,中国老百姓的生活发生了巨大变化,新华社记者用“大起来的住房、多起来的私人轿车、低下来的食品支出比重、高起来的文化程度、热起来的假日旅游、快起来的通讯方式”等词语来描绘这些变化。请简述消费结构由低层次向高层次转化的一般趋势。(本题10分)
评分标准:
(1)生存消费的比重逐渐缩小,享受消费和发展消费的比重相应增大。
(2)食物消费的比重逐渐缩小,劳务消费的比重相应增大。
(3)自给性消费的比重逐渐缩小,商品性消费的比重相应增大。
这是一道简答题,来源于某地高考政治试卷。该试题要求考生根据情景材料中的这六句话以及教材中的知识,分析归纳消费结构变化的一般趋势。考查的就是考生分析归纳材料的能力,这与该地政治学科考试的能力目标是一致的。命题者采用了总体评分法制定本题的评分标准。三条标准体现了分析归纳的水平。
本题评分标准的主要问题是:
(1)评分标准的等级数与试题赋分不一致。
本题总共10分,由于采用的是总体评分法,理论上看该题的分数等级应该是11个,即从零分到10分。从所给标准看,应该从考生应答的完全程度确定考生分析归纳的能力水平,等级数要么是3个,要么是6个,即每一标准内再分成2个等级,每句话代表一个等级。不应该出现7到10分的等级。否则标准中的某句话应再分成更多的等级,但标准没有明确,哪些话应该再分成更多的等级。
(2)考生的应答肯定是五花八门的,不可能与给出的三条标准完全相同,这样就需要标准对每一个等级给出清楚的定义描述,但标准并没有对任何一个等级给出任何定义描述。例如对评分标准(1)“生存消费的比重逐步缩小,享受消费和发展消费的比重相应增大”;考生应该同时答对“生存消费”和“逐步缩小”才能获得1分,答对“享受消费”和“相应增大”也可得1分,答对“发展消费”和“相应增大”也可得1分等。
【材料分析题,分析评分法例题】
美国哈佛大学燕京图书馆内悬挂着一幅清末民初一位诗人写的对联:
“文明新旧能相益,心里东西本自同”。
对联赞叹了人类文明在时间和空间上的传承与交融。哲学家、社会学家、经济学家、科学家、文学家……各有评论。假如你是历史学家,对这幅对联作何评论?请自拟题目,写一篇历史小论文。(共30分;选题2分,观点12分,史实12分,文字4分)
注意:
(1)观点明确,论述集中,不要泛泛而谈。
(2)联系中外史实,详略以说明观点为度。
(3)文字通顺,条理清楚,结构合乎逻辑。
评分标准:
(1)选题:题论相符,确切明了;题论基本相符,不够确切。
(2)观点:如体现以下观点:
人类文明是全世界各民族共同创造的;(以其体现的明确程度给分)
人类文明是前后继承、创造、发展的;(以其体现的明确程度给分)
人类文明是互相补充、交融、促进的。(以其体现的明确程度给分)
如从其他视角论述,体现人类文明发展的道路、方式是多样的,人类文明的发展有经验,也有教训……,应按上述规则给分。
(3)史实:符合所论主题的史实。
(4)逻辑与文字:史论结合,文字通顺。
上例是一道小论文题,来源于某地高考历史试卷。该试题考查考生提出、组织和表达观点的能力以及用事实、资料支持观点的能力,这与该地历史学科考试的能力目标——评价论证能力——是一致的,该地考试说明中对评价论证能力的要求包括两个方面:(1)对重要的历史史实作出实事求是的评价;(2)以证明或辩驳的方式对某种历史观点作出史论结合的论述和依据史料提出或论证自己的观点。显然该题考查的能力与评价论证能力要求的第(2)个方面是一致的。命题者采用了分析评分法制定了本题的评分标准。
该评分标准存在的问题是:
(1)对行为特征——选题(2分)的两个水平进行了比较清楚、明确的定义,这样可以大大提高“选题”项目评分的可靠性。
(2)对行为特征——观点(12分)、史实(12分)两个项目评分等级数过多,从心理学的角度看,即使是比较有经验的评分教师,要有效地区分出12个等级也是很困难的。比较恰当的做法是将这两个行为特征水平数分为0到6分7个等级,二者分别赋予权重2,这样可以降低等级数过多带来的评分误差。
(3)对行为特征——观点(12分)、史实(12分)两个项目的评分等级没有作出明确的定义,仅仅要求“以其体现的明确程度给分”,实际上对“明确程度”这个定性的概念,不同评分教师的理解差别可能很大,这样会明显地加大评分的不可靠性。当然,实际评分前,评分专家组应该制定评分细则来指导评分。但评分标准中没有清晰、明确的评分等级的定义,很难保证评分专家组能够比较好地理解命题者的意图,制定的细则与命题者制定的评分标准在精神上保持一致。
(4)试题中让考生了解的评分标准与实际制定评分标准不完全一致。试题中告诉考生的是考生应答中“文字”表述的优劣占4分,但是在标准中评价的行为特征变成了“逻辑与文字”,这两者不是完全相同的概念。
评分标准的行为特征,仅仅要求评分教师从“史论结合,文字通顺”的角度对考生应答的逻辑和文字进行判断。尽管在实际评分中可以制定评分细则,来弥补评分标准过粗的缺陷,但是,标准过粗已经为后期评分结果误差留下了技术缺陷。
(5)将“逻辑与文字”归为一个行为特征进行评分不是十分贴切,如果改成“逻辑与组织”似乎更加妥当。
以上分析表明,命题教师虽然能够命制出比较好的主观题,但对如何制定评分标准还不是十分明确,没有掌握制定主观题评分标准的要素。
4、编撰主观题的基本要求
编撰主观题除了要制定好评分标准外,更重要的是要挑选到合适的背景材料,并且设计出由背景内容决定的试题。要编撰出好的主观题,一般应该遵循下列基本要求。
(1)如果测量的行为目标能够用客观题来测,就尽量不要用主观题。
用客观题可以测量的行为目标最好不要用主观题来测量,因为在其他条件相同的情况下,客观题的测量结果相对更可靠,效果更好。但是如果客观题不足以测量要测量的行为目标,那么就需要用主观题来测量,尽管主观题测量时,受到的干扰因素比较多,测量结果误差大。
(2)挑选的材料应该与学生学习经历过的材料有类似性或是全新的材料。
挑选的材料对于考生来说应该是似曾相识,但又感到陌生。如果使用的材料考生很熟悉,或者在平时的复习训练中经常用到,测量的行为目标就可能转化为测量记忆内容,这样测量结果的效度就会降低。
要使考生对挑选的材料既陌生,又感到有点相识,关键在于材料在形式上或在内容主题上与考生复习训练中见过的材料不相同,但涉及的概念、原理、获取信息的方法、解决问题的方法等应该是相同的或相似的。从课本、报纸、新闻、学术刊物和各种参考材料中挑选一部分进行修改,一般可以获得满足要求的材料。
【例如】1949年4月20日晚,中路大军的突击队首先发动渡江战役。一声令下,在水面待命的解放军部队千船竞发。第27军某团5班的渡船冲在最前面,他们不怕牺牲,迎着敌人的火力冲锋,第一个在繁昌县保定乡夏家湖登上长江南岸,成为“渡江第一船”。
——综合人教版《中国历史》八年级上册和《二十七军军史》
【例如】1945年8月6日早晨,保罗•蒂贝茨一行14人乘B-29轰炸机飞临日本广岛上空,投下了一枚代号为“小男孩”的原子弹。天空霎时升起了恐怖的蘑菇云,广岛在顷刻间成为废墟,数万人当场死亡。3天以后,第二颗原子弹在长崎上空投下,又有数万人当场丧生。后来,两地又有几十万人因此死亡。8月15日,日本天皇广播《终战诏书》,宣布无条件投降。                 ——《他投下了人类第一颗原子弹》(载《南方人物周刊》)
【例如】2009年1月19日,西藏自治区九届人大二次会议决定,将每年的3月28日设为西藏百万农奴解放纪念日,以纪念50年前在西藏进行的民主改革。
——2009年1月19日新华社快讯
还有:2005年芜湖市中考的中东问题(阿拉法特去世),2006年考的汪辜会谈(汪道涵去世),2008年改革开放30周年,2008年考周恩来诞辰110周年,2009年西藏问题、渡江战役等等。
(3)设计的试题应该能够测量相关的行为目标并且与某一内容领域相关。
【例题】比较是人们认识地理事物的重要方法,试从成因和风向两个方面比较南北半球西风带的共同点和不同点。
上例中,问题以动词“比较……”确定了该试题测量的行为目标是“比较能力”,而“南北半球西风带”则明确考生应该用地理学科关于气压和风带的知识来完成这一认知任务过程。
【例题,2009年芜湖市中考】
阅读下列材料后回答问题。
材料一:林肯出身贫寒,只受过很少的学校教育。但他通过自学成为律师,先后担任了州议员和国会议员。他同情黑人奴隶,反对奴隶制度,主张逐步限制直至最终废除奴隶制度。但就是这种比较温和的主张,南部奴隶主也不愿接受。­­­­
——摘编自人教版《世界历史》九年级上册
材料二:富兰克林·罗斯福,1932年11月竞选总统获胜。1933年初就职后施行“新政”,使美国度过了严重的经济困难时期,深得人心。    ——东方出版社《美国十大总统传》
材料三:首先,我们将大规模改造公共建筑物,使之更加节能。其次,我们将对国家基础设施进行最大规模投资,将创造数百万工作岗位,这将是五十年代建立高速公路网后最大规模的基础设施投资计划。第三,新政府计划对学校建筑物进行大规模现代化改造,修复学校破损建筑物,并进行节能改造,在教室里安装新电脑设备。
——奥巴马关于经济振兴计划的讲话(2008年12月6日)
材料四:来自黑暗的子弹,夺走了林肯的生命。然而,他的精神光辉经久不衰。12日,在林肯诞辰200周年纪念日,……美国历史上第一位非洲裔总统奥巴马面对上百名议员和官员,表达了他对林肯的敬意:“从很多方面来讲,是他让我的故事成为可能,是他让美国的故事成为可能。”
——新华网2009年2月12日电《奥巴马举行纪念林肯诞辰200周年活动》
(1)结合材料一回答,林肯就任总统后美国历史上发生了什么战争?结局如何?
(2)罗斯福新政的中心措施是什么?特点如何?
(3)与20世纪30年代美国解决经济危机的措施相比,材料三中奥巴马的“经济振兴计划”更加关注什么?
(4)你怎样理解奥巴马所说的“是他让我的故事成为可能”?
(4)应该用清晰、明确的语言表述背景材料和问题。
用清晰、明确的语言表述背景材料和问题是为了使考生真正理解试题的意图,如果问题表述模棱两可,某些已经达到了期望的教育目标的学生可能会产生误解,表现不出试题要诱导的行为,不能作出正确的回答。同样,如果背景材料表述不明确,考生就难以从中获得非常清晰的解决问题所需要的信息,难以表现出高水平的行为,甚至表现不出期望的行为。由于主观题没有确定的回答选项,也就没有了有助于学生明确命题者意图的信息来源。因此,清晰、明确的背景材料和问题对于主观题尤其重要。如果试题背景材料和问题设计得好,便可在确定的行为特征和内容领域内,很好地测量考生的能力,试题的测量结果就会有比较好的效度。
【例题】比较是人们认识地理事物的重要方法,试对南北半球西风带进行比较。
这道例题是上一例题的原形。显然,两者相比,上一个例子的问题表述更加清晰、明确。原形题的问题是没有给考生应答提供一个限定的框架,如果考生对问题作出不同的理解,他们作出的比较也就会不同。比如,有些考生会缩小问题,从二者的纬度位置、范围来进行比较,这就比从成因和风向两个方面进行比较的考生要轻松得多。对原形进行修改,形成上例,就使考生面对的问题有了清楚的定义,同时又没有限制考生按照原来方式进行应答的自由。考试结果的效度以及分数的可靠性要好得多。
(5)对材料分析题而言,设计试题应该对材料进行分析和解释。
在设计材料分析题时,应该注意避免两类错误,一类是试题问题的答案已经包含在给出的材料中,只要考生阅读理解能力比较强,就不难发现问题的答案所在。这样的问题测量的是考生的一般阅读能力;另一类错误是无须对给出的材料进行分析加工,就能够正确地回答问题,即问题的答案源自常识,这样的试题测量的是简单的知识结果,不是设计要测量的行为目标。
如果要使材料分析题达到预想的效果,问题必须引导考生阅读给出的材料,并且要对材料进行分析加工,获取适当的信息后,才能进行应答。在某些情况下,对材料的分析加工,完全依据所提供的事实材料;而在另外一些情况下,对材料的分析加工,可能还需要考生具备一些额外的信息或知识。无论在哪种情况下,对材料分析题的应答应该基于所给的材料,同时,要求考生表现出除了简单阅读和一般常识以外更加高级的行为目标。
【例题】南水北调东线工程利用大运河作为输水线。大运河开通于隋朝,在元朝又进行了疏浚和取直,成为南北走向的主要河流。大运河的作用有                            。
第一句已经说明了大运河的作用之一——作为输水线,因此问题应该针对第二句而问,这样就要求考生对第二句进行分析、理解,给出合适的应答。但该例设计的问题仅仅要求考生回答“大运河的作用”,那么考生可以根本不再考虑第二句材料,凭借常识就可以回答这个问题。这样该试题基本上就不能起到测量考生某种高级行为目标的作用。
(6)设计的试题数应该与背景材料的长度相匹配。
这个要求反映了考试的效率问题。如果要求考生阅读了一段比较长且复杂的背景材料,却只要求考生完成一二道试题,那么考试的效率就太低。我们很难说一段材料究竟应该配几个题目,命题的管理者和命题教师在命题时,应该注意试题数应该与背景材料的长度和考生对背景材料的加工程度相适应。从经验来看,一般一段背景材料,设计3到5道试题是比较合适的。
(7)对试题的赋分应该合理。
(8)对每个问题给以适当的完成时间。
六、需要补充强调的几个问题
1、试卷的难度问题
2、试题的背景材料问题
我国地域辽阔,不同省市人文、地理以及学习、生活的物质条件都存在不同程度的差异;同一地域中,不同的家庭之间,也会存在不同程度的差异。各省、市、自治区基础教育不均衡性很大;考生的个人兴趣、爱好的发展是有差异的。这些差异无疑会对考生的学习经历和生活经历产生影响,导致不同地域、不同家庭背景的考生学习、生活经历的差异。这些差异很多是考生本人无法改变的,对考生来说是天然的,它会对考试的结果产生影响。对试题背景材料的选择作出规定,就是要有效地抑制这些差异对考试测量目标和结果的影响。
3、试卷的长度结构等问题
大规模教育考试的试卷结构如试卷的长度、不同题型试题的比例、不同难度试题的比例,与考试结果的测量误差或信度密切相关。
芜湖市教育科学研究所  朱启胜
2009年8月17日