杏呆打一成语疯狂看图:试题命制的理论和技术

来源:百度文库 编辑:偶看新闻 时间:2024/04/25 11:28:08

试题命制的理论和技术

作者:雷新勇 周群 文章来源:《考试研究》

 

大规模教育考试试题命制是以心理学的某些理论假设为基础。与这些理论假设一致的试题定义要求试题应该具备三个要素:测量目标、刺激情境和设问,这三个要素缺失了任何一个,都不能构成完整的试题。根据这些理论假设以及试题定义和要素,本文讨论了命制客观题和主观题的基本要求,客观题包括题干的要求、选项设置的要求以及选项数的问题;主观题包括情境材料的选择、设问、赋分和评分标准制定。

  每年高考和中考结束后,只要仔细推敲各省市的试题,就可以发现许问题。针对这些问题,作者试图从考试命题的心理学基础入手,根据试题的定义,提出试题的基本要素,以及试题命制的基本技术。

一、试题命制的心理学假设

大规模教育考试以若干个心理学假设为理论基础。

  (一)人的心理特质是存在的心理特质是心理学上用来描述人的心理特征的一个抽象概念,它是指一个个体与其他个体不同的、可以识别的、相对稳定的特征(Cohen R.J.2005)。例如,人的智力、认知方式、适应性、兴趣、态度、价值观、一般个性、特殊个性等,都属于心理特质的范畴。大规模教育考试中常常将心理特质称为心理结构或能力。考试的目的就是要推测考生的能力,或者说推测考生的心理结构。如果没有这样一条心理学假设,考试就失去了目标,就没有存在的必要。

  心理特质、心理结构或能力是抽象的心理学概念,是看不见、摸不着的,但是我们可以通过观察的方式,识别人的心理结构或能力的存在及存在的强度。观察的方法有多种多样,大规模教育考试就是通过测试(Testing)的方法,即通过考生的应答过程和应答结果来推测考生心理结构或能力的存在强度。

  心理结构或能力是人相对稳定的特征,是指人表现出某种心理结构或能力具有环境依赖性,即人并非在任何环境下,都能表现出某种心理结构或能力,只有在特定的环境下,人才能表现出某种心理结构或能力。因此,当我们用测试的方法来推测考生的心理结构或能力时,必须创设某种环境,让考生在这种环境中,顺利地表现出我们期望其表现的心理结构或能力。这种环境就是试题的题干。本文后面提出的关于命制试题的若干要求,其理论基础也在于此。

  (二)心理特质是可以量化、可以测量的如果心理特质,或者心理结构或能力,不可以量化,不可以测量,大规模教育考试就不能通过考试给考生赋分,也就不能以考试结果作为选择学生的依据之一。

  既然心理结构或能力是可以量化、可以测量的,那么在进行量化或测量时,首先需要对测量的心理结构或能力进行定义,以便对考试结果――分数的内涵作出合理的解释,同时也需要进一步向考生说明,将从哪些方面来观察考生是否具备这些心理结构或能力,或者依据什么证据来推测考生是否具备这些心理结构或能力,即必须对考试的行为目标或认知目标进行定义。同时要确定如何观察,用客观题观察,还是用主观题观察。用什么规则对考生的应答过程和应答结果――考生在考试中的表现――进行赋分,哪些认知目标是高级的目标,是否需要给予其更大的权重,即是否要赋予其更高的分值。

  (三)与考试相关的行为可以预测非考试相关的行为根据考生在考试中的表现,推测考生的心理结构或能力,目的是要预测考生在非考试环境下的表现或行为。高校招生中,以高考分数为依据,就是认为高分的考生能力强,能够适应未来高校的学习环境。如果考试不能预测非考试相关的行为,那么大规模考试就没有存在的必要了。

  当然,要使考试能够预测非考试相关的行为,考试创设的环境就必须与非考试环境相联系。例如,高考是为高校录取新生服务的,根据考生在高考中的表现,可以预测考生未来在高等教育环境下的行为,那么高考创设的环境必须与未来高等教育的环境相联系。因此,大规模教育考试的命题中,我们不但对试题要有能力方面的要求。也还要有学科知识方面的要求。如果考试仅仅考虑行为目标,或认知能力,而不考虑学科知识,试题以及考试创设的环境就不可能真正地与未来高等教育的环境相联系。

  (四)每一种测试方法或技术都有其优势和局限推测考生心理结构或能力时,可以采用不同的观察方法,如纸笔考试、面试、表现性测试、课堂观察、活动观察等。每一种观察方法都有其优势和局限,没有一种方法绝对优于另外一种方法,关键在于考试分数的使用者关注什么。例如,纸笔考试的结果可比性很好,但相对而言,不太容易考察考生思维的发散性、思维的敏捷性等素质;而面试正好相反。究竟是纸笔考试好,还是面试好,不能一概而论,如果考试结果的使用者关注的是可比性,那么可能就需要选择纸笔考试,这就是纸笔考试一直受到青睐的原因之一。同样,纸笔考试中,不同的测试方法也各有千秋。客观题有客观题的优势和局限,主观题也有其优点和不足。认识这一点,可以使考试的设计者、命题者科学地使用不同的考试方法和题型。

  (五)测量过程中必然会产生误差在大规模教育考试中,误差是指考试欲测量的心理结构或能力以外的因素所产生的效应。大规模教育考试中,考生的行为表现――考试得分――除受到欲测量的心理结构影响外,还受到其他一些因素的影响,如考试当天考生生理状况,评分教师评分误差的影响等。

  大规模教育考试中,测量误差是客观存在的,只能尽量减小,但不能最终消除。因此,在考试设计、命题、考试结果的使用和评价,必须考虑测量误差。

  (六)测试和评价可以是公平的、无偏的这是教育考试和心理测量领域争议最大的一个假设。公平、无偏就是要平等地对待每一个考生,无论其性别、民族、居住地如何,要使考生与测量的心理结构无关的个性特征对考试结果以及结果的解释没有明显的影响。公平、无偏的关键在于让所有考生同等地获得关于考试的信息,在于考试中要尽可能采用多种方法对考生进行测量,在于命题时选择的材料不偏不倚,在于试题的表述简单、明了。

二、试题的基本定义和组成要素

(一)试题的基本定义根据Osterlinter1990A),试题的定义为:在教育和心理特质测试中,试题是一个测量单元,它具有刺激情境和对应答形式的规定,它的目的是要获得被试的应答,并根据应答对考生的某些心理特质方面的表现(如知识、能力等)进行推测。(A test item in an examination of mental attributes is a unit of measurement with a stimulus and a prescriptive form. for answeringandit is intended to yield a response from which performance in some psychological constructsuch as an knowledgeabilitypredispositionor traitmay be inferred.)这个定义包含了试题的全部条件,是比较完整的,它既可以满足心理测量中试题的要求,也可以满足教育测量中试题的要求,并且该定义适合于所有题型试题的要求。因此,是普遍承认的一个试题定义。

  对这个试题定义,我们可以从三个方面理解。首先“,试题是一个测量单元”关注的是试题的测量功能。测量就是要定量化(quantification),能够以某种方式生产出定量的数据。因此,任何一道试题要对考生的行为表现进行赋分,并且应该按照心理结构或能力的行为表现目标进行赋分,否则,就不可能对考生的心理结构进行有效的推测。

  其次,“试题具有刺激情境和对应答形式的规定”意指考生心理结构或能力的表现具有环境依赖性,命题者必须创造一个让考生心理结构或能力得以表现的环境。试题的刺激情境,就是这样的一个环境。此外,考生对试题作出应答必须按照试题的要求进行,因为考生对某种刺激产生的反应可能是多种多样的,如果不规定考生应该作出什么样的反应,就难以获得需要的推测考生心理结构或能力的数据,包括应答过程和结果的资料,以及考试分数数据。

  第三,“根据应答对考生的某些心理特质方面的表现(如知识、能力等)进行推测”说明了试题的根本目的。心理结构或能力是理论上的概念,我们必须找到一种方式来推测某一心理结构或能力的存在以及考生展示这一心理结构或能力的相对程度。试题就起到了这一作用。如果一个试题的刺激情境不能提供推测某一心理结构或能力的数据,或者试题没有明确的要测量的心理结构或能力,就不能称之为试题。

  (二)试题的基本要素根据上述试题的基本定义,可以确定一道试题必须要有三个基本要素。

  1.测量的心理特质――测量目标试题测量哪一种或两种行为目标或认知目标,完成这些行为目标需要涉及哪些学科的知识内容,这是试题的第一要素,缺失了这个要素,试题就缺失了灵魂,失去了测量学意义,测量的结果即是与测量的心理结构或能力无关的结构或能力,对考试结果的解释和使用也就没有价值。

  2.刺激情境――情境材料情境材料也是试题的基本要素,它的作用是对考生进行刺激,产生让考生表现心理结构或能力的环境。

  3.对应答的规定――设问情景材料对考生产生的刺激可能是多方面的、多样的,考试不可能让考生将所有这些反应都写出来,时间不允许,也没有必要。我们只需要考生将我们期望能够推测其心理结构或能力的反应写出来即可。因此,必须通过设问来引导考生作出规定的应答。好的设问能够恰当地引导考生表现出期望的行为,而不恰当的设问可能达不到这个效果,甚至会引导考生表现出其他的,非期望的行为,从而不能对要测量的心理结构或能力进行推测。

三、客观题命题的基本技术

本文以最常用的选择题为例,讨论客观题的基本命题技术。

  (一)客观题题干基本要求根据试题的定义和基本要素,命制选择题时,对题干应该遵循下列基本要求。

  1.每一道试题必须涉及一定的内容领域和单一的认知行为考试效度的最大威胁来自试题测量无关的心理结构。如果一道试题没有确定的行为目标,或者行为目标与考试预设的测量目标及其行为目标不一致,那么这道试题不但对提高考试的效度无补,反而会降低考试的效度。

  同理,高考是为高校选拔人才服务的,考试创设的环境必须与未来高等教育的环境相联系,因此,每道试题需要考生在一定的学科领域完成任务,表现出一定的认知能力。如果完成任务过程不能使用一定的学科知识,那么该试题创设的环境就不能与未来的高等教育环境相联系,也就是一道无效的试题。因此,试题必须能够测量某一认知行为,涉及一定的学科内容领域,这是命制试题时必须认真考虑的。

  按照这一要求,例1就是一道无效的试题。

  例1:下列叙述正确的是A.同主族金属的原子半径越大熔点越高B.稀有气体原子序数越大沸点越高C.分子间作用力越弱分子晶体的熔点越低D.同周期元素的原子半径越小越易失去电子这道题的主要问题是没有测量目标,没有刺激情境,按照试题的定义,不能构成为试题。

  2.试题考查的应该是重要内容,不要考很次要或不重要,或大家几乎都会的内容大规模教育考试是抽样测评,理论上我们应该要求考生尽可能多地完成试题,这样才能对考生的心理结构或能力作出比较有效的推测。但是,由于时间的限制,我们要求考生完成的试题仅仅是所有可能的学科试题集合中很少的一部分。我们需要用这很少一部分试题来推测考生的心理结构或能力。从测量的角度看,就是用一个相对较小的样本作出推测。因此,选择的样本必须有代表性,即试题涉及的内容领域应该是学科的重要内容,如果涉及的是次要或不重要的内容领域,那么就很难将考试结果解释为学科能力的标志。同样,如果试题涉及的内容领域都集中在少数重要的内容领域上,试题样本也缺乏代表性,对考试结果解释也存在局限。

  3.用新情境材料考查高水平的认知能力,不要用与教材语言相同的材料,以免考查学生的简单记忆能力高水平的认知能力是指分析、概括、综合、推测、评价等能力。一般考查考生这些高水平能力时,需要将考生置于新情境材料中,让考生对其进行分析、概括、综合、推测和评价。如果用考生熟悉的情境材料或用与教材语言相同的材料,考生很可能会凭着记忆,完成所要求完成的任务,导致仅仅考查考生的简单记忆能力,考试结果不能反映考生的高水平认知能力。

  4.每道试题内容要互相独立试题之间互相独立是教育测量学的一个基本要求,所谓互相独立是指试题之间不要有互相提示和互相依赖关系。互相提示关系比较容易理解,命题教师一般容易接受,但往往不被重视。例如,有些英语试卷中,在阅读理解部分的阅读材料的某些句型、结构等会对前面的语法词汇部分的某些正确选择起提示作用,也可能会对某些句子的翻译起提示作用。这对于相关内容的考查是不利的,应引起命运人员的关注。

  5.避免过于专门或过于一般的内容大规模教育考试涉及的内容应该以考生高中阶段所学的学科知识为基础。过于专门的内容往往容易超过大多数考生的认知范围,而过于一般的内容考生往往不需要经过思考,凭常识就可作出应答,这样的试题实际上都降低了试题的效度,考查的是与考试无关的心理结构或能力。例2是一道过于专门的试题,氢作为一种能源,其制作工艺特点,现在的考生一般无从知晓。

2:氢能是一种高效、干净的新能源,用氢作能源的燃料电池汽车备受青 睐。我国拥有完全自主知识产权的氢燃料电池轿车“超越三号”,已达到世界先进水平。氢能具有的优点是①原料来源广   ②易燃烧、热值高  

③储存方便    ④制备工艺价廉易行

A.①②        B.①③  

C.③④                D.②④

3是一道过于一般的试题,考生几乎均可以凭借常识,判断正确选项是D

  例3:右图喻示管理学中经典的“木桶原理”,即木桶的蓄水量是由最短的那块木板决定的。它蕴涵的哲理是A.量变引起质变B.事物发展是不平衡的C.世界是发展变化的D.整体离不开局部6.避免试题纯粹以个人认识为基础选择题的题干内容应该以客观事实性材料、科学原理或哲理材料为基础,而不应以个人认识或意见为基础,否则很难让考生作出正确的判断,从而影响考查的效果。例4就是一道以个人认识为基础的试题,按照命题者的主观认识,正确答案应该是C。但是,如果有些考生根据我国处理与南海周边国家关于南海领水争端的做法:搁置争议,共同开发,认为BD两项都正确,那又有什么不可呢?

  例4:海洋蕴藏着丰富的生物、能源、矿产等资源,是一个国家生存发展的重要战略空间,海洋权益是敏感的国际地缘政治问题。为此,我们应首先(   )。

  A.开辟更多的海上航线B.大力开发利用海洋资源C.维护国家海洋主权D.加快发展海洋经济7.应答所要求的思维过程不要过于复杂考试是根据考生应答的过程和结果,来推测考生心理结构或能力。对于选择题而言,只能看到应答的结果,看不到应答的过程。对于过于复杂的应答过程,一般而言,只有一部分是我们真正要考查的过程,其他部分可能不是试题真正要考查的过程,但由于这些部分也比较复杂,往往会使考生在这些部分发生错误,而在真正要考查的部分,考生并不一定错。这样试题往往就不能有效地考查预测的心理结构或能力。

8.题干中不要包括无关的内容题干中不包括无关的内容是语言简洁、明确的需要,也是创设有效的试题环境的需要。题干中包括无关内容,实际上是对考生产生了无效刺激,而这种刺激又与要考查的心理结构或能力无关,这样做一方面干扰了考生作出正确的心理反应;另一方面也降低了试题测量的有效性,降低了考试结果解释和使用的效度。

四、主观题命题的基本技术

主观题命题包括四个重要环节,即选择题干情景材料、设问、赋分和制定评分标准。

  (一) 试题情景材料选择的基本要求题干情景材料是对考生进行刺激,产生让考生表现心理结构或能力的环境。因此,选择题干情景材料需要考虑的基本要素是试题期望测量的行为目标、涉及的内容领域以及考生对材料的理解能力。

  1. 挑选的情景材料应该与学生学习经历过的材料有类似性但并不相同如果使用的材料考生很熟悉,或者在平时的复习训练中经常用到过,测量的行为目标就可能转化为测量记忆内容,这样测量结果的效度就会降低,试题可能会测量无关的心理结构。材料在形式或在内容主题上与考生复习训练中见过的材料不相同,但涉及的概念、原理、获取信息的方法、解决问题的方法等应该是相同的或相似的,可以用材料来考查设计所要考查的心理结构的行为目标。在课本、报纸、新闻、学术刊物、研究生论文和各种参考材料中,挑选一部分进行修改,一般可以获得满足要求的材料。可见要获得比较理想的材料,需要命题教师了解学校的教学和学生的学习生活、社会生活。

  2. 挑选的情景材料应该有教育意义尽管试卷和试题不是教材,但它们仍然承载着教育功能。我们面对的考生世界观、价值观、人生观尚未定型,还处在人生的发展、变化的阶段,而大规模教育考试是高利害考试,考生对考试中阅读的每一道试题的材料的印象可能远比其他材料深刻,这种材料可能会对考生产生更大的影响。因此,选择的试题情景材料应该有教育意义。

  例9 是某英语考试中选择的英文听力材料。这段材料的大意如下:

  Hogg 先生失业两周了,一直未找到工作。一天晚上,在回家的路上,遇到持枪抢劫者,要求他交出钱财。Hogg 先生告诉抢劫者他失业了,口袋空空,身无分文,今天一天尚未吃东西,又没钱。抢劫者听了他的叙述后,放下枪,给了他5 元钱,并说“我也是失业者”,就走了。

  例9 Mr. Hogg was on his way home. He had been out of work for two weeks and could not find another job. Today he hadnt had anything to eat and he had no money in his pocket. Suddenly a thin man with a gun in his hand appeared in front of him. Dont move or shout. Put hands on your head. Give me your money. “ The man said. Hogg didn’t deare to move. ”But I haven’t hot any. “ Hogg said.With these words he pulled out his pockets, and they were all empty. The man didn’t believe him. So Hogg told him everything. After hearing his story, the man put the gun away and took out five dollars, saying, ”We are in the same boat. Take this.” After he put the money into Hogg’s hand, he went away quickly. Hogg watched the man disappearing in the darkness. With the money in his hand, Hogg didn’t know what to do or what to say.

  这则材料虽然本身有点幽默,但在目前我国现实的背景和教育环境中,这则材料不能对考生起到正面的、积极的教育引导作用。命题者选择材料时,缺乏对材料教育意义的思考。

  3. 情境材料选择必须考虑测量的认知目标和涉及的内容领域设计主观题首先要考虑试题准备测量什么行为,该行为特征与哪个测量目标相关,希望考生用什么内容领域知识来解决问题。如果这几个要素不明确,就不能开始编制试题,选择材料就会带有盲目性。在实际命题过程中,相当多的命题教师在选择材料时,并未考虑要测量的行为目标,一般考虑较多的是要考什么学科内容。这样选择出来的材料往往不能测量设计的行为目标,达不到命题要求,工作效率也很低。因此,命题要以测量的行为目标为导向。

  如果试题的情景材料以及相关问题不能引导考生表现出相应的行为,不能为评价考生的能力提供数据,它就不能成为试题或不能成为好试题。

  大规模教育考试要求考生在考试中不但要表现出特定的认知行为,而且在完成试题规定的任务过程中,应该用到相关的学科内容领域的知识,如果考生在完成任务过程中,不用到相关学科内容领域的知识,那么表现出的行为就是一般的行为,是源自生活常识的行为,不是与学科领域相关的特殊行为,考试的效度就会受影响。因此,选择材料时可以参考课程标准规定的学习的主题材料。

  4. 情景材料应该不含新的概念、原理和方法,或者所含新的概念、原理和方法等不影响考生对材料的理解考生经过情境材料刺激后,表现出的差异只能与要测量的认知目标和相应的行为目标、相关的内容领域的知识相关,与其他任何因素无关。例如,考生对材料的理解不应该受到其背景知识、生活经历差异的影响。因为不同考生其兴趣、家庭生长环境、生活地域环境、文化环境等不同,其背景知识、生活阅历、见识等均不会相同,如果考生对材料的理解受到背景知识、生活经历的影响,就必然会出现对部分考生有利,对部分考生不利的情况,就会产生实质的不公平。因此,材料对科学、社会、文化、历史、地理等方面问题的讨论只能在考生学科知识的范畴内进行。否则,考生的行为就受到无关的心理结构的影响,产生试题功能偏差,考试结果的效度就会降低。

  有些命题教师和学科秘书认为,考生处理情景材料的能力,也能反映考生能力的差异。这种说法没错,问题在于试题究竟是测量考生处理材料的能力,还是其他能力。如果是前者,那么考纲中必须明确这一点。然而,即使是这样,也不能每道试题都考查考生处理材料的能力,这样的试题一定会测量多个行为目标,会产生试题功能偏差。

  5. 情境材料的呈现方式应该多样化试题的背景材料有很多种类,如文字材料、各种数据示意图、原理图、结构图、地图、数据表格、照片等实物、实景图片等。试题的背景材料应该多样化,应该适当地使用图示材料或图表材料。这样一方面可以使试卷卷面更加活泼、美观,增加试卷的亲和性,提高考生的兴趣,使考生不至于因阅读大量文字材料感到疲劳、乏味,影响水平的发挥。情境材料以不同形式出现,可以使某个方面偏强的考生不会太讨巧,某些方面偏弱的考生也有机会弥补其薄弱环节。如果材料既可以用文字形式表示,又可以用图示形式表示,而且不同形式的材料都可以很好地服务于试题测量的行为目标,且材料都为考生所熟悉,那么最好选择对材料加工要求最低的材料,如果对材料信息的处理能力不是试题要测量的行为目标的话。