北京和埃尔帕索时差:促进学习:学业评价的新范式(崔允郭)

来源:百度文库 编辑:偶看新闻 时间:2024/04/29 20:09:29
促进学习:学业评价的新范式(崔允郭)[ ] 0推荐

半个世纪以来,教育评价的理论领域也许没有出现诸如美国教育心理学家布卢姆( Bloom,B.)的教育同标分类学之类的重大成果,但教育评价的实践领域却发生了巨大的变革。这种变革源于知识观和学习观的变化,也与社会发展和教育发展日标的变化有关。从评价实践的变革中,人们似乎可以看到,教育评价实践领域正在发生一个范式转换,而在学生学业成就评价领域中,这种范式转换似乎更为明显。

一、教育评价领域的新进展:促进学习

        教育评价特别是学生学业成就评价领域在近几十年中正在产生巨大的变革,这种巨大的变革是教育评价历史上从未有过的,具体表现在以下几个方面。

    (一)“关于学习的评价”依然受关注,但“促进学习的评价”逐渐成为主流

 在当前的学生学业成就评价实践中,认证性和选拔性评价依然具有非常重要的地位,因为个体进入社会生活需要获得相应的学业成就水平的证明,高一级教育资源和社会资源相对有限,需要相对公平的分配机制;监测性评价则源于国家对教育质量的责任和对有关教育质量的信息需求,近年来得到很大发展;用于政策或项日评价的学生学业成就评价因为科学决策的要求而发展;学生学业成就评价同样被广泛地作为对地方、学校、教师和学生个体进行问责,并促使其对自己履行职责的情况承担责任的工具。

         这里,我们可以看到,“关于学习的评价”没有被削弱。但是,当前教育评价领域中关注更多的还是“促进学习的评价”(assessment for leaming),即运用收集相关的信息或证据以支持教师的教学决策和学生的学习决策,从而促使学生有效地达成预定的学习目标。对“促进学习的评价”的关注在20世纪60年代就已经开始,布卢姆的教育目标分类学表明,教育者开始清楚地表达对一种专门为教育目标,且能被用于计划、教学、学习和评价这一循环圈中的评价的需求。[1]当前,对学习的关注已经成为教育评价改革的一个大观念(hig idea)。评价不再被看成是教学过程终结之后的一个环节,或凌驾于教学过程之上的活动。相反,评价要被当作镶嵌于教——学过程之中的一个成分,与教学、学习一起构成了三位一体的整体。倡导各种新型的评价方式,关注内部评价尤其是课堂层面的评价,注重多元评价尤其是学生参与评价,规范评价结果的适当运用,等等,无不反映着“促进学习的评价”的理念。即使在为监测、问责等目的而实施的学生学业成就评价中,促进学生的学习同样是一个重要的关注点。

    (二)评价管理体制变革明显,平衡的学生学业成就评价体系正在形成

        就传统而言,世界各国的教育管理体制几乎都可以归人两大阵营:集权和分权。近几十年来,世界各国的教育管理体制正在发生急剧的变革。在美国,几乎每个州都在为提高标准而努力,如,提高对学术课程的要求,强化对教材的控制,州课程指南的运用等,但最为普遍的还是针对所有年级的全州考试,试图以此来重塑学校教育实践。在英国,1988年教育法案中的一个基本思路就是削减地方教育当局的权力和在课程上的自由裁量权,将教育控制权由地方收归中央。政府特别相信,考试控制权的回收具有将教育管理权从地方收归中央的作用。因此,全国性的考试系统建立起来了,学生必须定期参加考试,考试结果要公开发布。而一些传统为高度集权的国家,考试系统的控制却在走向相反的方向。在法国,考试权力传统上高度集中于中央政府。从19世纪初开始,中央政府就是全国考试测量的标准的守卫人,考试系统就是中央政府小心保护的主要教育特权之一。但从20世纪80年代早期开始,法国在教育管理中实施了一种温和的杈力下放政策,地方获得了更多的权力。

        从表面上看,两种不同传统的教育管理体制似乎正在走向各自的对立面,但不同的路径指向的却是同一目标,即集权与分权之间的适当的平衡。教育管理上的分权趋向更多是从教育输出方面考虑,基于对传统的输入或过程评估模式的反思。西方开始更多从结果方面考虑教育的质量,要使学校教育获得良好的结果,学校就必须获得相当程度的自主权,而传统的自上而下管制的方法只能解决输入的问题,对于学校教育的真正改善效果有限。学校要改善,就必须获得相关的信息,但国家将教育权力赋予地方、学校层面并不意味着国家不需要相关的信息。实际上,所有层次的管理者都需要信息来改善其决策的效能。因此,保证分权和监控之间的适当张力就成为几乎所有国家的共同选择,以实现国家规制和地方控制之间的平衡。[2]

    (三)传统的考试一统天下的地位被颠覆,诸多新型的评价方式得到广泛运用

        在传统的学生学业成就评价中,其实并不缺少纸笔考试之外的评价方式。可是,标准化测验一经出现,很快就一统天下,因为它基于心理测量学而披上了“科学”的外衣,因此,在科学主义甚嚣尘上的年代极具诱惑力  然而,在这样一种考试模式获得统治地位的同时,所引发的批评和质疑也不绝于耳。美国SAT的倡导者布里格汉姆(Blrigham,C.)就已经预见到标准化测验可能带来的消极后果。显然,传统考试更多关注结果的可比较性和公平性,很少考虑对学习的加强和支持。它鼓励学生对事实性知识的掌握,鼓励再生他人的观点,激励“肤浅的学习”,不能导致对“高等级的思考技能”的学习;当考试具有高利害关系时,教师常被鼓励去追求更高的分数,“为考而教”,而不是去更好地理解学生学习上的困难;一砦消极的甚至不合伦理的实践就成为学生学习中的常态。在这种情况下,最完美、最有效的考试却导致最糟糕的学习。[3]

        在这种背景下,标准化测验的统治地位受到

猛烈的冲击,诸多冠以“表现性评价”(PerformancP

 Assessment)、“真实性评价”(Authentic Assessment)或者“备择评价”(AlternatiVP Assessment)之名的新型评价方式正在成为众多评价项日的重要方法,甚至在诸如监测、问责和升学之类传统上由大规模的标准化测验控制的领域发挥作用。这些新型评价关注高层次学习所要求的批判性思考和知识整合,要求评价任务本身是技能或学习日标的真实例子,而不是替代物,期望学生通过思考生成答案而不是在多个选项中选出正确答案。

    (四)教育评价的心理测量学基础被动摇,新的教育评价文化正在兴起

        相对于以往随意化的评价,心理测量学成为教育评价的基础无疑是教育评价发展史上的一个里程碑。然而,当评价的日标发生变化,转向对学习的促进时,教育评价的心理测量学基础就不可避免地受到质疑。

        从根本上讲,心理测量学的诸多假定都来源于关于测验目的的假定。借用现代科学主义的话语,心理测量学将其所发明的测验称为“工具”,而且是一种外在于历史与文化的,不受感情或价值观影响的、公正无偏的科学的工具,这种工具的根本功能被假定为“选拔”,进而“安置”,即对个体或群体进行区分,然后将之归到被认为适当的位置上。区分的根据就是个体身上那种稳定的不变的东西。基于心理测量学的测验只能测量人类的少数特性,通常是那些不受教育影响的特性,也就是智力或自然倾向。测验就是要测出个体到底有“多少”这样的特性,而不关注个体在这些方面的表现有“多好”。

    显然,心理测鲢学的假定并不完全适合教育评价。首先,在教育评价中,所应当评价的东西即学业成就,与心理测量学期望测量的东西有本质的不同,学牛学业成就显然是教育的结果,而不是不受教育影响的固有的不变的特质——相对于智力和自然倾向。换言之,作为教学的直接结果的成绩是“脏”的,它直接受到教学和教师的影响;而且学生学业成就不是稳定不变的,而是不断发展变化的——至少从一般的情况看,学业成就会随学习的进展而提高。其次,当信度和常模成为教育评价的核心关注点时,教育评价就不再关注个体,而是关注个体与他人(常模)的比较,这导致学生在教育评价中的被动地位和无力感,因为他们能决定自己的成绩,但不能影响他人的成绩;同样,这种关注使得对统计分析的适合性成为教育评价(包括考试)设计的重要关怀,而对于评价在课堂中的意义,对于评价在促进学生学习和提高学业成就的意义方面,则基本上没有关怀。

       就此而言,那种基于心理测量学的、看起来非常成熟的技术标准不能适合指向于不同目的、需要不同方法的教育评价。而在柏拉克( Berlak,H.)看来,心理测量学范式中的测验不只是不适合教育评价的问题。“植根于一个不合时宜的范式之中的标准化和标准参照测验阻碍了学校的更新和重构。当我们进入20世纪的最后十年时,至少对于那些外在于测验编制的人而言,标准化和大部分标准参照测验所基于的假定明显是站不住脚的。在这一范式的废墟之外,一种新的范式正从许多并不完美的解决教育成就评价的实践问题的努力中缓慢地出现……”[4]

        二、素质教育背景下的学校教育使命:促进学习

        柏拉克将教育评价中心理测量学基础的动摇看成是教育评价“范式转换”的一个环节。的确,基于心理测量学的教育评价不能解决现实的教育评价中的一些“例外”,因而不可避免地出现了富有竞争性的理论或实践模式,并努力来“抢占地盘”。就此而言,柏拉克的结论完全正确。可是,柏拉克的视野也许狭窄了一些。当前教育评价中的范式转换也许不仅仅是因为以心理测量学为教育评价基础的观念被动摇,也因为教育评价领域诸多信念、原理和实践方式的变化,更因为促进学习已成为学校教育的使命。

        传统上,我们的学校教育扮演着一种社会分流器的作用,将社会成员分流到不同的社会经济阶层之中。升学考试就是分流的一种机制,升学考试中的筛选,表面上看来只是根据一次考试的成绩,但实际卜所依据的却是在某一学段学牛学习的累积结果:按照当前的学校教育制度安排,每个年级一年,学生可用的学习时间是固定的。而在固定的时间中,不同的学生所学到的东西会存在很大不同,有些学生学到很多,为下一阶段的学习奠定了基础,且在学校内部评价中获得足够的信心和动力;而另一些学生学到的很少,未能获得下一阶段学习所必需的前提知识和技能,且因在学校内部的评价中持续遭遇失败而丧失信心和动力。在大规模选拔性考试之前的9至12年中成功或失败的累积就决定了学生在这些选拔性考试中的成功和失败。

        因为要选拔,学校也就不排斥部分学生的失败,甚至有意让部分学生失败——选拔的一个前提条件是,学生要分布在一个成绩连续体的不同位置上。正如在选拔性考试中不能纳入绝大部分学牛都能正确回答的题目一样,学校内部的考试也经常将试题的区分度作为考试品质的一个重要指标。这样,层层选拔之后留下来的就是我们所期望的“精英”,而层层淘汰下来的就是失败者,他们在今后的阶层流动中将会碰到各种高度不同的“天花板”——这些“天花板”会比“精英”们可能碰到的天花板低得多。

        然而,如今学校教育的使命已经发生了重大的变革。学校不再被看作是区分学乍、培养少数精英的地方。相反,我们的学校期望促使全体学生的全面的、个牲化的发展。这就是我们的素质教育理想,也是素质教育的日标。原来素质教育只是一种思想,而在新的义务教育法颁布之后的今天,素质教育已成为法律要求。首先,素质教育倡导的学生的全面发展,不只是学业成就的提高,也包括综合素质的全面提升;在学业成就方面,也不只是知识和技能的发展,还包括适应2l世纪并能够为这一时代作出贡献所必需的批判性思考、创新精神和实践能力等高层次认知技能的发展。其次,素质教育倡导全体学生的发展,义务教育保证“一个都不能少”,素质教育就期望保证“一个都不能落后”;义务教育关注适龄儿童和青少年上学机会的公平,素质教育则关注他们发展机会的公平,期望他们都能达到我们所期望的素质水平。第三,素质教育倡导学生的个性化发展,期望学生达成他们所能达成的最佳水平,实现他们的最佳表现。但素质教育同样强调这种个性化发展必须建立在确保所有学生都达到一个统一的基本标准的基础之上。

        学校必须促进每一个学生的学习,保证他们达到我们所期望的学业成就标准,发展我们所期望的素质。学校使命的这种变革迫使我们去重新审视评价与学生发展的关系,用评价促进学生学习成为评价的核心理念。

        原有的评价范式主要定位在选拔上,它可能促进了部分学生的学习,但同时也伤害r至少同样多的学生的学习。当形成性评价进入这一评价范式之后,我们期望评价能促进学生的学习,但未能运用适当的机制来保证这一目标的实现,只是期望通过问责给予学校、教师和学生一种压力和焦虑感来改善教育,以促进学习。可是,压力和焦虑所带来的并非都是对学习的促进——许多学生因为失败的威胁而放弃学习,陷于无助,更严重的是丧失了对自己作为学习者的信心。测量学界一个具有国际性影响的学者,几十年来一直从事大规模测验开发工作的林恩( Linn,R.)说:“作为花了整个生涯研究、写作和思考教育测验和评价的人,我乐于通过总结有说服力的案例来得出结论:过去50年为学生和学校问责而运用的测验以动态的方式改善了教育和学生的学习。不幸的是,那不是我的结论。”[5]斯蒂金斯也说:“在过去60多年中,我们在学区、州、困家和国际层面的问责测验中投入了数以亿计的金钱,但这些投入未能提供什么证据证明这些测验提高了学生成绩或激发了学生的学习动机。相反,我们却看到大量的证据证明其对某些学生的巨大伤害。”[6]

        当人们开始相信更重要的是“促进学习的评价”而不是“关于学习的评价”时,原本为“关于学习的评价”而建立的那个范式进入美国的科学哲学家库恩( Kuhn.T.)所说的“非常规科学”时代也许不可避免了,因为柏拉克所称的“废墟”之外正在生长的东西就是在“促进学习的评价”这样一种信念引导、规范之下生长起来的。我们可以将这一正在生长的信念以及相关的基本认识、行动框架看作是教育评价的一个全新的范式。

        因文章太长,无法全文登载。