血色衣冠 双高 最容易:效度的正用与误用

来源:百度文库 编辑:偶看新闻 时间:2024/05/07 04:00:07
第25 卷 第4 期北京体育大学学报Vol. 25  No. 4
2002 年7 月Journal of Beijing University of Physical Education Jul. 2002
●统计与体质
效度的正用与误用
张力为
(北京体育大学,北京 100084)
摘 要:测验指对行为样本的客观的和标准化的测量,实验则是在有控制的情景中,操纵自变量,然后观察因
变量变化的过程。因此,两者涉及的效度有所区别。重点讨论测验效度问题,包括内容效度、实证效度和构
想效度的含义以及这些效度的定性和定量检验方法。特别指出,应当避免混淆测验效度与实验效度,避免用
内容效度的评定取代其他效度的评定,避免对不必要进行效度检验的内容进行效度检验。
关键词:测验效度;内容效度;实证效度;构想效度;区分效度;聚合效度;实验效度;内部效度;外部效度
中图分类号:G80 - 32   文献标识码:A   文章编号:1007 - 3612(2002) 04 - 0493 - 04
Use and Misuse of Validity
ZHANGLi2wei
(Beijing University of Physical Education , Beijing 100084 , China)
Abstract :Testing refers to the objective and standardized measurement of behavioral samples , while experimenting is a pro2
cess in which independent variables are manipulated and the change of dependent variables are observed in a controlled
condition. Therefore , the validity of a test and validity of an experiment are quite different concepts. In this paper the dis2
cussion was focused on the test validity , including the meaning of content validity , empirical validity and construct validity
as well as the qualitative and quantitative evaluation methods of these validities. It is suggested that researchers should
avoid 1) failing to differentiate the test validity and the experiment validity , 2) just using the evaluation of the content va2
lidity to replace the evaluations of other sorts of validity , and 3) doing validity checking on the questions which need not to
check.
Key words : test validity ; content validity ; empirical validity ; construct validity ; discriminate validity ; convergent validi2
ty ; experimental validity ; internal validity ; external validity
  在讨论效度之前,需要界定测验和实验两个重要概念。
测验是对行为样本的客观的和标准化的测量[1 - 2 ] ,目的是考
察行为或事物的数量特征。实验是在有控制的情景中,操纵
自变量,然后观察因变量变化的过程,目的是考察变量间的因
果关系[3 - 4 ] 。实验过程一般会包括对因变量的测验,但测验
过程一般不包括操纵自变量的过程和观察因变量的变化。
测验有其效度问题,如内容效度、实证效度和构想效度;
实验也有效度问题,如内部效度和外部效度。两类效度的性
质并不相同。由于实验过程包括对因变量进行的测量,因此,
实验的效度问题更为复杂,它既涉及因变量测量的效度问题,
也涉及与控制程度和外推能力有关的效度问题。但本文将只
讨论测验的效度问题。
1  如何理解效度的本质
  测验的效度(validity) 是指一个测验在测量某项指标时所
具有的准确程度。它所回答的基本问题是:一个测验测量对
象的什么特性? 它对该特性的测量有多准确? 一个测验的效
度越高,则表示它所测结果越能代表所测对象的真正特征。
例如,体育活动中的速度从理论上来说,应该是一个人“单位
时间完成的距离”,它应与力量有本质不同。如果速度测验中
包含许多力量性测验,势必影响速度测验的效度。但体育活
动中,完全脱离力量的速度是不存在的。人们无法将两者彻
底分开。从这个意义上来说,速度测验的效度不可能十全十
美。我们所能做的,就是尽可能使速度测验更多地反映人的
速度特征,避免使它成为“力量测验”。
2  如何判断效度的高低
  效度的分类标准虽然很多,但基本上是由效标的性质或
特点决定的。测验的效度可分为三类:内容效度(content va2
lidity) 、实证效度(validate validity) 和构想效度(construct validi2
ty) 。内容效度指测验内容是否覆盖了具有代表性的行为样
本;实证效度表示测验对某个效标的预测性的好坏;构想效度
则反映测验是否测量了某个理论构想或特质。
2. 1  内容效度 内容效度指一个测验的内容代表它所要测
量的主题的程度。它在成就测验(achievement test) 中特别重
要。例如,为了测查学生运动生理学知识掌握的情况,若时间
许可,可以进行一个全面的考试,包含所有与运动生理学有关
投稿日期:2002 - 04 - 01
作者简介:张力为(1956 - ) ,副教授,教育学博士,哲学博士,研究方向运动情绪,自我观念。
© 1995-2006 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
的内容,但这显然行不通。于是,就从运动生理学知识体系的
总体中选一样本,也就是从可能的题目中取样来测验,根据测
验分数推论学生在该总体范围内的知识水平。若测验题目是
运动生理学知识体系总体范围的好样本(题目出得好) ,则推
论将是有效的(高效度) ; 若选题有偏差,则推论无效(低效
度) 。由于这种测验的效度与测验内容有关,所以叫内容效
度。
一个测验要有内容效度必须具备两个条件:1) 要有定义
得完好的内容范围;2) 测验题目应是所界定的内容范围的代
表性取样。内容效度是编制任何测验都要加以考虑的基本方
面。因为它考虑题目与规定的内容或所取样的行为范围之间
的符合性,可使选题更谨慎、更合理,以便从测验内容上排除
无关变量的影响。
内容效度对于能力倾向测验和人格测验一般是不适用
的。因为能力倾向和人格不象成就测验那样容易限定范围。
而且,通过检查测验的内容来准确确定所有要测量的心理特
性,实际上是不可能的。
内容效度具有一定的优点,也有一定的局限。它的主要
缺点是缺乏理想的数量指标,因而妨碍了信息交流和各测验
间的相互比较。
2. 2  确定内容效度的方法 有4 种方法可用来确定内容效
度。1) 专家判断。为了确定一个测验是否具有内容效度,最
常用的方法是请有关专家对测验题目与原定内容范围的符合
性做出判断。看测验题目是否恰当地代表了所规定的内容。
如果题目具有较好的代表性,则说明测验具有较高的内容效
度。由于该方法是一个逻辑分析的过程,所以又叫逻辑效度。
采用这一方法,不同专家对同一测验的内容效度判断可能不
一致。为了提高判断过程的客观性,应尽可能对测验的编制
过程和测验目标进行详细说明,并编制评定量表(或专家调查
表) ,以便专家对测验做出客观的评定。
2) 统计分析。可采用类似复本信度系数的统计计算方
法,求被试在两个复本上得分的相关系数。如果相关系数较
低,则说明两复本中至少有一个缺乏内容效度;若相关高,一
般可推论测验有内容效度。
3) 再测分析。可采用类似重测信度的评定方法,先将测
验施测于某一团体,该团体对测验所包括的内容仅具有最少
量的知识,因而得分较低。然后,让该团体参与有关材料的教
学与训练计划,结束后将测验再施测一次。如果成绩提高较
大,说明该测验测量的是课堂上所教的知识,而不是通过其它
方法获得的知识,亦说明测验具有较高的内容效度。
4) 经验评定。假定用同一测验检查不同年级的学生,那
么,一般说来,如果发现测验总分和每个题目的通过率随年级
而增高,就可作为测验具有内容效度的证据。
2. 3  实证效度 实证效度也称效标关联效度(criterion - relat2
ed validity) 或效标效度,指一个测验对特定情境中的个体行为
进行预测时的准确性,也就是对我们所感兴趣的行为能够预
测得怎样。例如,用百米成绩预测跳远成绩,用焦虑量表预测
某运动员赛前焦虑水平等。一个测验预测得越准,其实证效
度就越高。
实证效度强调的是效标行为。我们之所以对测验分数感
兴趣,是因为它能预测一些重要的外在行为,所以测验的内容
是次要的,而且测验题目不需要和效标有明显的关系,测验分
数能在事实上预测效标行为才是最主要的。
根据效标资料收集的时间,实证效度可分为同时效度
(concurrent validity) 和预测效度(predictive validity) 。前者的效
标资料可与测验分数同时收集;后者的效标资料需过一段时
间才能收集到。
1) 同时效度。估计同时效度的常用方法是,用新旧两种
测验施测同一批对象,将新测验得分与旧测验得分(校标) 进
行相关分析,得到效度系数。例如,假定有两种血清生长激素
测验,分别称为测验A 和测验B ,原来的测验A 比较昂贵,而
新发明的测验B 开销很小。如果测验B 的得分与测验A 的
得分有很高的相关,则测验B 可作为测验A 的代用测验。这
时,可认为测验B 的同时效度高。
2) 预测效度。估计预测效度的常用方法是,求测验分数
与同一对象未来操作或特质的发展状况(效标) 之间的相关系
数,以检查该测验的效度。例如,最大吸氧量如果能很好地预
测人的长跑成绩的话,则说最大吸氧量有较好的预测效度。
再如,在花样滑冰运动员形态选材的测验中,如果被筛选出的
大部分运动员未能长成所预期的形态,则由于预测效度太低,
我们日后肯定要抛弃这种测验方法。
2. 4  确定实证效度的方法 1) 相关分析。最常用来建立实
证效度的方法是求测验分数与效标测量之间的相关,所得到
的数量指标称作效度系数。在测验手册中,一般用它来报告
测验对每种效标的效度。
2) 区分度分析。该方法是看预测源(测验量表) 的分数是
否可区分由效标测量所定义的团体。例如,某运动队通过选
拔录取了一批运动员,过一段时间后,根据运动成绩将他们分
成合格的与不合格的两组,然后回过头来检查他们的测验分
数,运用t 检验看两组在测验上的平均分数是否有显著差异。
总的说来,两组平均分数的差异在统计上显著,并不保证测验
效度就高。然而,假如测验分数无法区分效标定义组,则测验
效度肯定很低。
3) 命中率分析。当测验用来作取舍的根据时,其有效性
的指标就是正确决定的比例。在简单的情况下,测验成绩与
效标都是二分的。在测验成绩方面是确定一个临界分数(即
分数线) ,高于临界分数者接受(预测其成功) ,低于临界分数
者拒绝(预测其不成功) 。在效标方面是根据实际情况(工作、
学习的能力或成绩) ,确定一合格标准,在标准之上者为成功,
标准之下者为不成功。这样便会有四种情况:预测成功且实
际也成功;预测成功但事实上不成功;预测不成功而事实上成
功;预测不成功且事实上也不成功。我们称正确的预测(决
定) 为命中,不正确的预测(决定) 为失误(表1) 。
表1  测验预测与实际成绩的可能关系
测验预测实测失败( - ) 实测成功( + )
成功( + ) (A) 失误(B) 命中
失败( - ) (C) 命中(D) 失误
  引自郑日昌,1987 ,144 页[5 ] 。
  这里有两个取舍正确性的指标:
第一,总命中率(PCT) 。它指正确决定数目(命中) 对总决
定数目(N) 的比例:
Pcp = 命中
命中+ 失误
= B + C
A + B + C + D
= 命中
N
PCT值越大说明测验越有效。这里考虑了所有的决定,并
对正确与不正确的决定给予了等量加权。
第二,正命中率(PCP) 。它指所选的人成功的比例,又称
选择效率:
·494 · 北京体育大学学报第25卷
© 1995-2006 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
Pcp =
A
A + B
= 成功人数
选择人数
PCP的值越高说明测验越有效。在许多情况下,人们只关
心录取者的成功与失败,对于淘汰者的命运如何却并不关心,
所以对错误拒绝(D) 的比例不予考虑(郑日昌,1987) 。
2. 5  构想效度 构想效度指测验能够测量到理论上的构想
或特质的程度。这些构想均有理论基础,但都无法直接观察,
只能通过具有操作定义的测验加以测量。操作测验成绩与理
念中的构想或特质的符合程度,即为构想效度。例如,从一般
的智力理论,可以提出4 项功能性的假设:绝对智力随年龄的
增长而增长;智力与学业成就密切相关;智商相对稳定;智力
受环境与遗传影响。于是,心理学家依据智力的上述功能性
假设,编制智力测验,然后实施测验,最后对测验结果进行分
析。如果发现,被试的测验分数随年龄的增长而增长;智商与
学生的各科学习成绩均有一定程度的正相关;智商在一段时
间内保持相对稳定性;智商的遗传度在0. 70 左右。那么,这
些实证研究结果就为智力的构想效度提供了支持性证据。
要决定1 个测验的构想效度,一般需要3 个基本步骤:首
先需要建立理论框架,以解释被试在测验上的表现;然后,依
据理论框架,推导出各种与测验成绩有关的假设;最后,以逻
辑方法和实证方法检验这些假设。标准化的测验均是依据这
3 个步骤研制的。
2. 6  确定构想效度的方法
2. 6. 1  因素分析 多数新编制的纸笔测验都要经过因素分
析来检验构想效度。因素分析可分为探索性因素分析和证实
性因素分析。通过探索性因素分析,可以从数据出发,找出影
响测验条目之间的共同因素。通过证实性因素分析,可以从
理论出发,检验影响测验条目之间的共同因素。现在,研究者
在制定新测验时,往往是两种因素分析并用,即先做探索性因
素分析,再做证实性因素分析。一般来说,证实性因素分析的
理论导向更为清晰明确,且可将理论模型分为结构模型和测
量模型,是对构想效度的更为有力的检验。非纸笔测验也可
用因素分析方法检验其构想效度。例如,我们可以首先假设
人的体能是一个包含3 个层次的结构,即体能可分为力量、速
度、耐力3 类因素,每类因素可通过2~3 项测验表达,见图1。
然后我们可以对400 名被试进行8 项体能测验,并通过因素
分析,检验我们的上述设想是否能够得到测验数据的支持。
图1  假设的3 层次体能模型
2. 6. 2  与标准化测验的相关 测量相同构想或特质的测验
彼此之间应该有较高相关。因此,一个新测验与已知的标准
化测验之间的相关,可以作为衡量新测验测量相同构想或特
质程度的标准。那么,既然新测验与旧测验有高相关,为何要
用新测验呢? 一般来讲,新测验必须在某些方面优于旧测验,
且与旧测验有较高相关,才有生存理由。新测验应当更简单,
更经济,更省时,更精细,或更全面,才有启用新测验的逻辑依
据。
2. 6. 3  多特质—多方法矩阵 Campbell 和Fiske (1959) [6 ]曾提
出,要确定一个测验的构想效度,则该测验不仅应与测量相同
构想或特质等理论上相同的变量呈高相关,也应与测量不同
构想或特质等理论上相同的变量呈低相关,前者涉及的效度
叫聚合效度(convergent validity) ,后者涉及的效度叫区分效度
(discriminant validity) 。例如,耐力测验与长跑成绩之间的相关
表示的是聚合效度,而耐力测验与速度测验之间的相关表示
的是区分效度。一个新研制的测验,一般都需要报告这两种
效度。
Campbell 和Fiske (1959) [6 ]发明了一种叫多特质—多方法
矩阵的方法,以具体检验聚合效度和区分效度。请看表2。
有3 种特质,分别是:A = 支配性,B = 社会化,C = 成就动机;
测量这3 种人格特质有3 种方法,分别是:1 = 自陈量表,2 =
投射测验,3 = 同伴评定。A1 表示用自陈量表测量的支配性
分数,B2 表示用投射测验测量的社会化分数,C3 表示用同伴
评定测量的成就动机分数,其余分数均依此类推。
表2  假设的多特质多方法矩阵
方法1 方法2 方法3
特质A1 B1 C1 A2 B2 C2 A3 B3 C3
A1 (0. 89)
方法1 B1 0. 51 (0. 89)
C1 0. 38 0. 37 (0. 76)
A2 0. 57 0. 22 0. 09 (0. 93)
方法2 B2 0. 22 0. 57 0. 10 0. 68 (0. 94)
C2 0. 11 0. 11 0. 46 0. 59 0. 58 (0. 84)
A3 0. 56 0. 22 0. 11 0. 67 0. 42 0. 33 (0. 94)
方法3 B3 0. 23 0. 58 0. 12 0. 43 0. 66 0. 34 0. 67 (0. 92)
C3 0. 11 0. 11 0. 45 0. 34 0. 32 0. 58 0. 58 0. 60 (0. 85)
  引自彭凯平,1989 ,165 页[7 ] 。
表2 中主对角线上括号内数字为各方法测量各特质的信
度系数,例如用同伴评定方法测量成就动机的信度系数为0.
85 (见C3 与C3 交界处,右下角括号内数字) 。
表中3 个较短对角线的黑体数字为效度系数,表示以不
同方法测量相同特质所求得的相关系数。例如,用自陈量表
和同伴评定两种方法测量成就动机的相关系数为0. 45 (见C1
与C3 交界处的黑体数字) 。
表中3 个实线三角形中的数字是以相同方法测量不同特
质所求得的相关系数。例如,用自陈量表测量支配性和社会
化这两种特质的相关系数为0. 51(见A1 与B1 交界处数字) 。
表中6 个虚线三角形中的数字是以不同方法测量不同特
质所求得的相关系数。例如,自陈量表测量支配性与用同伴
评定测量成就动机之间的相关系数为0. 11 (见A1 与C3 交界
处的数字) 。
如果希望得到满意的构想效度,效度系数(黑体数字) 应
该显著高于以不同方法测量不同特质的相关系数(虚线三角
形) ,也应该高于以相同方法来测量不同特质的相关系数(实
线三角形) 。其中,效度系数为聚合效度(黑体数字) ,其他两
种相关系数为区分效度(虚线三角型和实线三角形) ,表示特
质间的相关不是由测量方法决定的。例如,用自陈量表测得
的支配性分数与投射测验测得的支配性分数之间的相关(见
(下转第501 页)
 第4期 张力为:效度的正用与误用·495 ·
© 1995-2006 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
大小,可以检验客观性,经检验,如果客观性较低,则说明第Ⅰ
过程中的测量误差较大,即由测试者带来的误差较大,这时可
以从以下两个方面进行检查。
3. 1. 1  测试者的人为因素 检查测试人员对测试方法的理
解和熟练程度,测试人员的业务素质和主观态度。
3. 1. 2  测验本身的内在因素 检查测量程序是否标准化,测
验内容和方法是否简单、具体,是否明确应测量的条件和要
求。
3. 2  检验可靠性 可以通过检验可靠性考察第Ⅱ过程中的
测量误差,如果可靠性偏低,则说明测验结果受受试者状态的
影响较大,可以从两个方面检查原因。1) 受试者方面,受试者
对测量工作是否支持、配合,对测量方法的理解和掌握程度,
受试者的身心状态。2) 测验内容和方法本身。测量指标是否
受随机因素的影响较大,测量方法是否规范,易于受试者掌
握,测量条件是否易于控制。
3. 3  检验有效性 如果检验的可靠性较高,则可以通过检验
有效性、检查测验所选用的测量指标是否合适,经检验,如果
有效性偏低,则说明测量指标的误差较大,这时需要考虑测量
指标所含有的非待测属性是否较多,一般来说,多项有效指标
的有机组合比单项指标的有效性要高。
4  小 结
  通过测量过程的分解,测量误差的来源就显得非常明确,
由此可将测量中的误差分为三个部分,为了考虑各部分误差,
引入测量的三个科学性概念,显得自然、针对性强,进而可以
对三性进行对比分析,找到各自在测量中的位置,发现三性的
作用。从本质上说,测量的三个科学性因衡量测量误差的要
求而产生,都是用来衡量测量误差大小的指标,从这个意义上
说,测量三性是统一的;但从局部来看,它们分别衡量三个子
过程中的误差大小。
参考文献:
[1 ]《人体测量与评价》编写组. 人体测量与评价[M] . 北京:高等教育
出版社,1990.
[2 ] 松浦义行. 体力测定法[M] . 北京:人民体育出版社,1989.
[3 ] 魏登云. 重新认识体育测量的客观性[J ] . 北京体育大学学报,
1999 (22) 3 :73 - 76.
[4 ] 魏登云. 体育测量的可靠性概念及有关问题的讨论[J ] . 西安体
育学院学报,1999 (16) 1 :35 - 37.
[5 ] 魏登云. 体育测量可靠性检验的基本思想与方法[J ] . 体育科学,
2001(21) 3 :85 - 88.
(上接第495 页)
A1 与A2 交界处数字:0. 57) ,应该高于自陈量表测得的支配
性分数与自陈量表测得的社会性分数之间的相关(见A1 与
C1 交界处的数字:0. 38) 。如果后者很高,则可能表明被试在
自陈量表上的分数受到共同的某种无关因素的影响,如理解
问题的能力或希望在所有特质上都获得社会赞许的倾向等。
换句话说,如果特质的影响大于方法的影响,则可看到不同方
法测量同样特质时的相关,要高于同样方法测量不同特质的
相关。反之,如果方法的影响大于特质的影响,则可看到同样
方法测量不同特质的相关,要低于不同方法测量同样特质时
的相关。
3  如何避免效度的误用
3. 1  避免混淆测验效度和实验效度 如前言所述,测验效度
与实验效度性质不同。测验的内容效度、实证效度和构想效
度已有前述。实验的内部效度是指自变量与因变量关系的确
切程度;实验的外部效度是指能够将实验结果推广到实验外
情景的程度。进行一项实验研究时,要分别考虑测验效度和
实验效度这两个问题,而不能将这两者混淆。对因变量的有
效测量是实验的基本前提,但有了对因变量的有效测量,并不
能保证整个实验肯定有效。例如,在一项考察颜色对心率影
响的实验中,即便用心率表对心率(因变量) 进行了可靠和有
效的测量,但如果没有注意控制温度对心率的影响,让绿光照
明组在早上8 点进行实验(室温稍低) ,让红光照明组在10 点
进行实验(室温稍高) ,则会造成实验的内部效度较差。这种
情况下,即便绿光照明组的心率低于红光照明组,也不能得出
绿光有利于降低心率的结论,因为研究者无法排除不是绿光
而是温度使被试心率降低的可能性。
3. 2  避免仅仅考虑内容效度 在研制一项新的测验时,需要
同时考虑这内容效度、实证效度和构想效度[8 ] 。每种效度都
是从一个独特的角度衡量测验的准确性。在报道一项测验的
效度时,最经常提及的则是实证效度和构想效度[9 ] 。应当避
免只用专家评定法确定内容效度,然后声称经过检验效度合
格。这种做法,可能与不了解效度种类有关,也可能与不会用
数量方法检验效度有关。但不论哪种原因,这种做法都是片
面的。
3. 3  避免对不必要进行效度检验的内容进行效度检验 应
用纸笔测验进行调查研究时,并非所有内容都需要进行效度
检验。例如,人口统计学内容(如年龄、性别、出生地、教育程
度、婚姻状况、收入、家庭成员数量等等) 就不必进行效度检
验,因为这些问题所测问题的准确性是公认的。但是,如果采
用态度量表进行研究,例如采用【运动员兴奋剂量表】[10 ]研究
中国男女运动员在兴奋剂问题上的态度差异,或者采用【应付
方式问卷】[ 11 ]研究不同项目运动员对抗应激的应付方式,则
通常需要进行效度检验。
参考文献:
[1 ] Anastasi , A. , & Urbina , S. Psychological testing. Englewood Cliffs ,
NJ : Prentice Hall ,1997.
[2 ] 张敏强. 教育测验学[M] . 北京:人民教育出版社,1998.
[3 ] 黄希庭. 心理学实验指导[M] . 北京:人民教育出版社,1988.
[4 ] 马启伟,张力为:体育运动心理学[M] . 台北:东华书局,1996.
[5 ] 郑日昌. 心理测量[M] . 长沙:湖南教育出版社,1987.
[6 ] Campbell , D. T. , &Fiske , D. W. Convergent and discriminant valida2
tion by the multitrait - multimethod matrix. Psychological Bulletin , 1959 ,
56 , 81 - 105.
[7 ] 彭凯平. 心理测验:理论与实践[M] . 北京:华夏出版社,1989.
[8 ] 张力为. 赛前情绪的因素结构、自陈评定及注意指向[M] . 北京:北
京体育大学出版社,2001.
[9 ] 汪向东,王希林,马弘. 心理卫生评定量表手册[M] . 北京:中国心
理卫生杂志出版社,1999.
[10 ] 毛志雄. 中国部分项目运动员对兴奋剂的态度和意向. 两个模型
的检验. 博士学位论文[C] . 北京:北京体育大学,2001.
[11 ] 肖计划,许秀峰.“应付方式问卷”效度与信度研究[J ] . 中国心理
卫生杂志,1996 ,10(4) :164 - 168.
 第4期 魏登云,等:体育测量客观性、可靠性和有效性的对比分析·501 ·
© 1995-2006 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.