工行上海市徐家汇支行:从样本的代表性与随机性去理解抽样

来源:百度文库 编辑:偶看新闻 时间:2024/04/28 05:49:41
从样本的代表性与随机性去理解抽样浙江嘉兴教育学院 吴明华 海南省海口市第七中学 赵琼斌#TRS_AUTOADD_1298596022011 {MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}#TRS_AUTOADD_1298596022011 P {MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}#TRS_AUTOADD_1298596022011 TD {MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}#TRS_AUTOADD_1298596022011 DIV {MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}#TRS_AUTOADD_1298596022011 LI {MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}/**---JSON--{"":{"margin-top":"0","margin-bottom":"0"},"p":{"margin-top":"0","margin-bottom":"0"},"td":{"margin-top":"0","margin-bottom":"0"},"div":{"margin-top":"0","margin-bottom":"0"},"li":{"margin-top":"0","margin-bottom":"0"}}--**/DIV.MyFav_1298596026386 P.MsoNormal{TEXT-JUSTIFY: inter-ideograph; FONT-SIZE: 10.5pt; MARGIN: 0cm 0cm 0pt; FONT-FAMILY: "Times New Roman"; TEXT-ALIGN: justify}DIV.MyFav_1298596026386 LI.MsoNormal{TEXT-JUSTIFY: inter-ideograph; FONT-SIZE: 10.5pt; MARGIN: 0cm 0cm 0pt; FONT-FAMILY: "Times New Roman"; TEXT-ALIGN: justify}DIV.MyFav_1298596026386 DIV.MsoNormal{TEXT-JUSTIFY: inter-ideograph; FONT-SIZE: 10.5pt; MARGIN: 0cm 0cm 0pt; FONT-FAMILY: "Times New Roman"; TEXT-ALIGN: justify}DIV.MyFav_1298596026386 P.MsoFooter{FONT-SIZE: 9pt; MARGIN: 0cm 0cm 0pt; LAYOUT-GRID-MODE: char; FONT-FAMILY: "Times New Roman"}DIV.MyFav_1298596026386 LI.MsoFooter{FONT-SIZE: 9pt; MARGIN: 0cm 0cm 0pt; LAYOUT-GRID-MODE: char; FONT-FAMILY: "Times New Roman"}DIV.MyFav_1298596026386 DIV.MsoFooter{FONT-SIZE: 9pt; MARGIN: 0cm 0cm 0pt; LAYOUT-GRID-MODE: char; FONT-FAMILY: "Times New Roman"}DIV.MyFav_1298596026386 DIV.Section1{page: Section1}

  抽样统计的基本过程是先从总体中抽取部分个体组成样本,再对样本数据进行统计分析,最后以样本结果来推测总体情况.在这个“总体→样本→总体”的过程中,体现了抽样统计的核心思想方法──用样本估计总体的思想方法.这其中有两个基本问题,一个是从总体到样本的抽样问题,另一个是从样本到总体的推断问题.而且这两个问题是紧密联系着的,那就是样本与总体的关系.样本与总体的关系简单地看来只是部分与整体的关系,但其实并不就这么简单.

 

       一、两个关于抽样的教学案例

 

案例一 我们班同学的视力都很好

 

时间:2009年10月

 

地点:浙江嘉兴

 

课堂:初中数学,抽样(第1课时)

 

……

 

教师:老师想调查一下我们班级同学的视力情况.上课之前,老师随机地问了我们班上3名同学,获得的结果是:这3名同学的视力都很好.因此老师我得出的结论是:我们班同学的视力都很好.

 

学生(异口同声地):不对!我们班一半以上的同学都是近视.

 

教师 :那老师现在就和大家一起来调查一下第二小组同学的视力情况吧.

 

(老师请第二组中近视的同学举手,结果在12名同学中有7名是近似的.老师又请大家计算近视同学占小组总人数的百分比.)

 

教师(边说、边板书):调查结果是“我们班约有58.3%的同学近视”.

 

(显然,这个结果被大家所接受.)

 

接着,教师就说:这就是今天我们要学习的内容──抽样.

 

……

 

    案例二 我们班同学都近视

 

时间:2009年12月

 

地点:山西晋中

 

课堂:高中数学,随机抽样(第1课时)

 

……

 

教师:老师想了解我们班同学的视力情况,你们说老师该怎么做?

 

学生:抽样调查.

 

教师:那好,就边上的这一组,请近视的人举手!

 

(哗,这一组学生全都举起了手.全班同学和老师都笑出了声.)

 

教师(怀疑地):你们清楚近视的标准和自己的视力?肯定自己是近视的?

 

全组学生:肯定.

 

教师(不情愿地):那好吧,由此推断:我们班同学都近视.

 

几名学生(急切地):不对,不对!

 

教师:那我们再调查一下第二小组,请近视的人举手.

 

(教师统计了第二小组中近视的人数,结果仍然与学生所知道的班级的实际有一定差距.没办法,教师只好将剩下的同学都作了调查,也就是将抽样变成了普查.)

 

……

 

       二、样本的代表性

 

在上述两个案例中,为什么教师所做的抽样调查被否定呢?因为学生了解自己班级同学的视力情况,知道“我们班同学的视力都很好”、“我们班同学都近视”等结论都与实际情况“不相吻合”,所以学生认为这样的抽样是失败的.

 

对于一个确定的总体和来自于它的样本,由样本的结果去推断总体,这些推断是否与实际相符取决于样本的代表性.如果用样本去推断总体常常能获得正确的结论,那么这个样本的代表性较好,也就是说这个样本能较好的代表总体;反之,如果用样本去推断总体时常常“犯错”,那么这个样本的代表性就不够好,甚至是较差,也就是这个样本不能较好的代表总体.

 

其实,所谓样本的代表性,就是样本与总体的一致性.而这种一致性在本质上是指样本的频率分布与总体分布的一致,它表现为样本与总体在数据结构上的“相似”.

               

       如图,假如样本和总体的数据在各数据段(1-9)上的频率是“一样”的,那么样本的平均数、方差等数字特征也必定与总体的数字特征“一样”.在这种情况下,数据个数是样本与总体的唯一差异,所有与个数无关的特征可以由样本直接“照搬”到总体,凡与个数有关的特征也只要从样本“按比例折算”到总体就是了.简单地说,如果样本能很好地代表总体,那么样本的特征就可以当作是总体的特征.

 

三、样本的随机性

 

也许你听说过“瞎子摸大象”的故事:一群瞎子摸着一头大象,摸到象牙的说大象是刀一样的东西;摸到尾巴的说大象是绳子一样的东西;同样,摸到腿的说大象是柱子、摸到身子的说大象是墙……请你别笑话“瞎子说瞎话”!其实在抽样统计中我们自己就是“摸象”的瞎子,因为我们只知道样本而不知道总体,也不知道样本代表性的好坏.

 

       样本来自于总体,是总体的一部分,这些是确定的,但不确定的是样本是总体中的“哪一部分”.由于抽样的前提是“假设不知道总体”,所以样本相对于总体是随机的,也就是说,样本来自于总体的所有可能都是存在的.譬如本文所陈述的两个案例,尽管教师所做的抽样不带有主观故意(教师是借班上课的),但获得的样本却出现了极端情况,这就是样本随机性的体现,正所谓“一切皆有可能”.

 

    这里,针对本文所陈述的两个案例,有必要指出其中存在的一个教学上的问题,即教师自己的调查不应该被学生轻易地否定.当由样本得出“我们班同学的视力都很好”或“我们班同学都近视”的结论(虽然与实际情况不符)而被学生否定时,教师应该提示学生:站在第一次与大家见面的我(教师)的角度,有什么错吗?因为抽样方法的好坏与样本代表性的好坏虽有关系,但它们并不等价,不能混为一谈.如果学生学习了抽样而仍然认为“普查比抽样更好”,那肯定说明我们的教学有问题.也许作为抽样的引入,本来就不应该去调查“我们这个班的情况”,因为“我们班的情况”学生是知道的,本身已经失去了抽样调查的意义.事实上,我们可以从学生的角度出发,请学生来调查别的班级的学生情况,问学生该怎么办.

 

四、随机抽样

 

       一方面,我们希望样本有较好的代表性,但另一方面,样本永远只是总体的一部分,这部分能否代表总体(或者说在多大程度上代表总体)都是随机的.因此,我们需要研究样本的获得过程,即抽样方法.在不同的总体面前,我们希望以不同的抽样方法使得样本尽可能“均匀”地来自于总体,从而提高样本的代表性.

 

       一个总体,如果它容量不大,并且(或者说,调查者认为)个体之间没有明显的差异,那么这样的总体具有简单性.在有简单性特征的总体中进行抽样,方法上只需要“简单抽样”就行了.这种简单抽样可以表现为“直接地抽取个体”,譬如从一堆同品种的小包装饼干任意取几包;也可以用标签来代替实物,表现为“抽签法”;还可以连签都不做,只用编号来代替实物,借助于随机数来确定样本,表现为“随机数法”.

 

       一个总体,如果它容量较大,那么它就具有系统性.在有系统性特征的总体中进行抽样,可以先给所有个体统一编号,然后采用“系统抽样”方法就行了.系统抽样表现为每隔一定间隔抽取一个个体从而组成样本的等距抽样,也可以表现为先按编号分成若干段,然后在每一段上随机地抽取一定数量的个体从而组成样本的“分段”抽样.

 

为什么说在系统性总体中系统抽样比简单抽样更好呢?除了“是否便于操作”这个因素以外,是否还含有一定的限制样本随机性与提高样本代表性的作用呢?举例来说,从个体编号为001到999的总体中抽取容量为10的一个样本,假如用简单抽样方法,那么样本为“001到009”也是有可能的,但用系统抽样方法,那必定使样本“均匀”地分散于总体.虽然这种分散只是相对于号码的大小来说的,但我们知道,在生活中的实物个体常常有“自然编号”,如果抽样借用了“自然编号”,那么我们当然希望样本个体的编号不要过于集中.因此,我们完全有理由认为,等距抽样在简化抽样工作的同时,也从方法上限制了样本的随机性,从而提高了样本代表性.

 

       一个总体,如果它的个体被自然分成几部分,且各部分之间存在着明显的差异,那么我们说这样的总体具有结构性.在具有结构性特征的总体中进行抽样,需要总体的各部分在样本中都有“代表”.一种自然的想法是:按各部分在总体中所占的比例来抽取个体组成样本,这就是分层抽样.

 

    总之,我们希望样本有很好的代表性,也就是希望样本中的个体能尽可能“均匀”地来自于总体的各方面,然而具体获得的样本又是随机的.虽然我们因不知道总体(或者说知道得不够)而去抽样,但事实上在抽样之前我们常常对总体有所知道.针对不同的总体我们有相应的抽样方法,这些方法在已知的条件下尽可能使样本分散在总体的各部分.