杭州市交通警察局滨江:统计学方法在社会学中的应用

来源:百度文库 编辑:偶看新闻 时间:2024/04/26 14:27:11
统计学在社会学中的应用——1950-2000:一个简要的回顾
发表日期:2006年12月23日  出处:北京大学社会调查研究中心  作者:Adrian. E. Raftery  本页面已被访问 2625 次
概  要
统计学方法在社会学中的运用已经成功地走过了半个世纪,它对提高社会学这门学科的科学研究水平做出了巨大的贡献。根据研究者所使用的数据类型的不同,我将战后统计学方法在社会学中的应用过程分为三个层叠的时期。第一代统计方法起于1940年代晚期,研究者主要运用交互表(cross-tabulations)的方法,同时对关联测量 (measures of association)和对数线性模型(log-linear models)倾注了许多心血,可以说这是社会学对统计学贡献最大的一个领域。第二代统计方法始现于1960年代,这一时期的研究者主要面对的是个体层次的调查数据,同时他们将注意力集中在具有线性结构关系(LISREL)的因果模型和事件史分析(event history analysis)上。第三代统计方法在1980年代晚期就已经初现端倪,研究者所处理的数据已经不能简单地归入上文所述的任何一个范畴。一方面是因为这些数据都具有与众不同的形式,比如文本和口述,另一方面是因为在与空间的和社会网的数据联系时,依赖性已经成为一个至关重要的方面。尽管有许多新的挑战,但用统计学方法研究这一领域的条件已经成熟,最近,几个主要的研究机构已经开始在统计学和社会科学领域展开新的探索。
目    录
1 引言
2 第一代统计方法:交互表(Cross-Tabulations)
2.1 分类数据的分析(Categorical Data Analysis)
2.2 潜在类别模型(Latent Class Model)
2.3 假设检验和模型选择(Hypothesis Testing and Model Selection)
3 第二代统计方法:个体层次的调查数据(Unit-Level Survey Data)
3.1 对职业地位的测量(Measuring Occupational Status)
3.2 结构方程模型的诸多应用(The Many Uses of Structural Equation Models)
3.3 事件史分析(Event History Analysis)
3.4 二分因变量(Binary Dependent Variables)
3.5 其他有限因变量(Other Limited Dependent Variables)
3.6 多层次模型(Multilevel Models)
3.7 缺省数据(Missing Data)
3.8 因果关系(Causality)
4 第三代统计方法:新数据,新挑战,新方法(New Data, New Challenges, New Methods)
4.1 社会网络和空间数据(Social Networks and Spatial Data)
4.2 文本和定性数据(Textual and Qualitative Data)
4.3 叙述和序列分析(Narrative and Sequence Analysis)
4.4 仿真模型(Simulation Models)
4.5 宏观社会学(Macro-sociology)
5 讨论
参考文献
引言
为了纪念千禧年的来临,美国统计学会月刊(Journal of the American Statistical Association)刊登了一个由大约50篇短文组成的连载,每篇短文都着力概括统计学中的某一领域在即将过去的一个世纪所取得的进展。这一计划的初衷在于将统计学中一些最优秀的成果做一总结,并且突出未来研究中的具有潜力的领域。我写作了有关统计学在社会学中应用的那篇论文(Raftery,2000)。其他几篇相关的论文或许会对那些对社会学方法论感兴趣的读者有帮助,这些文章涵盖了列联表(contingency table),对数线性模型(Fienberg,2000),因果推理在社会科学中的应用(Sobel,2000),人口学(Xie,2000),政治学方法论(Beck,2000),计量心理学(Browne,2000),经验方法在法律科学中的应用(Eisenberg,2000)等诸多领域。
在我这篇论文的初稿问世后,许多同事都对我的文章发表了评论,其中有许多评论正确地指出了我在文章中不慎遗漏的该领域的一些重要发展。然而,由于美国统计学会月刊给我的篇幅有限,我不可能将这些遗漏的部分全部补充进来。幸运的是,社会学方法论(Sociological Methodology)编辑Michael Sobel和Mark Becker请我撰写一篇在此基础上有所扩展的专题论文,或许这篇论文能够为这一不断发展的研究领域提供一个更为合适的概括。
社会学起源于十九世纪中期,孔德(他首先引进了“社会学”一词),马克思,韦伯和涂尔干围绕着工业革命后新出现的社会,写下了一系列具有奠基意义的著作。社会学从一开始就使用了定量的研究方法。孔德,这位学科的奠基人,清晰的意识到这门学科应该以统计数据为基础。而涂尔干的《自杀论》更是成为了广泛运用统计数据的典范。
然而,在二战以前,可供研究的数据都显得支离破碎,统计方法也比较简单,仅仅停留在描述性统计的层次上。经过仔细的考证Camic和Wilson(1994)认为,Franklin H. Giddings是美国定量社会学之父。Giddings于1894年在哥伦比亚获得社会学教授职务,1931年逝世,他将社会学界定为研究集体层面社会现象的一门学科。他认为在很大程度上社会学中的统计分析是将诸多的个体分成不同的类别,同时发现每一类别的平均特征。从现代统计学角度来看,缺乏对变化的考察是他著作的一个最为显著的特征。
从那以后,研究用的数据变得越来越复杂,同时统计方法也在不断发展,以适应数据分析的需要。这时期的统计学方法的发展,有许多是要归因于社会学家而非统计学家的努力。Clogg(1992)以及他文章的评论者们有力的论证并且记述了这一点。这种情况部分反映了一个事实,即致力于研究社会学问题的统计学家的数量相对较少。更多的统计学家倾向于关注药物学,工程技术以及生物科学方面的问题。这或许反映了在二十世纪后半期不同学科间研究资金分布的不平衡状况。然而,最近有迹象表明这一情况正在发生变化,我将在本文的结尾论述这个问题。
在过去的五十年中,社会学总的趋势是向更为严格、清晰的假设;更大更详细的数据集合发展;为了拟合数据,统计模型变得越来越复杂;主要社会学期刊所发表文献的统计分析水平也在不断提高。统计方法在社会学领域成功地走过了半个世纪,使得该学科研究的科学水平有了极大的提高。
社会学中广泛的使用了各种各样的统计学方法和统计模型。在这里,我将集中考察那些由社会学家发展的,直接由社会学问题所引致的,或者首先在社会学期刊上发表的那些统计学成就。许多其它的方法,比如逻辑斯蒂回归等适用于有限数量的因变量的方法,虽然也广泛的应用于社会学研究,但是他们是首先在其他的学科中为解决其学科自身的问题而发展出来的。有鉴于此,尽管这些方法很重要,但我们在这里也仅对他们做一简要介绍。
对于从计量经济学而不是从统计学中引入到社会学研究中的统计方法,本文省略了与其相关的讨论。这或许对从另一个角度来讨论这一问题有所帮助。计量经济学对社会学方法论产生了非常重要的影响,甚至有些人说这种影响比来自统计学本身的影响更为强大,但是在这里除了个别情况,我将不对这种重要的影响发表评论。
为了避免引起争论,我将根据社会学中不同的统计方法所针对的数据类型,而不是根据这些方法本身对他们加以分类。我将区分出战后统计学在社会学中应用的三个不同的阶段。每一阶段的划分都是根据他们通常所适用的数据类型做出的:交互表,单位水平的统计数据,以及种种新的数据形式。就像现实中的代际一样,这三代统计方法前后层叠,而且它们之间的界限也并非十分明晰。虽然这些方法代表着不同的成熟水平,甚至关于他们的起点也并没有一个统一的界定,但是今天这些方法都依然保持着活力。
在二战后开始的这一时期,社会学家们所使用的许多数据都是在调查和普查的基础上以交互表的形式呈现的。我在文中所要讨论的第一代统计方法就是以这种方式处理数据的。通常说来,这类交互表都只包含很少的变量,例如性别,年龄组以及职业分类。社会流动表可以称得上是这种方法中的经典之作。这一领域或许是社会学家对统计学贡献最大的地方。实际上,我们可以说是社会学家们主导了这一分支领域,他们发展出来的这些方法已经超出了社会学领域渗透到其他的学科的研究工作当中。Schuessler(1980)所作的调查在很大程度上反映了第一代方法所取得的成就。
1960年代早期,社会学家已经不必再依赖于计数的交互表了,来自含有多个变量调查的个体层次的数据越来越容易获得。计算能力也已经发展到能够轻而易举地处理这些数据的水平。第二代的统计方法正是针对处理这类数据而发展出来的。Blau和Duncan的有广泛影响力的著作美国的职业结构(The American Occupational Structure),为这一代的统计方法披上了金色的外衣,而1969年《社会学方法论》(Sociological Methodology)以及1972年《社会学方法与研究》(Sociological Methods and Research)等发表窗口的建立,更为这一方法增光添色。Edgar Borgatta一手创立了这两份刊物,当他创立第二份刊物时,《社会学方法论》已经远不能满足日益增多的投稿和发表的需要了。这些发展标志了社会学定量研究方法的新时代的到来。
1980年代晚期,社会学家们勾画了一个雄心勃勃的计划,就是对那些难以符合标准交互表和数据矩阵要求的数据类型进行统计分析(尽管在有些情况下,这些数据也可以被强行归入这些类别中)。这些数据包含了文本(text)或叙述(narrative),以及依赖性很强的数据,比如社会网的数据和具有空间参照特性的数据。这其中还包含了一些含有多类型变量的数据集,比如卫星图片,人种学的纪录和其他一些定量测量数据。第三代的统计方法正是为了处理诸如此类的数据而发展出来的。或许是每一个新事物的优点,迄今为止,这一代方法保持着它们的活力,包含了大量的令人激动的想法和进展,但是他们还未形成前两代统计方法所具有的成熟、完备的形式。
我对社会学中所应用的统计学方法的分类是根据不同方法所处理的数据类型做出的,而不是以方法本身的类型为标准,但这并不意味着目前研究生课程的编排有什么问题。或许为了训练的方便和有效,社会学的主要方法倾向于按照不同的类别组织在一起,比如回归模型(regression model),有限因变量模型(limited dependent variable model),对数线性模型(log-linear model),结构方程模型(structural equation model),事件史分析等等。然而,我发现要分辨统计学方法以往的发展趋势以及构想未来的发展,从最初引致这些方法产生的数据的类型入手或许是一条捷径。
过去的五十年间,我们已经走过了一条漫长的道路。今天,许多社会学研究都是以巨大的高质量的调查样本为基础进行再分析的。他们较多的利用在公共基金资助下收集的或者是对研究者公开的数据库,这些数据库通常都有着5000到20000,甚至更大的样本规模。这为复证结果提供了一条简便的道路,同时也有助于社会学建立起可以与自然科学或医药科学相媲美甚至高于这些学科的科学标准。或许受以上因素的影响,社会统计学在最近成为了一个迅速扩展的研究领域,许多重要的研究机构也都在最近几年开始了他们对这一领域的探索。
第一代统计方法:交互表(Cross-Tabulations)
分类数据的分析(Categorical Data Analysis)
定量社会学家们分析的许多数据最初都是以交互分类表的形式出现的,所以毫不奇怪这一领域成为了社会学家对统计学贡献最大的地方。交互表分析中的经典的例子是社会流动表,这类表格通常具有两个维度,即应答者的职业类别与应答者父亲的职业类别,而职业类别的数量通常在5个到17个之间。
最初的研究焦点是关联程度的测量,在社会流动领域他们称之为流动指数(Glass, 1954; Rogoff, 1953),然而这些指数不能对结构流动与交互(或称为循环)流动进行区分。为了解决流动表分析中的这一关键问题,研究者需要为这些交互表建立一个清晰的概率模型。为此,Birch针对观察值{xij}提出了一个对数线性模型
,       (1)
其中,i代表行,j代表列,u1(i)和u2(j)分别代表行和列的主效应,u12(ij)是交互项,用来测量对独立性的偏离。这一模型为所有需要对社会流动表和相似表格进行严格的分析的研究提供了一个总体的框架。然而,模型(1)的原型在分析社会流动和其他相似的交互表时遇到的困难是参数的数量过大,以至于不能进行推论和解释。比如美国的数据库通常使用的分类有17个,因此交互项中就包含了16²=256个参数。
要改进这一模型,就要使模型的交互项尽量简约(即含有较少的参数),同时又使模型能够拟合数据。在这方面,Duncan(1979)和Goodman(1979)提出了一个成功的解决方案,即关联模型(association model):
,        (2)
其中,若i=j,则δ(i,j)=1;若i≠j,则δ(i,j)=0。在模型(2)中,αi(m)是第i行在第k个维度上的取值,βj(m)是在第j列的对应值。这些值既可以事先具体化,也可以从数据中估计出来。最后一项允许在对角线方向上有不同的关联强度。(模型(2)是未经确认的书写形式,可能还有各种各样的确认条件)这个模型常被称为RC(M)模型。目前的应用中大多数情况下都是M为1,而在社会学实际应用中最早在模型中取M>1的是Clogg, Eliason和Wahl(1990)进行的对劳动市场经历和劳动力成果的研究。
Goodman(1979)最初发展这一模型时,是将其作为用本地优比(Local Odds Ratio)描述关联程度的一种方法。Goodman(1985)表明这一模型与规范的相关和对应分析有紧密的联系,并且为这些方法提供了一个颇具发展潜力的框架。在对类别进行排序时,在αi=βi=I的条件下,这个标准的关联模型是一个有用的分析起点(Haberman,1979)。在这个模型中,所有的2×2子表的优比都相等,因此当Υ=Υk时,这可以被看作二元正态分布的一个非连续的近似。
表1:观察频次来源于美国社会流动最大规模的研究,期望频次来源于自由度为4的Goodman关联模型。样本规模19,912。来源:Hout(1983)。
子代职业
高级
非体力劳动
低级
非体力劳动
高级
体力劳动
低级
体力劳动
农业劳动
父代职业
Obs.
Exp.
Obs.
Exp.
Obs.
Exp.
Obs.
Exp.
Obs.
Exp.
高级
非体力劳动
1414
1414
521
534
302
278
643
652
40
42
低级
非体力劳动
724
716
524
524
254
272
703
698
48
43
高级
体力劳动
798
790
648
662
856
856
1676
1666
108
112
低级
体力劳动
756
794
914
835
771
813
3325
3325
237
236
农业劳动
409
386
357
409
441
405
1611
1617
1832
1832
表1展示了一个简化后的美国社会流动研究的真实案例,拟合数据都是通过关联模型得到的,该模型解释了表中99.6%关联性,因此它的成功是显而易见的。Hout(1984)扩展了这一模型的适用范围,在职业类别的性质等问题上,他使用模型(2)把取值(score)和对角项(diagonal terms)转换成取值的和或者协变量的积。这是对Birch(1965)的线性交互模型(linear-by-linear interaction model)的一个扩展。
这种方法也将研究者的以简洁和可解读的方式,模拟相对更高维度和类别更多的交互表的愿望变成可能。并且它还成就了许多重要的发现,其中包括Hout(1988)得到的美国社会的流动性近年来在不断增加的发现。这一个细致的发现是在具有复杂性质的数据基础上做出的,如果没有使用关联模型的方法这一成果将是很难获得的。Ganzeboom、Luijkx和Treiman的研究进一步证实和推进了这一实质性的成果,这一研究依据的是从同一时点的不同国家收集的几百个社会流动表,研究者发现,在二十世纪后半期工业化国家的社会流动性在以每年1%的速度增加。
Biblarz和Raftery(1993)以及Biblarz,Raftery和Bucur(1997)将这一模型应用到更高维度的流动表中,用以研究不完整家庭的社会流动性。他们所用的流动表包含有父亲职业、子代职业、性别、种族、年代等5个维度,共计约7000个单元。在这种情况下,标准的对数线性模型不能获得任何信息,但是使用关联模型并且对以前模型进行扩展后,却可以得到可解读的结果,参数估计和结论。他们的研究表明,不完整家庭(nonintact family)的职业相似性比完整家庭的职业相似性弱,在不完整家庭中,由工作的单亲母亲抚养的子女在职业继承方面平均说来要优于其他类型的不完整家庭中的子女。从1960年代到1990年代,尽管家庭结构,职业分布,两性和种族之间的关系,及其职业和劳动力的地位等方面都发生了许多变化,但是这种流动模式在本质上保持了稳定。其他一些应用对数线性模型和与它相联系的模型的重要案例包括了对性别区隔的分析(Charles and Crusky,1995)和对同等地位群体内部的婚配问题的研究(Kalmijn,1991)。从社会学开始,关联模型的使用已经逐渐扩展到其他的学科中,例如流行病学的研究(Becker,1989)。
对二维以上的交互表进行分析的一个基本原因是要评估二维的关联性如何依照第三个(或其他几个)维度变化的。Yamaguchi(1987)和Xie(1992)提出了高维度关联模型的具体形式,而Goodman和Hout(1998)在此基础上进行了综合和扩展。后一种方法的一个十分吸引人的特点是它能以图形的形式展现结果,这为解读分析中所出现的更为复杂的数据和模型参数提供了方便。
这些模型适用于对不连续的独立变量进行分析。而在分析由连续的独立变量组成的交互分类的依赖性方面,Sobel(1981,1985)的对角流动模型(diagonal mobility models)或许是最为成功的。这一方法被广泛的应用于各个领域,比如对婚姻生育(marital fertility) (Sorensen, 1989),文化消费(De Graaf,1991),和投票行为(Weakleim,1992)的研究。
模型(1)和模型(2)背后所潜藏的基本原理,可以通过另一个直观的方式表达,这一方式是根据边缘分布(marginal distribution)而不是根据模型(1)中的主效应进行的。由此产生的边缘模型(marginal model)为研究边缘分布和优比开辟了道路,这为非对数线性的联合分布提供了一个新的模型(Lang and Agresti, 1994; Becker,1994; Becker and Yang,1998)。这类模型在社会学中的首次应用便是为了模拟社会流动(Sobel, Becker and Minick,1998)。
潜在类别模型(Latent Class Model)
解决类似的纷繁复杂问题的另一个途径是使用潜在类别模型(Lazarsfeld,1950;Lazarsfeld and Henry,1968;Goodman,1974a,b)。它的基础形式可以被看作是一个有限个分布的集合体,该集合体中每一个分布所包含的不同的变量都是独立的。这种模型被用来分析可观察的多变项离散数据的关联性,这种方法的最初的动机与用因子分析来处理多变项连续数据的想法相类似。
Hagenaars(1988,1990)扩展了潜在类别模型的使用范围,使得在那个多分布集合体中的每一个组成部分都不独立。这一模型的应用实例已经有相当的数量。Clogg(1995)对这一研究领域进行了总结。最近,Roeder,Lynch和Nagin(1999)用这一模型完成了一项有趣的犯罪学方面的研究。
这一基础模型已经在其他的情况中被使用和简化。Chickering和Heckerman(1997)在潜藏了一极后将它简化为Bayesian图示模型。这种简化式使得用潜在类别模型研究多变量关系时比较容易做出估计,同时它可以方便地在某些个体含有缺失数据的情况下对模型进行估计,此外它还能够对缺失的数据做出推断。Celeux和Govaert(1991)使用了同一个基础模型来聚合多变项离散观察值,从而为分析大量变量做好了准备。
假设检验和模型选择(Hypothesis Testing and Model Selection)
社会学家通常所使用的样本所包含的个案规模都在数千个左右,因此他们较早碰到了一个问题,即标准的p值在样本量相当大的情况下也可能意味着对无差异假设的拒绝,甚至当原模型在理论上看有意义,而对数据考察却不能揭示任何有意义的差异时也是如此。这一问题与下面两个问题结合在一起,首先在通常情况下存在很多模型而不仅是在进行显著性检验时我们所正视的那两个模型。其次我们是用逐步比较法还是用多项比较的方法对模型进行筛选(Goodman,1971)。到1980年代早期,为了解决这一问题,一些社会学家在当基于P值的检验得到的结果看起来有悖于直觉时,索性忽略这一结果。另外一些研究者则更多地使用模型筛选的方法,而不再对模型和数据之间的不一致进行理论性的思考或非正规的评价(Fienberg and Mason, 1979; Hout, 1983, 1984; Grusky and Hauser,1984)。
后来有人指出,使用模型筛选比用Bayes因素法能更有效的处理这一问题(Ragery, 1986a)。研究者可以通过选择BIC(BIC=Deviance-自由度*log(n))值比较小的对数线性模型,用近似的方法解决这一问题(Schwarz,1978;Ragery,1986b)。对于嵌套的假设,这种做法可以被看作是在确定一个检验的显著性水平,这以显著性水平将会随着样本规模的扩大而减小。从此以后,许多社会学研究在使用对数线性模型时都应用了这一方法。Kass和Wasserman (1995)表明在对模型参数进行估计时使用的Bayes先验分布是个体信息先验分布时,即与一个“典型”观测包含了同样多信息的一个有限分布时,这种近似方法还是十分精确的。而Raftery(1995)则阐明了将这种方法拓展到其他更多的模型中的策略。
Weakliem(1999)对BIC的使用做了批评,他认为在实际中BIC所对应的个体信息先验分布过于分散,如果在此基础上使用BIC的话,将会导致BIC在多数情况下对无差异假设有利。然而,Raftery(1999)指出个体信息先验分布的确为调查者已知的先验信息了一个合理的代表,尤其在当调查者事先有一些,但不是很多关于他所估计模型的参数值信息时更是如此。如果调查者有更多的信息的话他将有一个更为紧凑的先验分布,这样他就有了一个在用BIC不能拒绝无差异假设时,拒绝该假设的基础,但这要建立在先验信息而不是数据的基础上,同时在任何一篇报告中这一点都要被明确的指出来。BIC提供了一个保守的评价标准:人们可以对任何效果的实际意义更有信心,证明这些实际效果存在的信息都受到BIC的有利的支持。Weakliem的论述可以被看作是在暗示如果真实的先验信息确实可资利用的话,它就应该被利用,对此我表示赞同。在先验信息反映实际可用信息的基础上使用Bayes因素法时,这样做可以使对数线性模型以及其他的普通线性模型的应用变得简单。
第二代统计方法:个体层次的调查数据(Unit-Level Survey Data)
第二代统计模型是在个体层次的调查数据出现的基础上应运而生的,这些由独立的个体层次的数据构成巨大的数据矩阵。线性回归模型和由它拓展成的通径模型,结构方程模型,广义线性模型和事件史模型是分析此类数据的大多数成功模型的基础。但是,在仅对变量的分布而不是他们的估计值进行研究时,非参数模型则更为有效(Morris,Bernhardt and Handcock ,1994;Bernhardt, Morris and Handcock,1995; Handcock and Morris, 1998,1999)。我们将从回顾职业地位测量的发展开始,因为这一领域的研究为第二代统计方法的成长提供了强大的推动力。
对职业地位的测量(Measuring Occupational Status)
职业地位是社会学中的一个重要的概念,这个研究领域的标志性的成就便是发展出一套实用的,对职业地位进行连续测量的方法。这对于社会统计学方法的发展具有十分重要的意义,因为从1960年代开始,一些学者对工作给人们所带来的可资利用资源和社会后果十分感兴趣,他们在研究这一问题时广泛地使用了回归模型和其他相关的模型。这些方法论的取向迅速扩展到该学科的其他研究领域当中。
当1940年代对职业地位的全国性调查刚刚开始时,职业地位这一概念被等同于职业声望。然而,这类调查仅能对每十年进行一次的人口普查中的上百项职业分类中的一小部分进行测量。为了填补1960年的人口普查中其他职业分类的声望值的空白,Duncan(1961)选择了45种职业进行了声望值的回归分析,因为在这些职业类别中能够测量出完成了高中学业的在职者比例和收入在一万美元以上的在职者比例。他发现预测结果非常好(R2=0.91),两个预测因素有着几乎相同的权重值。在此基础上,他对1960年普查中区分的所有职业都赋予了一个声望值,这一数值被称为Duncan社会经济指数(SEI);SEI后来被认为是一个优于声望值本身的,能够衡量各种社会成就(social outcome)的预测值。后来Duncan根据几次人口普查分类数据对他最初的结论做了数次修改(Featherman and Stevens,1982; Nakao and Treas,1994;Hauser and Warren,1997),但是最近这一结论在概念和经验的基础上都受到了批判(Hauser and Warren,1997; Warren, Sheridan, and Hauser, 1998)。
在许多社会科学研究中,尤其是在经济学中,当前的收入被用来作为社会成就的一个预测因素,但是有更多的论据表明应该使用职业地位这一因素进行预测。职业地位已经被证明是一个具有良好性质的预测诸多社会成就的因素。因为工作和职业可以被精确地测量,相比之下收入或者财富的测量因为受到拒答、回忆和可靠性等问题的影响而变得不准确。在职业和代际之间,职业地位比收入更能保持长时期的稳定性。这意味着职业地位在作为指示长期或者永久性收入因素时,比当前收入本身更有代表性。此外,职业地位在时间维度上和在不同的国家之间都保持了相当的稳定性(Treiman,1977)。
结构方程模型的诸多应用(The Many Uses of Structural Equation Models)
图1展示的是Blau和Duncan(1967)的职业获得(occupational attainment)基本通径模型的核心部分。可参见Duncan(1966)。Wright(1921)引进了通径分析,Blalock(1961)针对社会科学研究的需要对这一分析进行了拓展,插入了因果推理的分析。结构方程模型的一个重要的用途和目的就是将总影响分解为直接影响和间接影响。Alwin和Hauser(1975)在尝试将这一方法应用到对社会学数据的分析的工作中扮演了重要的角色。对这一方法的批评参见Freedman(1987)和Sobel(1998)。下文的第3.8节详细介绍了有关社会科学中因果推理的讨论。
图1:一个著名的通径分析模型,即对1962年美国社会分层的过程的研究。从一个变量指向另一个变量的箭头上的数字是回归系数,V和X之间的相关系数为0.516。没有起点的箭头上的数字是残差。
来源:Blau and Duncan(1967)。
我们常常不能直接观察因果模型中我们所感兴趣的变量,但是其他的可观测的变量可以被视为是那些不可测量变量的间接测量或者结构因素,例如偏见(prejudice),疏离(alienation),保守主义(conservatism),自尊(self-esteem),歧视(discrimination),动机(motivation)或者能力(ability)。Joreskog(1973)用一个含有潜在变量的结构方程模型的最大似然估计来解决这一问题。这通常被称为线性结构关系(LISREL)模型,这一名称来自Joreskog的软件。Duncan(1975)在向社会学界介绍这些想法的工作中扮演了重要的角色,Long(1984a,b)和Bollen(1989)提供了一个适合于社会学家使用的出色文本。图2展示的便是应用此种方法的一个典型模型;这一分析的目标在于检验和估计图中以粗箭头代表的无法观测的潜在变量间的关系强度。像图1和图2这样的图表已经被证明对社会学家分析理论和假设,建立因果模型来说十分有帮助。
“小过失并不会
真正伤害到别人”
“警察对儿童的小
过失不予深究”
“笨蛋就应该
受到捉弄”
定义
过失行为
打架
偷车
盗窃
恣意破坏m
图2:用以检验假设的结构方程模型的一部分,该假设认为,通过学习得到的关于过失的定义导致了过失行为的发生。主要目的是为了检验和估计图中粗箭头所代表的关系。研究者所关注的定义与过失行为之间的关系不能被直接测量,但是却可以对方框中的变量进行测量。来源:Matsueda and Heimer(1987)。
对线性结构关系框架的扩展和应用已经超出了这一方法的最初目的。Muthen(1983)将它扩展到对分类变量的研究中,Muthen(1997)展示了如何在纵贯数据的分析(longitudinal data),增长曲线模型和多层次数据(multilevel data)分析中应用这一方法。Kuo和Hauser(1996)采用来自双胞胎的数据来控制未被观察到的可能影响其社会经济成就的家庭方面的因素,并且他们将得出的随机效果模型(random effects model)插入到一个线性结构关系框架中。
Markov图表模型(graphical Markov model)是在用条件独立性而不是类回归关系(regression-like relationship)的方法对结构方程模型进行简化的基础上产生的。它对于多变量独立性分析十分重要,尽管在社会学家看来它的解释力有限。但在通过一个因变量系统生产其他变量的信息,以得到关于其他不能观测变量的信息方面,这一方法很有帮助。例如,在组建医疗诊断专家系统等一些类似应用中这一方法显得十分需要。但是在社会研究中这些方法至今还很少被应用于推断和建模方面。这或许是由于社会学的假设多是用回归或因果关系,而不是用变量间的条件独立方式表达的原因造成的。
Markov图表模型和结构方程模型之间的关系已经开始为人们所了解(Koster,1996, Spirtes,1998)。同时,线性结构关系看起来也比较适合于Gibbs抽样和马尔可夫链之蒙特卡罗方法(Markov chain Monte Carlo method, MCMC) (Gilks, 1996),这似乎给这一框架的应用提供了一个很大的空间(Raftery,1991; Arminger,1998; Scheines, Hoijtink and Boomsma,1999)。
事件史分析(Event History Analysis)
个体层次的调查数据通常包含或者允许进行生活史的重构。其中含了某些重大事件,比如结婚,离婚,出生,入狱和出狱,工作变化以及进入和脱离福利保障的发生时间。
1972年以前,在分析一个事件(比如死亡)发生的时间分布和它的影响因素时,通常有两种可用研究方法。一个是从人口学借鉴来的生命表分析,但这种方法很难对影响某一事件发生时间的影响因素进行分析。另一个方法是对某一事件的观察时间进行回归分析,然而这种方法受监测和回答的极端不规律所制约。
Cox(1972)的风险比率模型(proportional hazards model)的引入给这以研究领域带来革命性的进展,它将上述两种方法进行了综合。Tuma(1976)以及Tuma和Hannan(1984)概括了这一方法使它能够分析诸如结婚和离婚这样的重复事件,多重类型事件(multiple type ),以及分析可在不同类型的情况间转换(比如不同的工作类别)的事件。Yamaguchi(1991)和Petersen(1991)提出了这一方法可行性,强调应该在社会学研究中加以应用。Mayer和Tuma(1990)描述了从社会科学中搜集来的一系列的有关案例研究。风险比率模型的一个重要的应用领域是有组织性的出生和死亡过程,这对社会学来说是独一无二的。Petersen(1995)将这一基础模型向更深的层次进行了扩展。在当事件相互联系,即当某一类型的事件发生与否影响其它类型事件发生概率时,对多类型事件进行研究。其中一个例子是研究失业与离婚之间的关系。Xie(2000)讨论了事件史分析在人口学和生命表分析中的起源。
医药学领域对Cox模型进行使用时,倾向于将基准风险(baseline hazard)作为非参数来使用,但是在社会科学领域,将它作为参数来使用有时会十分有效。例如,Yamaguchi(1992)对日本的长期雇佣进行了研究,在这项研究中生存比例和它的决定因素是最主要的兴趣点。他发现协变量同工作变化的时间以及生存比例都有关联。Yamaguchi和Ferguson(1995)将这一方法应用在生育的停止和间隔等问题的研究上。
社会科学中的事件史数据通常是在不连续的时间点上(比如按年)记录的,一方面是因为事件倾向于在某年的特定的事件中发生,另一方面是因为测量方面的限制。结果,非连续时间上的事件史模型变得十分受欢迎(Allison,1982, 1984; Xie,1994),在某些情况下这种模型比连续时间事件史模型更容易使用。处理多层次事件史数据的方法,平缓的时间变化协变量(smoothly time-varying covariate)和其他因素都逐渐被介绍到这一领域当中(Raftery, Lewis and Aghajanian,1995; Fahrmeir and Knorr-Held,1997)。
这一基础框架被发现可以有效地模拟不同种类的现象:比如创新和社会影响的扩展。Burt(1987)为这一方法提出了一个理论框架,而提出通过扩展事件史模型来模拟这一框架的是Marsden和Podolny(1990),Strang(1991)以及Strang和Tuma(1993)。另一个由Diekmann(1989)和Yamaguchi(1994)发展出来的方法是使用加速失败时间模型(accelerated failure-time model)代替风险比例模型。
伴随社会科学中的事件史数据而产生的一个问题是,中断参与(drop out)常常与我们所感兴趣的事件联系在一起。例如,人们倾向于在离婚前不久中断参与研究,这对于离婚率的估计来说无疑是一个巨大的灾难。乍看起来这一问题似乎无法解决,但是Hill(1997)通过使用Hill,Axinn和Thornton(1993)建立的共享非测量风险因子(Shared Unmeasured Risk Factor, SURF)模型为这一问题构造了一个精美的解决方案。尽管我们不能知道中断参与的人中哪一些人确实会在不久后离婚,但是我们却可以估计哪些人是离婚风险最高的人,这便是这一方法的主要技巧。人们可以用这些信息来修正通过对含有离婚和中断参与等因素进行模拟得到的离婚率的经验值。
二分因变量(Binary Dependent Variables)
我们常用“有限因变量”(limited dependent variable)来指在某一回归模型中的分等级的因变量,由它的可能值构成的集合因为严重违反普通线性回归(normal linear regression)的假设条件而不能用这种方法进行分析。典型的例子是二分因变量,其他的包含了定类变量、定序变量和复合变量以及仅限取正值的变量。
有限因变量,尤其是二分因变量,在社会研究中不断出现,在顶尖的社会学期刊上有许多文章使用了专门为处理这种情况而发展出的模型和方法。不过这一领域的大多数研究方法的进展都是来自于社会学外的其他研究领域。但是,社会学家在介绍,改造和综合这些方法的工作中扮演了主要的角色。具体的情况可参阅Long(1997)以及Xie和Powers(2000)的著作。
对于二分变量,社会学在过去二十年中所使用的方法是逻辑斯蒂回归(logistic regression)。这一方法的许多早期的成就都是在医学领域中取得的(Cornfield,1951, 1962; Truett, 1967),Cox(1970)的专论则将这一方法介绍给更多的研究者。广义线性模型(generalized linear model)的出现(Nelder and Wedderburn, 1972),人们对逻辑斯蒂回归独特性的认识,以及相关的GLIM软件(Baker and Nelder,1977)的发展,帮助逻辑斯蒂回归成为许多学科,尤其是社会学和健康学中的标准的工具。现在GLIM软件的一些版本或者其衍生程序已经被包含在大多数的主要商业统计软件中。
逻辑斯蒂回归并不是对二分变量进行回归的唯一可用的模型。在大多数概率都分布在0和1中间时(比如在0.1和0.9之间),常规线性回归也可以得出相似的结果。而逻辑斯蒂回归比线性回归更加准确,比如说它将所得出的概率值限定在0和1之间。不过在1970年代和1980年代,围绕逻辑斯蒂回归是否真的有必要这一问题产生了一场辩论,反对者认为用这一模型进行估计太复杂,并且比起线性回归模型来需要更多的时间进行计算机处理。但是随着计算机运算速度的迅速提高,这一方法所需要的额外的运算时间便可以忽略不计,这场辩论最终得出了有利于逻辑斯蒂回归的结论。
另一种方法是逆正函回归(probit regression),在此回归中假设因变量产生于对一个不可观测正态随机变量的截断,这些变量的期望值与自变量呈线性关系。这以方法有着坚实的基础并且容易进行估计,因为它也是一种广义线性模型所以也可以用GLIM来进行估计;它得出来的结果与从逻辑斯蒂回归中的到的结果十分近似。然而,在社会学和其他诸多领域中,这以方法正逐渐被逻辑斯蒂回归所代替,这或许是因为逻辑斯蒂回归系数可以被作为风险比来解释的缘故。但是在统计学界,近年来对逆正函回归的探讨又出现了一次复兴。这是因为潜在变量被引入这一方法,因此便可以相对容易的作为一个组成因素被包括到更为复杂的Bayes模型,这个模型常用马尔可夫链之蒙特卡罗法(MCMC),来进行估计(Albert and Chib, 1993)。
一个更进一步的模型是互补双对数回归(complementary log-log regression),在这一回归中log(-log(p))被假设为对因变量的一个线性组合,其中p为我们所关心的事件的条件概率。这也是一个广义线性模型并且容易用来进行估计。它可以比逻辑斯蒂回归更好的拟合数据,尤其对于自变量的极值它能给出十分不同的预测概率。这种方法的一个例子是由Raftery和Hout(1985)进行的关于爱尔兰教育变迁数据的讨论。详情可参见Kass和Raftery(1995)的有关著作。
Logan(1996, 1997)的双面对数比率模型(two-sided logit model)是一个重要的发展。这一模型认识到,在社会生活的许多情况中,个体需要在不同的结果之间进行选择,而决定这种选择的是个体倾向和态度以及现有的可能的选择。比方说,在劳动力市场中,个体最终找到什么样的工作,不仅取决于她或他自己的态度、倾向和长处,而且还取决于劳动力市场中其他应聘者、雇主的情况和他所可能获得的工作本身的情况。Logan的方法是将这些过程同时纳入模型中,通过分析他们之间相互作用来解释劳动市场的最终结果。这一模型既可以适用于个体层次的数据也适用于以交互表形式进行综合的数据。
其他有限因变量(Other Limited Dependent Variables)
逻辑斯蒂回归已经被扩展到对二分类以上的定类因变量的分析中,参见Hosmer和Lemeshow(1989)的著作。对多项逻辑斯蒂回归(multinomial logistic regression)模型的最大似然估计也变得比较直接并且对这一模型进行分析处理的软件也已经问世。Begg和Gray(1984)表明这一方法可以用一个适当的逻辑斯蒂回归来进行良好的近似。详情可参见Hosmer和Lemeshow(1989)。逻辑斯蒂回归也已经被扩展到对定序数据的分析中。见McCullagh和Nelder(1989)以及Agresti(1990)的著作。
有限因变量的另一个重要的种类是用来分析因变量取值为正,但当它等于零时却对应一个不可忽视的概率值的情况。比如说从工作中取得的收入:一些人虽然失业或退出劳动力群体,他们从工作中获得的收入为零,但是另一些人却都有一定的收入。这种类型的数据通常用Tobin(1958)所创立的Tobit模型分析。在这个模型中,假设那些收入为零的人实际上有一笔未被观察到的取值为负的收入,他的真实收入(现在假定收入可以取所有的正值和负值)可以用常规的线性回归来获得。
Tobit模型的基本形式看起来不能令人满意。首先是因为这种假定的不可观察的值实际上不存在,有时那些收入为零的人实际收入确实为零(如果不考虑测量误差的话),而另一些未被观察到的负收入实际上也不存在。可能更为严重的是,模型中假设的决定人们是否能从工作中得到收入的那些变量,与决定人们有多少收入的那些变量基本相同。然而,如果哪些决定人们是否进入劳动力群体的因素,与那些决定已经在劳动力群体中人们获得多少收入的因素十分不同的话,情况可能会比较简单,但是在Tobit模型中这一点难以区分。
Tobit模型在针对二分因变量进行分析的专用模型出现和广泛传播之前就已经建立了。然而现在已经有了一种简单的办法能够避免Tobit模型的问题。即分两步建立模型。在第一步中,不论因变量值是否为0,都对其进行逆正函回归。第二步中,因变量为收入的数量,而且仅仅包含那些收入为正数的个体。这是一个标准的样本选择模型,它推动了Heckman(1979)二阶估计因素法(two-stage estimator)的发展。Amemiya(1985)将此称为第二类Tobit模型。Winship和Mare(1992)对这一领域的发展过程进行了梳理。
有限因变量的另一个类型从对复合数据(compositional data)的分析中产生的。其中因变量是所有正值之和的一个向量,包含了他们的比例。例如在对家庭开支的分析中,回答是一个向量,其中的每一个因素都是家庭总开销在不同类别上的比例,比如房租,食物,日常开销,教育等等。人们最初的想法是对每一个比例分别进行回归然后建立模型,或者使用一个能够分析不同回答之间相关性的多元回归的方法。但是这些方法都行不通,因为将回答加总成为一类不满足标准分布假定限制了这些方法的应用。对这些数据的考察基于单一的,与这种三角关系相似的多维度关系,而不是基于完全的Euclidean空间。Aitchison(1986)对这一问题的研究进行了总结,他的主要见解是首先将p维的比例向量用多元逻辑斯蒂转换的方法在完全Euclidean空间中转化成(p-1)维的向量,再用标准的方法进行处理。
多层次模型(Multilevel Models)
多层次模型将回归模型及其的广义模型扩展到一个新领域,在这一领域中个体层次的结果不仅仅依靠个体层次的共变,而且还依赖于社会情境。在社会科学中这些方法的发展都是在教育研究领域取得的。在一个经典案例中个体层面数据是评分和考试成绩,而情境则为班级,学校,学区,州等等。
人们经常对以下的情况感兴趣,即个体层次特征的影响效果,比如家庭收入,要取决于所处的情境。例如,我们可以假设在某些学校中家庭收入对学生考试成绩差异的影响要小于它在另一些学校中的影响。要检验这一假设的效果并且用模型对其进行估计,最简单的方法是通过固定的多层效果模型(a fixed effects multilevel model)。假设yi是学生i在学校s(i)中的成绩,数据代表了s个学校,xi是学生的家庭收入。这样一个固定效果模型是
,        (3)
其中,βs(i)是家庭收入在学生i的学校中对考试成绩产生的影响,并且 。每一个学校j都有一个不同的回归系数βj。这一模型可以用普通最小二乘回归法进行估计。详细内容可参见Boyd和Iversen(1979)以及Blalock(1984)的著作。
这一模型面临着一些困难。其中之一是模型中要估计的参数有(s+2)个,如果有许多学校包含在内的话,需要进行估计的参数就很多,因此这一模型就会变得难以进行精确的估计和解释。另一方面,如果来自某一学校的学生数量很少,对这一学校的回归系数的估计相对于对其他学校来说变得比较极端,所得出的估计可能不太可靠。由于比较极端的估计值是许多研究都感兴趣的问题,所以这是此种方法的一个缺陷。
人们做了大量的工作以期克服在这个模型和在更为复杂和现实的情况中应用随机效果模型(random effect model)时所遇到的困难。在一个简单改进中,公式(3)被以下的公式所补充
(4)
其中 。将(3)、(4)联合,我们得到
(5)
其中
方程(5)与方程(3)的不同之处是(5)中仅有四个指数需要进行估计,而不是(s+2)个。另外误差项的方差不同,而且受自变量的影响。结果,估计的“学校效果”(school effects)变得不那么极端。在许多情况下,“缩水”后的估计值平均说来都比较理想。(Morris,1983)。
随机分层效果模型的思想起源至少要追溯到Lindley和Smith(1972)处,他们介绍了在Bayes情境下对这一方法的应用。对这一类的模型的称呼有很多种,包括多层次模型(multilevel model),等级模型(hierarchical model),随机效果模型(random effect model),方差因素模型(variance component model),情境模型(contextual model),随机系数模型(random coefficient model)和Bayes参数经验模型(parametric empirical Bayes model)。这一领域的研究从一系列高水平的学术著作中获益匪浅。参见Bock(1989),Bryk和Raudenbush(1992),Longford(1993),DiPrete和Forristal(1994),Goldstein(1995),以及Snijders和Bosker(1999)的著作。在计算机软件的帮助下我们可以很容易地应用这些方法,这些软件包括了HLM,MLn和VARCL,这对于这一思想的传播起到了十分重要的作用。
这一方法大多应用在教育研究领域中,但是在社会学的其他领域这一方法也有重要的应用。对生育率的下降的模拟(Mason,1983; Entwisle,1985,1986,1989; Wong and Mason,1985)是将这一方法扩展到人口学应用中一次成功的应用。另一个成果丰硕的领域是在元分析(meta-analysis),一种对不同研究结果进行综合的方法。(Hedges and Olkin,1985; Goldstein, 2000)。
这个模型可以根据EM法则用最大似然法进行估计,将随机效果看作“缺失数据”(Dempster, Laird and Rubin, 1977)。近年来,Bayes公式在将模型(5)那样的等级线性模型(hierarchical linear model)扩展到更为复杂的领域过程中的作用已经被证明。这些领域包括含有有限因变量的多层次模型(multilevel model),事件史结果(event history outcome),多变量结果(multivariate outcome)等领域。用马尔可夫链蒙特卡罗方法(MCMC)进行估计的做法被证明是十分有效的(Gelman,1995; Daniels and Gatsonis,1999)。这一模型最近在社会科学领域的应用包括了Bradlow和Zaslavksy(1999),Boatwright(1999),Datta(1999)以及Elliott和Little(2000)的研究。这一模型的应用似乎会成为未来研究中一个颇具发展潜力的领域。
缺省数据(Missing Data)
社会科学研究中常常会遇到缺省数据。迄今为止,最常见的处理这类数据的方法是用单举法剔除(listwise deletion),在这种方法中如果任何一个变量含有缺失数据的话,与其相对应的个案就会被从分析中剔除。有时含有大量缺失数据的变量也会被剔除。在没有大量个案被剔除的情况下这一方法十分有效,因为缺失的数据是随机的所以参数的无偏估计依然是无偏的,唯一的缺憾就是由于数据量的减少带来的精度损失。
然而,在变量十分重要而所缺失的数据量又非常大的时候,这一方法就遇到了困难,因为许多有用的数据也同时被剔除。围绕着这一问题,研究者尝试了各种各样的办法。其中的一个方法是均值替换法(mean imputation),即用其他个案中该变量观测值的平均数对缺失的数据进行替换,但这种方法会产生有偏估计,所以并不被推崇。但不幸的是,这一方法经常被使用,甚至一些广泛使用的商业软件中也将这一方法作为被选方案之一。个别替换法(single imputation)通常也被叫做回归替换法(regression imputation),在该个案的其他变量值都是通过回归估计得到的情况下,这种方法用缺失数据的条件期望值对它进行替换。这虽然是一个无偏估计,但是却倾向于低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。
多重替代法(multiple imputation)(Rubin, 1977)似乎是研究者将达成的有关这一问题解决方法的一个共识。它从相似情况中或根据后来在可观测的数据上得到的缺省数据的分布情况给每个缺省数据赋予一个模拟值。结合这种方法,研究者可以比较容易地,在不舍弃任何数据的情况下对缺失数据的未知性质进行推断(Little and Rubin,1987; Rubin,1987, 1996)。这并不是唯一的解决方法,多重替代法已经受到批评,同时其他解决方法也已产生(Fay,1996; Rao,1996)。现在已经有可能使用EM法,针对缺失数据简化模型,通过用最小二乘估计计算模型参数,进而估计缺失数据并推断它们的未知性质(Little and Rubin,1989; Little,1992)。
多重替代法基本逻辑以及用它来进行的推断都符合Bayes规则。最近,一种以马尔可夫链之蒙特卡罗法为基础的Bayes方法被发展出来用以解决这一问题(Schafer,1997)。这种方法在允许同时拟合缺失数据值和参数值的前提下,得到了一个包含所有缺失情况后的参数分布样本,从而拓展了多重替代法。与Rubin的原始多重替代法相比,这一方法可以得到关于参数未知性质的更为精确的估计和描述,但是在这一方法的使用过程中还是显得颇为繁琐。
多重替代法的有效性有赖于这样的一个假设是否成立,即:特定的数据缺失相对于其它的数据来说是否是随机的和独立的。“纯随机缺失”(missing completely at random, MCAR)这一术语被用来指称这样一种情况,即缺失情况相对于所有可观测和不可观测的数据来说,在统计学意义上是独立的。值得庆幸的是,人们发现多重替代法的有效性并不是必然受到这个很苛刻的假设条件的影响。事实上,只要缺失的数据与不可观测的数据之间保持独立的话,这一方法就有效,这一情况被称为“随机缺失”(missing at random, MAR)。这后一种要求在大多数情况下都可以被满足。但是如果缺失情况是与缺失数据本身存在某种关联的话,这一条件便不能被满足(例如,假设高收入的人更有可能拒绝回答他们收入水平)。我们在上文中已经讨论了一种解决这个更复杂的被称为“不可忽略的缺失”的问题,也就是用SURF的方法研究事件史数据中的特殊案例。
因果关系(Causality)
我们已经讨论的回归和其他大多数统计模型的目标,就是要对潜藏在社会生活背后的社会行为和社会结构的运行机制进行描述。换句话说,就是进行因果关系的描述。但在另一方面,统计学家尽量避免使用因果性的语言,因为他们非常清楚统计学模型可以展示变量之间的关联,但是不能证实这些关联就是他们原本就有的因果关系。
在社会科学中,用回归讨论因果性的方法已经出现,这是因为它与经验社会研究者的研究程序非常吻合。多数社会科学研究都是按照这一程序来进行的,首先由研究者假设一个因果理论,即一个现象为什么发生和怎样发生,指出变量X的存在,在一定程度上导致了结果Y。下一步是收集X和Y的观测数据。如果观察到X与Y之间存在着某种相关关系,那么这就给因果理论提供了一个支持。但是这并不能证明它们之间的相关是一种因果关系,因为对这种相关关系可以有多种多样的解释,比如:(a)有可能是Y导致了X的产生,而不是相反。(b)可能有第三个变量或者变量集合Z同时导致了X和Y的产生。
在这些情况下最常用的方法是,收集关于X和Y的时间序列数据或者纵贯数据尽量排除(a),收集尽可能多的关于共同原因Z的假设,尽量使(b)的情况变得不可能发生。解决这一问题的方法是对Z进行统计控制,在单独对Z的取值进行研究的前提下,考察X和Y之间的相关关系是否还存在。如果Z可以有多个可能的取值(因为Z可能含有多个变量或者包含了有多种可能值的变量),使用这种方法便会遇到困难,如此建立起来的回归模型便是以一种有限的方式来表达这些相关关系的。在控制了Z以后,如果X对于Y的效果依然显著,这便成为证明这一因果关系的一个证据。但是这并不能够证明X和Y之间一定存在着因果关系,因为或许还有其他的Z变量是我们不能够进行测量或者没有想到的。
当我们有更多的涉及因果关系的信息时,比如存在一个独立的变量,它与X和Y中的某一个有因果联系但是与另一个没有这种联系,在这种情况下有时是可以做出因果推断的。基本的方法是用工具变量(instrumental variable)进行估计,这种方法是经济学中的一个重要课题,在此我们将不展开讨论。
许多科学家试图在没有更多的因果信息时,对观察得到的数据进行因果推断,并且叙述有关的方法,以及给出一个实做的案例。与此有关的争论依然在继续。现在针对这一问题通常所采用的方法有两种:结构方程或图示模型(structural equation or graphical model)以及反事实方法(counterfactual approach)。
第一种因果推理的方法取向是结构方程模型或者更近期的图示模型。这一取向产生于从数据的多元结构(或许仅仅是横剖结构)推断因果结构的努力中。关于这一方法可行性的最大胆的陈述是由Spirtes,Glymour和Scheines(1993)做出的,Blalock(1961)和Costner(1969)的著作也对此做出了贡献。在这些著作中他们辨称道“相关关系并不意味着因果关系”这一说法在双变量中显然是正确的,但是在三个或更多的变量存在的情况下,这一说法就不一是有效的了。他们举了一个十分简单的例子:在某一案例中,如果三个变量X、Y、Z的相关关系结构是X—Y—Z这样的形式时,X、Z都与Y相关,但是它们之间不相关。他们指出在这种情况下,大多数人会赞成这些数据的因果关系应该为X —> Y <— Z,而且他们给出了使这些推断为真的条件。
为了扩展这一方法,Spirtes(1998)考虑了线性结构方程模型,并且提出了一些随之产生的问题。如果一个因果模型很好地拟合了数据,那么是否存在一个与其不同的另一个等效的模型来解释同样的关系结构?如果存在,这样的模型有多少呢?如果存在多个这样的等效模型,那么是否有可能将这些模型的共性都归纳出来呢?在结构方程中,什么时候一个非零的偏回归系数与一个非零的系数相对应呢?他们使用Verma和Pearl发展的d区分法(d-separation)的要素对一部分问题进行了回答。这可以被看作对条件独立概念的一个总结。这使得脱开图示进行因果关系解读成为可能。
当前的第二种主要的因果推断的方法是反事实方法。这一方法起源于这样一个想法,即:随机的实验,被访者的全面合作和没有缺失的数据,是对干预效果进行因果估计的最优的标准。在社会科学中,有时可以通过随机实验来对社会计划的实施效果进行估计。然而,与其他科学领域的随机试验不同,社会科学中的试验会受到不合作问题的困扰,即一些人拒绝接受被指定好的对待方式。这类的试验也受到缺失数据的影响。
Rubin(1974) 最早提出用反事实法对来自此类实验的数据进行因果估计,后来这一方法被称为Rubin因果模型。Holland(1986),Manski(1993,1995),Manski和Nagin(1998)以及Heckman和Hotz(1989)对这一方法进行了细致的讨论。Barnard(1998)详述了这一方法的应用过程。他阐明了在这一框架中处理不合作以及缺失数据的方法,展示了这些方法在一个自然随机实验——Milwaukee父母选择计划(Milwaukee Parental Choice Program)分析中所发挥的作用。
Sobel(1990,1994,1995,1997,1998)研究了反事实方法在分析观察数据方面的应用。这种方法在社会学中的应用,比Rubin和它的合作者所考虑的在随机实验中的应用要普遍得多。Sobel认为在使用从观察中得到的数据进行研究时,社会学家应该尽量辨别原因,然后考虑能够满足条件随机分配(conditional random assignment)假设的协变量,并且在研究中对他们进行测量。在Sobel(1998)的著作中,他将自己的推理应用到Featherman和Hauser(1976)的成就模型中,他总结认为,家庭背景对教育成就和职业成就的影响应该被视做是因果性的。Sobel从这个清晰的因果效果案例中得出的结论表明,在社会学研究中只有少数观察性研究能够符合他对因果推理设下的标准。简单说来,这是因为很少有人能确定自己的研究中没有未被测量的共同原因。当从观察研究中得来的因果推理成为可能时,他对这个相对稀少的案例的细致描述将被证明是有用的。
但是,社会学在很大程度上是将事实按照因果解释力的大小进行排序,观察性研究可以允许人们这样做,而不管我们是否能在此基础上做出绝对意义上正确的因果解释。这类研究的确为我们提供了一个分辨出最好的现有因果理论的评价基础。为了做到这一点,最常用的方法是通过检验回归模型中的一个或者数个系数的显著性。这样做会有一个局限:它只能被用来检验与成对的和嵌套统计模型相对应的理论。但是,通常状况下,我们所比较的理论在内部都不能以这种形式互相契合,实际上这些理论常常以不同的形式来解释社会现象,因此不符合嵌套假设。从这个意义上讲,对这些理论进行标准的统计显著性检验将会非常困难。然而,Bayes因素法仍旧可以完成这些比较(Kass and Raftery,1995; Raftery,1995)。
尽管人们已经广泛认为社会学研究的基础是对因果关系的寻找,但这一点并不是不受争议的。比如,Abbott(1998)曾指出,尽管目前因果回归模型主导着美国社会学界,但是这一模型过于狭窄,需要对它进行扩展从而容纳解释性统计的更多的意义,同时需要恢复描述统计在统计学中的中心地位。他认为基于历史叙述的方法(historical narrative-based approach)是一种对社会生活的更为有趣,更为吸引人的解释。他提出非统计拟合模型(non-statistical simulation model)以及聚类分析(cluster analysis)是这一领域中的很有应用潜力的方法,它允许研究者对社会生活的关系、空间以及时间特性进行描述。这种“非因果”(non-causal)或者“后因果”(post-causal)思潮是第三代统计方法的一个重要的部分。我们现在将转入对它的讨论。
第三代统计方法:新数据,新挑战,新方法(New Data, New Challenges, New Methods)
社会网络和空间数据(Social Networks and Spatial Data)
社会网络由成对的关系集构成,比如青少年之间的朋友关系(Udry and Bearman,1998),成人之间的性关系(Laumann, 1994),或者婚姻交换的结构(patterns of marriage exchange)以及跨社会群体的政治联合(White,1963; Bearman,1997; Padgett and Ansell,1993)。对与这类网络相关的数据的分析已经有很长的历史(Wasserman and Faust,1994)。Frank和Strauss(1986)针对这种社会网络发展出了正式的统计模型,这种网络包括与Bayes图表分析中所应用的马尔可夫随机域模型(Markov random field model)以及与使用Hammersley-Clifford定理(Hammersley-Clifford theorem)后的衍生模型相联系的社会网(Besag, 1974)。这导致了在社会网领域被广泛看好的“P*”类模型的产生(Wasserman and Pattison, 1996)。另一个对社会网进行统计模拟的正规方法是由Yamaguchi(1990)发展的基于Goodman类关联模型(Goodman–type association model)。
分析社会网所使用的方法大多数都针对数据完整且规模较小的数据集合。然而在实际应用中,比如性关系网络结构在性传播疾病的扩散方面(Morris,1997),数据常常很大并且非常不完整。现有的方法对此也是一筹莫展。这正是遗传统计学中的血统分析在数年前所处的阶段,但是从那以后似然率(likelihood)和MCMC方法的使用使这一领域取得了巨大的进展(Thompson, 1998)。社会网相对于血统来说要更为复杂一些,因为血统倾向于具有一个树形的结构,而社会网常常是一种循环结构,但是社会网方面的进展也是有可能的。
多数社会性数据都具有空间性,但是在社会学研究中这一事实在很大程度上被忽略。一个重要的例外是Massey和Denton(1993)的有关人种的居住区隔(residential segregation by race)的研究,这一研究使美国社会学中一个较早期的传统——对美国社会的空间分析得以复兴(Duncan and Duncan,1957)。最近,在对亚洲的避孕和生育率的研究方面(多数重要项目关注中国,泰国和尼泊尔),研究者对卫星图像和地理信息系统(GIS)数据进行了富有成果的分析(Entwisle, 1997)。
在社会学中更广泛使用空间统计法似乎成为可能。空间统计学在最近的40年中取得了很大的发展。模拟空间依赖关系的最有成果的两种方法是基于地理统计学(geostatistics) (Matheron, 1971, Chiles and Delfiner, 1999),和马尔可夫随机域(Markov random field) (Besag, 1974; Besag, York and Mollie 1991)。地理统计学对距离进行了细