越南特色酒店:意识宇宙

来源:百度文库 编辑:偶看新闻 时间:2024/04/29 07:54:44

《意识宇宙》
主题一:   动机

 

 

什么是特异功能(psi)?什么是特异功能的科学证据?怎样构成科学证据?我们应当如何评价这些证据?

为回答以上问题,我们首先谈谈什么是特异功能,如何把特异功能与那些颠狂迷乱的异常现象区分开来。人们对于特异功能心存疑虑往往是把它与另一些概念,比方与“超自然现象”(supernatural)混为一团。我们还要阐述什么是科学,以及如何科学地研究特异功能。

其次我们将介绍一些案例,正因为这样一些体验似乎表明存在着特异功能,所以我们才开展研究。这样的一些生活轶事能否在受控实验条件下予以验证呢?最后,我们还要谈两点,可重复性与整合分析,之后,我们进入主题二,对实验证据的科学性展开讨论。

 

第1章 何为特异功能


谈及真理时所犯的许多错误往往是因为错用了事物的名称。

巴鲁赫·斯宾诺莎(Baruch Spinoza)


       从远古时代开始,人们就在谈论一些古怪的、有时挺神奇的个人体验。无论在世界上的哪一个文化体系里,大多数民众都有这种体验。甚至在现代仍然有很多人,包括超过半数的大学教授们都有这种体验和经历。这种体验被称作“心灵现象”或者“特异功能”,现象表明在人与人之间、在人与物之间存在着某种深刻的然而又看不见的联系。这些心灵体验的最不可思议之处在于它们似乎超越了时空的束缚。

       在刚刚过去的一百年里,由于认定现代科学理论是完备和不可侵犯的,一小批具有影响力的学者和记者便把心灵现象全说成不可能的事情,大加讽刺挖苦。这么一来就形成了悖论,很多人依据个人体验相信特异功能存在,而另一批人则坚持这些信念是错的。

       出现悖论表明在前题假定之中存在着逻辑矛盾。悖论的第一个近亲便是异常现象,它们时不时地冒出来,却找不到科学解释。与悖论不同,异常现象有助于揭示现有理论存在着不足。有时候这种不足或者矛盾可以得到和平解决,原有理论可以容纳这些异常。但有时候就不行,所以在传统理论上拥有权威的科学家不喜欢看见悖论和异常。异常对于现有思维方式来说总是一种挑战,每项理论一旦创造出来就象是获得了生命,不经过一番艰苦的斗争,谁也不会提前退出历史舞台。

       尽管异常现象往往令人很恼火,科学发展的历史表明它们经常携带着未来革命的种子。如果能够经受重复检验、质疑反对以及主观偏见的绞杀,这粒种子一定将会发芽。说不定由此引发一场科学革命,从而在新的“常识”之上构建技术的和社会学意义上的革新。

 

 

 

 

 

 

图1.1 思维传感、非眼视觉及精神致动现象里的信息途径

       长期以来人们总以为主观与客观世界两者根本不同,互不重叠。主观意味着“这里,脑子里”,客观意味着“那里,外边的世界”。特异功能现象暗示着主观与客观这两个世界应该是某个更大的连续世界的组成部分,常规的时空观念只是在特定条件下才能成立。

       “心灵现象”或者说人体“特异现象”分为三大类:ESP(超常感知),PK(精神致动或心-物互动),以及死后续存的亡灵世界,在最后这类现象中包括濒死体验、幽灵幻象以及灵魂转世等等(参见以下术语定义及附图1.1)。绝大多数特异功能研究者都期望科学能够阐明这些现象。然而,在当代科学出现突破性的、革命性的飞跃之前,谁也不敢断定就真能找到解释。


专业术语


以下是一些最常见的心灵现象词汇

思维传感(Telepathy,也译作他心通):不通过已知的感官,在两副大脑之间交流信息。

非眼视觉(Clairvoyance,也译作天眼):感知肉眼范围之外的信息,法文原意是“看清(clear-seeing)”, 亦称“遥视”、“千里眼”。

精神致动(Psychokinesis):意念对有机体或无机物造成影响。实验表明精神致动更可能是信息从大脑流向物质,而不是某种意念力或者能量造成物质的变化。亦称“心物作用”、“PK”或“心灵致动”。

预知(Precognition):感知有关未来事件的信息,而从常规渠道无法获取该信息。近义词包括“预兆(Premonition)”、“预感(Presentiment)”等等。

ESP:超感官知觉(Extrasensory Perception)的英文缩写,常常译作“超常感知”。是由莱因(J.B. Rhina)自30年代起推广使用的词汇。它包含思维传感、非眼视觉以及预知等多种信息感知类型的特异功能。

psi(希腊字母y):特异功能,泛指各类ESP及精神致动现象的中性词汇。


相关现象


OBE:“灵魂出窍”、“脱体体验”(Out-of-body Experience)的英文缩写。在脱体体验过程中经常伴随着近似非眼视觉的视觉感受。

NED:“濒死体验”(Near-death Experience)的英文缩写,是指活转回来的人对濒临死亡一刻的独到体验。在这类体验中经常感受到出奇的平静、灵魂出窍、看见强光以及其它的异象。其中涉及特异功能的部分主要是其中的脱体体验。

转世(reincarnation):死后投胎成为新的生命。这种古老说法的有利证据是个别孩子能够回忆前世生活的细节。在某种意义上,这种现象与非眼视觉和思维传感具有一定可比性。

作祟(haunting):在某个地点反复发生的怪事,比如看见幽灵、听见怪声、物体自动以及其他一些异常的物质的或感觉上的效应。它与精神致动以及非眼视觉都有联系。

闹鬼(poltergeist):宏观物体的自动现象,人们过去归之于精灵所为,如今归之为现场的某个人,往往看成是青春期少年的不可控“精神致动” 。德文原意“吵闹鬼”。


容易被错会的领域


以上列举了一些最常见的词汇,特异功能研究者往往试图用更中性的词语描述这些现象。例如“思维传感”实际上潜含着强烈的、却又不准确的概念,我们经常以为自己知道的要比实验所揭示的更多。心理学实验证明,人们很容易把名称与事情本身相混淆。如果弄不清楚谈的是什么,就有可能“鸡同鸭讲”,造成很大混乱。

       有些词汇潜含着理论假设。看见“思维传感”,有人便望文生义,以为真有某种思维信号从这里传递到那里,这又引出“思维波”的说法。想当年曾经有不少人持这种观点,比如在此领域多有著述的作家乌普顿·辛克莱(Upton Sinclair)。

       “思维波”意味着某种近似于无线电波的信息媒体。然而脑电波非常微弱,况且在思维传感的时候,发送者与接收者之间可以相隔许多公里,无法想象如何传递接收如此微弱的信号。尽管特异功能无法兼容于常规科学理论,不少人却仍把电磁波看作信息载体并进行了实验。结果表明,即使采用很厚的电磁屏蔽材料(用钢板及铜板拼装的实验间),相隔非常遥远的距离,接受者依然可以不通过五官截获信息。

       这就证明思维传感不是通过电磁波传递的。然而只要提到思维传感不免令人产生联想。

       除开望文生意的问题,不同类型的特异功能其可靠性也有所不同。非专业地使用词汇容易造成误会,错以为它们具有同等的科学份量。

       所以,描述特异功能的词汇仅仅是指称某一类现象,并不真正说明现象的本质。其实科学上总是如此,不过是图简单常常忽视了这一点。根据我们的测试方法,光子即可以表现为波,也可以表现为粒子。我们可以或这样或那样称呼光子,但这都改变不了其本质:即非波,也非粒子,似乎又同时是两者。

       在科学讨论特异功能效应的时候,经常使用一些修饰词,“看起来”,“公认为”,“表面上看”,等等。这是因为许多说法并不十分可靠,甚至有可能完全用普通心理学或者物理学予以解释。我们只能尽量避免这样令人乏味的形容词。此外,还应当牢记一点,科学谈及的是假说、理论和模型,并非绝对性,一切科学概念都有各自的限定条件。


所指究竟是什么?


特异功能研究至今备受争议,部分原因在于“超常现象”(paranormal)这个词令人迷惑。一提到超常现象,尤其是在公共媒体中,人们常常就想到怪异、邪乎和神秘。这么一来,超常感知、思维传感以及预知就跟“神像滴血”,外星人劫持及五头蛤蟆(five-headed toads)搅和在一起。

       与各种奇怪事件相关的词汇包括:超自然(supernatural)、特异功能(psi)、心灵(psychic)、超心理学(parapsychology)、神秘(mystical)、怪诞(esoteric)、玄秘(occult)等等。如果不加区分地滥用这些词汇,势必造成很多误会。科学研究特异功能与轻信摇滚乐的“猫王”投胎变成了四十磅的胡瓜,这中间存在着天渊之别。想要讲清如何才算科学的特异功能研究,以及什么是科学的可重复性,必须首先阐明五个概念:超常现象,超自然现象,神秘主义,科学以及科学方法。

       相比于下一章里趣味横生的心灵体验故事,谈论这些难免有些令人厌倦。尽管我们也能跳开这些文字,但书本毕竟是由词汇组成的,澄清一些关键词极有必要。打个比方,就象刷牙,谁也不想天天刷牙,可要不这样做,总有一天剩不下一颗还能刷的牙。不刷,就没牙;没有词汇,就没有理解。非常简单。


超常现象(paranormal)

       韦伯斯特(Webster)第3版新国际词典把超常现象定义为“超越科学认识的现象”。这种说法并不专指心灵现象,超常现象可以指称所有未有解释,但可能被解释的现象。请注意“科学认识”的说法,这实际上又牵连出很多复杂的问题,什么才算科学方法、科学证据以及科学证明?所以,还是让我们把超常现象看成“超出目前大多数科学家所接受范围之外的现象”。

       被很多科学家认为属于正式科学领域的催眠、释梦、幻觉、下意识知觉等内容,在19世纪的时候还都属于超常现象中不可思议的怪诞部分。如果上溯几百年,甚至连物理学、天文学和化学等领域也是如此前沿,谁若是涉猎其间便有可能被指控为异端分子。可见与其它事物一样,科学本身也是处于发展演化之中。当科学发展到一定程度之后,今天的超常现象可能就会变成普通现象。在某种意义上──或许某些科学家不喜欢这么说──所有具有开创性的基础研究都是认识和解答超常现象的科学实践。

让人很奇怪的是,有许多科学解释不了的事物并没有被看成超常现象。比如在心理学里面就有一些神奇却又解释不了的现象,比如照像记忆(记忆极精确细节的能力)、患自闭症低能儿的速算能力以及自打娘胎生下来就能进卡耐基音乐馆表演的才华横溢的音乐天才等等。

最广泛接受、却又最不可思议的现象可能要算意识本身,可是谁也不说意识是超常现象。所以在词典的解释之外,通常意义的“超常现象”还隐含有神秘、怪异、不祥等含意。东密芝根大学社会学家马赛罗·吐兹(Marcello Truzzi)有一段说法:

超常现象是指应该有、但是至今尚未找到科学解释的某些自然现象(并非超自然现象),……然而遗憾的是许多超常现象的批评者总把超常现象与超自然现象划上等号。颇具讽刺性的是,那些相信超自然的人(比如天主教堂里宣传奇迹的人)却老早就知道超常的解释完全不同于超自然解释。

超自然现象 ( supernatural )

     超自然现象有好几种意思;常见的意思是“奇迹性的;超出自然之上的存在或者力量;神性的”。由于科学是研究自然世界的方法,从定义上来看超自然现象就是科学所不能解释也无法兼容的事物。

今天有一些宗教的说法认为特异功能是超自然的,所以无从进行科学研究。可是在几百年以前,所有的自然现象都同样被看成是由超自然的力量或神灵所主宰。经过年复一年的系统研究,大多数的现象已经有了很简单的解释。因此同样有理由认为所谓奇迹不过说明了人类的无知。今天它们还贴着超自然现象的标签,然而一旦我们发现科学解释,立刻就会变成自然现象。宇航员埃德加·米切尔(Edgar Mitchell)就说:“根本就没有什么非自然的或超自然的现象,只不过是我们对于自然现象,尤其对于偶发现象的认识还有很大的差距。”2


神秘主义

神秘主义涉及到对事物的直接感知,是一种直接而非间接的认识。在某些方面,神秘主义与科学很相似,都是探索自然的一种系统方法。科学关心的是外在的客观现象,神秘主义关注的是内在的主观现象。极有趣的是在过去这几年里,有大批的科学家、学者和宗教人士揭示了科学与神秘主义之间,在目的性、实践方法以及发现等方面存在着深刻的相似性。包括一部分最著名的科学家所写下的文字非常难以与神秘的玄学说法相区分。


科学

       科学可以定义为普遍认可的、对于事实真相的正确认识以及获取正确认识的整套方法。但是科学家对于什么才算“普遍认可”,什么是“正确认识”、以及哪种“方法”、甚至于“以及”又是什么,都有不同认识。结果,科学的定义在很大程度上取决于到底由谁来提这个问题。这么说起来差不多等于“科学就是科学家们做的事。”无论如何,绝大多数科学家一致认同,科学之所以伟大取决于“科学方法”。那么到底什么是科学方法,又何以伟大呢?

       如果科学家就什么是科学难以达成一致看法,那么就更复杂的所谓科学方法也不大可能形成一致意见。哈佛大学心理学家罗伯特·罗森塔尔(Robert Rossental)和神殿大学的拉尔夫·罗斯诺(Ralph Rosnow)就认为科学方法很难定义。因为“围绕科学方法存在着很多争论,这么提本身就错了,因为存在着多种认可的正式的科学方法。”3

       各种科学方法的共同之处是受控的、规范的实验观察。但仅仅光有观察是不够的。哲学家杰瑞米·布莱克(Jerome Black)认为:“无论观察、或者抽象、或者提出假设、或者使用仪器、或者数学运算,甚至把这一切全部加起来,仍旧不是科学的根本所在。”4

       许多科学家、哲学家认为简单的定义无法抓住科学方法的本质。有形形色色试图澄清定义的提法:有的很诙谐(科学家干的那套不可能更糟的方法),5 有的纯属无政府主义(科学的每项成就都是科学家突破原有方法后实现的,走的是“抓住老鼠就是好猫”的路线)。6 但这些都没有什么启发性。如果对照早期的、在前科学时代探求真理时所用的方法,或可能理解什么才是科学的独特性。怀特(L.L. Whyte)说:“在1600年左右,开普勒与伽利略差不多同时独立地归纳出了该项原理,即自然法则必须依据测量结果。他们在自己的工作中贯彻了这项原则。在亚里士多德进行分类的地方,恰恰是开普勒与伽利略致力测量的地方。”7

       在仔细观察与测量之外,科学方法的力量还在于其公共可靠性,测量结果与事实是一致的。这同早期的方法有极大的不同,那个时代的哲学家们倾向于逻辑论证,而宗教界试图用教义予以解释。

       科学测量的公共可靠性强烈要求现象可以被独立地重复验证,并且获得一致结果。换句话说,可重复性体现在结果的稳定性上。

如果某个现象非常地不稳定,这就难以保证测量结果是真实的,而可能是其它因素所致或者根本就是随机波动。在这种情况下就无法得出具有一致性的结果,重复验证便成了问题。17世纪的科学家还没有找到区分真实效应与概率巧合的方法,于是不得不放弃对许多有意义的物理、生物和心理学现象的研究──而这些恰恰是当代科学的研究对象。

幸好,有一些物理学和天文学的效应非常地稳定(或者说有极精确的周期性),这才保证当年就可以做出成功的测量。若非存在着这样一些稳定的效应,我们所熟悉的科学一定会败得一塌糊涂,我们可能仍然象亚里士多德时代一样争辩不休。这种哲学辩论的典型方式无外乎:是的,就是这样;不,不是那样。就是这样!不是那样!嘘!…嘘!…。正如哲学家伯兰特·罗素的评论,“看似古怪,却非我之过错。”8

       接下来我们进一步阐述科学意义上的“稳定性”是什么意思,让我们检验一些通常报道的特异功能实验,看看这个话题何以勾起了人们的兴趣。
第2章 特异体验


人与人之间存在着大量的相似体验,而他们却从未想到相互印证比较,这岂非咄咄怪事?

乔治·艾利奥特(George Eliote, 1819-1880)


自发个体体验率先激起了人们对于心灵现象的研究兴趣。虽然在回忆非常事件的时候,总有一些失真和夸张,不同人的主诉竟然具有很大的相似性。成千上万的案例构成了最基本的心灵现象。科学的任务就是记录这些感性体验,进而分析其内在意义。这些事件真的象看上去那样超越了时空吗?是否完全可以用常规心理学和物理学效应予以解释呢?

为了使大家能对后面的讨论建立起感性认识,下面先介绍一些典型的人类体验。


超距感应


作家伯纳德·吉特森(Bernard Gittelson)描述过一个超距感应的实例。1 主人公是19世纪的风景画家亚瑟·塞文(Arthur Severn)与他的妻子乔安。据塞文夫人说:

我从熟睡中惊醒了过来,只觉得嘴角有一阵阵的凉意。好象是上唇挨了一刀,正在流血。我突地坐起来抓住枕巾捂住嘴巴,过了一会儿才将其挪开。对于没有见到血我感到有些奇怪,接着才想起来不会有什么东西打到我。我置身床上,所以一切只能是一场梦!我顺带瞧了瞧表,时间指在凌晨7点,房间里没有看到丈夫亚瑟,我猜他是起早到湖里驾船去了。

我接着躺下睡了一觉。吃早餐的时候(大约9:30分)亚瑟进来的很晚,我注意到他有意坐得比往日离我更远,还总用手绢捂着嘴,就象我前面那样。我说“亚瑟,你在干嘛?”接着有点焦心地说,“我就知道你是把自己伤着了!回头再告诉你我怎么知道的。”

他说,“唉,我在水上的时候,突然来了个浪,把桨给打翻了过来,重重打在嘴唇上,现在上唇里面还在流血不止”。我又说,“你记不记得当时几点钟?”他答道,“差不多7点吧。”接着我就告诉他在我自己这里发生的事,这令他还有与我们一起吃早餐的人全都非常惊讶。

在一则近代的同类个案中,某高科技公司的副经理弗雷德,讲述了下面的故事:

半夜三更时分,弗雷德突然地从熟睡中惊醒坐了起来。他扯着胸口,大口地喘气。被他猛烈动作搅醒的妻子担心地问,“怎么啦?”过了一会儿,待呼吸平稳下来以后,弗雷德告诉妻子他本人到没有什么事儿,但是觉得象有什么不好的事发生了。他们看了看钟,是凌晨2点。

过了15分钟,他们刚刚睡着,电话就响了。另一头是弗雷德的父亲。“有个坏消息,你妈妈的心脏病刚刚犯了。我们睡得好好的,她突然直挺挺地坐了起来,抓住胸口,现在……她已经去世了。”弗雷德非常吃惊。他问,“那是什么时间?”“差不多15分钟以前的事,刚过2点。”2

    真有可能感受到远方别人的感觉吗?真有思维传感的证据吗?所有的正常感官渠道都必须可靠地切断,从而确信自己没有渲染体验,也肯定没有记错。我们将在后面知道答案是肯定的──至少在某些思维传感的案例中,有人的确感受到他人的感觉甚至内心体验。


超距遥视


      与许多自发心灵现象一样,非眼视觉常常是在面临危险、人生危机或有强烈需求与动机的时候激发出来的。加拿大广播公司播音员,比弗利·尼克斯(Beverley Nichols),讲述了他在1963年的一件事。当时他正在英格兰追踪伊丽萨白女王乘坐的皇家轮船。

我突然地感到一阵毫无来由的难受,差点没有呕吐出来,脑袋剧痛。女王和她的船队就象舞台谢幕一样消失了,接着便历历在目地看到乘坐在敞蓬汽车上的肯尼迪总统,两翼是马达轰鸣的摩托卫队。正因为好象是有什么预示,我才把这一切记得非常清楚。3

      没过几分钟,在尼克斯去喝茶的时候,有位不相识的人跑过来高喊,“肯尼迪总统被刺身亡,刚刚6分钟之前。”

      下面这个例子就要显得平淡一些,此事发生在1974年,是加里福利亚州门罗公园的斯坦福研究所在运作某个政府项目的时候发生的。当时中央情报局想知道非眼视觉是否可用于“观察”远方的战略性场所。事件的描诉者是物理学家罗素·塔格(Russell Targ),实验中的那位“遥视者”名叫帕特·普莱斯(Pat Price),是加利福尼亚州布般克的退休警官。普莱斯只拿到在地球另一边某个未知地点的经纬坐标,任务是描述能“看见”什么。

1974年7月10号,有位项目监察员带着任务来到斯坦福研究所……他本人是中央情报局的物理学家,他称手中所拿的坐标是一处“令分析家们感兴趣的苏联一处场所”。他们希望知道我们能够提供什么情况,他们非常想知道只提供一组经纬度坐标,我们能否描述出千里之外的信息。

我拿着这张写有经纬度坐标的纸条,与普莱斯一块儿走到斯坦福研究所无线电物理楼的二楼,然后同往常一样把我们自己锁进电磁屏蔽实验间……与往常一样,例行公事地按下录音机,记下日期和时间,实验者与受试者是谁,做的是什么实验。接下来我就把坐标读出来。

接下来帕特根据往日的习惯,摘下眼镜擦拭镜片,然后靠着椅背合上眼睛。安静了大约一分钟……他就开始说:“我躺在一幢两三层的砖楼上面。阳光明媚。太阳照得人很舒服。接着看见非常奇妙的东西,这是一架大型台吊,它在我的头顶上荡来荡去……我又漂浮到更高的地方,自上而下俯瞰,这家伙好象是横跨在房子两边的铁轨上。之前从未见过这种东西。”帕特画了幅位置草图,他把台吊称作“起重机”。随后画出了起重机的细节图(见图2.1)。

过了几天,我们做完整项遥视实验。我们事后惊愕地了解到察看的那个地方是绝秘的苏联塞米帕拉丁斯克(Semipalatinsk)原子武器实验室,也是检验粒子束武器的地方……作为物理学家若非本人亲眼所见,绝对不会相信普莱斯描述能够达到如此的精度。图2.2是中央情报局根据卫星照片绘制的塞米帕拉丁斯克地貌图。4

 

 

 

 

 

 


图2.1 帕特·普莱斯画的台吊 摘自《科学探索杂志》

 

 

 

 

 


图2.2 中央情报局的画图员绘制的塞米帕拉丁斯克地貌5


      两相对比可以说非常准确,这是斯坦福研究所的研究者所做几百次实验之一。然而非眼视觉是否真的只需集中思想,很多人都能加以利用的超能力呢?经过110年的实验研究之后,回答是肯定的,各种类型的特异感知都有真的,而且就象人的音乐才华和体育天赋,有可能特异能力普遍地存在于大众之中。

     

精神驾驭物质


      “我实在受不了了!”凯儿尖叫着。作为精神病护士,她刚刚在州立精神病院的颠狂病房干完了第一天的工作。凯儿是位敏感的、情绪化的女子,在高危病房里整天与精神病人搞在一起令她的精神大受刺激。

      见到她这样烦燥,她的室友丹就建议她做点能让自己放松的事情,比方说做点缝纫。凯儿犹疑地点点头,过去打开电动缝纫机开关。可没过几秒钟,开关处冒出尺把长的一股蓝烟,缝纫机立即停了。凯儿恼火地跳起来,“根本不行”。她跺着脚去用煤气灶烧开水,打火开关却没有一点反应,也听不到电子打火的声音,甚至连煤气的嗤声都没有。

      为了喝口水,凯儿把杯子放进微波炉里,设定时间然后按启动。又是没有反应,微波炉也出了故障。丹走过来看微波炉是怎么回事,而凯儿则愤愤地冲出厨房,恨恨地叫嚷全都不对劲。她坐在起居室打开录音机听音乐,没过几秒钟就又是一声惊呼“天哪!”丹跑出来一看,录音机把磁带已经绞了整整一地。

      凯儿吓得什么也不敢碰了。丹安慰她,“别犯傻了,都不过是巧合。我们来听唱片吧。”她取出一张唱片放到唱机上去,启动开关。唱机刚转动还没一下,两人便听到一声巨响,唱机也卡壳了。凯儿又急又恼,“瞧、瞧,就是不行!”

      于是丹建议凯儿上床去休息一下,就算巧合,光这堆麻烦就要花一大笔修理费呢。

      没过一周,凯儿终于因为受不了而辞职了。丹也找到时间准备把电器修理一下。他自己又检查一遍看到底哪里坏了。缝纫机、唱机、录音机全是坏的,打开看看,都是保险丝烧断了。令丹感到奇怪的是煤气灶和微波炉一点毛病也没有,怎么也不象一度坏过。6

      会不会是精神上的焦虑和压力增强了精神致动的力量,从而影响到仪器设备的功能并使之失效呢?事实的确如此,精神致动可以造成仪器尤其敏感电子设备的故障。后面我们将谈到,在过去的数年里世界上已经有70多位研究者在实验室内从事这方面研究。


直觉预感


      这是一个干燥晴朗的日子,你驾车行驶在空旷无人的高速公路上。前面有一辆车开得慢了些,于是你看看反光镜准备超车。正当你准备提速的时候,突然地感到不太舒服,于是就把脚从油门上松开。

      脚刚离开油门,前面的那辆车就突入其来地突然拐进超车道,前胎爆了。刚才要是超车绝对是一场严重的高速撞车事件。救了自己一命的“难受”当真只是巧合,或者另有原因?

      直觉可以被看成其实知道,但自己却未曾意识到的信息。直觉通常是理智的判断,是在经验基础之上的下意识猜测。正象体操运动员的自控能力,天分再加锻炼,使得身体可以在没有意识的指示下自行反应,完成复杂的动作。

      上面所谈到的开车的例子,你有可能下意识地看见前面车辆晃悠了一下。这可能是爆胎的前兆,这个警告信息渗入了大脑使你觉得难受。但是还有一些预感则不好用这种说法来解释。我的一位同事阿列克斯有这么一次经历。

   为了预备下个月的打猎,阿列克斯取出他的六响左轮手枪擦了又擦7。出于安全起见,通常他只装五粒子弹,枪栓歇在第六发子弹的膛上。他先退出五粒子弹,擦干净枪然后装入子弹。在他装第五粒子弹的时候,有一种怪怪的感觉,好象有什么不好的事跟这发子弹有关系。

   他有些担心,过去从未有过这种感觉,于是他决定相信自己直觉,把这粒子弹退了出来,然后与往常一样把枪栓留在第六发子弹的膛上。这次相邻的第五发子弹的膛也是空的。

   过了两周,阿列克斯与他的未婚妻还有她父母一块儿出去,住在打猎者的客房里。一天晚上,父母之间因为日益逼近的离婚而爆发激烈冲突。阿列克斯尽力劝说他们不要再吵了,但恼怒的父亲抓起阿列克斯放在抽屉里的枪对准了妻子。为了阻止悲剧的发生,阿列克斯一步抢到两人中间。但已经晚了──枪机打开了。在这一瞬间阿列克斯才意识到自己身处枪口之下。只听“咔”的一声枪响,人幸好没有死。这是一发空枪──恰巧是两周以前退出第五粒子弹的位置。8

      阿列克斯的直觉挽救了他的性命。从此以后他总是把这发子弹保存在保险箱里。他是这么说的,“据说每个人都有一颗会要命的子弹,我算是确凿知道这发子弹在哪里的幸运儿之一,我绝不会再把它放弃。”

      象阿列克斯的直觉就难以解释为下意识的信息,也不是经验的判断,在他擦枪的时候,连打猎的时间、地点、人员都还没有定。况且他也从未遇见过这种要命的争吵。

      他身上莫明其妙的感受究竟从何而来呢?有一种可能是从未来的事件中捕获到了信息。我们称其为“预知”或“预感”,即事先知道了未来的结果。尽管预感,尤其以直觉或梦境的形式反映出来的预感,其实是一种非常普遍的体验,绝大多数科学家仍旧怀疑到底有没有预感,因为这么一来,因果关系就变得异常复杂。这时就出现了“逆向时间”的因果关系。大多数科学家极难接受这种观点,因为今天的绝大多数科学模型都假定事件有“前因后果”的顺序。虽说这事很麻烦,后面将谈到半个多世纪以来的实验表明确实存在某种形式的预知。

 

感觉凝视


      有一种常见的精神影响生命体的形式,叫作“感觉受人凝视”,这与历史上传说的“鬼眼”有共通之处。许多民间传说认为在盯着人看的眼光里含有能量、喜恶以及影响力。除了民间传说,当代的问卷调查也证实每个文化里面都有类似的说法。

      最为典型的描述是这样:某女士正在餐厅就餐,慢慢觉得后背如着芒刺。最初她以为是喝了两杯咖啡也许咖啡因在作怪,可是脖子后面的头发也在奇怪地跳动。她猜恐怕有人在盯着她看,此人就在身后。调头一看,果不其然,一个粗壮的年轻人正直钩钩地望着她。

以下是塑造了夏洛克·福尔摩斯人物形象的亚瑟·柯兰·道尔爵士所讲的类似故事:

在那天清晨吃早餐的时候,我突然隐隐感到不舒服,觉得有什么人正盯着我,猛一抬头,我看到了一副直勾勾的充满怨愤的目光,这家伙的眼神随即变得柔和并与我聊起了天气。9

      全神贯注的眼光能否对他人的神经系统产生影响呢?同研究直觉一样,要想回答这个问题,必须确保被视者不可能通过正常感官或者下意识的渠道,知道别人在看自己。

      “感觉受人凝视”已在实验室里研究了一百多年。在最新的实验方案中,为了绝对隔断信息通道,两人分处在不同的房间,看者通过闭路电视观察被看者。后面我们还将讨论这些实验,实验结果显示凝视一个人确实将会影响他的生理状态。做实验的时候,被看者自己意识不到身体发生了这种变化,这表明我们可能无形之中就受到他人影响,而且这种影响比我们所想像得更为普遍。


超距精神治疗


      与此有关的内容还包括祷告、精神治疗以及其它的“超距意念疗法”等等。举一个典型例子,有位朋友将于明天上午做肿瘤切除手术。她请你帮她祷告以期早日恢复。你诚心诚意地为她祷告了一夜,次日你接到她的电话,说在作术前最后核实检验的时候,X光透视显示肿瘤已经消失了!再也找不到前些天还有的肿瘤的踪迹,手术因此取消了,医院方面觉得不可思议,朋友觉得无比宽慰。是不是你的祷告见效了呢?

      作家伯纳德·吉特森报告了下面这件事:

英国的桑德兰地区医院的医生里克斯·加德勒(Rex Gardner)对多起祈祷治愈疾病的案例进行了调查,全都不可思议。有个例子,一位妇女请她在教堂里的教友为她祷告,她的腿部患有严重的脉管炎。医生认为即使治好,也会留下大疤,必须做皮肤移植手术;就在这些人集中聚会祈祷的第二天,脉管炎就全好了,连皮肤移植也免了。

在报告中,加德勒说此事“怪异之极,若非自己同别的医生随即在下一次祈祷者的聚会中亲自检验了病人的患腿,若非所有在场者都证实此事,我自己说什么也不会相信。”10

    更广义地看,真有证据表明思念远方之人能够传递安慰、关怀或者挑衅、恶意的情感,并改变他们的生理状态吗?后面的实验分析揭示,在经过40多年的研究之后,回答非常明确,“是”。


十亿大脑共同思考


      有大量实验证据肯定思维可以作用于远方的物体,能够改变物体的性状。假若情况属实,便自然涌出一个问题,个人在实验室里制造的效应能否在数百万乃至数十亿人口的现实世界中“累积”起来。

      近来我们的实验室还有普林斯顿大学、苏格兰爱丁堡大学、荷兰阿姆斯特丹大学已就这个问题进行了一系列实验。结果表明很多副头脑共同想一件事,世界将因此发生改变。

      例如在国际标准时间1995年10月3日上午10点,有一件大事。相当一部分世界人口,大概有10亿的人,都在关注对前橄榄球明星辛普森(O.J. Simpson)杀人案的犯罪判决。我们的研究说明很多人的共同关注可以出人意外影响现实世界。后面,我们会介绍辛普森案件中,在1995及1996年的奥斯卡颁奖典礼以及百年奥运开幕式之际,我们如何研究“场意识效应”。我们还将讨论其它大学同行对这种惊人的“群体意识”效应所做的独立重复。

 

林林总总的特异功能


      各种证据显示特异功能在世界上有着普遍性,那么赌场里是否也有呢?在这里人人都想赢钱。他们力图转变运气的愿望与实验室研究的意念相当一致。虽说长期来看,由于游戏规则,赌场总是赢家,但若是哪天好几台老虎机有人中了头彩或者在赌桌上赢了大盘,场方也会输钱。有没有办法预计赌场每天的赢利波动呢?是否某人某个日子运气更佳呢?

      内华达大学相离拉斯维加斯这个世界上赌场最密集地区不到一英里,我们实验室签署了一些协议,从而能检查赌场上的赌桌及老虎机的输赢变化。从赢赔率的变化曲线上我们果然看到存在与特异功能相关的因素。这说明赌场上的确存在特异功能。接着我们还对一些州以及全国性的彩票发行中与特异功能有关的可能波动作了分析。

     

传闻不足为凭


      本章以及后面数章里所介绍的奇闻轶事虽说很吸引人,但它们均不足以令科学家相信特异现象是真实的存在。但假如这种传闻有成千上万呢?恐怕就值得进行一番反思了。但是,心理学家们早就证明记忆远比大多数人知道的更加不可靠,任何主诉都容易失真,把这些内容全都累积在一起也不可能使特异功能得到科学确认。因此,我们需要考虑两点:怎样才能构成科学证据?我们又如何获取科学证据?下面我们先来谈重复性的概念。
第3章 可重复性


我对于谈论牙医偷情之类转瞬即逝的事情毫无兴趣。我只对那些数百万人中不断、不断、不断重复的东西感兴趣。

瑟顿·威尔德(Thornton Wilder)


      试想一下,我们每年都要支付一些人数百万美元的年薪。我们敬其为英雄,兴奋地谈论他们的成就,期望自己也能步其后尘。再想一下,除开基因优势、天赋才华以及数十年如一日的天天训练,他们的瞩目成就全靠自己在1/3时间里的表现。对这些人来说,1/3的“击中”已经算是非凡的成就。

      这群人就是棒球运动员。

      举个例子,米基·芒德尔在1951年至1968年之间一共击球8102个。其中击中的球数达2415个,算起来平均是29.8%。芒德尔的击球水平年与年之间有很大波动,最高是在1957年,接近37%,最低是1968年,仅仅24%。有人以为球迷们可能因为心目中的偶像竟有2/3时间击不上球而感到恼火。而实际上谁都知道棒球是一项高技能的体育运动,即使对世界水平的优秀运动员,我们也能接受较低的击中率以及水平发挥的不稳定。


评价人的表现


      图3.1给出了芒德尔自1951年至1968年期间的年击中率,以及他的终身平均击中率。击中率是个确定的数字,在图中以圆点表示。垂直方向的短线叫作“95%置信区间”。把这两个概念搞清楚非常重要,后面我们将用它们说明我们何以能够充分肯定特异功能。

 

 

 

 


图3.1     米基·芒德尔的年平均击中率及总平均值,95%置信区间。


      年平均击中率是按该年的击球数除击中球数算出来的。之所以是个“点”,因为它是一个值。问题在于年与年相比,击球数量有很大变化。以芒德尔为例,某年他打了10个球,击中8个,合80%的击中率;下一年可能打300个球,击中100个,合33%击中率。

      如果我们单看点平均值,就可能以为他的水平下降了很多。而若是我们知道前次击球10个,后次却有300个,就立即意识到前一次的80%平均击中率,虽说的确是80%,并不能很好地反映个人的长期水平。

      所以在分析表现的时候,除开点平均值,还要注意可信程度。这正是“95%置信区间”的由来。一般说来,若是点值附近的置信区间小,或者是说经过多次测量才得出该值,或者是说重复测量时每次结果相差无几,或者同时是这两种情况。1若是置信区间很大,则说明测量的次数少,或者重复测量值之间的差别很大,或者同时是两者。“95%”的意思是指我们有95%把握断定其长期表现将落在该区域之间。

      从图3.1中,可以看见芒德尔的水平发挥总在随年度而变化,点平均值在变,围绕此值的置信区间也在变。比如1960年芒德尔的年击中率为27%,我们确信这基本反映了他的年度水平,因为置信区间是在24-30%之间。我们要么可以说他的击球数量很大,要么认为他的发挥很稳定,或者同是这两者。相反,初看起来1963年要比1960年好许多,平均点值达到32%。但是再一看95%区间,就明白他在这年打球数量不多,或者成绩非常地不稳定,或者同是两者,因为他的表现在22-40%之间波动。

      此外还需注意一点,由于芒德尔在1960年和1963年的两个年击中率的95%置信区间有重叠部分,我们不能肯定地说这两个击中率之间存在着质的区别。换句话说,虽然他在1960年的击中率是27%,在1963年是32%,但是我们没有太大把握断言这5个百分点的差别(32%减去27%),能够真正反映水平上的变化。这5 个百分点可能纯粹是自然波动。称两个值之间差异“显著”,通常意味着我们要有95%的把握认定这两个值之间存在实质性的差异。这也等于说该事件的巧合发生概率小于等于1/20。

      现在可以转过来谈另一个重要概念。请看图3.1最右边部分,芒德尔的“整体”击中率为29%,置信区间非常之小。这就告诉我们,有95%的把握说他的终身击中率位于27%-31%之间。也就是说如果将所有的数据合起来,芒德尔的真实技能水平只在3%之内波动。比较此值与各年度的5%至10%的置信区间,一句话,通过把数据综合起来增添了我们对测量结果的信心。


特异功能与棒球


      前面说的这些与特异功能有什么关系?事情是这样的:人类的各种表现时时都在变化,即便米基·芒德尔这般优秀选手也不例外。我们无法预测他将在哪一次击球成功,更无法预测能否凭此球跑垒得分。但这不表明他击不中球或无法得分。我们必须先把他在不同时间、不同场合下的发挥情况进行统计,得出平均值及置信区间,才能评价他的水平。

      这与我们分析特异功能实验完全一样。我们将看到一旦把数百个实验、数千人次的测试结果合起来,就能有把握地肯定特异功能的确存在。


击球:乔·西克斯帕


      我们已经看到怎样在测量中获得高可信度的结果。那么我们又怎样利用这种测量,判定某个实验里是否发生了特异功能呢?

      不同的实验设计用以观察不同的特异功能,但基本方法却都一致,即需要把假定有特异功能情况下的结果与没有特异功能情况下的结果进行比较。

      为了说明问题,先设想一下,有一天我们提供了大学的棒球手乔·西克斯帕一个机会,要送他到联赛预备队。我们请他打几场球,看看他的水平,最后看到他的击中率是25%。乔每四个球击出一个好球。我们把他与米基·芒德尔作比较,看后者是否技高一筹。

      图3.2给出了乔和米基的平均击中率以及相应的95%置信区间,此外还给出汉克·阿龙的成绩。我们发现乔的成绩无法与米基和汉克相提并论。他的95%置信区间与后面的两人差距很大。我们因而很有把握地说,乔与米基和汉克相比水平上有着明显差距。另一方面,由于米基同汉克的置信区间相互重叠,就不能说他们俩在水平上有差别。2

 

 

 

 


图3.2     米基·芒德尔、汉克·阿龙与某假设球手的平均击中率及95%置信区间。


回到实验室


      现在假定我们在实验室做特异功能实验。受试对象是自称没有特异功能的志愿者。与打棒球不同,大多数的实验勿需任何技巧也能偶有“击中”。假设自然击中概率为25%,而我们实际上却看到34%的击中率,高出9个百分点。不是每4个击中一个,而是米基·芒德尔的水平每3个击中一个。

      我们感到这个成绩不错,于是接着做了许多轮实验,每一轮都是100名新的志愿受试者。假如总是看到能高过自然概率9个百分点,我们就越发相信前次结果并非巧合,而是准确地反映了普通志愿者的能力。如果实验设计得很完善,即受试者根本无法获得取有意无意的种种暗示,那么象这样的一系列实验就比较能够肯定特异功能存在。

      特异功能实验与此前棒球的例子具有可比性,它们都是对照两种不同条件下的结果:把高水平与低水平相比,测试结果与概率期望值相比。只要继续测量下去,我们就能可靠地评价真实水平究竟如何,评价在不同条件下的结果是否一致。


波动性


      正因为表现不稳定,在评价人的能力的时候就必须进行重复测试,这正是实验科学为什么往往强调重复性。重复性被看作科学评价现象是否存在的最重要条件之一。3 但是,如同棒球运动一样,并不是总能做到重复。尤其对于生命科学,所研究的对象是“开放系统”,可能随着实验条件而发生变化。在这种条件下,想获得成功的重复就十分困难。

      在特异功能实验中,有人从四项选择中选对了答案,这即有可能是超常感知,也有可能是几率的巧合。若只有这么一次,就说不清楚到底是前者或是后者。同样在棒球运动中,只有那么一次球棒打中了球,就说不清楚到底是水平还是碰巧,唯有通过长期的平均值才能反映棒球水平或者评价超常感知是否存在。

      但是,一旦我们从看得见摸得着的身体技能,转入只能被感受的精神领域,比如数学能力或超常感知之类的能力,重复突然变得更加困难。

心理学因素

众所周知,多数科学家倾向于“信赖理论”而不是“信赖数据”。这也即是说除非找到理论上的解释,科学家难于接受“现实” 。超心理学的“真相”之所以令人难以接受,就是因为找不到能够说明现象的合情合理的解释。这并不是说对心灵现象找不到科学理论;这些理论其实有数几十种。问题是理论是否足够充分。

信赖理论的科学家可能看不见那些与理论预期存在矛盾的数据。这不是说他们不理解这些数据,而是说他们根本无视这些令人不快的数据。这方面将在第14章另有讨论,有相当多心理学研究也证实了这一点。这个事实的确令人吃惊。这就象让一条狗去看它不感兴趣的东西:“嘿!那儿!看那儿!”“哪儿?啥也没有哇。”“我说的是那儿,看指的地方,不要看我的手。”“还是啥也没有”。

信赖理论的再一个后果反映在一句老话里,“非常宣称需要非常证据”。这倒是一句至理名言,但不同的人对“非常”二字有着不同理解。在作出超乎寻常的宣称同时又缺乏理论的领域,象超心理学、冷聚变、顺势疗法,往往需要数量更大的证据。相反在另一些领域,尽管说法也是异乎寻常,只要有较强的理论背景,比如量子力学的非定域关联性,相比之下所需实验证据就不必太多。

而这么一来在进行重复实验的时候,比如象重复程度、重复难易、重复要求都依赖于是否存在理论以及理论是否有效。用心理学的语言来说就是取决于理论期望。

再一个心理因素是看由谁来评估实验的质量。持不同信念的人在看同一组实验的时候,相信的人会认为实验很成功,而不信的人则认为实验明显不严格。坚定的怀疑者总能找到理由否定那些成功的重复实验,不管具体情况到底怎样,他们的思维定式就是认定有漏洞。

再一个心理学因素,无论有什么新的证据,已有信念总是试图作顽强抵抗。比如说,有些科学家声称他们在实验中没有看到心灵现象的证据,然而事后别人分析他们的数据,却发现了显著证据。斯坦福大学的约翰·库弗尔(John E. Coover)教授就是一个例子,他是在20年代首批做ESP卡片实验的研究者之一。他看到30.1%的击中率,而概率期望仅是25%。他认为:

由于「结果」是在概率变化的范围内,尽管该事件的发生概率较低,仍不能认为这就算获得了有别于猜中的显著性结果。15

过了许多年之后,人们重新分析数据时发现,该结果的巧合发生概率只有1/160。16

再有一个例子是詹姆斯·肯尼迪(James Kennedy),他是持怀疑态度的心理学家。他在30年代末重复了莱因的实验。实验中一共有204位受试者,他称结果呈“完全阴性”。实际上,得到思维传感实验结果的巧合发生概率只有1/100,000。17

第3 个例子是苏珊·布莱克莫尔(Susan Blackmore),她对特异功能也是持怀疑态度。她在自己的博士论文中一共报告了19项实验,5个具有统计学显著性(结果的自然发生概率小于1/20)。布莱克莫尔口口声声说自己老是获得阴性结果,偶尔得到阳性结果也无法重复,因此才变成了怀疑者。其实单就她博士论文里的19个实验来说,5次结果呈阳性的巧合发生概率是1/500。18

再一个例子是雷·海曼教授,他是超心理学长年的批评者。在一份评述文章中,他判定24项实验中有13项不具有统计学显著性。但是如果把这些不具有显著性的数据凑在一起,看作一个大的实验,则总体结果便是统计学显著。19

以上例子说明当事人的信念对于判断重复实验是成功还是失败有很大影响。我们得到的经验教训是,一方面当然要质疑特异现象的坚定支持者拿出的老是肯定性的结果,另一方面也要怀疑反对者们得出的老是否定性的结果。


统计因素

随便举个例子,比方有50位受试者。假定实验结果具有统计学显著性(也即是说现象巧合发生的概率低于1/20)。现在你准备再次动用50位受试者重复此项实验。那么你重做实验并获得成功的概率到底有多大呢?

有经验的实验心理学家和专业统计学家在遇到这个问题的时候,他们回答大致是在80-90%之间,也就是说他们认为有80-90%的概率成功地重复。20

而真正正确的答案是50%。换句话说,在尽可能重复前一次实验的时候,即使采用受试者的人数一样,你只有一半的机会能取得成功(这是统计测试中所谓“级数”的效果)。看上去很怪,一模一样的实验好象应该得到同样成功的结果。其实并非如此。

内中原因就是实验涉及到了人,而两次实验中人的因素不可能完全一样。即使有经验的实验家和统计学家,也很难轻松地看清楚实验结果的统计意义。我们应该很清醒看到,有些怀疑者要求特异功能实验具有高的重复性,其实是缺乏对可重复性的统计学的认识。

加利福尼亚大学统计学家杰茜卡·乌兹曾对另外一个统计学的问题作过分析。21 她举遗传工程的实验为例,如果实验的例数不够,就根本得不出高置信度的结果。例如通过遗传工程的途径控制婴儿性别,在100名孩子中得到了70名男孩。即把51%的男孩出生率提高到70%。

在此实验中获得70%男孩的自然发生概率只有1/10,000。于是绝大多数科学家都会承认该遗传工程的方法有效。

假定有位怀疑者来做重复该实验,但他只用了10名孩子。他惊奇地看到有7位男孩诞生,也是70%的概率。由于实验的样本量越小统计学说服力越低(次数少会降低点平均值的置信度),该事件的巧合概率就成了1/5。为了达到通常所要求的统计学显著,自然发生的概率必须小于1/20,于是怀疑者大声地宣布重复实验失败。往往就是这种错误指责使得一些科学家失去了研究经费。

换句话说,如果把实验成功的标准设置为自然发生的概率小于1/20,那么虽然同样获得了70%的男孩,第2次的重复实验就成了失败。


实验设计因素

有些怀疑者批评说,在加强实验条件控制之后,特异功能便逐步消失了。这相当于说如果执行严密的、高质量的实验,就得不出特异功能存在的证据。这条批评有可能成立,但是经过仔细检查(我们将在下一章深入讨论),实际情况并非如此。

哪个实验也不可能没有丝毫设计上的毛病,不过只是影响程度的问题。有一类漏洞可以造成观察到的效应,这类漏洞可以称作“冒着烟的枪”。再一类实验漏洞是“说得通的替代”解释。它们能够解释观察到的现象,就象闻到了弹药味,未必一定要看到枪。

这些漏洞并非都能成立。所谓“腌脏试管”的说法便是一条不能成立的指控。因为实验还不够完善,于是就想像可能是“试管不干净”导致了观察的效应。这种批评不能成立,因为它无法被“证伪”。换句话说,我们根本不知道里面到底有什么具体污物,也不知道它们对实验有多大的影响。批评实验方法有问题,该问题必须真能造成观察到的效果,否则无论试管究竟干净或不干净,说它腌脏根本就没有意义。


需要多少重复

在充分认识到重复的必要性之后,我们也要看到重复实验的难度。假使我们做了一项特异功能实验并且得到了阳性结果。这项实验能够让所有的人相信特异功能存在吗?很大程度这要取决于说的是什么。例如有一群坚定的怀疑者来检验一位自称有悬浮能力的瑜珈师。假如电视直播了这次检验,而且瑜珈师真的浮起来了,怀疑者一定非常地震惊,因为他们从来就不相信会有这种可能性。可能有人转而相信这是真的。当然首先要假定实验操作程序完全排除了作假的可能。然而,由于固有的信念能够左右我们的眼光,可能这些人仍不相信自己的眼睛,最终还是说这根本只是戏法。

在早年的特异功能实验中,怀疑者常说“只要超心理学家能够拿出一件‘严格没有漏洞’的实验,就足以说服他们超常感知真实存在”。 22 但他们很快认清自己说错了,任何实验都做不到完美无缺,在单次严格的实验里极可能把问题漏过去。此外,在经验性的学科中,实验结果常常以概率或者是以同自然概率对照的方式表现。所以,即使某次实验结果的自然发生概率只有1/1000,毕竟仍有可能,从定义上看每1000次里就有一次。

有时候,如果结果是理论所预期的,或者是由著名科学家报告的,或者该结果偏离常规科学知识不远,有那么一、两个成功的实验便足以说服科学家相信所说现象的真实性。物理学里的欧米茄负粒子就是一个很好的例子。在接近200,000次实验之中只找到两例,人们便认为它已被“发现”。换句话,一个极低重复率的事件──在十万次里才能见到一次──仍然足以使众多科学家相信该粒子是真实的存在。23

回到特异功能的话题。如果我们重复前一轮实验,再次获得千分之一概率的事件,又将怎么样呢?很难设想如此低概率的两个事件都是自然巧合。有些科学家可能会因此关注这项工作。要是有3个成功的实验呢?要是有10多个呢?到底需要有多少个?

凡牵涉到人的研究,想要每次重复都成功不大可能。既然我们不指望棒球手百发百中,为何要对物理学提出更高的要求呢?把条件放宽一点,则又有可重复程度的问题。这也很麻烦,确定现象的可重复程度同该效应自身的古怪性有关。而该效应的古怪性又取决于同理论有多大偏差。这也等于说要看它偏离我们的期望有多远,这么一来又回到该怎样评价可重复程度以及如何构成可信证据。

怀疑论者、英国心理学家马克·汉塞尔(Mark Hansel)说了出来,要有多少证据才能使他相信可能有非常现象。

如果结果具有0.01的显著性(即自然巧合发生的概率只有1/100),而该结果的确不是碰巧而是[通过特异功能的] 信息传递,那么如果再做两轮实验将使自然巧合发生的概率从1/100下降到1/1,000,000,这便能确认是超常感知──或者别的什么──在起作用,谁也不会再说这是碰巧。24

在汉塞尔看来只要百分之一概率的事件连续重复3次,就可以认定该事件不是巧合。那么他理应知道这种标准已经达到了好几十次,包括不同类型的特异功能实验。这正是何以掌握情况的怀疑者到今天终于承认,在特异功能实验中所得结果无法用巧合来解释。

如何确认特异功能实验已经得到重复验证呢?这就引出了整合分析的处理方法──即对分析的分析。

可重复性


当我们面对超常感知之类精神现象时,由于无法进行大量的重复性实验,很难发现其机理,甚至难于确认现象的真实性。多少年来,这已经成为超心理学发展的唯一最大的障碍。也不光是超常感知碰上这个问题,象心理学、社会学和医学等令人感兴趣的领域也大都如此。

       人们毫不怀疑意识、创造力这样一些心理现象的“真实性”,但想要用实验室技术捕获这些现象却几乎不可能。心理学家塞摩尔·爱泼斯坦(Seymour Epstein)在美国心理学会的主要刊物《美国心理学家》杂志上撰文说:

心理学研究正在快速走向危机,实验程序极不完善,得不出可重复的具有普遍性的结果。加强实验控制的传统办法经常失效,由于人类行为对外来刺激非常敏感,实在无法施加足够的控制……不仅在条件稍加改变时难于重复,甚至完全不改变条件的重复也很困难。4

       在他之前,心理学家博扎斯(J.D. Bozarth)和罗伯兹(R.R. Roborts)调研了1334篇发表的心理学论文,发现其中仅有8篇,也就是0.7%是在重复他人的研究。5该结果实际上表明没有人愿意重复过去的工作。由于结果的科学性取决于它的可重复性,该情况令人十分困惑,好象心理学家们愿意认可各个结果的真实性,虽说大家都知道心理学效应非常难于重复。

       怎么会这样呢?怎样知道心理学杂志所发表文章的结果就不是巧合、误操作或者方法漏洞造成的呢?

       为了说明重复性对认定现象的真实性所具有的重要意义,社会学家哈瑞·柯林斯(Harry Collins)就科学上的可重复性作了深入研究。结果令人惊讶,科学上的成功重复并不多见,而且:

首次实验极少成功;甚至几乎就没能做成。敏感的实验者理应清醒地认识到,他或她的具体尝试极可能是错的。这还算不上真正的实验,不过是在前次试验之后的再一次试验。6

       再一个导致生命科学中出现可重复性“危机”的因素,是大多数的现代学科都比较重视原创性的工作,而不重视对过去工作的重复。甚至某些学术刊物的录用标准就不取“纯”重复性的工作7。结果,偶尔进行重复,实验设计也往往与原始实验有了很大改变,研究者在验证前人的结果之外,总想找机会发现新东西。另外,考虑到精心设计、严格实验所需的时间和经费,完全重复以前的结果常常被看作是资源的浪费。


悖论


       如此一来就形成了悖论:科学强调效应的可重复性,但恰恰那些最吸引人的现象极难重复。我们后面将看到也不光对特异功能研究如此。由于特异现象如此吸引人,对于当前的科学体系又形成了巨大挑战,已经有数以百计的研究者在过去这些年进行了数以千计的重复性实验。

       前陆军次长诺曼·奥古斯丁(Norman Augustine)在谈到国防装备订单的时候,也曾谈及类似的悖论:

检验新装备的时间与该装备的复杂性之间存在某种对应关系,可以认为装备越简单,检验时间就会越短……。

[然而]情况并非如此甚至反转了过来……。结果越是高级的装备,测试的周期越短……。相对简单的精确制导炸弹往往要打几千发,而对新式洲际战略导弹则往往是仅靠几发便定乾坤。8

       换句话,简单、便宜、非关键、易于检验的技术受到不断重复检验,而真正关键的、复杂的、难于检验的技术却少重复。我们都对检验重力和视觉盲点的实验非常熟悉,因为已经重复了无穷次;这些重复使人相信只要这么做,必然得出同样的或类似的结果。

       正因为具有可重复性,这些现象被认定是真的,可靠的,不言而喻的。若是它们的稳定性象特异功能等效应一样,难于在中学物理或心理学课堂演示,那么其真实性便成了问题。


为什么重复很难


       特异功能不属于容易重复的现象。难于重复可能包含8种因素:(1)现象本身不能重复;(2)文字的规程描述不全或未讲明所需技巧;(3)所研究的对象在随时间变化或者同实验程序相关;(4)研究者可能会无意地影响结果;(5)有时因为社会因素导致实验失败;(6)某些心理学因素使得重复非常困难;(7)重复中的统计运算要比想象的更加复杂;(8)复杂的实验设计影响可重复性。

       以上各点有助于解释何以特异功能如此难以确认。以下我们逐条仔细分析。


不可重复的现象

       有些现象不是想重复就能重复。自发现象或者比如超新星、流星或球形闪电等罕见现象,就不是主观想重复就能做得到。这类现象因此也难以确认为“真”。甚至象球形闪电这种多有记载的事件,仍然受到相当多的科学家的怀疑,因为现象本身与已知的科学原理相左。球形闪电看似一团高能等离子体,常常呈篮球大小的球形。它具有古怪的不可预测的特性,可以在室内漂浮游动,甚至有时似乎能够自行进退,有时则爆炸造成财产损失。

       还有大量的其它报告也无从进行科学鉴别,比如不明飞行物飞碟或离奇怪物(如尼斯湖怪兽和巨足野人)或者谷地怪圈。如果强调科学必具可重复性,以上的自发现象就只能被归结为超常现象、幻象或者装神弄鬼。但那些自认为看见了飞碟、鬼、或大脚野人的人们,仍旧会凭自身体验相信自己的眼睛,没见过的人却很难接受。后面我们将看到,那种“我相信是因为我亲眼看到了”的说法是不完备的,与之等效的说法是“如果我相信就会看到它”。

       有些不可重复现象并不见得罕见,只是难于控制。比如要想预测下几周的气象情况往往是一塌糊涂,因为地球的大气环境非常地复杂。

       还有一类不可重复的是属于“假象”。在1987年岁末,有批科学家宣布他们发现密封在一百多万年以前琥珀里的原始大气富含氧气。这项报道令人非常感兴趣,因为它可能解释了恐龙的突然灭绝(大型的动物更需要丰富的氧)。然而另一批科学家用了新的琥珀样品试图重复实验,却发现氧气成份正常。因为前面的“富氧结论”未能得到重复验证,人们更加倾向于认为该结果是由于污染、测量误差或者某一条假定不当所造成的假象。特异功能也被某些批评者解释成“假象”。


知识不够完全

       有些实验难于重复,是因为有些实验细节只能意会不能言传。心理学家迈克尔·波兰尼(Michael Polanyi)就用“潜知识”概括这些难于用文字说清楚的信息。9 预感和灵感就是这方面的实例,它们常常是直接通过体验和练习而获得的。用心理学家罗伯特·罗森塔尔和拉尔夫·罗斯诺的话来说:

不论是在行为科学或者自然科学领域,一旦不能复制一套设备或某项实验,科学家们就下结论说现象未能重复,尽管这的确也是一种可能。但同样存在可能,就是由于缺乏比较充分的潜知识,这位科学家未能按步就班地操作。10

也可以用菜谱为例讲清楚潜知识是什么。无论是谁,如果他不知道菜炒出来会是什么样子,参照菜谱炒菜的时候就发现文字内容是如何不完整。即使亦步亦趋地执行每步操作,做出来的仍可能是连狗都不理的东西,想做出佳肴美味的决窍就是跟随大师学几年。

有许多技艺不是理解不理解的问题。比方弹奏乐器、做木工和跳舞,都需要在理解之余经年累月地实践。而实践的经验很难用文字描述,就象凭口头教人骑自行车。

如果把实验程序比作菜谱,那么在实验室里也有大师。有人就有“点石成金”的巧手,做什么成什么。别人却老是一塌糊涂。对于心理学行为实验来说,实验程序里的潜知识极为重要,实验者与受试对象之间的人际关系不容忽视。

在特异功能问题上,情况更为复杂。例如非眼视觉实验,研究者必须采取严格的双盲程序,切断所有通过正常感官获取信息的途径。实验者必须确保受试对象无法通过作弊掌握相关信息。另外还要控制象受试者及实验者双方的主观偏好给试样带来的问题。实验主持者和他的助手必须仔细地考虑,提出全面的实验方案。


随意性及响应性效应

如果研究的对象具有随意性,即不断随时间而变化,重复就变得更为困难。甚至有时现象可能随着实验条件而变化。在行为科学和社会科学中,这是非常棘手的难题,因为无法保证下一次测试的时候检验对象没有发生变化。其实当我们面对生物组织的时候,就已经无法指望其非常稳定。针对行为上的波动问题,研究者们推出了多种实验设计方案。

医学实验的重复就相当困难,药效和病情都在随时间而变化,多个因素混杂在一起。试验用药是否控制了病情或治愈了病症呢?要回答这种问题就必须对实验组与对照组进行比较,尔后才能得出判断。即使确保采用了双盲操作,即实验者与受试者都不知道实验的安排,也难于完全排除随意性及响应性等因素。此外还有一些现象存在着时间效应,有些现象不符合统计分布,只是表明有发生的可能及趋势。


实验者效应

在经典著作《人的研究之缺陷》一书中,心理学家特奥多· 巴伯(Theodore X.Barber)提出了导致行为研究出差错的10种可能。11其中包括“实验者的范式效应”,即实验者的既有知识框架会影响他对实验及对结果的表达;还有“实验者的人格因素”,即实验者的年龄、性别、对人的态度均会影响受试者的心态。第3项缺陷是“实验者非有意的期望效应”,实验者的预先期望会对实验结果造成影响。

实验者的期望和事先的信念影响到实验如何做、数据如何表达、如何对待他人的工作。在第14章中我们将重点讨论这方面内容,这有助于期解释为什么对特异功能实验有这么多批评,为什么特异功能证据不被承认。


社会因素

科学是社会性的活动,重复性也必然牵涉到一些社会因素。任何一位科学家若是作出意外宣称都应当激发别人去做重复和检验的兴趣。否则,这位科学家就成了耍单帮的人。耍单帮的人怎么样就怎么样,谁也不去理睬他。

1995年有一期《新闻周刊》的封面文章在谈论超常现象的时候就是指责研究者独来独往。后面还将对这则内容作较详细的分析,以说明媒体是怎样曲解了特异功能研究。这里我们仅点出那篇文章的一个观点:独立的研究者无法重复普林斯顿大学罗伯特·杰恩教授实验室的精神致动实验。文章的原话是:“其它实验室,虽然也用杰恩的设备,却无法重复他的结果。”12

假若真是这样,这条批评便十分严厉,因为个体研究者的结果可能是失误乃至作伪。但这句话却纯是想像。在第8章中,我们将介绍世界上有至少70多位研究者在杰恩之前便重复了这方面的工作。杰恩绝对不是独行客,但这种舆论往往对公众有极大影响。

为了把独行客从科学共同体中划分出来,怀疑者发明了“伪科学”及“病态科学”之类标签。比如《科学》、《自然》这样一些重要科学杂志就采用这类词汇指责特异功能研究。如此的标签意味着不可靠、不可信,要么马马虎虎,要么胡编乱造。

“伪科学”之说是极端怀疑者采用的笔墨战术,可以缓解认知失谐所带来的精神痛苦(否则他们将陷入思维怪圈:证据好象没问题,但绝不应该是真的,但是又挑不出毛病,但是又……)。

很遗憾,不少科学家便是由于害怕被人贴上如此标签而对特异功能敬而远之。他们担心受到伪科学的污染,或者因为同事知道自己有这方面的兴趣而影响声誉。

杰出的物理学家约翰·惠勒(John Wheeler)就是一个很好的例子。惠勒对于量子力学里的观察者及其观察对象这个难题十分感兴趣。他曾充满感情地说:“说到底根本就不存在什么客观的可以隔着一层玻璃来看的‘宇宙中心机制’。宇宙说起来更象魔法而非机械物。”13

这么听起来惠勒应当赞同特异功能研究,它毕竟在研究主观与客观之间的古怪相互作用。然而,在美国科学促进会组织的一次“物理世界中的意识作用”专题研讨会上,惠勒作完报告之后,觉得自己不得不再站出来讲一通“要从科学殿堂里把伪科学驱逐出去”:

坦率地说,当知道所谓的超感官知觉……也将在本次研讨会上报告之后──实在是知道得太晚了,作者真想退出研讨会。对于那些只想在真实的科学领域讨论真实观察中真实细节的人来说,有谁乐意与巧装打扮的伪科学为伍呢14?

同惠勒一样,没有哪位科学家愿意与“伪科学”沾边。除开招惹主流科学界的恐惧和厌恶,在加盖着“伪科学”印章的领域从事研究的那些人可能发现课题经费突然没有了,杂志拒绝发表他们的研究结果,甚至连学术职位也撤消了。

别说请其他科学家重复检验,甚至哪怕仅仅关注有关进展都很困难。康纳尔大学的托马斯·高尔德(Thomas Gold)认为在特异功能实验里存在某种“羊群效应”。科学家们(原则上也包括其他人)常常以某种思路或技术为依托凑在一起形成群体。形成科学家集团的原因其实与形成羊群的道理相近,即保护群内个体。脱离群体去干自己的事情要冒很大风险,要知道离开群体研究科学的可能性愈来愈小。无庸置疑,从事特异功能研究的科学家都是敢于承担风险的人,但学术界很快让他们明白“我们不乐意善待外人”。

第4章   整合分析


「整合分析」将为科学……处理数据带来革命。它将结束诸多争论。

托马斯·查尔默斯(Thomas Charlmers)


独立的重复实验是获取科学证据的关键,我们需要找到某种办法以衡量达到了多高的重复程度。这项已被广泛接受的技术叫作整合分析(meta-analysis)──对分析本身的分析。

从概念上说,整合分析非常简单。举棒球为例,米基·芒德尔的终身击球率是30%,我们认为他是优秀棒球手。我们的信心不是取决于他的某场比赛,而是他在几千次击球过程中表现的水平。与此同理,某人在单次特异功能实验里表现突出,可能只让我们觉得是有趣的巧合。若是这个人在数以千计的测试中屡屡成功,就有更大的说服力。

再比如,我们想判断公牛队的迈克·乔丹或者休斯顿火箭队的克莱德·德克斯勒是否算优秀篮球投手。图4.1是这二人自1995年11月3日至96年4月18日的每场得分情况。哪位球手更好呢?我们还派出乔·西克斯帕观摩比赛并记录了两人的得分。假如乔只参加了德克斯勒得分高过乔丹的那7场球(比如95年12月2号德克斯勒得41分而乔丹得37分),他会认为德克斯勒比乔丹更棒。

 

 

 

 


图4.1迈克尔·乔丹和克莱德·德克斯勒自95年11月3日至96年4月18日赛场上的得分


我们怀疑乔的结论,只要多看几场球,就能看到乔丹几乎总比德克斯勒的得分要高。如果整体考虑此间所有场次的球,乔丹的平均得分明显高于德克斯勒。不论是评价篮球或者评价特异功能,大量的重复性观察无疑能够提高判断的准确程度。

或许我们感兴趣的不是某位球员而是整支球队。整队的平均得分可以使我们判断球队的水平。特异功能实验也是一样,我们往往观察许多人的团体表现,每个人都要参加许多轮的实验测试。再把这些结果叠加起来,便看到不同群体在能力上的差别。

科学只关心具有普遍性和规律性的事件,而不是偶发事件。因为科学的目的是在于正确理解和描述现象,从而能够预测未来。从字面上看,一次性或纯偶然的事件无法预测。

整合分析可以使我们在更高水平上提出问题,比如整个棒球赛季的表现。我们所要看的不是单个球员,也不是某支球队,而是各支球队各组成员的成绩。我们感兴趣的是整体的棒球水平,而不是哪支球队或者哪位球员。

就特异功能实验来说,我们也不是看单个人或单项实验里某组人的表现,而是综合许多实验之后看人们的普遍表现。通过“整合”获得的答案能使我们获得对整体表现的更好把握,避免拘泥于单个人或者某组人的细节特征。从而数据越多结果就越可靠。


研究评论


为了衡量不同实验之间的重复性,首先需要采用相同的评价标准。研究评论可以分为四种类型。类型1,简要指出并讨论某个领域的进展情况,主要侧重于几个典型实验。象《科学》这类科普杂志经常采用这种方法。那些批评特异功能的文章常常也采用这种办法,因为很容易挑选出一、两篇东西展开批评。

类型2,是用一些研究结果反映或者说明某个新理论,或者为了解释某现象而提出新的理论构想。这种评论同样也不全面,只限于说明一般问题。

类型3,评论内容是各个研究领域中经过整理和综合之后的知识。这种描述性的评论仍旧不够全面,因为每个学科领域所研究的问题都非常驳杂,难以面面俱到。说到底仍旧是通过几个典型的“最好的”实验阐明综述观点。

类型4,累积评论或者说整合分析,这是一种能够全面分析实验数据的技术。它是从每项实验的各种观察中挖掘其中具有普遍意义的内容。1


累积叠加


整合分析被描述为“一种统计分析方法,受分析的对象是独立的研究结果,而非各位受试者的反应”。 2 在单项实验中,所分析的原始数据是受试者的个体反应。而在整合分析中,各个原始数据点是每一单项实验之结果。

整合分析的基本原理早在30年代就提了出来,近几十年又一直有所修改和完善。到了今天整合分析突然被应用于各个领域,象行为科学、社会科学和医学等等学科全都置身同条船上:需要一项可靠的技术手段判别实验结果是否具有可重复性。

因为整合分析是把一组近似实验的结果进行综合,因此需要把实验的原始数据作重新整理。有时候要把原文报告的结果改写成可以统一处理的统计数字。接下来再把实验程序按照实验控制条件、发表论文的刊物与年份、受试者人数等因素进行分类和量化。

然后分析这些结果,看看其间是否存在规律性。前面提到,怀疑者一直说实验控制越严格,特异功能效应便越微弱,由此得出特异功能都是实验失误的看法。整合分析就能分析实验质量与实验结果之间存在的关系,进而检验该说法。


准确性


整合分析能就一组实验作出远比传统的描述性方法更为准确的评价。在探讨整合分析是否比单项分析更准确的时候,心理学家库柏(Cooper)和罗森塔尔发现评议者如果采用传统的描述性的方法可能得出与整合分析相反的结论。4 因为在阅读文献综述的时候,就每项实验研究往往只有一、两段文字,读过之后头脑里只剩下互不相干的细节,难以形成有意义观点。如果是采用整合分析,却能得出定量的唯一的结果。

有些整合分析的批评者(哪里都有批评者)争辩说这种累积叠加技术可能受主观影响或者过于简化。5对此的回应是,整合分析恰恰需要讲清楚分析过程的各项细节,从而保证独立分析者能够验证所得结果。另外,由于我们把所有的实验合在一处,而不是光选“好”的那部分,这正可以防止主观倾向方面的问题。


苹果与橘子


批评者指责整合分析把不同的实验拉在一起,就象是把苹果与橘子混在一起。6 这种把不同实验者、不同实验方案以及不同试者的各种实验叠加一起的办法能成立吗?

答案是肯定的,我们找的是它们的共性,两者都是水果。在把多项特异功能实验综合起来的时候,实验之间存在的差异就象苹果、橘子各不相同,可共性部分都是特异功能。

对于整合分析的另一条批评,是说有些作者倾向于发表具有显著性的结果,而不显著的结果却被抛之一边,此即所谓的“文件柜”效应。7 不成功的实验被遗忘在研究者资料柜里,不被人们谈及。如果隐藏未发表的实验数目相当大,确实可能导致整体效应的夸大。如果研究者只发表成功的实验,我们当然得出结论全部实验都很成功。而实际情况却是可能如此也不一定真就如此。我们将在后面深入探讨“文件柜”问题,包括看看它对整合分析结果有多大影响。


服用阿司匹林


图4.2是就阿司匹林降低瘁发心脏病的25项实验所做整合分析。这个分析结果率先发表在1988年《英国医学杂志》上面。新闻媒体把这项结果描写为医学上的突破,1990年有人在《科学》杂志上撰文,以此为例解释如何作整合分析。8

 

 

 

 


图4.2 检验阿司匹林能否降低心脏病瘁发的25项实验。单独来看

在25项实验之中仅有5项的结果具有显著性。整体合起来看──

如最右边的点所示──阿斯匹林确有疗效。

图中的各点平均值显示了每一项实验的结果,是以药物治疗组的效果比上非治疗组的效果,置信区间为99%。图中1.0这个高度表示治疗组未能降低心脏病的发病率,小于1.0意味着治疗组好过对照组(发病率有所降低)。

表面上看,25次实验中仅有5次实验的结果能有99%的可信度断定并非巧合事件,这就是说大多数的实验(80%)结果都是阴性,它们的置信区间包含着1.0。假使这位评论者原本就对阿司匹林的疗效持怀疑态度,这么一项项地检查单个实验,最后他可能就会不屑一顾,把结果弃之一边,认为根本不能确认疗效。

可若是把全部实验结果综合起来,则整体结果(图中最右端)明显位于1.0的概率线之上,大致为0.75,并且误差范围很小,从而排除了巧合。由此可见,尽管单项实验来看疗效并不明显,服用阿司匹林确象人们说的能够产生显著差异。

换句话说,正是在综合全部实验之后才能断定阿司匹林确有疗效。整合分析对于特异功能实验的作用同样如此。单独地看,虽然某些特异功能实验获得了成功的结果,但该结果颇难重复。这种不稳定性──加上缺乏能够预言特异功能的理论──惹得怀疑者猛烈攻击了一百多年。但是,只要把所有实验合起来看,毫无疑问特异功能确实是存在的。


硬科学有多过硬


从事物理学、化学和其它“硬科学”研究的人往往以为自己的工作比心理学之类的软科学可靠得多。至少当物理学家测量一根铜棒重量的时候,结果稳定,非常精确。无论什么人在什么地方,只要用同样的设备,都将得出同样的测量结果。硬科学的测量误差往往较小,所以才使人相信结果的可靠性。请记住,测量的稳定性有助于得出公认的结果。

相反,在心理学家测量人的行为或者当社会学家评估社会的某个方面的时候,不论采用问卷、调查或者心身测量等等手段,都需要借助统计学处理及分析数据。原因在于生命系统里的随机变化量或者说“噪声”的水平较高。

因此,可以说测量的准确性及测量精度上的差异构成了硬科学与软科学的主要界线。但是这两者之间的差异肯定被夸大了。芝加哥大学心理学家拉瑞·海吉斯(Larry Hedges)运用整合分析得出惊人的结论:有些软科学实验具有与硬科学同样高的可重复性。用他的原话来说:

人们常常以为社会学和行为科学的结果不象物理科学研究具有很高的可重复性……。[当把物理科学与社会科学的结果]进行比较之后发现,物理实验并不一定就比社会学或行为科学实验具有更高的一致性。数据显示,若按照严格的统计学标准连物理学实验也不一定具有稳定性。9

海吉斯的“稳定性”是指重复实验的时候,实验结果的可重复程度。他研究的是重复实验中可能获得多大的一致性。虽说对此得不出精确回答,他认为有个变通的方法就是把行为科学的测量结果与硬科学的结果进行比较。海吉斯特别检验了以实验水平高、理论完善而著称的粒子物理学中的实验情况。他总结时说:

社会科学实验的稳定性未必就比物理科学实验的差。其实在社会科学与物理科学之间存在着许多相似之处。站在统计学的角度看,实验结果并非总是一致。除非有意地忽略一些实验,在这两个领域都有约45%的结果差异特别大。10

这是一个惊人的说法,在看上去最严格、最成功、也最过硬的粒子物理学领域,实验的可重复程度其实与软科学和多变的行为科学相差不多。

为了说明这一点,我们来看看美国物理学会的粒子数据课题组(PDG)的一篇文章。PDG是一个国际性的、由多所大学的专家共同组成的小组,其任务是评判基本粒子的本征特性──诸如质量和寿命──的实验结果。PDG负责依据已发表的实验工作,选定粒子的特性参数。11

     这里着重要说的是,这些分析报告采纳了一些数据,却删去了另一些数据。删除那些数据主要因为“结果中包含着不应有的假定”,或者“该结果与其它更加可靠的测量结果明显不一致”。 12 换句话,就是把这些“异常”数据看作失误而予以删除。随着不断添加新的数据,每项指标参数变得越来越精确。然而,PDG写道:

有时假会看到非常不可思议的波动;这往往是因为引入了非常的新数据或者删去了旧数据。如果发觉新的数据所含的系统误差更小,便将旧的删去……若是把参数测量的全部历史一一描画出来,整体说来总是在单调地逼近某个中心值,同时又是在前一次测量结果的误差范围之内。13

说起单调,先要把异常点删去。正如海吉斯所发现的,需要删除45%的数据才能得出如此结果。如果我们把海吉斯的结果同某些特异功能实验的结果比较一下,将会怎么样呢?是否差不多呢?

我们在后面几章进行了这方面比较,而且只能得出结论,如果采取与常规学科一致的标准,这些实验的结果确实与最过硬的学科具有同样的稳定性。

借用柯勒瑞奇(Coleridge)的诗句:

一觉睡下将如何?

作个美梦又如何?

黄梁一梦登天堂,采下一大捧鲜花,

梦醒手里竟有花,问君却该作何想?

哎哟嗬,那可该怎么想?14

真要那样,我们就应该想想到底是不是梦了。或许几百年来成千上万的奇闻轶事真的表明特异功能存在。或许其中真有富含科学价值的东西。

讲到这儿我们已经多少认识到重复实验和整合分析的必要性,接下来我们开始本书的第二部分:证据。

主题二:   证据

 

 

本书的主题一谈论的是动机,即为何要研究特异功能。我们看到最浅显的原因,就是人们经常报告一些无法兼容于现代科学体系里的奇特体验。既然从古至今有如此众多的记载,其间必定存在某种与人性相关的东西。这些体验到底是怎么回事,我们又该当如何认识呢?

为了回答这些问题,我们从一般的“超常现象”之中,选取含有信息及能量交换的那一部分——也就是俗称的“特异功能”现象。虽说贯穿人类历史一直都有这方面的民间故事和奇闻轶事,要想科学地确认特异功能存在,仍必须依靠可以独立地重复检验的受控实验。在认识到重复的目的、本质、如何评判重复的实验结果之后,接着就要看是否能吃上这顿最后的晚餐了。

本书在这一主题讨论确认特异功能存在的证据。我们将分析四类常见的特异功能实验。还将看一看新近提出来的两类实验:“场意识”效应以及赌场下注与彩票抽奖中的特异功能效应。最后我们还将探讨特异功能的开发应用问题。我们首先来看报告人数最多的一类特异体验——思维传感。

 

 

第5章: 思维传感


还没拿起电话,我就知道是你。


星期一,我毫无来由地想起大学的一位同学。我们已经好几年没有联系,也不知道她现在哪里。接着我出乎意料地收到她的来信。我的电话打过去,才知道在星期一,就在我想起她的那会儿,她恰好在翻看大学纪念册并想到与我联系。


当我与丈夫一起行好莱坞的时候,电影《所罗门王的宝藏》片中的内容突然历历显现在我的眼前,我知道他在想这个影片。我想也没想就转身对他说,“我也同样看到了《所罗门王的宝藏》”。他大吃一惊。“你怎么知道我在想什么?”1

两人之间这种直接的思维信息沟通有很丰富的历史记载,过去人们称之为“他心通”,也叫“思维传感”。英文所采用的词汇Telepathy——“感知远处”,是英国学者弗里德里克·迈耶斯(Frederic W.H. Myers)(伦敦的心灵研究会创建人之一)于1882年发明。2

在几乎所有例子中,之所以谈到这类体验实在是因为它们对当事人太特别了。我们经常互相打电话、写信,有时真好象知道对方在想什么。当这种感觉十分强烈,而同时我们又确信没有来自五官的信息,所感又恰好得到证实,便会认为那是思维传感。

或许只是基于经验的推理,或许只是错会了的巧合?都有可能。有很多思维传感的例子其实是由一些心理因素造成的,这些因素包括选择性的记忆、主观愿望、记忆失真以及下意识捕获的信息。不论这些故事与案例听上去多么可信、多么有趣、多么感人,我们清楚地看到建立在当事人主诉和记忆之上的证词极不准确,往往存在着多种常规解释。要想科学地判断是否存在思维传感,不能指望这些故事。

       不少描述心灵现象的作品连篇累椟地列举“资料完整”的案例,然后请读者自己下结论特异功能是否存在。但即使我们看了成千上万的例子,最多也只能得出表面性的感受,认为特异功能或许存在,可是没有很大把握。要想取得科学证据必须在严格的受控条件下重复某些现象。只有实施严格的实验方案,才能排除信念、动机、记忆以及感官等因素的影响,确认人与人之间有无信息交流的可能。此后才能推断在众多的案例之中确实存在着思维传感。


关于思维控制之说


在进一步深入以前,我们先来谈谈社会上广为流传的关于思维控制与读心术的传说。不少情绪激动的人找到超心理学家,抱怨满脑子都是别人的念头,或者声称别人控制了他的思维。虽说这是极痛苦的感觉,往往与思维传感并无关系,这些人应该去找专业的心理医生。

到不是说压根就不存在这种可能性。我们有相当的把握肯定一个人的思维活动可以影响他人的神经系统,详情参见第9章。可另一方面,“联邦调查局或中央情报局控制了我的思维”这类主诉毕竟与实验室里所见的情况相差十万八千里。虽说在某种意义上我们的大脑确实受到外界的影响(例如大量的广告迫使我们购买无用的物品),绝大多数受到精神折磨的人都应该在找超心理学家之前,先去看心理医生。3

其实思维传感若是真能随便控制他人的思维,这种能力也绝对不会浪费在缺少经济、政治影响力的普通人身上。可以想像,如果能从精神上掌握恐怖分子团体的头脑人物,这将比带来伤亡的武力手段要便宜得多,也文明得多。当然,滥用特异能力也可能带来可怕后果,这正是有必要就思维传感和特异功能进行公开讨论的原因。


早期的案例研究


思维传感研究的历史脉络相当清晰,限于篇幅,我们只能割舍相当一些好的实验。最初的研究主要侧重于搜集和整理自发体验。这方面系统的资料首见于1886年,爱德蒙·格雷(Edmund Gurney)、弗里德利克·迈耶斯和弗兰克·波德莫(Frank Podmore)三人合著了《生命中的幽灵》。书中的绝大多数例子都取自英国,但也有作者对美国案例的调查。下面是家住佛罗里达州米堪诺比的瓦尔特·布鲁斯(Walter Bruce)医生讲述的一个例子。5

那是1884年12月27号,一个周四,我从庚思维勒返回米堪诺比桔树园。在这里我有一套简易的三居室。当时只我一人住。由于旅途疲劳,大约6点钟我就上了床;与往常一样,我先打开床头灯看看书。过了一会儿,就疲乏得抬不起眼皮,于是就熄灯睡下了。

我在前半夜醒了过来,觉着自己象是没睡多久。我觉得象是被什么东西惊醒的,最初觉得有什么人在房子里。我顺着卧室朝两边的屋子看看了(两扇门都开着),这才想起来自己身处何方,房子里真是没有什么值得毛贼光顾的东西。

我于是侧过身子再睡,还是感到周围象有点什么东西,不太象活人而好象是一个灵体。这么说似乎令人发笑,可当时我就是这种感觉。也不知道怎么说才说得清楚。或许这本身就是梦的一部分,因为我马上又睡熟了,以往作梦从来不是这样。当时我还有很强烈的预感,感到有奇怪和可怕的事将要发生了。

我很快就睡着了,至少感觉不到周围环境的存在了。于是乎我看到两个人正扭打在一起;一个人受重伤倒了下来,另一个人跑开了。我并没有看清伤者脖子上的刀口,但是知道他被割断了喉咙。我没有辩认出来他是我妻子的弟弟。只看见他的双手被压在身体底下,头歪向左边,两脚并拢在一起。

从我站的地方只能看到小部分面孔,其它部分被外套、衣领和头发遮住了。我凑近过去看了一眼,想知道这人是谁。我感觉自己认识这个人,但当时没有认出来。一转头,我看到我的妻子正站在身边。她告诉我说要留下来照料他,完事之后才能离开。(前几天我收到她的来信,说一两天内就到,我正在等电报好去接站。)

我环顾了一下四周的环境。伤者好象是躺在高出地面的台子上,旁边是椅子、条凳和桌子,这让我觉着象是教室。在他躺着的屋子外面有一大群人,多数是女性,我觉得好几位都很面熟。梦做到这个时候就醒了。

临午夜时分我再次醒过来,我还走到门前去查看有没有下雨,然后又躺回床上,久久不能入睡,直到接近拂晓才睡着。回想前面的梦,觉得十分纳闷,那种奇异、神秘的感觉过了好久才消褪下去。

过了有十来天,我收到妻子的一封信。信中提道她弟弟去世了。信是在出事之后的第二天寄出的。由于邮局送错了地址耽搁了好些天的时间。她在信里写的好几处细节都符合我的梦。当时她弟弟是在马克汉姆车站,与一群参加婚礼的人在一起。他走进车站旁边上的一间店铺,碰上了一个附近开酒吧的年轻人。两人说上了几句话,然后他就转身出来了。那人从后面追出来,没说二话就用刀割断了他的喉咙。

这是毫无缘由的恶性凶杀。妻子的弟弟当时身穿衣领高耸的外套。刀子戳穿了衣领一直扎进颈椎。他被抬进那间店铺,搁在柜台上,旁边全是桌子和橱柜。在挨了那刀之后他就因失血过多昏迷了过去。事件发生在12月27日,也即周四的前夜。人到了星期天接近中午的时分才离世。

整个事件更令人称奇的地方是,他妻子的姐姐斯宾达夫人在同一时刻也恰好作了个梦,她是这样回忆的:

我看见了两个人──其中一个被割断了喉咙。我说不清他是谁,但觉得好象认识。在听到弟弟的死讯后,我立即断定他就是梦中的受害者;虽然谁也没有告诉我他是怎么死的,我告诉坐在身边的堂妹,说他是被谋杀的。那场梦要么是在周四要么是在周五的晚上,已经记不太清。我看到在受害地点被刺的那一刻。


早期实验


最早从事思维传感实验研究的人物有英国物理学家威廉·巴里特(William Barret)爵士,他在1883年用分隔在两地的受催眠者进行了“思维传感”试验。6 几年以后,因发明无线电接收而闻名于世的英国物理学家奥利弗·洛奇(Oliver Lodge)爵士,报告了他就两位自称能够沟通思想的女士所作的研究。巴里特和洛奇的实验据说获得了成功,从而鼓舞了其他科学家的参预。

1917年,斯坦福大学心理学家约翰·库弗尔开始采用四十张一副的扑克牌来研究思维传感。他把发送者与接受者安排在相邻的两个房间里,自己同发送者坐在一起。他前后一共使用了105位大学生作接收者,97位作发送者,做了一万次的测试。他得到较高的猜中率,该结果的自然巧合概率只有1/160。但库弗尔本人对这项结果的评价很低,或许是害怕大学里同事的反对。

       在库弗尔做实验的同时,哈佛大学心理系的莱奥纳德·托兰德(Leonard Troland)研制了专门用于测试思维传感的一套设备。该设备可以自动选牌、记录牌点、记录受测者的回答,他本人用它做了605次测试,认为在受试者存在迥避正确答案的倾向,结果的巧合发生概率为1/14。再过了10年,当年还是哈佛大学研究生的乔治·埃斯布鲁克(George Estabrook)也把大学生们分隔在不同的房间里做思维传感。前三轮的实验非常成功,结果的自然巧合概率为一百万分之一。在第四轮的实验中,大学生所处的房间距离相隔较远,实验结果比不上前三轮显著,但依然反映在大学生之间存在着思维传感。


思维电波


普利策奖获得者、作家暨社会活动家──乌普顿·辛克莱在1930年出版了一本描述自己所做思维传感实验的书。7 由于辛克莱被普遍看作是位严肃的现实主义者,所以《思维波》一书的出版引起了社会极大反响。辛克莱的妻子、玛丽娅·辛克莱由于对思维传感很有兴趣,他通过自我训练掌握了感知别人所画图案的能力。在一般情况下是辛克莱先生画出图案,但有时由其他家庭成员或者辛克莱的秘书作画。

从1928年开始对辛克莱夫人做了一年的测试,对290个图案里她画对了65个。只有当她画的与所提供的图案非常相近时才算一次击中。实验中的绘图者有时候置身好几公里开外。辛克莱夫妇注意到他们的思维传感有时也可以解释为非眼视觉,有时解释为预测。他们随后还就此作了核实,发现“发送者”确实并非必要。辛克莱还邀请他的好友爱因斯坦评价这些实验。爱因斯坦在此书的扉页中写道:

我饶有兴致地读完了辛克莱的这本书。我相信书里的内容应当引起有关人士的严肃关注,不论是外行或者是心理学专家。本书细致而平直地描写了辛克莱的思维传感结果,这些内容超出了科学家所认为的可能。但另一方面,无需质疑作者的真诚与可靠,象辛克莱这种严肃的观察者、作家绝无可能捏造事情哄骗读者。8

《思维波》一书在1962年再版的时候,附录了波士顿心灵学研究会科研部长瓦尔特·普林斯(Walter Franklin Prince)博士的文章。普林斯对辛克

莱实验颇有兴趣,他写信向辛克莱索取原始的草图以及文字记录,以便进行独立分析。辛克莱提供了方便。普林斯全面分析了这些数据,主要是看能否找到“常规解释”。比如巧合、“亲属之间思维的相似性”(辛克莱夫妇之间耳熟能详,可能凭籍经验知道对方大概在画什么)、有意或无意的作弊、甚至“无意的呢喃”,等等。

普林斯发现以上说法无法解释两人所画图案之间的相似性。他谨慎地断定至少辛克莱夫人和她小叔子(两人有时相距30公里,有时分处不同房间)之间的思维传感是真实的。普林斯写道:

ESP牌测试


最著名的思维传感实验,当属杜克大学的约瑟夫·莱因(Joseph Banks Rhine)及同事自从本世纪20年代末开始做到1965年的ESP牌测试。莱因发明的这项“受限选择”测试法,采用五种花色的特制的扑克牌(方块、圆圈、波浪线、五星和三角),每种花色各五张,共计25张一副。发送者首先把牌彻底洗乱,随便取出一张,然后用意念将其传递给远方的人。要么事前约定时间,要么采用特别办法通知发送者接着传送下一张牌。总之,等猜完全部的25张牌以后,再对实验猜中次数作统计分析,判断猜牌的结果是否是概率事件。

从1880年到1940年的60年时间里,ESP牌实验得出了越来越肯定特异功能的结果。就此发表的论文(在下一章将分析这些结果)共计100多篇,涉及数以千计的受试者,超过四百多万次的测试。有些实验原本想研究思维传感,但人们很快地意识到观察到的效应也可以用“非眼视觉”解释,也就是说未必需要某人发送信息,接收者可能通过“非眼视觉”看到内容。

时至今日,还没有人拿出一套可以真正区分思维传感与非眼视觉的实验方案。有人声称可以测到“纯的”思维传感:发送者单只是想却不要把内容画下来。但出于两个原因这个办法不能成立。首先人所共知,在主观想像目标的时候必定将带入个人的偏好。这正是对辛克莱实验的主要批评。魔术师就懂得如何利用人的偏好而迫使现场观众按照他的意志挑选牌或物品。尤其经过一番实践练习之后,大概能够猜到别人在想什么,这就使思维传感变得更加复杂。

其次,在某种意义上,“纯的”思维图案必然有其客观对应的特征。例如,为了记录感知结果总要把什么东西写在纸上。这么一来,实验就可能含有非眼视觉甚至预测的成分在内。正因为如此,近几十年来实验人员更倾向于重点研究非眼视觉或者预测。人们之所以采用“广义超常感知”或者缩写的“GESP”,正是因为难于区分不同形式的特异感知。


梦中的思维传感


进入60年代以后,有越来越多的人跳出莱因的实验模式。虽然ESP牌测试的条件控制严格,结果分析简单,但连续猜几千次以后,参加者便感到乏味了。新一代研究者希望能搞出新的方案设计,即能保持参加者的热情,又能表现出象自发案例那样较强的功能。

人们推出“自由响应”的测试方案。说起来很接近于19世纪末第一代研究者用的方法,也接近于辛克莱在《思维波》里用的画图法。参加者在测试过程中受到鼓励,自由描述每时每刻的意识体验。然后研究者拿这些体验记录与发送目标(通常是照片)作比较。

跨文化的调查发现有超过半数的自发特异体验产生于梦境之中,这启发了一轮最成功也是最系统的自由响应实验。10 从1966年到1972年,精神病学家蒙塔格·乌尔曼(Montague Ullman)和心理学家斯坦尼·克里普勒在纽约布鲁克林的迈蒙尼德医疗中心(Maimonides Medical Center)的梦学实验室,主持了相当漂亮的思维传感实验。他们得出结论,若是向作梦者“发送”思维图像,真可能把情景内容耦合进这人的梦里。

迈蒙尼德的梦中思维传感实验共持续了6年,做过许多轮的重复。在实验中有位志愿者担任接收者,姑且称她“罗斯”──晚上睡在实验室里。之前让她先与担任“发送者”的某位实验人员见见面聊聊天──暂称他为“山姆”。此外罗斯还要见见当班的其他人员。

临睡觉之前,罗斯被带到电磁屏蔽与隔音的实验室内。实验员“伊尔”在她的头上贴满电极监控脑电活动以及眼球的转动。之后一直到实验结束,她再不能接触山姆、伊尔或别的实验人员。在旁边另一间屋子里,伊尔整宿监视罗斯的脑电活动。每当“快速眼动期”来临,也即罗斯大概开始作梦的时候,就按电铃通知山姆。

在有些实验里,山姆和罗斯距离32英尺,到了后期距离被拉长到98英尺、14英里,甚至有一次达到45英里。在山姆前往发射地点以前,第3位实验人员递交他一封其中装有图片的信函,图片是从一组图片(往往8张或12张)之中完全随机抽取的。有一套复杂的随机化程序确保每位实验人员和作梦者都不知道图片内容是什么。

直到隔离起来以前,山姆一直不能打开信封。他与其他实验人员之间的唯一信息联系就是电铃,如果相距很远就用约定好的电话铃声。当山姆接到通知,罗斯已经进入了快速眼动期之后,山姆便全神贯注地思考图案,试图通过思维传感干预她的梦境。

快速眼动期结束后,伊尔马上用对讲机唤醒罗斯,要她谈谈刚才梦里的内容。到了次日凌晨,再问一遍在经过整宿作梦以后她觉得照片上会是什么内容。当然,为了保证结果的可靠性,跟其它各种特异功能测试一样,实验主持者伊尔通盘绝不能知道图片的内容。罗斯的描述全部记录下来,略加整理然后交给几位评判员进行分析。

评判员首先仔细地阅读主诉记录,然后再将其与包含有发送图案那张在内的一整套图片进行比较。比方说这是一套8张的图片,那么就把最符合的记为1号,最不符合的记为8号。假使实际传送的图片被划归前半部分,即1至4号,就算“击中”。如果梦中思维传感不存在,在经过许多轮次的实验之后,最终的平均击中率应该是一半对一半,对应50%的猜对率。


对应实例

下面的例子显示了接受者作的梦与发送图案之间的关系。实验中发送的图片是马克思·贝克曼(Max Beckmann)的作品“从十字架放下的基督”,绘的是受难的耶稣从十字架上放下来的场面。11 为了使发送者的思想集中,还根椐主题提供了一些小物品,包括木质的小十字架,耶稣雕象,钉子与一支红笔,并且提示,“用钉子把基督钉在十字架上”,“再用笔画出满身的血迹”。

当晚的梦有两段非常奇特,其一涉及到温思顿·邱吉尔的演讲,其二是一段土著人的献祭仪式。请注意英文的邱吉尔一词可以拆成Church-hill,即“教堂——山”,具有明显象征性:

涉及邱吉尔的那场梦里有某种仪式,在有关土著的梦里正进行……好象是在献祭两个活人……。感觉就是,嗯……原始的、野蛮的东西正在摧毁文明……。信仰神权……,可神却无言。恐怖、还有对神的敬畏控制住了一切。12


梦境研究结果

从1960年至1973年,在杂志和学术刊物上发表的论文共提及450次梦境中的思维传感测试。这些实验涉及几种实验方案:(a)整宿监视并记录接收者的脑电,每当开始作梦,就让发送者“传递”图象影响梦里的内容;(b)发送者是在作梦及记录梦中内容的过后一天,才“发送”图案信息,算是预知类型的试验;(c)把图案藏匿起来,所有的人都不知道是什么内容;(d)仅仅在刚刚入睡的时候,或者随便某个睡眠阶段用意念传递图案;(e)不是分析整宿的梦,而是单单分析某一场梦的内容。

图5.1显示了每轮实验的平均击中率以及95%置信区间。猜中率为50%,所以图中的纵轴中线也为50%。有几轮实验的95%置信区间超出了100%的边界,未能画出来,反正也没有高出100%的猜中。有些研究,比如第23轮实验的置信区间很宽,这表明实验中的测试次数很少(这一回仅两次),所以尽管都是击中(两次两中),这个100%的置信度并不甚高。

 

 

 

 


图5.1      梦中思维传感实验的结果。自然概率为50%,95%的置信区间。实验编号取自附录A的《梦中思维传感》一书。全部实验结果合起来得出“整体”平均值。


从图5.1中可以看出,25轮实验之中共有19轮获得正面的结果,即击中率高过50%。这表明实验得到成功重复。但是25轮实验里有18轮的置信区间都涵盖着50%的概率线,所以不能排除单次实验结果纯属巧合的可能性。若是一位批评者看到这些实验,便会认为没有成功重复,因为72%的实验(25轮中的18轮)都未见“成功”。不过等一会儿,就能看到整合分析的说服力。

如果我们把全部实验综合起来,即把25轮实验的450次测试汇集到一起,整体击中率就达到63%(图中最右边的点)。从95%的置信区间来看,明显地排除了50%的概率。其实,图中不太看得出来,对于50%的猜中率,想在450次测试里猜中63%的巧合概率只有1/75,000,000。换句话说,这些实验单看起来算不得如何“成功”,合起来便构成了强有力的证据,在睡梦之中一定是发生了什么事情。

为了进一步说明图5.1中整体结果的置信区间要比初看上去更加惊人,我们看看图5.2中的95%、99%、和99.9999%的置信区间。图中95%的置信区间同于图5.1,表明我们有95%的把握判断思维传感的击中率将落在56-67%之间。第二条线表明可以有99%的把握肯定击中率将在56-68%之间,第三条线表明有99.9999%的把握击中率将会是在52-72%之间。

 

 

 

 

图5.2 梦中思维传感实验的95%、99%和99.9999%的置信区间。尽管置信区间的宽度

只是略有增加,巧合发生的概率却从1/20,下降到1/100再到1/1,000,000。

置信区间只是略有增加,而我们对击率中落在其间的信心却大大增加。虽说63%的击中率看上去只比50%的期望概率高出13个百分点,这点差别却能肯定某种真实的非概率效应。

以上充分说明,若是把不同的人、不同地方跨越许多年头的相近实验综合起来,看成一个大的实验,结果的可信度就会大大提高。综合迈蒙尼德实验结果只是整合分析的第一步。描述这些实验一则是反映历史,再者是说明重复实验能够提高结果的可信度。

事件的巧合发生概率仅有1/75,000,000,我们是否能够因此断言梦中思维传感已经获得证实呢?还不能。它只是从多种可能的解释之中排除了纯属巧合的说法。所以在以上的分析之外,还要考虑其它问题,比如是否有很多阴性结果未被发表(所谓“文件柜效应”),实验的严密程度(各项实验的份量并不相等),再还要看不同实验者所做不同实验的重复性如何。


全场思维传感实验


超心理学家查尔斯·侯诺顿(Charles Honorton)是迈蒙尼德研究成员之一,在70年代中期梦中思维传感的研究中止以后,他接着开启了一种新的思维传感实验。13 同期独立地提出类似实验方案的还有休斯顿大学心理学家威廉·布劳德(William Braud)以及爱丁堡大学心理学家亚德利安·派克(Adrian Parker),这套实验方法试图降低感官刺激信号而把人带入特异功能“诱发”态。14

侯诺顿、布劳德和派克都注意到特异功能体验往往需要某种神秘的、冥想的或者宗教性的氛围。印度的古老宗教经文《吠陀经》,老早就提及清除意识杂念以期产生特异功能。象《瑜珈经》算起来迄今至少已有3500年历史,书中指出长时间的深度冥想能够获得各种特异功能。15 与冥想相似的精神状态也会自然地发生在比如作梦、入睡前、被催眠、服用某些药物或者封闭在切断感官信息密室内的时候。这时头脑保持清醒而外界刺激信号的水平很低。

这说明在降低思维“噪声”以后,大脑将能更有效地捕获微弱信号,其中有些是特异信息。法国哲学家、诺贝尔(文学)奖获得者亨利·柏格森(Henri Bergson)就持这种观点。早在二十世纪初,柏格森便设想人的大脑和神经系统不仅仅是感受器官和信息处理器官,同时也是过滤器。它能把大量的连续不断的杂乱信息清除掉,只筛选出我们希望知道的、或者说对于生存来说至关重要的那部分信息进入意识知觉。

这种过滤机制可以使我们在非常吵闹的环境下听到别人叫我们的名字,或者当我们在开车的时候,虽然没有看清冲到马路上的孩子,但我们的脚已经踩住了刹车。柏格森所谓的大脑过滤机制已经在下意识认知和精神分析领域受到了深入研究,通过大量的实验研究我们知道大脑始终在处理大量信息,只是大多数不为意识所知觉而已。

候诺顿、布劳德和派克各自决定运用所谓“全场实验”(Ganzfeld一词源于德文)的感官剥夺技术,设计新的思维传感实验。16 基本想法是把人安置在隔绝外界刺激信号的环境下,使其神经系统处于信息“饥饿”状态,从而增进对微弱信号的感知能力。全场实验其实相当于梦中思维传感的一个发展,只是可以更加迅速地采集数据,因为接收者无需进入睡眠。

全场实验之所以具有很高的科学价值,因为它是建立在降低信息噪声以期提高感知能力的理论推测之上,而且研究者与怀疑者对这类实验应该如何进行、如何分析也达成了一致意见,再还有一点便是运用这项技术已经做了数十次的重复性实验。17

绝大多数的全场实验都汲取了过去特异功能实验的经验,从而避免了早期实验在设计方面的错误。18 另外,有好多篇有深度、比较充分的争论性文章都对全场实验的结果进行了细致讨论,相比之下,对于别的一些实验支持者与怀疑者往往各持一词,只是进行文字之争。


全场实验的方法

全场实验分三个步骤:让接收者与发送者作好准备;传递和感知信息;对结果作评价。经过几十年的不断修正和完善,这种三步操作法的最大优点在于能够非常清楚地区分接收者、发送者与实验者各自的角色,可以对实验是否成功作出清晰的判断。缺点是最终结果只是“击中”或“不中”,由于简化而牺牲了所接收信息里面的丰富内涵。每次实验需要二、三位人士的90分钟工作,即4.5个人时工作量。这样算起来,每采集一个数据点的人力消耗仍旧较大,可是相比梦中思维传感来说却经济得多了,后者的每次实验需要8-24个人时的工作量。


第一步:准备

假定“罗斯”是实验里的接收者。她舒舒服服地躺在一把椅子上,耳朵上戴着耳机,里面播放连续的白噪声(就象收音机收听到的电台之间的噪声),眼睛上罩着半球形的漫射眼罩——往往是一剖两半的乒乓球——然后用红光照射到脸上。为了帮助她进一步放松,耳机里先要先播放十分钟的特殊录音。

最开始只能感觉到柔和的、没有什么特征的声音和光亮,经过几分钟以后,由于神经系统主要是适应外部的变化,而全场实验提供的是恒定不变的感官环境,罗斯就慢慢地进入了感官剥夺的状态。由于大脑感受不到外来图像或者声音变化,它就自主地产生一些暗淡的但有时是很生动的图像。

在把罗斯密闭在全场实验的房间之前,实验者“伊尔”就吩咐她,要在听完诱导放松的录音带之后,用语言描述她的身心感受以及视觉图像。大概要讲二十分钟,直到实验者请她停下。然后伊尔锁上实验室的门,再把发送者“山姆”安置到一段距离之外的另一间隔离室。

伊尔在事前已经请助手从样品库中随机抽取了一组试样。每组试样都有四幅图片,其中一张选作思维传感的目标。各组试样以及图片全装在不透明的信封里,从信封的外面猜不到里面的内容。就连伊尔本人也不知道感知目标是什么。在全自动的全场实验中,甚至连助手也不要,采用微机自动选取一辑一辑的录相,然后再将录相片断随机化。但不管实验者采用图片或者采用录相,都希望每组试样中四幅图案的差异尽可能大一些。


第二步:发送

伊尔把装在不透明信封里的感知目标递给山姆,再把他封闭在发送室里。在全自动测试系统中,山姆是通过计算机控制的闭路电视看见目标。今天最高级的那些实验可以自动控制伊尔、罗斯和山姆之间的所有行为,充分保证每轮实验的操作程序完全一样。

接下来山姆集中精神看着感知目标,努力用意念将其传递给罗斯。如果实验中采用的是录相,当带子回卷的时候,山姆可以停顿休息一下。每次播放的时候,他就看着录相并把情节传递给接收者。这么发送一会儿,休息一会儿,一共持续二十来分钟。要求山姆全副身心“沉浸”在目标图片当中,并把所有的体验传给罗斯。

在有些测试系统里,伊尔和山姆两人可以在发送阶段通过耳机听到罗斯的讲话。一个单向传声器从罗斯的隔音室通到伊尔的控制室,再从那里通到山姆的隔离室。使用这个传声器有三个作用。一是让身处隔音室的罗斯感到安心,因为别人能听到她那里的情况如何。其二是可以录下罗斯的所有主诉以供事后分析。第三,来自罗斯的反馈信息有助于山姆调整自己的“发送”策略,从而使罗斯更能体验到他的感受。


第三步:评价

取决于实验设计,在经过大约十五至三十分钟之后,伊尔通知山姆和罗斯发送阶段已告结束。罗斯取下她的乒乓球眼罩,关上室内的红灯。伊尔关掉罗斯耳机里的白噪声,然后提供给她四张图片,山姆刚才发送的是其中之一。在全自动系统里,则是计算机自动把目标顺序打乱然后通过电视屏幕显示给罗斯。伊尔和山姆也能在各自房间通过电视看到这些图像。

应该提一提苏格兰爱丁堡大学近来研制的全自动录相的全场实验系统,它是采用了两台录像机。19 这么做的原因是:实验所用的录相片断只有一分钟的长度,而发送阶段共持续十五至二十分钟。为了使山姆集中注意自己的任务,这段录相就需要不断地回放。有批评者认为由于这段录相带在发送阶段不断回放,相比于另外几段对照的内容这一部分可能显得“噪声”更大或模糊一些。录相带虽然不会出现电影胶片似的划痕,但是几百遍地重复放映,会导致磁带质量下降,并使得图像质量变得模糊。

所以,若是只用一台录相机,用它放录像又用它做判断,罗斯就有可能注意到四段图像里的某一段——反复为山姆播放的那一段——在图像质量差一些,她就可能挑出这一段。当然,若是所有四段录相用于播放的时间全都差不多,也就不是什么问题,因为图像质量整体都下降了。然而,由于批评者总是坚持在每个环节的可能漏洞上面作文章,为了保证不会出现图像质量的改变,爱丁堡大学就在评价的阶段使采用第二台录相机播放另一盘带子。

让我们重新回到评价方面来,伊尔并不知道山姆实际发送的图片或录相片断是什么。伊尔请罗斯根据自己在实验中获得的体会,按照符合的程度把四个目标从1到4排出顺序。在她排完顺序之后,实验阶段便告结束,各方人员聚到一起,山姆说出实际上目标是什么。

如果罗斯把真实目标列为1,就是“击中”,否则便是“不中”。按概率来看实验的击中率是25%,平均每四次击中一次。如果击中率可靠地高于这个数值,就表明尽管采取了严格的、双盲的实验操作,排除了各类信息泄露及实验人员的主观倾向,确实有些图案信息传达到了接收者。这也就回答了实验提出的问题:不用寻常感官,能否感知远处他人的主观体验。


心理过程举例

在一些例子中,发送目标与接收者的感受具有惊人的一致性。以下是三次实际的全场实验中所记录的接收者的心理感受活动。这几个例子都是查尔斯·候诺顿及他的同事使用自动全场实验测试系统获得的。20

1 感知目标:萨尔瓦多·达里的名作“受刑的耶稣”

接收者的印象:

……我受到引导,好象来自心灵的引导,来到一个好象坐着国王的宫殿。非常的…象是天堂。国王象是耶稣。女人。我这会儿感到天空在翻腾…一大群人…印第安人,太阳神……主教……恐惧……坟墓。女人。祈祷者……葬礼……黑暗。死亡……灵魂……十诫。摩斯……。

2 感知目标:影片《天堂之床》中的一段马群的镜头。开头是五匹马在暴雪之中奔腾的景象。接着用长焦镜头推近到马的身上。然后场面切换到一匹马在草地上小跑,跑了一段之后慢下来。场面又换了一次:前面的那匹马在空旷无人的街道上溜达着。

接收者的印象:

我朝着群山一直过去……天正下着雪……又动起来了,这次向左,转向左边……旋转。好象是在表演骑马,好多的马。马术表演,马戏团……。

3 感知目标:这是关于纽斯里尔吊桥在40年代断裂的一段录相。录相里可以见到桥梁在前后晃动,向上向下弯曲。灯光在摇晃,钢索在吱吱作响,最后桥梁断裂成两截落在水中。

接收者的印象:

……一个,一个垂直的东西弯着、晃着,好象在随风摇摆……细细的、直立的东西,弯向左边……象梯子似的东西,好象在风中作响。不是垂直而是水平的……一座桥,横跨在什么之上的拉张桥。就象古典的英国桥,桥两端是开放的。一座英国的古老石桥闪了一下但马上就消失了。这是个悬吊桥,两边都吊着。现在两边都拉直了。又松驰下来了。松驰后成了个弧形。圆弧形,圆弧形建筑,桥梁,行人过道,许多圆弧形建筑,许多圆弧形的桥梁……。


首次整合分析

在1982年的超心理学协会的年会上,查理斯·候诺顿就过去的全部全场实验数据作了总结报告。他认为当年的全场实验已经提供了确认特异功能存在的充分证据。一向抱怀疑态度的心理学家雷·海曼持不同看法,他提出要对这些研究作独立分析。21 于是在1985发表了两篇整合分析文章,一篇是候诺顿的,另一篇是海曼的。他们即有一致看法,也有分歧。候诺顿是位非常投入的研究者,他想从数据中发掘出特异功能;海曼则是一生坚定的怀疑者,他只想彻底否定。22

当时,共有10位不同研究者发表了34篇全场实验的论文。这些论文共谈及42项不同的实验。其中给出实验平均击中率的实验有28项,而其它的实验只是定性地提到成功或不成功。因为从后面的这类实验中无法抽取供整合分析的数据,海曼和候诺顿便只对28项实验进行了分析。在28项实验之中有23项得出高过期望概率的击中率。这已然说明实验得到一定重复,若是把全部28项实验的结果综合起来,结果就比海曼与候诺顿所料到的更加惊人:事件的发生巧合概率只有一百亿分之一。显然,整体结果绝非巧合所能解释,因此两人都承认这里面的确有东西。但这是否就是思维传感呢?


独立重复

当时,进行过全场实验的独立实验室一共有10个。其中,英国心理学家卡尔·萨根特(Carl Sargent)在自己的实验室主持了十项实验,候诺顿在实验室做了五项,而其它实验室则只做了一两项,至多三项实验。所以有一半的实验是由两家实验室完成的,其中之一属于这位写整合分析报告的候诺顿。虽说在技术水平、实验质量、方案设计方面的问题不尽相同,但如果只有候诺顿与萨根特的实验室得到成功的结果,而别人不能重复,那么结果的可靠性当然便很成问题。

为了说明是否取得了独立重复,候诺顿分别计算了各个实验室的实验结果。在十个实验室中有六个获得了具有显著性的阳性结果,若把这十个实验的结果加起来,事件的自然发生概率只有十亿分之一。这说明不是唯独某一家实验室,那怕只做过几次实验的实验室都呈现同样的趋势。为排除做得最多的两家实验室对结果影响太大,候诺顿专门剔除了他和萨根特两家的实验重新作了计算。这样得出的自然巧合概率依然达到万分之一。因此,实验效应并不取决于一两家实验室,而是的确得到其它八家实验室的重复。


选择性报道

另一个可能造成成功假象的因素来自刊物发表文章的政策,比如刊物可能倾向于发表成功实验,而谢绝不成功的实验。这就是前面提到过的“文件柜”效应。在最早意识到该问题的人士之中就有超心理学家,实际上该问题在每个领域都存在。1975年,超心理学协会的领导层一致通过决议反对仅仅报道阳性结果。23 近二十年来,无论阳性或者阴性的结果都能一视同仁地在超心理学协会年会或者直属刊物上发表。

据1980年持怀疑态度的英国心理学家苏珊·布莱克莫尔所作的一项调查,也证实文件柜效应并非影响全场实验整合分析的关键所在。布莱克莫尔一共找到完成却没有发表的全场实验19项。2419项实验中有7项呈显著阳性,即达到自然发生概率低于1/20的水平。所以尽管有些实验没有发表,海曼和候诺顿都认为选择性报道并非关键因素。

由于谁也搞不清滞留在文件柜里的实验到底有多少,在整合分析时往往反过来计算需要多少项未发表的不成功实验才能抹去观察到的显著效应。25为抵消手头的这28项全场实验,就另外需要423项不成功实验,未发表与已发表文章的数目之比大概是15/1。考虑到每项全场实验需要的时间及人力,绝无可能隐匿掉423项实验,所以就不奇怪海曼为何同意候诺顿的看法,文件柜因素并未影响全场实验的数据。26 根本就没有那么多人做这么多实验。

因此支持者与怀疑者都认为实验结果不是巧合或也非选择性报道所致。但是否在实验中存在严重的漏洞,而这些漏洞导致了明显的阳性结果呢?


设计漏洞

怀疑者常常批评特异功能的实验设计不够充分。他们说实验者在收集和记录数据的时候敷衍了事,或者他们没有采取措施预防受试者和实验者的作假以及其他问题。按此说法,这些漏洞导致了假阳性的结果,实验越多,结果的阳性便越显著。相反实验设计得越严密,效果就越不显著——甚至于说要是实施操作严密的实验,只能得出零结果。

采取整合分析可以直接检验这种说法是否成立。为此,评判者依椐实验程序中是否包含某些关键步骤或者要素而把实验划分为不同等级。如果缺乏某项要素,则此项评分为零。若是含有该要素,则得分为1。这样就可以把每项实验按照考虑问题的全面性进行逐个分析,实验的质量等级就看最终各项得分之和。然后再比较实验的质量和实验结果。

如果实验质量与实验结果之间出现显著的负相关,便证实了批评者的指责。如果分析之后在两者之间看不到相关性,就说明一些实验虽然有漏洞(任何实验都并非完美无缺),但并不影响全局结果。实验的阳性结果并非因为设计有误造成的。

在形态各异的特异功能研究中,“致命的漏洞”是指设计不周密,未能阻断全部信息渠道。其中包括缺乏有效控制致使接收者可能有意无意以正常途径获悉目标的特征。再有一个致命的漏洞是目标随机化不够充分,使得接收者能够猜中目标。

信息泄露

全场实验方案都采用了信息阻断的环境,在思维“发送”的过程中信息泄露的可能性已经大大降低。发送阶段之后,当接收者在比较自己的体验与目标的时候,如果旁边的实验者知道哪个是目标,就可能有意无意地左右接收者的判断。28项实验确实有一部分存在这个弊病,但是实际结果低于期望概率,并非成功。

如果全场实验是采用实物图片,经过发送者使用之后又转交接收者做对比判断,也容易发生问题。例如发送者摸过了照片,就有“油腻指纹”的说法,接收者可能根据照片上的指纹和污物察觉真正的发送目标。目前的实验都是采用两套图片或者用录相的方式解决这个问题,但过去,有部分实验没有太在意。

虽然由于这个或者那个因素,实验的质量各不相同,海曼和候诺顿都认为在实验方案的严密性与实验结果之间没有系统的相关性。候诺顿专门单独选出采用了双套图片的实验作了计算,实验结果仍旧十分显著,自然巧合的概率为十万分之一。

这样一来,两人的整合分析都认定整体实验结果不是偶然巧合、不是选择报道也不是信息泄露。那么是否在随机化操作上有问题使得接收者或实验者猜出了目标物呢?


随机化

在所有的特异功能实验中,怎样选取测试目标非常重要,因为实验参加者可能有意无意地猜出哪个是真的目标,例如在ESP测试牌实验中,他们要作连续的多次猜测,凭经验猜中的答案可能被误作是特异功能。

比如说一副普通扑克牌意外地少了一些梅花牌张。如果是重复测试,每次又反馈结果,参试者就可能注意到出现梅花牌的次数少,于是在接下来的测试中就减少猜梅花的数量,这就稍稍地增加了猜中其它牌的机会。虽然测试得出阳性结果,并不能说明有特异功能,只不过是灵活地(可能是下意识地)运用了统计学。

在全场实验里,随机化操作没有那么关键,因为每个目标只用一次,许多参试者也只参加一次。这样就谈不到如何利用随机化不充分而提高成绩。但是有位批评者指出如果每套试样所选用的图片随机化程度不够,仍会出现假阳性的结果。

理由如下:有位实验参加者对自己的朋友谈起全场实验的体验,还说最终感知对象是圣诞老人。她的朋友后来也参加了实验,也得到这一组图片,他在比较的时候想起朋友的话就会倾向于选圣诞老人。如果随机化程序不好,偏偏这张照片再次被选作目标,那么就会似是而非地认作了特异功能。

在评价阶段实验者把真目标与三个假目标一同递给接收者,图片顺序也必须完全随机化。如果目标老是放在第二张的位置,受试者可能偶然告诉了朋友,这位朋友勿需特异功能就猜中目标。

虽然都只是想象,怀疑者却总能鸡蛋里面挑骨头。正是在随机化问题上面,海曼与候诺顿之间有分歧。海曼说他看到随机化的漏洞和结果的显著性有联系,而候诺顿表示反对。之所以看法不同,关键在于两人对什么是“随机化漏洞”的标准不同,对各项实验漏洞的评价不同,对实验质量的分级看法也不同。

因为这两人的立场根本对立,出现这种复杂的不同观点不足为奇。面对如此局面,最好还是看看局外的内行人意见。自1986年两人的争论公开之后,共有10位心理学家和统计学家发表了个人评论。认同海曼观点的没有一位,相反之前不了解争论的两位统计学家、两位心理学家转而倒向完全支持候诺顿。27

在后来的两份报告中,哈佛大学的行为学家莫莉卡·哈里斯(Monica Harris)和罗伯特·罗森塔尔(后者是世界著名方法学及整合分析专家)沿用了海曼的评价标准,未能发现实验设计与实验结果之间有显著联系。他们写道“我们分析了实验漏洞对结果的影响,所得结论不支持全场实验的结果是基于各种实验漏洞之上的臆测。”28

换句话说,所有的人都认为全场实验的结果即非巧合,也非选择性报道,也非信息泄露。除开一位坚决的怀疑者,所有的人都认为该结果并不是随机化不充分造成的。这场争论于是成了从第一阶段“绝不可能”向第二阶段的“或许吧”转变过程的一个节点。

 

效应值

有些怀疑者声称当前实验里所见的特异功能即使有可重复性,即使不是实验设计造成的假象,但是太弱而没有理论和实用的价值。可是即使效应比较弱,并不表明如果改进实验程序或者在加深理解之后情况仍是这样。

其实,翻一翻科学史便知道大多数的发现最初都很弱,缺少规律性。过了一些年,经过一番艰苦的实践和技术性的改造,才开始达到科学要求的稳定性。况且全场实验并非象不少人想得那样很弱或者不规律。

分析全场实验的最简单办法,就是比较实验的击中率。1985年所作整合分析的41项实验给出了此项数据的有25项,自然击中的概率为25%。我们直接援引1985年候诺顿文章中所用的25项实验的序号和击中次数并绘出相应的结果。在图5.3中可见25项实验的各项击中率和95%置信区间。如图所示,全部762次测试的总击中率是37%,尽管大多数实验(25项中的14项)不算“成功”(它们的95%置信区间覆盖了自然概率),整体结果的巧合发生概率只有一万亿分之一。这显现了整体综合结果相比于单独几项实验的优势。

为了说明全场实验中的显著特异功能效应,我们把它与广为流传的阿司匹林治疗心脏病(参见第4章)的医学研究结果作一个对比。30 该项研究安排了安慰治疗作为对照组,然后因为已经看清阿司匹林有疗效,在进行六年之后就停止了。该结果曾被宣传为医学上的重大突破,然而虽说有应用价值,阿司匹林的疗效却非常弱。服用阿司匹林只能降低心脏病发作0.8个百分点。这个效应值要比1985年整合分析中所见的特异功能的效应值小10倍。

 

 

 

 


图5.3 1985年的全场实验整合分析中各项实验的点平均值和95%置信区间。

表内数值取自候诺顿文章里的表A1。29


联合报告

1985年发表了各自的整合分析以后,海曼与候诺顿同意合著一篇报告。该报告发表于1986年,文章开门见山写出两人在观点上的相同与不同之处。

我们认为在整体数据中确实有某种显著性,该效应并非选择性报道或者多重分析(multiple analysis)所能解释。我们的分歧在于如此结果能否构成特异功能的证据,我们一致认为最终判决要看未来更多实验者按照更严格的标准得出的结果。31

他们接下来解释在未来实验中将令怀疑者满意的“更严格标准”究竟是什么。候诺顿非常地希望海曼公开认可这些标准,因为在过去每当接受反对意见做了新实验并取得显著结果之后,怀疑者往往又修改游戏规则。

由海曼和候诺顿认可的这些标准包括:非常小心地控制信息泄露,严密措施防止作弊,仔细描述目标的选择办法,全面描述实验程序及所用的仪器,说明究竟采用哪一种统计方法得出了成功结论。在研究者及怀疑者双方的代表人物拟订了这么几条之后,问题就转到未来的全场实验,关键要看新的实验是否仍然得出阳性结果。如果是这样,怀疑者就不得不承认这中间真有东西。


自动全场实验

从1983年开始,候诺顿与他的同事便发起了采用计算机控制的新实验。自动全场测试系统主要是由心理学家里克·伯格(Rick Berger)研制的,目的在于清除1985年整合分析中已指出的方案设计上的问题,在1986年的联合报告中发表了用这套设备完成的实验的结果以及实验细节。32 直到1989年9月由于经费短缺被迫关闭实验室为止,候诺顿一直都在用此积累全场实验数据。新实验的创新点在于使用计算机控制实验的各个环节,而且采用闭路电视提供用作目标的录相片断或静态图片。自动全场实验的样品库共包括80幅静态图片(“静态目标”)以及80段录相片断(动态目标)。这160个目标每4个为一套,形成20套静态、20套动态目标。静态目标包含艺术作品和照片,动态目标则包含动态画面、电视节目和动画片。这些目标全都转成了录相。

除了把接收者隔离在具有电磁屏蔽和隔音效果的钢板墙实验间里,实验者采用计算机执行每步操作以避免人为失误而导致信息泄露或者作弊。此外,还邀请了两位擅于表演特异功能的魔术家(幻术师)检查自动全场测试系统及实施方案,以免在行家眼中仍然有懈可击。其中一位魔术师名叫福特·克罗斯(Ford Kross),他是心灵现象表演协会的负责人。在检查了自动全场测试系统之后,克罗斯作了以下陈词:

我以专业幻术表演家的身份,检验了“精神物理实验室”的自动全场测试系统,我认为它具有极高的安全性,可以防止受试者作伪。33

另一位魔术师是康纳尔大学的心理学家达瑞·白姆(Daryl Bem),他在1994年与候诺顿合著了一篇关于全场特异功能实验的论文,34他是专业幻术师和心灵现象表演协会的会员。


实验结果


在为期6年的自动全场实验研究中,一共有100位男士和140位女士作为接收者进行了354次的测试。35 参试者的年龄在17岁至74岁之间;一共有包括候诺顿在内的8位实验主持人。研究分为3轮预实验和8轮正式实验。其中的5轮正式实验只采用“新手”──接收者每轮只做一次测试。在另外的3轮正式实验中采用了有经验的受试者。

在11轮实验的354次测试中共击中122次,击中率为34%。这与1985年整合分析所得的37%的击中率相当符合。候诺顿的这些自动全场实验的自然发生概率为1/75,000。


思维传感的证据


在海曼和候诺顿合写的文章里,“我们一致认为最终的判决要看未来更多的实验者按更严格的标准所得结果”。 36 在这篇文章之后发表的自动全场实验的结果具有统计学显著性,击中率34%与1985年整合分析所得的37%相当一致。人们或者以为海曼将承认全场实验证实了特异功能。

但是放弃自己终生偏爱的信念终非易事。在看到候诺顿成功的自动全场实验结果之后,海曼只是作了一点点退让:

候诺顿的实验得出了令人感兴趣的结果。如果独立的实验室也能以同样方式,以严格的实验方法得出类似的结果,超心理学就算有了实质的突破。37

海曼并非是在故意闪烁其词。的确科学证据建立在大量的独立重复之上。那么,自动全场实验之后的研究是否继续得出阳性结果呢?

图5.4汇总了截止1997年上半年之前的重复性实验。38 与前面一样,图中显示的是平均击中率以及95%的置信区间。最左边是1985年的整合分析结果(记为“85MA”),紧靠着的是“精神物理实验室”(缩写为“PRL”)的自动全场实验结果。括号里的数字是由不同研究者完成的测试次数。1985年的整合分析得到的击中率就建立在762次测试的基础上。

 

 

 

 

 

 


图5.4 直到1997年上半年以前的全场思维传感实验结果。


再一次重复是由心理学家凯茜·多顿(Kathy Dalton)与苏格兰爱丁堡大学心理系的同事一起完成的。爱丁堡大学的实验时间是1993年至1996年(现在仍在进行),共有5篇论文合计289次测试,使用了经改进的全自动测试系统。该套系统的基础是候诺顿的自动全场设计,再由心理学家罗宾·泰勒(Robin Taylor)、我、最后是凯茜·多顿各自做了完善。39 再还有阿姆斯特丹大学心理学系的狄克·比尔曼(Dick Bierman)教授、康纳尔大学达瑞·白姆教授、北卡罗莱纳州莱因研究中心的理查德·布劳顿(Richard Broughton)及其同事、瑞士哥滕伯格大学的亚德里安·派克及同事以及荷兰超心理学研究所博士生瑞斯·威彻曼(Rens Wezelman)也都进行了各自的重复实验。40

在这中间只有1985年的整合分析、PRL的自动全场实验和爱丁堡的实验各自击中率的95%置信区间超出了自然概率,但值得一提的是(自动全场实验之后)6组实验的平均击中率全都高出自然概率。图中最右边的95%置信区间是在综合全部全场实验的结果之后得到的,这一共是2549次测试。总的平均击中率为33.3%,对应的自然巧合概率为一千万亿分之一。


全场实验的总结


自从1974年到1997年,全世界的研究者发表了至少40篇文章,涉及2549次测试。从1985年的首次整合分析得出大致的击中率以后,按照怀疑者的标准进一步完善了实验方案,又做了6年的重复实验。这些自动全场实验仍旧得出了阳性结果。在1990年自动全场实验的结果发表以后,人们关心如此结果能否得到进一步的独立验证。

现在我们知道回答是肯定的。我们有充分证据说明在有些时候人可以不用五官而感知远方的少量信息。在全场实验中确实表现出了特异功能。

我们可以把所有的实验放在一起,包括全场实验的结果,1960-1970年之间的梦中思维传感,1880-1940年间的ESP牌的测试,乌普顿·辛克莱1929年的实验,还有早期的思维传感实验。可以说同样的结果得到了不断的重复,得到新一代研究者越来越严格的重复。不论哪一项新实验,最初总是遭到怀疑者的批判。这些批判降低了主流科学界应有的重视,反过来也促使实验的更加完善,今天的全场实验可以让那些专家哑口无言。

计算机控制、多个录相机、自动随机取样程序等等措施其实都并非是全场实验的关键。之所以把这些内容加到基本的测试程序中来,只是为了回应某些批评观点。正如事实所见,是否采取这些措施所得到的都是大体一致的结果。然而搞全自动的全场实验不能算浪费投资,因为我们现在知道即使考虑接收者觉察录相质量下降这等极低可能性,仍不能抹杀全场实验中存在特异功能。

远在得到过硬的实验证据之前,有人问西格蒙德·弗洛依德(Sigmund Freud)对思维传感的看法,这位超自然现象和神秘信仰的坚定反对者写道:

你显然希望我持稳健的无神论态度,毫不留情地批判一切神奇事物。但我无意于讨好任何人,我建议你自己认真地去想一想思维传感或他心通的客观可能性。41

如果说在两副大脑之间可以传递信息,那么在大脑与远方的物体之间又将如何呢?下一章我们就来谈谈非眼视觉——感知肉眼所不及的事物。


第6章 超越空间的感知


人有一种能力,可以看见朋友及他们所处的环境,

那怕这些人远在天边。

帕拉塞尔苏斯(Paracelsus,1493-1541)


在前面一章里,我们谈到过如何区分思维传感和非眼视觉。虽说没有找到方法测试“纯”思维传感,相比之下,却有较好办法可以测试非眼视觉——没有发送者的条件下感知远方事物。从19世纪末开始,数十位研究者对于两类非眼视觉实验做了大量重复性实验:采用ESP牌或者“遥视”图形。本章先简要谈一谈早期的实验,重点放在近代的遥视实验。


现象


非眼视觉与思维传感的区别是无需中介人“发送”信息。信息来自远方或者隐蔽之所,即跨越了正常的空间障碍(在下一章讨论时间障碍)。非眼视觉的原意是不用眼睛看清东西,其实还有特异感知声音,也可以叫“非耳听觉”,还有特异的嗅觉、触觉和味觉。惯常所称的“超常感知”(ESP)这个词 ,是莱因1934年创造的并且还用它作了书名1。非眼视觉与超常感知是同义词,此外也有更为现代的一些词,比如“遥视”、“遥感”等等。

经典的非眼视觉自发体验常常发生在人生危机的关头,往往带着有“纯”思维传感的特征,往往发生在特殊的知觉状态下,尤其是在睡梦中。以下是作家伯纳德·吉特森转述的一个案例:

    某天凌晨3:40分,俄勒冈农场的一位-妇女被哭叫声所惊醒。声音很快就消失了,可她仍旧感觉到烟雾,嘴里也感到不舒服。她叫醒丈夫,一起出去寻视了一遍农场,并未见到任何异常。当天晚上他们从电视新闻里听说有一家工厂发生了爆炸,爆炸引起化学物品的猛烈燃烧,并造成了6人丧生。而爆炸的时间恰好是凌晨3:40。2

另一个例子,说不清算是非眼视觉或者思维传感,载于心灵研究的经典作品、由心灵研究会会员编撰的《生命中的幻象》一书。讲述者是1884年生活在英国北威尔士的莫里斯·格里菲斯夫人(Morris Griffith)3

    1871年的3月11日是个周六,这天晚上,我从梦中惊醒,我当时看到在非洲西南海岸的圣·保尔·德·龙达的大儿子,他骨瘦如柴,病得快要不行了,我清清楚楚地听到他在喊我。我非常地不安,无法入眠,一闭上眼睛就看到前面的场面,清楚听见他在喊“妈妈”。

    第二天是周日,我一整天情绪坏得很,但我没对丈夫说怎么回事,他身体有病,我不想打搅他。我们当时习惯了小儿子每星期从爱尔兰寄一封信回来,这天没收到信,我还以为心情不好是这个原因,就跟格里菲思说起信的事。奇怪得很,他也一整天精神很压抑,我俩都吃不下晚饭,他从桌前站起来说,“我要不惜一切代价把孩子给弄回来”,他指的是大儿子。

    我把自己那晚的噩梦告诉了两三位朋友,但请他们不要告诉格里菲思。第二天收到一封信,里面有儿子的几张照片,他说自己还在发烧但已经好多了,大概不久就将康复,文字写得很乐观。之后直到5月9号才又收到一封信,信中说我们的儿子已于3月11日因再度发烧去世了,信中谈到他在临死前一直都在呼唤着我。最初我没有把儿子的死期和作梦的时间联系在一起,到是当时听到我说起噩梦的一些朋友,包括一位老仆人提醒了我。3

《生命中的幻象》一书的作者们追问了格里菲思夫人一些细节,诸如她有多么频繁梦见孩子,是否曾经梦到过死亡。他们猜想是否因为她过分担心儿子,把那场梦作了添枝加叶,她毕竟可能天天作梦。她这么答道:

     在我的一生之中,无论之前或之后,从未有过类似的噩梦,从未让梦搅得心神不宁。我从未作过醒来后弄不清是真是幻的那种梦。我还可以非常肯定地告诉你们,我从未有过幻听、幻视。

象这样的奇特故事往往驱使人们探究事情真相。为了排除这类非常宣称中存在的疑点,就有必要在实验室开展非眼视觉研究,只有站在科学角度分析,故事才能变得更有价值。


ESP牌实验


法国生理学家、诺贝尔奖获得者查尔斯·里奇特(Charles Richet)是最早使用ESP牌的研究者之一。4 1889年,里奇特发表了对一位被催眠者做的实验,此人认对装在密封不透光信封里东西的成功率远远高过自然概率。然而在随后的几十年时间,大多数研究者的兴趣侧重于前面一章谈到的思维传感,以及通过灵媒研究死后续存等方面。

过了好久,研究者才认识到所有的死后续存现象都可以解释成灵媒的感维传感。而且,人们可以通过受控实验研究思维传感,可是对于死后怎么样,却无法做实验。在超常感知的实验中也发现,有没有“发送者”并不影响结果。鉴于几乎设计不出来“纯”思维传感实验,而一定意义上超常感知都可以用非眼视觉解释,研究者于是重新转向非眼视觉。

说起来很怪,人们先是系统地研究死后续存,然后转到思维传感,再转到非眼视觉,最后认识到所有一切本质上都是特异感知。而这个过程恰恰说明了本领域的研究难度。有些研究者转变得很快,另一些人则费了好多年的时间。达到今天被认为不错的这一步,一共花了半个多世纪。可能再过五十年时间,又将有全新的想法。


对牌类实验的批评

扑克牌实验的完善过程反映了研究者对于常规感知和特异感知的认识过程。最初的实验是用手洗牌,然后把整副牌的牌面向下扣在桌子上。受试者由上至下猜一张,翻开核对一张。实验人员记下猜的是啥,实际是啥。不久有人留意到正面印上的花色可能从背面(只有一部分牌这样)凸显出来。可能被受试者有意无意地看到提高了猜中率。

这样一来就开始把牌封装在不透明的信封里。受试者拿着信封猜里面的牌面内容。实验者先记下猜的结果,再与受试者一起打开信封,核对答案并作记录。这种作法又引来新的批评,因为受试者直接触摸到牌,就有可能做上暗记,比如用指甲画道印,从而增加下一次猜中概率。若是有人存心作假,就能隔着信封摸出里面的记号。

60多年来,可以说每当实验获得成功就总有新的批评,通过借鉴这些意见实验得到不断完善。比如,不再允许受试者接触牌,在他们与牌及实验者之间挡上屏蔽隔板,接下来又把受试者与实验者分隔在不同房间甚至于不同的楼层。做最后一步,是为了避免所谓的“下意识呢喃”,即实验者知道牌面内容,可能在无意间默念出声,让耳尖的受试者听到。

作为一项屈指可数的由怀疑者亲自做的实验,1939年心理学家肯尼迪(J. Kennedy)和乌波夫(W. Uphoff)聘请了28位人士共记录11,125次ESP测试,目的在于检查莱因实验中是否存在着“倾向性记录失误”。他们果然发现意料中的错误率达到1.13%,相信者所犯的错误有利于ESP存在,而怀疑者恰恰相反。在相信者中间有71.5%的错误是提高了ESP得分,而在怀疑者中间则100%都是压低了ESP得分。5

1978年,哈佛大学心理学家罗伯特·罗森塔尔汇总了半个多世纪以来专门研究倾向性记录失误的27项行为学实验。再次证实平均错误率大致与肯尼迪和乌波夫的发现一样,大约1%。6 但1%的错误率并不足以解释莱因的实验结果,况且当时已经采取了防止失误的措施,就象有时采用多位实验者交叉核对记录。

到了30年代末,实验方案往往采取重复记录和双盲的数据检查。再后来,为了避免实验者受到串通作伪的指控,实验邀请观察员监督,以期确保严格执行了实施方案。


统计学问题

有一段时间,人们对牌类实验的统计方法提出了诸多批评。7 其中包括“人为中止实验”,即一俟结果“看着不错”, 实验者便中止了实验。为解决该问题,就要事先确定测试次数。再一个问题是评估结果的程序是否妥当。比如典型的猜牌实验,受试者要猜洗乱的五种图案(星、波浪、方块、圆、十字)各五张的整副牌。常常猜完25张牌之后,才回馈正确答案,实验的猜中率是1/5。经过多次25张一副牌的测试之后,平均认对率大约是20%。

有些反对者怀疑猜中率是否果真为20%。人们从数学计算以及对照实验两个方面解答了这个问题。对照是这么做的,把某人第一轮所作猜测与第二轮的结果相比较,再把他第二轮所作猜测与第三轮结果相比,依次类推。莱因及其同事一道分析了24项实验。他们发现在实验中的平均击中率为7.23/25,即29%,具有很高的显著性,而对照的平均击中率仅仅有5.04/25,正好相当于期望概率20%。8

对于早期的统计批评,最终由威斯里扬大学统计学家伯顿·坎普(Burton Camp)作了充分解答:

    莱因博士的研究包含两个方面:实验与统计。在实验方面,数学家自然说不出什么。若是实验做得没有问题,站在统计学的方面看统计分析的结果完全成立。如果再要批评莱因的研究,绝非因为数学问题。


第6章 超越空间的感知(续一)——翻译:何宏 博士2008-04-04 01:16
    然而如此证据终究未能达到莱因确证特异功能的愿望,原因之一是有人怀疑不太成功实验没有与成功实验一道予以发表。(此即前面提到的“文件柜”效应,后面还将再谈。)今天我们有多种办法估算需要多少项未发表的实验,才能使ESP牌的整体实验结果下降到非显著水平。对于图6.1中汇总的1935-1939年之间的34项严格实验,文件柜效应需要29,000项未发表实验。这就是说,为使整体实验结果降到非显著水平,未发表的不成功实验需要29,000项,即每项发表的实验背后都有861项未发表的实验。

哈佛大学的心理学家罗伯特·罗森塔尔曾经提议,只要未发表的实验是已发表实验的数量的5倍,就能判断观察结果“牢靠”。所以象巧合、选择性的报道、信息泄露之类说法无法解释ESP牌的结果。

要是把1882-1930年之间所有的ESP牌实验加在一起考虑,一共有包括世界上几十位研究者的186篇论文,计4,000,000次测试,整体结果的巧合发生概率只有1/1021。13 如果存在选择性报道的问题,为抵消如此大的天文数字,需要626,000项未发表的不成功实验。对应每篇文章背后都有3300项未发表实验。这再次说明无法用巧合和选择性报道解释实验结果。

在ESP牌实验中,可以看到随着实验的不断重复,特异功能成绩在直线下降。这并不奇怪,因为猜ESP牌的实验非常枯燥,上千次一遍一遍地猜测牌面花色符号,十分乏味没有意思。经过二十分钟,头脑就开始胡思乱想,主观能动性消失,很难再集中精力。就连实验者也觉得实验单调缺少变化。正因为如此,人们才对前一章谈到的梦境思维传感和全场思维传感更有兴趣。


遥视实验


在许多种的自由响应测试方法中,“遥视”在70年代中期以后再度赢得重视。遥视实验其实算是一种图片测试。艺术家英格·斯旺(Ingo Swan)就这段历史作过深入描述,他把多年来的图案目标与感知者的响应做了比较。14 斯旺发现,在1882年最早发表了图片感知实验的是英国人弗里德里克·迈耶斯和爱德蒙·格雷,他们的实验无论从风格上、方法上和结果上都与后来德国、法国研究者以及美国的乌普顿·辛克莱的实验基本雷同。我们看到,经过100多年以后,为美国政府的军事及情报机构服务的那些研究者又再次观察到同样结果。


遥视与美国政府

最为人们所熟悉的遥视实验始自70年代初,当时挂靠在斯坦福大学的斯坦福研究所(SRI)的好几家美国政府机构共同设立了该研究项目。到了70年代末,斯坦福研究所脱离大学变成了公司,直到今天一直叫作国际斯坦福研究所。

物理学家哈罗德·普索夫(Harold Puthoff)在70年代初最先拿到这个研究项目,物理学家罗素·塔格(Russell Targ)随即加入,过了几年又添了物理学家埃德温·梅(Edwin May)。1985年罗素·塔格另谋职位后,负责该项目的主要是梅。1990年,整个研究项目被转到另一家承担国防任务的机构──科学应用国际公司(SAIC)。前后经过24年、花费了来自政府机构如中央情报局、国防情报局、陆军、海军和航空航天局共计2000万美元的经费之后,该项目于1994年被终止。

政府部门相信遥视可能提供新的信息来源。即使只有部分正确,也能提供线索从而使支离破碎的情报信息聚为整体。而且遥视可能是突破各种屏蔽获取远方对手情报的唯一手段。在20年的时间里,这些机构对遥视一直保持着浓厚兴趣,斯坦福研究所和科学应用国际公司也时不时地提供一些颇有诱惑力的资料。相比于把谍报人员送到现场,用遥视获取情报不需花多少钱,又没有什么风险,尤其有时提供的信息是完全被各种技术措施保护着,所以军方和情报部门对此颇感兴趣。

感知信息有时候异常准确,远远超出一般实验室结果。为了满足政府客户了解遥视实用价值的愿望,曾经进行过专门的运作,埃德温·梅曾提到有一位遥视者完全正确地描述了目标,提供给他的信息仅仅是“美国境内的一套技术装置”。目标物是西南部的一套高能微波发生器。不知情的遥视者绘制的图案极似微波发生器,不仅描述了它的功能和大致尺寸,在房间里怎样摆放,甚至正确地注释它有“30度的发散角”。 15

大多数机密的、与情报任务有关的遥视运作不能算受控的正式实验,这也并非初衷。但有些遥视信息得到了日后的证实,这对于说明这项技术的实用价值还是相当重要。

70年代末的一个实例非常有趣,某位遥视者只是被告知美国某地的经纬度,他却准确地描绘出位于弗吉尼亚境内的这处绝密设施。他不仅准确地说出设施的内部构造,甚至准确地查出锁在保密柜中的文件上的密码。16 有位持疑的记者后来听说这个故事,决定亲自把它搞清楚。他就按着地图上的坐标,开车跑到华盛顿西南部135英里的位置,指望发现“不受管辖的军营,甚至于第三次世界大战的指控中心。”17 然而他只看见“一面山坡,几群绵羊,许多羊粪”。既没有秘密军营,看不见军人,也没有建筑物。

听说这个情况后,归口负责斯坦福研究所遥视实验的海军官员很紧张。他根据手头由中央情报局和国家安全局提供的报告原本认为遥视很成功。过了几天这位官员才松了一口气,他告诉记者那次测试仍然有效,但道歉说中央情报局和国家安全局负责确认遥视结果的人“给错了地图位置”,或者遥视者也许意外说中了西弗吉尼亚的某个太空通讯中心。他没有告诉记者实情,记者看到放牧着羊群的山坡其实正是目标。秘密的军用设施就在那里,只是藏在很深的地下。

与很多遥视运作的情况相似,在这个例子里无法计算事件的巧合概率。但大多数人认为概率极低──低到理当认真研究、澄清能否在受控条件下检验非眼视觉。此外,还要努力发掘人才,以使“心灵间谍”的结果更可靠。


遥视实验的步骤

在典型的遥视实验中,有位要绘出或者说出目标物的“遥视者”。目标或者是远处的某地、某人、或者是藏起来的照片、物体或录相片断。所有感官通道都必须切断,常常要把目标和遥视者分隔相当距离,有时甚至于长达几千英里,或者把目标放在不透明的信封里,或者等实验结束之后才抽取目标。

有时候会有一个人帮助遥视者询问他得到的印象。这种情况下这个人自然不知道目标物是什么,以免提供暗示。在有些遥视实验里还有一位发送者,他要前往特定地点参观目标或者凝视目标的图片;这与经典思维传感实验很相近。而在另一些实验里没有发送者。大多数的实验事后要给遥视者反馈目标信息,相比于实时非眼视觉,这么一来增大了预测的可能性。我们将在下一章细谈这方面的问题。


评价结果

除开斯坦福研究所的早期实验,所有结果分析都采用了“排序法”。这与前面谈到的梦境思维传感所用方法差不多。在遥视目标之后(某个地理位置、某个隐藏物体、一张照片或一段录相片断),就把遥视者的响应(一幅草图、一段文字或者录音)随同或照片或录相的五个可能目标交给不知情的评判员。其中只一个是真的,另四个是假的。

真目标是从五个可能目标中随机挑选出来的,遥视者或评判员都不知道哪个才是真目标。评判员要把这五个可能目标排出顺序,1表示最符合遥视的响应,5表示最不符合。每次遥视的得分就是标给真目标的序号。因为一组五个,真目标可能被标上从1-5的每个号,都是20%的可能性。由于选取各个目标的机会均等,从概率上看遥视实验的平均序号,即平均得分应当是3(1和5的中间值)。因为排序1对应于最符合,序号数值若是显著地小于3就将被视为遥视的证据。排序法是一种保守技术,即使极其符合也没有加分,哪怕遥视者的描述可能象照片一样近似于真目标。同样也不会减分,评判员有时觉得该目标只比另一个好一点点而已。即使遥视者或评判员已经知晓这一组的五个目标,排序法仍然成立。只要他们对五个目标哪个是真的能保持双盲,在第一位猜中的概率总是1比5,即20%。18


实验设计的改进

近代遥视实验进行了20多年,有些结果甚至发表在著名科学杂志上,比如《自然》19、《IEEE学报》20和其它一些书籍。21 当然,这些文章也激起了强烈的批评。22 建设性的批评可以促使实验设计更加严密,为使非眼视觉实验能够证明现象存在,人们提出好几条标准。其中包括(1)直到遥视者的描述被收上来以前,所有知道目标特征的人不得与他有接触,(2)直到全部评判结束,知道目标内容,或知道这次测试是否成功的人不得与评判员接触,(3)直到评判结束,知道目标的任何人都不能接触遥视者的响应。23


斯坦福研究所(SRI)实验:1973-1988

1988年,埃德温·梅及其同事对斯坦福研究所自1973年以来的全部特异功能实验进行了分析。24 16年时间一共有154项实验,包括26,000次测试。这其中实验室的遥视实验共计1000多次。统计数字表明整体事件的巧合发生率仅为1/1020。从前面的思维传感和ESP牌测试中我们已经看到,巧合无法解释实验结果。但是面对这一组实验数据,并非只有非眼视觉一个解释,尤其早期的斯坦福研究所实验,事后发现存在一些设计上的问题。但是由于在后期的遥视实验里仍旧看到同样水平的特异功能表现,这就说明实验设计所存在的问题并不足以否定结果。


科学应用国际公司(SAIC)的实验:1989 - 1993

1995年,中央情报局请人对政府资助的遥视研究撰写评审报告。报告的主要作者是加利福尼亚大学统计学教授杰茜卡·乌兹博士和俄勒冈大学的雷·海曼博士(我们前面已经提到过他们)。这个小组主要评审SAIC的遥视实验,当然也分析了SRI的实验,目的是看后者有无成功地重复了前期的结果。

SAIC进行的是一组严格控制的实验,为确保实验的严密性还专门成立了由不同学科专家组成的一个科学顾问小组。组内有一位诺贝尔物理奖获得者,数位国际知名的统计学家、心理学家、神经科学家和天文学家,还有一位医生身份的美军退役少将。

在SAIC进行的10项政府赞助的实验,有六项是遥视。由于SRI的实验已经令政府方面相信遥视存在,25 SAIC的实验目的不是现象的存在,而是研究特异感知如何作用。


结果

通过仔细分析SRI和SAIC的实验,政府评审小组得出了六项结论。26 首先,他们发现由遥视者自由描述头脑中的印象的“自由响应”遥视,要比只能从几种可能中挑选答案(象ESP牌)的“受限选择”遥视有更高的成功率。第二,随着一次次的测试,经遴选出来的受试者小组的成绩远远好于不加挑选的志愿者。这是一条重要发现,因为如果象批评者所说,实验成功是因为实验设计有误,经过遴选的这组人不该比志愿者有更好的成绩。

第三,在寻找有天赋的遥视者的普查中发现,大约有1%的受试者能够保持成功。这表明一流的遥视能力相当罕见,但是这个比例有可能象运动能力及音乐才华一样未必就是固定不变的。第四,实践和训练不能巩固和提高遥视能力。这也和音乐才华相似,有些人经过短短几分钟指点就能表现很强遥视功能,如果先天不足怎么做都很难甚至于不可能。第五,不清楚是否必要向遥视者反馈目标信息,从心理上看这么做可以激发兴趣从而提高成绩。第六,无论使用电磁屏蔽或者把目标隔离在很远距离之外,都对遥视的质量没有影响。

杰茜卡·乌兹在报告的结尾部分写道:

     对作者来说,很明显特异感知不仅可能,而且已经得到了证实。这个结果不是基于信仰,而是遵循了科学标准。该现象已经以各种形式在不同实验室和文化中得到重复……。

     我认为继续寻找证据只是浪费宝贵的资源。只要仔细地分析实验室数据并把它们综合一起,没有谁还能把这种仍在不断出现的稳定结果说成方法上、统计学上的问题。27

老唱反调的海曼怎么说呢?在看过这些证据之后他总结道:

    我和杰茜卡·乌兹一样,认为SAIC实验及近来全场实验发现的效果值难以用巧合解释。看上去也不象多重测试、文件柜效应、或运用统计学不当造成的……。所以我同意乌兹教授的说法,SAIC和其它超心理学家们的实验“远远超出了概率期望值”。

    SAIC的实验设计很严格,研究者付出了很大努力克服过去超心理学研究中已发现的弱点。我找不出哪里可能还有漏洞。但在原则上,同样也不能说哪个具体实验或实验系列就能全部排除可能漏洞。28

换句话,就象前面的全场思维传感实验结果一样,这位坚定的怀疑者认可结果既非巧合,也非选择性报道、统计运用或其它设计问题。他仍然还有一个籍口,一定是有什么地方不对,总之太难于接受真有特异功能。以他的身份,正象对全场思维传感研究,他建议:

    有必要筹集一些资源,检验这些发现能否被独立重复。在做到这点之后,再来看是否值得继续深入,看看这些效应是否真能反映存在着特异认知。29

这么一来,关键便是:这些结果有没有被重复?

 
PEAR的预知遥感

普林斯顿大学工程异象研究(PEAR)实验室从1978年开始进行遥视实验。为了能够把许多先作描述、尔后选择目标的测试程序反映出来,他们更愿意称自己的实验为“预知性遥感”(简写为PRP)。此外,PEAR使用的分析方法也与SRI/SAIC的排序法有所不同,实验中有一位“接收者”(遥视者)还有前往目标地点观察的一位中介人(遥视者认识的一个人)。

虽说PEAR实验在某些方面有差别,从性质上看其结果与SRI/SAIC的结果基本一致。举一个实例,在一次PRP的实验中,接收者与中介人相距2200英里。在中介人选定目标之前45分钟,接收者便描述了以下感受:

     很奇怪总是看到置身于一个大碗里的图像──有个半圆物座落在象是水泥或混凝土那样的人造地面上的。没什么颜色。可能有个玻璃罩子。非常奇怪同时感到里面和外面。这就是全部。象是一只大碗。(如果装满一碗汤,[人]就相当于一只饺子!)30

后来知道当时中介人正在参观位于亚里桑纳州基特·皮克(Kitt Peak)的一台射电望远镜。若是你也不知道射电望远镜是个什么样子,遥视者说得非常形象,看上去就是“一只大碗”。


PEAR的评价方法

在PEAR的PRP每次测试过程中,接收者需要用文字简单地写下中介人在指定时间以及之前、之后处在什么地理位置。然后接收者填写一张表格,回答30个选择答案,这些问题包括环境是明是暗,是室内或者室外,有无看到动物,有没有明显的响声等等。

而在这其间,中介人需要依照事先安排在目标地段待上5至10分钟。他写下自己的所有感受,同样也要填写一张表。在大多的时候,中介人还把周围环境拍成照片,以使记录完整并有助于事后参考。

确定目标地段的方法有两种:指定式或即兴式。指定式是事先由一位不再参与实验的人选出很多个地方,然后再从中随机地抽取出目标地点,常常是采用随机事件发生器。再把材料装在信封里递给中介人,由他离开实验室后再拆看。即兴式就没有事先的目标库,直接由中介人跑到接收者不知道的某个地方,再由他随兴所至选取地段。

用这两种方式所做的遥感测试绝大多数是预知型的,在感知的时候中介人还没有到位,甚至连地段还没有抽选出来。直到接收者与中介人完成各自的任务,两人之间自然不能有任何联系。


分析方法

每一次测试结果的分析,是比较接收者与中介人根据目标物填写的30项描述指标。再将它们与样品库里的其它目标进行比较。这样就构成客观的、数学上可以严格对比的方法。对于PEAR的PRP测试也存在着一些批评,主要问题在于接收者认识中介人,接收者也大致知道中介人在什么时候向哪个方向去。31 这种共享的知识可能对他们在填写描述性指标时有影响,提高了每次测试的实际成绩。这也正是当年对乌普顿·辛克莱及其它一些19世纪末思维传感实验的批评。

为此,PEAR研究者重新分析处理了数据,检查共享的信息对于结果是否有影响,尤其对即兴式的实验。他们争辩说如果真是这个原因造成击中,那么即兴式实验的结果就应该比指定式实验的更好。但实际上找不到统计差别。32 所以,虽说共同的偏好在原则上有可能影响到结果,但是实际影响其实弱得看不出来。很重要的一点,如图6.2所示,PEAR的遥感实验得出了与这些年来其他研究者相一致的结果。

截止1987年,所发表论文共涉及334次PRP测试,其中125次属于指定式,209次即兴式。整体数据结果的巧合发生率只有1/1011。事实否定了共享知识之说,在指定式的轮次中测试成绩相比之下稍好一些。


图6.2 全部非眼视觉实验结果的汇总,点平均值和95%的置信区间均按50%的等效击中概率作了转换。34本图包括从1882至1939年所发表的全部188项ESP牌实验,一共是4,600,000次测试;再有从1935至1939年发表的高安全性的ESP实验,共907,000次测试;450次梦境思维传实测试;2549次全场实验;209次的PEAR PRP即兴式测试(PRP V);125次PEAR指定式测试(PRP I);455次SAIC遥视;770次SRI遥视;2,682次“正常”态思维传感测试。“PEAR PRP V”是指PEAR实验室的即兴式预感实验,而“PRP I”代表指定式预感实验。最右边“常态ESP”是在普通意识状态下的非眼视觉实验。


迄今的特异感知


图6.2汇总了全部的思维传感和非眼视觉实验。每项实验都得出远远超出自然概率的结果,尤其令人惊讶的是各次结果大致差不多。只有在高安全性的ESP牌实验和“正常态”ESP实验上面略有差别。后面的这点差别从何而来呢?


“正常态”的特异功能

英国爱丁堡大学的心理学家朱莉叶·米尔顿(Julie Milton)分析了“正常”意识状态下所做的全部自由响应特异功能实验,并将其与意识变更态的结果进行了对比,后者包括梦境实验、全场实验和催眠状态下实验。33 米尔顿一共分析了1964-1979年发表的78项实验。它包括一些早期的SRI遥视实验,但全部的SAIC实验,PEAR PRP实验及所有的梦境和全场实验都没有包括在内。连ESP牌的实验也没有内,因为这些属于受限选择实验。换一个角度来说,米尔顿分析了35位不同研究者的55篇论文,共包括1158位受试者,其中大多是未加选择的志愿者。

她发现整体结果的巧合发生概率为1/10,000,000。35位研究者所报道的效应互相没有明显差别,若是考虑文件柜效应,需要866项未发表的不成功实验才能抵消结果的显著性。所以巧合和选择性报道不足以解释此结果。米尔顿发现实验中有两条潜在漏洞,但并没有因此带来较高击中率,综合不含这两项漏洞的48项实验,所得结果的巧合概率仍然有1/40,000。

很有意思的是击中率为54%,这要比其它实验得到的整体效应小得多。鉴于原本预料梦境及全场状态等意识变更态特异功能有可能增强,“正常态”结果弱一些并不奇怪。看起来亨利·柏格森说得有道理:在正常的意识状态下,大脑可能滤掉特异感知的信息。


正常态与非常态


假如意识知觉真的是经过多次过滤之后的最终结果,如果我们得以突破意识知觉,直接触及原始感知,那就有可能强化特异能力。有一条途径就是借助催眠使人进入特异功能诱发态。如果我们使用催眠暗示令人轻松、安全、舒服地体验特异功能,那将怎么样呢?35 非眼视觉会被强化吗?

纽约大学圣·约翰学院的心理学家里克思·斯坦福(Rex Stanford)和亚当·斯泰恩(Adam Stein)比较了催眠态与“正常态”下的ESP实验的结果,并于1994年发表了他们的整合分析。36 他们共找到29项相关实验,其中25项有足够的计算所需实验数据。这是1945-1982年11位不同研究者发表的工作;其中23项属于受限选择方式,另外两项属于自由响应方式。结果见图6.3。在催眠态下得到的特异功能效应显著高出概率,结果的巧合概率1/2700。相比之下,在常态下得到的结果不能排除巧合的可能(概率为1/8)。这说明强化期望、绕开意识知觉可以强化特异功能。


图6.3. 正常态与催眠态的实验结果对比,50%的等效击中率及95%的置信区间,在括号内是实验的数量。

接着斯坦福和斯泰恩分析不同实验者所得到的特异功能效应是否相当,答案是否定的。在11位研究者的结果之间存在很大差异,这有两种可能性:实验观察到的效应不是一回事,或者因为研究者催眠暗示的办法与技巧有很大差别。众所周知,成功地把人诱入催眠态需要很强的人际交往能力和丰富的经验。此外,人群的暗示感受性差别也很大,我们不知道实验中的受试者是否具有一致的“可催眠度”(其实可用多种办法测量)。


绵羊与山羊


为了独立检验催眠实验中的暗示效应,还可以尝试另一种暗示,从某些方面说它比普通催眠更为强烈。人生活在某种文化环境里,必然受到多种微妙的暗示,包括个人体验,父母以及学校传授的理念。文化、体验和信仰都是塑造现实感受的关键因素,它们左右和强化了我们对实在的感受。我们内心深处的信仰决定了什么逻辑能成立,什么是不言而喻的事理。

我们将在第14章中谈得更深入,人们不太了解由信仰带来的隐性“催眠”很大程度上决定了我们能够感受到什么。催眠实验证明,只要稍稍改动信念就能造成很大的行为变化。所以,我们预料那些由于文化、体验或信仰等因素相信超常感知存在的人,将比普通人以及不相信的人有更高的特异功能得分。

这正是特异功能实验中最稳定的现象之一。心理学家格吐德·施迈德勒(Gertrude Schmeidler)将其奇怪地称作“绵羊-山羊”效应, 他于1943年指出,坚定的怀疑者避而不谈特异体验的原因,是他们打下意识就回避特异功能。37 施迈德勒将有过特异体验的人称作“绵羊”,把怀疑者称作“山羊”。

在这类实验中通常先请受试者填写一份表格,了解他们对ESP的信仰程度以及是否有过特异体验。以此为基础把他们分成绵羊组或山羊组。随后全体受试者接受标准的特异功能测试,比如采用ESP牌。然后比较绵羊组与山羊组的成绩。绵羊的表现预计显著好于山羊。

苏格兰爱丁堡大学的心理学家托尼·劳伦斯(Tony Lawrence)找出了1943-1993年之间的所有绵羊-山羊受限选择实验,进行整合分析之后于1993年发表了论文。劳伦斯一共发现37位研究者发表的73篇论文,共涉及4,500位受试者的685,000次猜测。整体结果强烈支持绵羊-山羊效应,相信者的成绩明显好于不信者,其结果的巧合发生概率仅为一万亿分之一。若分析文件柜效应,则在每篇论文背后需要有1726篇未发表的非显著实验才能抵消显著性。因此“文件柜”效应不能成立。劳伦斯还发现实验结果不随实验的严格程度而变化,也不是被几项实验结果拉上去的。他的结论是,“整合分析结果非常地清楚──只要你信特异现象,便会在受限选择的ESP实验中获得比不信者更好的成绩”。38


结论


从ESP、遥视、催眠态、常态下以及绵羊-山羊等非眼视觉实验中可得出三条结论。第一,这些实验已经排除了巧合,选择性报道和设计失误等等常规解释。其二,自19世纪80年代以来有些实验已经被几十位研究者重复了好几千次。其三,从不同的实验所得到的特异功能效应大体上差不多。

结论三非常重要。这里提到的实验在实验方法、实验假设和实验目的方面都有一些不同,但本质上却都是检测同一现象──能否通过正常感官之外的途径感知远方的物体或事件。我们看到几十位不同的研究者采用不同的方法,重复得出同样的效应。正因为如此,连卡尔·萨根也认为,特异功能实验所提供的一些科学证据有一定说服力,值得重视。

以上证据显示特异感知可以跨越两副大脑或者超越空间。对许多科学家来说这令人困惑但并非不可想象。毕竟将来可能有人发现以往未曾留意的某种特别感知器官,它带来了思维传感及非眼视觉。然而当我们说到特异感知还能超越时间,情况就不同了。说我们可以预知未来、溯知过去,或者说得更严重一些是受到未来与过去的左右,这远远超出了当前的科学观念和人们的想象。在中止想象之前,还是先来看看特异感知超越时间的证据。

第7章 超越时间的感知

我们这些相信物理学的人知道,过去、现在和将来之间

的差别不过是顽固的幻觉。

阿尔伯特·爱因斯坦


在前面几章,我们看到很难区分不同形式的实验室内特异感知。实验室或生活里发生的思维传感也可以解释成某种形式的非眼视觉,非眼视觉在时间上很难定位。在冒出“溯知”、“实时非眼视觉”和“预知”这些概念之后,象感知和时间这些常规概念就变得模糊了。看来我们必须把特异感知看成可以不受空间和时间的约束的、更为广义的获取远方信息的能力。1

如果只想说明存在感知型的特异功能,概念上的细微差异并不重要。但为了理解这些效应到底如何发生,澄清其间的差别便很关键。比如,为了抽象和归纳特异功能理论,搞清楚能否直接感知他人的思想就很重要。同样,搞清楚能否实时感知远方物体也很重要。

从实验证据上看,不清楚是否存在纯粹的思维传感,也不清楚是否存在实时的非眼视觉。相反,大量流传的以及经验性的特异感知事例表明,可能包含各种形式的预知、预感。这一点令人很吃惊,因为超越时间的特异感知必然带来时间方面的悖论。有一个简单的办法用以理解各种特异感知,那便是假定我们偶尔可以跳进自己的将来。我们本人感觉某一件事算是特异事件,而并非纯粹幻想,是因为我们能在未来的某个时刻确认我们曾一度有过的精神感受确实发生了。仅此而言,说明原则上可以把所有的特异感知看成预知。


现象

没有东西什么比时间和空间更令我费解了;任何别的事都不会困挠我,

因为我连想都不想它们。

查尔斯·兰姆(Charles Lamb)

亚伯拉罕·林肯相信预言。1860年在他当选总统之后不久,他告诉友人兼传记作家沃德·拉蒙(Ward. H. Lamon ),说自己在照镜子的时候看见了两条身影。林肯把这看成有关未来的一幅图象,并自信自己将再度当选,但会在任期内死去。2 有人在克里弗兰地区的《普通商务报》上透露林肯相信预兆,于是某人拿来报纸问林肯报上说的是否真实。他回答说,“这段文字的错误在于还留着一半没有讲,它没有提到我曾亲眼看到奇迹般的事情。”

据说林肯后来告诉拉蒙他做过的一个梦,他听到有人在伤心哭泣,却没有看见是什么人在哭。他于是顺着声音穿过白宫走到东厅。他对拉蒙说,“非常奇怪。面前是个灵柩台,死者身着葬服。旁边守卫着士兵”。林肯问士兵,“白宫谁死了?”他们回答,“是总统,他被刺客暗杀了。”

另外还有一件不太为人所知的事情。在林肯被刺的当晚,乌里西斯·格兰特(Ulysses S. Grant)将军和夫人朱莉娅原订要陪同总统到华盛顿福特戏院。这是一个极高的荣誉,就在前几天格兰特将军刚刚接受盟军罗伯特· 李(Robert E. Lee)将军的无条件投降,格兰特正在首府享受着空前辉煌的款待。

在暗杀发生的那天清晨,格兰特夫人有一种强烈的急迫感,她、丈夫和孩子都应该尽快离开华盛顿返回老家新泽西。由于有些约会,将军本人脱不开身,可是格兰特夫人的急迫感整天都在不断增加。尽管他们原本要陪同总统与夫人去福特戏院,但她坚持立刻打道回府。她一整天都不断地恳求丈夫赶紧走,直到他最后做出让步。当他们一行走到宾夕伐尼亚的费城的时候,传来总统遭到刺杀的消息。他们事后了解到他们不仅本来被安排坐在总统包厢,而且他们名字也在约翰·威尔克斯·布斯(John Wilkes Booth)的黑名单上。3

在历史上沉浮着的关于预言、预兆和预警的这类趣闻轶事数以千计。实际上在人类的每个文化角落里都曾经发展过占卜未来的方法,许多古代神话讲的就是无可避免的前定命运。精确的预言带给我们对人生的敬畏,但是我们需要寻找过硬的事实,确认这种事情确实可能而不仅仅只是童话和故事。


受限选择测试


查尔斯·侯诺顿与心理学家戴安娜·费拉利(Diane Ferarri)就1935-1987年之间的全部预知型“受限选择”实验做了整合分析,并在1989年发表了一份论文。4 在典型的受限选择预知实验中,受试者要从一组固定的试样中猜出下一次将会选定哪一个。这些目标可以是彩色灯泡、ESP牌或者骰子点数。随后随机地抽选目标。如果猜测的结果与目标相符合,就是一次“击中”。很多这类实验都是每猜一次之后,立即随机地选取目标,并以此作为反馈信息。

请注意预知实验有别于“精神致动”──心-物作用──的地方主要只有一处。比如你掷两只骰子,当骰子仍在空中的时候你希望得到7点,这就是精神致动。假使当骰子在空中时,你是猜到或感觉到会是7点,就是预知。在前一类型里,你试图让结果按愿望而出现;而在后一类型里,你只是知道结果是什么。相对说来前一种是主动的,后一种是被动的,但是至少对于骰子这类随机系统来说,所得到的结果是完全一样的。

与所有需要明确界定“概率期望”的特异功能实验一样,如何在实验中随机选定未来的指标是实验中的关键一环。早年的实验是用手或机器洗牌,到了后期的实验则采用电子线路产生真随机数。基本测试方法很简单,结果也很容易表达。

侯诺顿和费拉利主要关心三个问题:是否存在预知的证据,实验结果是否随实验质量的不同而有变化,预知的结果是否跟某些变量比如受试者的类型、反馈的类型有关系。


结果

通过仔细调研英文的文献,搜寻所有的预知类型的受限选择实验,侯诺顿和费拉利找到1935-1987年之间发表论文113篇,共含309项实验,涉及62位不同研究者。这些数据得自50,000多位受试者的近2,000,000次测试。实验采用的方法包括从ESP牌至完全自动的、计算机产生的、随机显示符号。最多见的受试者是大学生(占40%的实验),最少见的是实验者自己(占5%的实验)。有时候是单个受试者,有时候是集体受试。

选定未来目标的方法有多种。有些实验采用基于自然事件的准随机方法,比如说一批世界城市每天的低温平均值。有些研究采用比如掷骰子或洗牌这类非正式的方法,有些则采用较正式的技术,比如采用事前打印的随机数字表或者随机数字发生器。从作出猜测到选出目标这之间的时间差,小至微秒,大至年月。

综合309项实验的结果得到的事件巧合发生概率为1/1025,这排除了巧合的解释。象选择性报道即文件柜效应也被排除在外,为了抵消如此天文数字的巧合概率,需要未发表的不成功实验14,268项。进一步分析表明,在62位研究者中间总共有23位(37%)报道了成功实验,所以整体结果并不是因为一两次实验的意外成功。换句话说,预知现象得到多位不同实验者的成功重复。


规整分析

成功地重复某个结果,并不一定要在各个不同实验中观察到同样的结果,因为在实验方案和受试者方面总有一定变化。所以我们只期望结果大致相当,用统计术语来说比较“均匀”。进行整合分析的时候,除非通过规整数据去除一些“异类”,从不同实验中观察到的结果很难均匀。有些实验的效应因为这个或那个原因可能过大或过小,这中间包括设计问题、截然不同的程序或人员,或者单单是由于巧合。为了能看清楚结果是否得到重复,常见的规整数据方法是去掉10%效应最大的实验,再去掉10%效应最小的实验。

在规整数据之后,侯诺顿和费拉利还有248项实验,实验者人数从62下降到57。根据这剩下的80%数据,整体结果的自然巧合概率为十亿分之一。这说明57位研究者观察到了基本一样的预知效应,用巧合或选择性报道不能解释该结果。


实验质量

对于预知实验,周密的实验设计需要具备8条标准。其中包括事先确定采集多大的样本量,事先确定统计分析方法,采用可靠的随机化程序,使用自动记录。如果在研究质量与预知实验的结果之间存在着明显的负相关,这就支持实验越严格效应就越小的说法。但是在实验中并未找到这种关系;实际上反而有一点正相关。5 再看做得最差的实验是否比最好的实验能得出更大的效应,同样也看不到这种差别。

再有一个问题,实验质量是否随时间而改善。预料将会这样,因为研究者可能针对批评意见而改进实验方案。在这方面趋势的确很明显,事属巧合的自然概率为一百亿分之一。6 虽说实验质量随时间而改善,但预知现象的效应幅度却没有多大变化。这说明在半个多世纪的不断重复实验过程中,预知效应相当地稳定。


调制变量

为了弄清哪些因素对预知有影响,侯诺顿与费拉利分析了不同受试者群体的实验结果。他们把受试者分为8类:未加注明的、混合型的、动物、大学生、孩子、未加筛选的成人志愿者、实验者以及遴选出来曾有成功记录或者特秉奇能的人。除了最后一类人,在不同类型的受试者之间的效应相差不大。采用遴选受试者的实验要比不加遴选的受试者的实验得到更大的效应,此结论的巧合概率为1/1000。

再有一个变量是向受试者提供的反馈方式。这些反馈方式包括没有反馈、时间延迟的反馈、在整组测试之后的反馈以及每测一次反馈一次。其中每测一次提供一次反馈的结果较好,此结论的巧合概率为1/100。每次提供反馈的实验实际上有42.6%获得了成功(自然概率期望只有5%),而不提供反馈的实验则无一例成功。

侯诺顿与费拉利接着分析了从预知测试到产生目标这之间时间间隔的影响。由于每测一次给予一次反馈所获效应最大,想必时间间隔越短越容易得到较大的效应。实验被按照不同的时间间隔(微秒、秒、分、小时、天、周和月)分为7类,结果真的看见这种关系,微秒级的反馈要好于其它的时间间隔,该结论的巧合概率为1/100。当然这可能与心理因素有关,而并非预测因受到限制无法“看”得更远。这也就是说,对于受限选择实验如果在好几分钟之后才提供反馈,反馈所起的激励作用就没有了。时间一长,受试者记不住反馈信息对应着什么内容,关注测试的热情就下降了。

根据这些迹象,侯诺顿和费拉利预计遴选出来的受试者每人单次反馈的测试成绩要优于未经筛选的受试者成组测试、不加反馈的成绩。前一组被称作“优化组”,后一组“非优化组”。正如预期的那样,优化组的表现显著胜过非优化组,两相对比,该结果的巧合概率仅为一百万分之一。8项优化组的实验其中有7项的巧合概率是1/20以下,相比之下却没有一项非优化组的实验具有显著性。

这些明显的调制变量对于实验来说相当重要,这反映预测现象并不只是在统计学意义上的反常,而是受到了心理学因素的影响。这就是说在将来的研究中可能发现预知中的某些规律性。这反过来又将增进对预知的理解。


下意识的预知


还有一种研究预知的办法,是研究心智可否与自身未来的状态沟通起来,或者说心智能否在时间上有所“拓开”。检验这种想法有多种有趣的办法。一则是看未来的认知能否影响到对当前任务的反应,再则是看能否观测当前的神经系统活动而觉察未来的情绪状态。


响应时间

在20世纪80年代初,瑞典伦德大学心理系的霍尔格·克林特曼(Holger Klintman)开始着手这样一项实验,先给人看一张彩色图片,或红、或绿、或兰、或黄,接着提供某种颜色的名称,“红”、“绿”、“兰”或“黄”。 7 克林特曼让人尽快地报出图片颜色,再尽快地大声读出后面的颜色名称。

假使前面的颜色与后面的颜色名称一致,绿颜色紧接着跟个“绿”字,任务就能完成得又快又准。因为一旦看到了颜色,与颜色相关的记忆内容就被激活,其中包括颜色的名称。所以如果颜色名称与实际颜色相吻合,在读颜色名称的时候就很容易,因为这个名称已经提前进入了记忆。

然而假使初始颜色与其后的颜色名称不符合,比如在绿色后面紧跟着个“红”字,事情就变得非常艰难,要想读对不符合的颜色名称就必须动脑筋设法排除对应图片颜色的另一个词。想要把不一致的颜色与名称说得又快又准,往往做不到。许多人做这件事的时候非常不自在或者会控制不住发笑。这件任务经常用于戏剧性地展示认知干扰(cognitive interference)是怎么回事。

心理学家通常对大声读出第二个刺激信号需要多长时间感兴趣。预料的结果是,假使图片颜色与后面的名称相符,反应的时间就快,不符合时间就慢。当然,为了杜绝事前预先期望带来的影响,在图片颜色后面所跟的颜色名称必须每次随机选定。无论受试者与实验者都不知道某一次测试两者将会符合或者不符合,这也是经典的双盲实验。

克林特曼花了很长时间做这种常规认知实验,他测量了对第二个刺激的反应时间,尔后又决定测量人们大声说出第一个刺激、也就是图片自身颜色的时间。他认为可以用这个时间作为一种基准,或者相对于第二个刺激反应的对照反应时间。这样有助于提高反应时间的测量精度。他奇怪地看到这第一反应时间的变化要比他的预想大得多。继续研究之后,他吃惊地发现如果图片与颜色名称相符,这个反应时间就较快,如果两者不符合反应时间就较慢。

在思考该结果并排除所有的常规解释之后,克林特曼提出“时间逆转干扰”(time reversed interference)的设想,并决定进行检验。他的想法是人可以穿越时间预感来自未来的刺激,如果未来的刺激与当下的不符合,就会产生识别干扰。克林特曼猜测前一个反应时间变慢是因为受到了未来的干扰。

为来检验这套设想,他设计了双盲实验,一共使用了28位受试者。结果有利于时间逆转干扰假说,事件的巧合发生概率仅为1/67。他又做了一项项的实验。五项实验全都获得成功,这些实验在方案设计上略有不同,可以算对同一效应的概念性重复,几项实验加起来,巧合概率仅为1/500,000。克林特曼满意地看到,该效应既非巧合,也非实验失误。

他的结论是:该效应取决于两件事情之间的意义;性格也是一个重要变量,可以预期哪些人的身上将表现出该效应;每一轮测试都是初期的效应要比后期明显,这可能是因为倦怠和新奇性的下降;采用普通大学生志愿者就能看到该效应;对于实验人员该效应不是很敏感;测试结果可以重复。

此外,受试者完全没有感觉到自己的表现受到未来认知的干扰,这意味着可以利用神经系统的下意识反应检测预知。相比常规的特异功能测试这种方法具有很大的优越性,因为这么一来就可以避开可能滤除特异认知的意识防御机制。

未来的感觉

近期我们在拉斯维加斯内华达大学实验室做了一系列实验,探索神经系统对于未来事件的下意识响应。严格地说这种响应是一种预知,也叫“预感”,是隐隐感到要发生什么事情,只是还没有上升到意识知觉。9

在研究下意识响应的实验中,我们利用了众所周知的、称为“取向反应”(orienting response)的心理物理反射,巴甫洛夫在20世纪20年代率先提出了这个概念。取向反应是生命体在面对“或战或逃”选择之时的生理变化。对人而言可能出现在不太危险的情况下,例如面对新的或者意外的刺激。经典的取向反应包括一些同步的身体变化,象瞳孔收缩、脑波改变、汗腺活动增加、心率的升/降、肢体的末稍阻断等等。10 这种身体变化能暂时性地增强感知、改善决策能力、强化我们的力量及降低流血的危险。这一切都符合人类的进化过程,因为当年我们的祖先面临着老虎等猛兽的威胁,生存者需要能够突然反应,看得清、听得准、反应敏捷、变得非常强大、不象往日那样易于流血。

通过让人观看煽情的照片,很容易制造取向反应。其它的刺激物还包括有害气味、特殊言语、电击以及突然的触碰。因为激励水平受到累积效应的影响,在连续经历三五张情绪化照片之后,反应的强度就开始下降。在实验中间,为了避免受试者“适应”,用作诱发反应的照片是与两倍数量的普通的平和照片随机地混在一起。


设计

假定我们有一位叫“帕蒂”的受试者,她舒适地坐在椅子上,面前两尺开外是彩色的计算机屏幕。11 在她的左手第一、第二指上,我们接上电极记录皮肤阻抗的涨落,也叫“皮肤电位活动”。左手第三指的根部接着一台仪器,同步记录心率和指尖的血容量。这些电信号全都由计算机处理。

接好电极以后,帕蒂把贴着各种电极的左手放在腿上。她的右手握着鼠标,作好开始准备然后按下鼠标键。如图7.1所示,计算机从很大的一组可能性之中随机选出一个目标照片,然后首先显示空白。在5秒空白之后,显示所选的图片3秒钟,接着又是5秒的空白,再然后是5秒的休息时间。休息之后,帕蒂接到通知如果作好了准备请再按鼠标键。

 

图7.1. 实验过程示意图

在18秒钟时间里连续记录三项生理响应。在一轮实验里,受试者一共要看40张照片,一次接着一张。每一次的测试均由计算机随机地从120张高质量的数码彩色照片之中选一张。这些照片被分成平静的和情绪化的两类。平静的目标包括风景、自然场面和愉快的人群。情绪化的目标包括煽动性的、烦乱的、震撼性的图片,比如淫秽照片或尸体。12

用于分析数据的方法叫“叠加时间分析”。它是把每次18秒连续记录的生理数据按所有的平静的图片的结果平均在一起,再把所有的情绪化图片的结果另行平均起来。


结果

避开数学上一些技术性的细节,图7.2给出某女性受试者“SD”的皮肤电活动的基本结果。正如经典取向反应所期望的,在看到情绪化目标之后,SD的皮肤电位(也就是汗腺)活性增加。在看平静的目标的时候,她的皮肤电活动保持平静。

我们现在来看有趣的结果。在SD看到两类图片之前,她的皮肤电活动已经开始增加,这说明她正在期待下一个目标。令人诧异的是如果下一张是情绪化的图片,皮肤电活动就增加得更多。我们把这个差别称为“预感效应”,在自律神经系统中发现的这个效应极似克林特曼发现的响应时间变化;它说明“将来”的情绪体验可以影响当下的神经系统。在图7.2中标出了之前、之中与之后的变化,一切都很清楚。

图7.3、7.4、和7.5显示的是24位受试者的皮肤电活动、心率、指端血管容量的综合结果,一共看了900张图片,其中317张是情绪化、583张是平静的图片。13请注意在实验设计方面有内在对照:在之中与之后两种条件下的生理指标必定能反映出取向响应的结果,否则就是分析上或实验上存在问题。个别人的响应特殊,不依照取向反应,我们可以检查们对平静与情绪化的图片的实际反应。

 

图7.2. 对某位受试者皮肤电活动的叠加时间分析,65%置信区间。四个分区对应目标图片显示之前、之中、之后及恢复期。看见情绪化目标之前皮肤电活动加强说明存在预感。

图7.3.   正如经典取向反应的期望,在显示目标图片之后,情绪化的图片引起的皮肤电位活动比要平静的图片强得多。相比之下在显示情绪化图片之前,皮肤电活动也强于平静的图片。本图以及下图显示的均是24位受试者在两次实验共计900次测试之后的综合结果。置信区间为65%。

正如经典取向反应所期望的,在看到情绪化的图片之后,受试者的自律神经系统便会作出反应:心率或升或降、指尖血容量下降、皮肤电活动增加。相比之下,对平静图片的反应仍是放松状态。该结果表明实验达到预想目的。最重要的发现是看见情绪化的图片之前,受试者已经针对将来的情绪状态作出了“提前反应”。实验结束之后问及是否能感受到下一张是什么图片时,几乎所有受试者的回答都是否定的,这恰好符合预感是下意识过程的说法。


图7.4. 在看见平静图片之前,平均心率由于期待略有上升,随即递减,受试者“知道”下一张图片是放松的。相比之下,在看见情绪化图片之前平均心率便开始上升,就象受试者硬起心肠准备看震撼性的图片。


图 7.5.   在显示目标图片两秒钟之前,对于情绪化的图片指尖血容量变小,对于平静图片保持不变。请注意血容量开始下降发生在显示情绪化图片之前1秒。


独立重复实验

正如前面强调的,科学问题的证实取决于独立重复。这些预感实验的结果在1996年8月超心理学会年会上发表了之后,阿姆斯特丹大学心理学家狄克·比尔曼做了重复实验。我们向他提供了一套我们用的目标照片,他另外采用他自己的皮肤电测量的硬件及软件。14

比尔曼把这些图片放给16位受试者,每人看40幅图片,有时候是“长”时段,要看3秒;有时候是“短”时段,只看0.2秒。图7.6显示了汇总后的结果,它成功重复了我们观察到的实验结果。在看到情绪化图片之前的皮肤电活动明显强于看见平静图片之前。


图7.6. 比尔曼教授的重复实验结果。置信区间为65%。15

 

图7.7. 拉斯维加斯内华达大学在受试者观看暴力性或淫秽图片时采集到的皮肤电活动数据。这是33位受试者看完158幅阴性、278幅阳性情绪化照片之后的综合结果。置信区间65%。16示情绪化图片之前1秒。

为了更加细致分析预感实验结果,我们把情绪化图片又分为两类:阳性(一般是淫秽题材)和阴性(暴力和受伤的题材)。图7.7显示了我们实验室所得结果。我们发现在看见两种图片之前,皮肤电活动就有明显差别,而真正看见图片之后却基本没有区别。图7.8显示的是比尔曼教授的结果,两者何其相似。对于这种差异很难找到“正常”的解释,象常规的期待效应无法解释。这说明,如果预感真能体现对于将来事件的认识,那么自律神经系统不仅能对将来的神经系统变化作“提前反应”,而且能对不同的情感意义做出反应。


图7.8. 阿姆斯特丹大学比尔曼教授采集的观看暴力及淫秽图片时的皮肤电活动数据。置信区间65%。

现在是什么时候?

让人试去吧,反正我不会说要去抓住时间,人只能留意或关注当下一刻。

最令人迷惑的体验来了。现在是哪里?在我们试图抓住它之前,

它就已经消逝无影无踪了。

威廉·詹姆斯(William James)


威廉·詹姆斯可能意识到了什么。现在可能与我们想的某时某地不一样。克林特曼的响应时间实验以及生理学预感实验,验证了受限选择预知实验的整合分析结果。在一定条件下我们可能有意识或下意识地对将来的事件作出反应,而在正常情况下这些事件是我们所不知道的。

在写本章的时候,爱荷华医学院的神经科学家在著名杂志《科学》上发表了关于直觉预感的一项实验。他们请10位正常人和6位脑功能受损者依次玩一种扑克游戏,同时监测他们的皮肤电活动。在游戏中一共有四副牌,当事人要自行先选出一副牌,然后一张一张地摊开。有些牌能赢钱,有些则输钱。其中有两副是“坏”牌,输张牌多,另两副牌是“好”牌,赢张牌多。

尽管不知道这几副牌有好坏之分,也不知道每副牌的输张在什么位置,正常人和脑损伤病人都“在真正知道好牌、坏牌之前,就由于选择所面临的风险性而产生对应的期望(皮肤电位出现变化)。”17 在讨论这项惊人结果的时候,研究者推测“这里所看到的倾向性与其它影响判断的神经机制截然不同……换句话,为解释该现象必须在现有理论之外提出新的见解……”18 在看到本章所列举的有关预知的证据之后,现有神经科学无法解释的这个另外机制有可能就是特异功能。

在19世纪80年代刚开始做特异功能实验的时候,人们就已经意识到在思维传感、实时非眼视觉、预知等现象之间只存在文字描述上的差别──而不是在特异感知的本质上有差别。再后来就开始通过实验研究心-物效应,这才是与前者完全不同的东西。

第8章 心-物作用

生命要远比所有人类心智所创造出的东西深奥得多。

连最普通的存在也是我们所不敢构思的。

夏洛克·福尔摩斯对华生的谈话


精神愿望能否影响物质世界?在一定意义上,回答显然是肯定的。汽车工程师想出一个造汽车的新方法,经过几个月或几年时间之后获得成功。象这种从精神到物质的转换并不稀罕,因为事件的每步过程已经很清楚。

然而,另一个问题就不是不言而喻的了:精神愿望能否直接影响物质世界,不通过中介媒体?该问题涉及物理世界中人脑的终极地位,激发了几千年来哲学家的浓厚兴趣。精神超越物质的观念根植于东方哲学以及古代巫术信仰之中。在过去几百年里,这种信念被西方科学视为迷信而完全否决。至今这个基本问题仍与五千年前一样神秘。精神是什么,它与物质又是什么关系?精神是因还是果呢?


意识


近些年里对意识本质的猜测有明显上升趋势。每个学科对于意识之为何物都有自己的看法,已经有不少神经科学家、认知科学家、计算机科学家和生物学家就此写了不少论述。物理学上,观察会改变物理系统本身这个无可避免的事实,促使现代物理学的奠基人,包括魏尔勒·海森堡、艾尔文·薛定谔、阿尔伯特·爱因斯坦都深入地思考人类意识的特殊角色。1

由于现代物理学中一些令人极为困惑的现象,越来越多的科学家继续猜测意识、精神、物质是怎么回事。2物理学家伯纳德·德斯帕拉特(Bernard d’Espagnat)在《科学美国人》杂志上写道,“认为世界由不依赖人的意志为转移的客观物质所组成的经典观念与量子理论以及实验事实相违背。”3 有不少这类文章发表在科学杂志里,包括《美国物理学杂志》、《物理学信件》、《科学美国人》、《物理学基础》和《物理评论》等等。4 《欧洲物理杂志》于1987年发表了物理学家尤安·斯奎尔斯(Euan Squires)的文章,谈到直接与特异功能研究有关的这个问题:

如果意识选择可以决定我去做何种测量,我的意识为此被分裂成什么态,难道意识就不能影响测量的结果吗?意识可能是通过量子效应影响物质。象考察意念能否影响原子核衰变率的这类实验做起来不难,可能真是值得试一试。5

在量子力学中有关意识为何物的推测由来已久,按说在物理学文献中能找到相当一些原始实验。奇怪的是找来找去仅见三项实验。


实验


第一篇是1977年麻省理工学院的物理学家霍尔(Hall)、金(Kim)、麦克罗依(McElroy)和西蒙尼(Shimony)的文章,实验“慎重地研究了心-身作用导致量子波包塌缩的设想,这种作用使两个系统都被改变。”6 他们用实验检验了一个人能否发觉另一个人已对某个量子态作了观察(这里所说的是钠-22的伽玛辐射)。

他们的思路如下,如果某人的观察的确改变了某系统的物理状态,那么再有一人观察该系统的时候,后面这人的经历可能因为前面那个人是否观察而有所不同。他们做了554次测量,结果不支持该假说。实验观察到的“击中”数量恰好是概率期望值。

第二项实验是麻省理工学院科学家在文章里引证的。他们曾采用放射性钴-57做过一次成功的实验,在67次测试中获得40次击中,相比于50%的概率期望获得了60%的击中率。7

第三项是普林斯顿大学工程教授罗伯特·杰恩、心理学家布兰达·杜恩(Brenda Dunne)和罗杰·尼尔森(Roger Nelson)及同事进行的长期实验。8 1986年,他们报道了为期7年,对33位受试者的数百万次测试的结果。他们采用电子“随机数发生器”,一种类似掷钢币的电子器件作为物理目标。这些从未加筛选个体身上采集数据的长期实验,得出充分证据表明在精神愿望和随机物理器件的输出之间存在联系。

于是,在主流物理学杂志上发表的三项实验,一项结果恰是概率,另两项得出阳性结果。鉴于该效应所具有的奇妙的理论意义,很奇怪物理论文中不再有此类实验。这倒不是说没人在做实验。实质上,特异功能研究者做了数以百计的同等概念的实验。

其实,主流物理学文献只提到三份报告毫不奇怪。虽说理论物理学家对心-物作用的可能性做过认真探讨,但实际研究这个效应──爱因斯坦称之超距“鬼怪”效应,却是科学禁区,这反映出存在认定自然界必然如何运作的一组基本假定。在第15章我们将讨论这些假定的来源,但是,由于各个学科之间相差甚远,由于对超心理学存在着普遍的不安,绝大多数特异功能实验都不为外界科学家所知。曾经有几位怀疑者对这些文献做过几次浮浅的评述。他们声称在一两项实验里发现了漏洞,但谁也不愿检验通盘的证据。


动机


研究心-物作用,除开其诱人的科学及哲学价值外,也有实用意义。下一章,我们将结合心-物作用影响生命体的证据探讨其意义。在这里我们主要考察在非生命系统中的心-物作用。

澄清精神可否直接影响物质的一个实际理由,是因为这种“主动”的特异功能可能导致了计算机及其它复杂机器的故障。为什么有些人整起机器非常拿手,而另一些人老是奇怪地把它们搞出毛病?为什么在工程界常见“有意义的失误”,人们半开玩笑地称之“默菲定律”?是不是某种情况下,计算机故障是“特异功能引发”的?9

这不仅是学术问题。这个问题对于解释某些复杂系统有时何以失灵正变得越来越重要。大量的关键应用,比如核武库、航空交通控制、重要保健部门都完全依赖计算机的正常运作。在制造容错计算机方面已经取得了重大进展,今天的绝大多数计算机故障都可以归为两类:人的因素和机器因素。人的因素包括不良人机界面、压力的工作环境、逻辑或计算设计错误、软件错误。10 机器因素包括电路板故障、电源供应以及电磁兼容性。11

不幸,并非总能把故障归为某类已知错误。12 若是检测充分,倒也能解决一些不可解释的毛病,可是随着计算机系统越来越复杂、分散各地、相互依赖,想查找出故障的真正原因变得越来越难。实际上,近来的非线性动力系统理论(复杂性与混沌理论的一部分)证明,对包括计算机在内的决定性系统,我们预测未来的能力极其有限。13 即使特殊设计、非常复杂,容错计算机系统有时仍会不可思议地出错。14 所以,除开从人及机器因素方面寻找故障原因之外,也有必要检查另一类尚不太理解的因素:直接的人-机作用。


小鬼与天使


有些人以擅长快速修理机器而著称。另有些人则在重要场合不许走近电子设备,因为怕设备闹毛病。有些心理学家把后一类现象叫作“小鬼效应”(Gremlin Effect)。 15有些东西容易在关键时候出毛病,这种观点非常普遍,在工程界默菲定律被看作“第一法则”,

毫无疑问许多小鬼传奇只不过是选择性记忆和迷信,可是对奇怪的巧合予以仔细审定之后,从剩下的奇闻和少量研究看,“实验室故事”好象并非空穴来风。在数以百计的非同寻常的人-机作用事例中,物理学家乔治·伽莫夫(George Gamow)所谈的“泡利效应”相当有趣:

众所周知,理论物理学家不善操作实验设备,甚至可以检验身边站的是否是理论物理学家,只要让他的手一摸,再好的仪器也会坏掉。依此标准沃夫冈·泡利便是一位很好的理论物理学家;他一走进实验室,设备就会翻倒、中断、抖动甚至燃烧。16

而另一些实验者,比如托马斯·爱迪生,则有高超的能力让复杂的实验室设备不可思议地更快地运作。17 当然,并非所有的“计算机小鬼”和“计算机天使”都找不到正当解释。例如20世纪80年代的一次最高苏维埃会议上,总统米哈依·戈尔巴乔夫向470位代表提议,采用克里姆林宫新装自动投票系统,大厅的两侧是巨型屏幕。戈尔巴乔夫给出信号请代表投票,所有的眼睛都转向屏幕……一片空白。据《泰晤士日报》的文章,戈尔巴乔夫说,“机器不灵了,还是老办法吧”, 18 又回到最高苏维埃过去的惯用的信任票方式。到了本次大会的后半段,设备恢复正常。这一次技术人员记着打开了电源。

机器出乱子的故事有些正点有些很荒诞。有个恐怖故事说有台苏联超级计算机把赢了它的棋手给电死了。据说这台计算机被指控为谋杀,因为它让棋板带电打死了棋手。苏维埃警官阿莱克谢·辛涅夫(Alexei Shainev)对莫斯科记者们说,“这绝非意外,而是一场冷血谋杀”。 19

把计算机送上审判台的决定让全世界的“法律专家被吓倒”,但苏联人坚信该计算机出“荣誉和智力而衍生出对象棋大师古德科夫(Gudkov)的愤恨,进而想办法杀害了对手”。警方解释说,“计算机程序是让它赢棋,当它无法做到的时候,就杀死了对手”。他接着,“指控计算机杀人听起来很滑稽,可这家伙既能解决问题、想得也比人要快,它当然该为自己的行为负责”。 20

这是个滑稽的故事,然而现实生活里确有一些人把汽车、自动售货机和微机人格化甚至怀有感情,要么是爱要么讨厌。要是谁承认在人-机作用中存在着特异功能,这一切便不再纯是幻觉而是可能性。21在这些技术推测的背后的根本问题仍然是:到底有没有证据表明精神可以直接影响物质?就这个问题所作的长期、系统研究之一就是掷骰子。


主动与被动的期望


在4万年前,远古的人类相信煅烧甲骨可以预知命运,献祭和祈祷能够改变命运。古时候到处都有骨棒算命或骰子预测,从非洲部落到伊纽特人再到玛雅人都能找到“煅烧占卜”的证据。诸如机会与命运的概念充斥在先民信仰之中,比如象印度教的主神湿婆就常常有一副掷骰子定人命运的形象。

时至今日,摩登的男人、女人仍在赌场里“转骨头”,热切地期盼撞好运。“期盼”是什么意思?一种是被动的期待,是希望命运之神降到自己的头上。再有一种主动的愿望,是促使或请求命运以某种方式起作用。主动与被动之间的差异也反映在看待运气的不同态度上。有些人持被动的观点,认为那是命运,或好或坏都不以人的意志为转移的力量。有些人持主动的观点,认为能用个人的愿望影响世界。在对心-物作用实验的认识和表达上,也存在同样的分岐。对于心-物作用的实验结果,有些研究者认为受试者凭借特异感知选择了有利的作用时机,而另外一些人则认为这证明了系统被迫按受试者的愿望发生了改变。

两种可能说起来差异很明显,可是在一些特异功能实验中却非常难以区分。正如谁也无法(起码到现在为止)设计出截然区分纯思维传感与非眼视觉的实验一样,假使精神作用的对象是随机系统,谁也无法设计实验把“纯”预知与“纯”心-物作用区分开来。

实际上,要想做最近乎于纯的心-物实验,就需让原本不可能的事情发生。作用目标通常是稳定的物体,不会自发涨落。迄今对于稳定系统所做的研究包括意念弯曲钢勺之类的金属条、移动小物体。这类事件虽然吸引公众的注意,却往往缺乏由不同实验者经年累月进行系统的、受控的实验重复,这与本书所述实验有很大差别。因此,“宏观精神致动”效应很有趣,也很值得研究,但现在要在科学界谈讨金属弯曲和致动物体还不太站得住脚。


掷骰子

骰子里面有奥妙。

朱利奥斯·凯撒(Julius Caesar)

有没有办法用意念控制“骰子丢出”的点数?许多怀疑者认为回答是“否”,正因如此,赌场才有很大利润。赌场获利主要因为规则订得对组织者有利。每年的赌资高达数十亿美元,长线看总是赌客输钱,赌搏业绝对有赚无赔。此外,由于各自先天数学能力和记忆技巧的差别,有些人赢得多,有些老是输,这令人犯疑是否有些赢钱者通过意念力打破了自然概率(假定是公平的赌局)。

受莱因夫妇及其在杜克大学同行工作的启发,自1935年以来,研究者便对意念干预骰子的设想展开研究。半个多世纪以来,有52位研究者发表了148项实验结果(仅限于英文资料)。22 实验说起来很简单:先确定一个面,然后掷骰子(可能好几只),与此同时让人用意念使该面朝上。假使该骰子的这一面果然冲上,就算一次“击中”。如果击中次数超出概率,便视为有利于心-物作用的证据。

多年来骰子实验曾被评述和批评过无数次,虽说有这么多的实验和评述,意见却大相径庭。23 之所以争议,一个因为心-物作用效应极难重复,因此极其可疑,其次在简单的掷骰子动作背后存在着大量缺陷,每一条都足以把实验结果推翻。再有一点,几乎过去所有评述都只限谈某些实验在设计上的失误,而从没有把全部数据合在一起分析。

研究质量

有些批评者说,新一代特异功能研究者总是从零开始,不能继承前人工作。这条意见常用来批判超心理学是伪科学,因为它不象“真科学”在研究方面具有连续性。28只要看看实验研究质量是否随时间发生变化就能对这条批评作出检验。怀疑者认为实验质量不会改变,因为荒谬的伪科学家是不会关心过去的实验以及相应的批评意见。图8.2显示了检查结果,趋势不为零,上升势头明显,该结果巧合发生的概率为1/1,000,000。可见后期的研究者们的确参考了此前的批评。


图8.2.骰子实验质量随着时间显著改善,该结果巧合发生的概率为1/1,000,000。

怀疑者还认为当实验质量提高以后,实验效应就会下降。按他们的设想,只有做“完美的”实验,才能反映真实情况,而这时特异功能不存在。我们检验了这个说法,考查各年的研究质量与击中率之间存在什么关系。我们发现两者之间基本不相关,所以此条批评并不成立。


对骰子面的分析

早在20世纪30年代,莱因及其同事认识就到,某些骰子实验可能存在着问题,骰子各个面的出现几率未必一致。因为骰子上的点数是挖出来的,有些骰子获得6点的概率要高于1点。由于在6点的这个面上挖了6个孔,这个面就比别的面稍轻一点。如果随机地掷骰子,质量上的这一点差别就使得6点这个面更容易冲上,接下来依次是5、4、3、2、1几个面。所以若是实验中完全锁定6点作为目标,实验就有问题,除非做了不加意念的对照实验,否则就不知道高过概率的结果算是心-物作用,或者只是因为出现6点的概率更大。

为了看清在骰子实验中是否存在这个问题,我们仔细地检查了实验数据,分别计算在实验及对照条件下6个面的击中率各为多少。果然发现了差异,如图8.3所示。不论是在实验条件下还是对照条件下击中率的变化趋势都是从1逐步上升到6。但是,在实验条件下的击中率大多高过对照条件,这说明除开上面的因素之外还另有原因。比如,在实验条件得到6点的机会明显地高于对照条件,该结果巧合发生的概率为1/5,000。

正因为知道骰子的各个面略有不同,我们专门分析了施加控制的一组实验──采取了专门措施保证骰子各面出现机会相同。我们称之为经方案“校正”的实验。

符合方案校正标准的实验共有69项。从中得出三点结论:仍然表现出极显著的心-物作用,结果巧合发生的概率仅为一万亿分之一;无论实验质量如何评价,效应保持恒定;假如存在“文件柜效应”,需要有20倍的未发表非显著实验。所以巧合、实验质量、选择性报道都无从解释实验结果。


图8.3. 实验及对照条件下骰子的点数与击中率之间的关系。误差范围为65%的置信区间。


骰子实验结论

通过整合分析我们得出结论,在骰子实验中的确看到真实的心-物作用效应。半个多世纪以来,该效应得到了50余位研究者的100多项实验的成功重复。倘若事情果真这样,我们自然期望能在其它的实验中用其它物理目标也看到一样牢靠的证据。事实的确如此。


抛掷比特


随机数发生器(RNG)实验是现代版的掷骰子实验。每台RNG都是一套电子线路,能够不断地重复抛掷电子“硬币”,产生一组或“正”或“反”的序列并予以记录。在典型的实验中参试者要用意念影响RNG的输出,使得在确定的时间段里更多出现“正”更少出现“反”。实际上,RNG产生的是比特序列(或1或0),所以任务就成了要让RNG产生更多的1或者更多的0,依指令而定。

现代的RNG电路通常选自两种随机信号源之一,或者是采用电子噪声或者是放射衰变时间。两种都是物理信号源,通过适当的电路设计,可以在不可预期的时候产生电子脉冲。这些每秒达数千个的随机脉冲与每秒1000万次震荡的石英控制精确时钟叠加后,就得到一组随机顺序的比特值。

在随机脉冲打断时钟的时候,时钟所处状态(“1”或“0”),便是一个随机比特。再用低于每秒1000万次的频率采样,比方每秒1000个随机脉冲,就得到每秒1000个或1或0的真正随机序列。RNG与微机相联,记录每秒1000比特的随机序列丝毫不成问题。

在实验中参试者常常通过数码显示、声音反馈、微机图像或机器手的动作及时掌握随机事件的动态分布情况。29 大多数的现代RNG在技术上都很先进,具有电磁屏蔽、自动防故障系统、全自动数据记录等特征。30


关于随机性

RNG实验有时也叫“微观精神致动”实验,这是指心-物作用的规模很小。为什么要采用微观的随机系统作为实验目标,而不用金属棒等稳定的宏观物体呢?若是精神可以影响物质,为何不直接观察该效应呢?比如意念弯勺子,就用不着统计。这要从四点上予以回答。首先,诸多的实验经验证明,想在非生命系统中观测大规模的心-物作用极为困难。倒也有一些案例,但基本上属于传闻,或者得自于非严格的受控条件之下。其次,即使是重物或钟摆等稳定的宏观系统,微观上也处在涨落之中,所以任何精密实验说到底仍是建立在统计基础上。其三,RNG实验的目的在于改进以往的骰子实验,并非着意要看大规模的效应。其四,从心理学角度看,精神影响随机系统要比影响大的物体更“容易”,因为前者勿需违反物理学的守恒定律。随机物理系统的行为不是取决单个事件,而是依赖于整个系统的集体行为。

最后一点很重要。这使得单个事件异常而不致于影响整个系统。因为大多数的RNG实验只在短期时间内收集数据,在这期间有可能出现异常而并不必违背RNG的长期稳定性。自打以统计为基础的物理学理论(如量子力学、随机电动力学、统计力学和热力学等)出现后,人们已经认识到物理定律的基础是统计,是基于事件的趋势,而非确定性。所以在绝对意义上并不会“违反定律”。非常事件,比如说溶在一杯咔啡中的奶粉自动集聚,虽说反常,但在物理意义上并非不可能。

RNG相比骰子的最大优点是能够完全自动地运行,数据的采集和分析都很快。此外,一些RNG的随机信号源自身建立在量子力学的不确定性基础之上。这使物理学家能够从量子力学的角度探讨系统中的观察者效应,在我们则称之为微观精神致动。现代RNG实验肇始于物理学家赫尔穆特·施密特,从60年代起他就在波音实验室着手有关研究。31 事实上今天所有的RNG实验都建立在施密特当年的思路之上,只是包括显示、一次一次的反馈以及数据的存储和分析做到了完全自动化。这就防止了实验者不留意弄错了数据,也使实验者本人可以自行参加实验而不必担心自己的倾向影响结果。


整合分析

假如某台RNG产生的是随机的或0或1的序列,按照零假设(即不存在心-物作用)这相当于50%的击中率。如果一组相似的RNG实验得出的平均结果高于50%,而且显著超过概率,我们就能肯定这中间有东西。

1987年,普林斯顿大学心理学家罗杰·尼尔森和我一起就RNG实验做了全面的整合分析。30 整合分析的所有实验都在问同一个问题:电子RNG的输出是否与事前指定观察者的意念方向相关?若是实验的输出与意念一致,击中率便会高于50%。若是相反,那么击中率便低于50%。而概率期望值是精确的50%。

整合分析

1989年,心理学家戴安娜·费拉利和当时仍在普林斯顿大学的我,一起就骰子实验中的心-物作用证据进行了整合分析。24分析所要回答的问题是:意念能否使骰子摇出来之后某个面向上?

正如所有整合分析,首先要找出所有实验,否则便容易由于个人倾向而只看“好”的实验,把“坏”的弃之不顾。我们查阅了所有相关英文杂志上直至1989年为止的骰子实验,25然后记下每次实验的受试者人数、确定的骰子点数、掷出骰子次数,等等。再根据这些信息换算成50%的等效击中率。此外,再分析每项实验,看其包含有13项质量标准中的哪几项,这些标准包括是否是自动记录、是否有监察者在场、是否做了对照实验。26

我们的文献检索一共找到73篇论文,这是从1935-1987年之间52位研究者的工作。在半个多世纪里,共有2569个人在148次实验里做了260万次意念干预骰子的测试,不加意念的对照实验做了31次,共掷骰子15万余次。每项实验中掷骰子的次数少则60次,多则24万次;受试者的人数少则1 人,多则393人。

图8.1按年份汇总了骰子实验结果。对照实验的整体击中率(即无人影响骰子)为50.02%,置信区间位于概率期望之中,事件巧合发生率为1/2。而对所有的意念作用实验,整体击中率为51.2%。看上去似乎不起眼,但从统计上来看,该结果的巧合发生概率只有十亿分之一。


图8.1. 按年份汇总的掷骰子实验的50%等效击中率,95%的置信区间。对于一年仅有一次实验的情况,图上只标出一个没有置信区间的点。最右边是综合后的整体击中率。


回应批评意见

前面已然看到,对于综合实验结果得出的整体效应,有人总说那只反映极少数研究者的结果。每位研究者所做骰子实验次数是在1-21次之间,绝大多数人(64%)只报道了1至2项实验。为检验这条批评,我们只把报道实验次数3次以下的25位研究者的实验(共42项)合在一起看其自然发生率。所得结果仍然非常显著,巧合发生的概率为10亿分之一。所以整体成功并非由于少数几位研究者。

但也可能整体击中率被少数几个特别实验给夸大了呢,而它们又含有某些漏洞?为检查这种说法,我们采用标准的规整程序删去“异常”实验,就象侯诺顿与费拉利对预测所作的整合分析一样。27结果显示在148项实验中,需要删去其中的52项(35%)以使结果均匀化。35%的这些异常数据可以与物理科学相比,在某些情况下后者需删除的可能高达45%(如第4章的讨论)。在剩下来的96项实验中所观察到的整体效应与自然概率相比较,巧合发生的概率为300万分之一。所以,即使删去异常数据,实验效应仍然是可以独立重复的,在96项实验中重复性地看到同样的效应。

或者因为成功实验要比实验效应不显著的更易于发表?为了评价非显著实验所带来的“文件柜”效应,我们算了一下需要多少项未发表的、非显著实验才能使观察结果的事件发生率高过1/20。相对已发表实验,要有17,974篇未发表实验。即对应每项实验各要有121项隐匿的不成功实验。这也就是要参预实验的52位研究者每月都做一项不显著而未发表的实验,连续做28年。这显然不可能,选择性报道解释不了上述结果。


研究质量

有些批评者说,新一代特异功能研究者总是从零开始,不能继承前人工作。这条意见常用来批判超心理学是伪科学,因为它不象“真科学”在研究方面具有连续性。28只要看看实验研究质量是否随时间发生变化就能对这条批评作出检验。怀疑者认为实验质量不会改变,因为荒谬的伪科学家是不会关心过去的实验以及相应的批评意见。图8.2显示了检查结果,趋势不为零,上升势头明显,该结果巧合发生的概率为1/1,000,000。可见后期的研究者们的确参考了此前的批评。


图8.2.骰子实验质量随着时间显著改善,该结果巧合发生的概率为1/1,000,000。

怀疑者还认为当实验质量提高以后,实验效应就会下降。按他们的设想,只有做“完美的”实验,才能反映真实情况,而这时特异功能不存在。我们检验了这个说法,考查各年的研究质量与击中率之间存在什么关系。我们发现两者之间基本不相关,所以此条批评并不成立。


对骰子面的分析

早在20世纪30年代,莱因及其同事认识就到,某些骰子实验可能存在着问题,骰子各个面的出现几率未必一致。因为骰子上的点数是挖出来的,有些骰子获得6点的概率要高于1点。由于在6点的这个面上挖了6个孔,这个面就比别的面稍轻一点。如果随机地掷骰子,质量上的这一点差别就使得6点这个面更容易冲上,接下来依次是5、4、3、2、1几个面。所以若是实验中完全锁定6点作为目标,实验就有问题,除非做了不加意念的对照实验,否则就不知道高过概率的结果算是心-物作用,或者只是因为出现6点的概率更大。

为了看清在骰子实验中是否存在这个问题,我们仔细地检查了实验数据,分别计算在实验及对照条件下6个面的击中率各为多少。果然发现了差异,如图8.3所示。不论是在实验条件下还是对照条件下击中率的变化趋势都是从1逐步上升到6。但是,在实验条件下的击中率大多高过对照条件,这说明除开上面的因素之外还另有原因。比如,在实验条件得到6点的机会明显地高于对照条件,该结果巧合发生的概率为1/5,000。

正因为知道骰子的各个面略有不同,我们专门分析了施加控制的一组实验──采取了专门措施保证骰子各面出现机会相同。我们称之为经方案“校正”的实验。

符合方案校正标准的实验共有69项。从中得出三点结论:仍然表现出极显著的心-物作用,结果巧合发生的概率仅为一万亿分之一;无论实验质量如何评价,效应保持恒定;假如存在“文件柜效应”,需要有20倍的未发表非显著实验。所以巧合、实验质量、选择性报道都无从解释实验结果。


图8.3. 实验及对照条件下骰子的点数与击中率之间的关系。误差范围为65%的置信区间。

 

这些惊人的结果理应激发所有心理学家们的兴趣。在后面的7项实验中,发送者与接收者之间相隔着厚厚的一堵墙,但依然取得了惊人结果。