雷音寺与凌霄殿的纠纷——匹配回归显神通

大侦探经济学  作者:李井奎

在《西游记》的世界里,存在着部分佛道之争的影子,他们争的是人们精神世界的统治地位。

东方道教的代表当然是玉皇大帝和太上老君,他们创立了一个学院,名叫“东方凌霄殿学院”。那些底层的一心想着长生不老、位列仙班的修炼者,可以进入这个学院修读。

西天佛教那边也是一样,如来佛祖和观世音菩萨也创立了一个学院,名叫“西天雷音寺学院”,那些同样想长生不老、修成正果的修炼者,也可以进入到这个学院学习。

修炼到一定年头后,天地之间有一个“宇宙大爆炸”考试,修炼者都需要通过这个考试,才能获得成仙成佛的资格。这个考试每隔一段时间就会安排一次,考试结果却是连玉皇大帝和如来佛祖都无法预料的。因为这个考试在宇宙大爆炸之前就已经存在,玉皇大帝和如来佛祖也奈何它不得。一个修炼者,考过了,就可以获得仙佛资格证;考不过,拿不到仙佛资格证,吃多少蟠桃和仙丹都白搭。而且,每一个修炼者一辈子只有一次参加这个考试的机会,大家都很重视,这也使得玉帝和如来在招生问题上经常爆发抢人大战。

这天,齐天大圣孙悟空正在花果山水帘洞中安睡,突然他的手下哼哈二将走了进来。

哼将军拿了一把菩提叶,上面写满了梵文。他对孙悟空说道:“大圣,山下最近很热闹,都是发小广告的。这是西天雷音寺学院最近这一段时间发来的小广告,上面说,上了西天雷音寺学院,包你在大爆炸考试中妥妥过关。咱们这西边山上的猴群里,昨天接到了这些小广告,都跑过来向我辞行,想去西天雷音寺学院学习去。”

这时候哈将军拿出了一卷黄表纸,上面画满了符咒。他禀报道:“大圣,我这边的情况和哼将军那边大致不差,最近也是一大堆发小广告的。你看,这都是东方凌霄殿学院发来的,他们宣称上了东方凌霄殿学院,大爆炸考试就是小菜一碟。咱们这东边山上的猴群有不少猴兄猴弟猴姐猴妹接到这个小广告的,也都表示希望去东方凌霄殿学院学习。”

大圣一听,这猴群的心可不能散,于是命令哼哈二将,召集大家一起到水帘洞聚义厅中议事。在开会之前,大圣又向哼哈二将耳语了几句,他们二人点头领命而去。

等大圣来到聚义厅里的时候,猴子们已经吵得不可开交。东山的猴子说上东方凌霄殿学院好,那里有太上老君、灵宝道君、清虚道德真君等人授课,这些人可都是个顶个的修道界高人,肯定能让修炼者在宇宙大爆炸考试中考好。

西山的猴子也不示弱,他们大夸西天雷音寺学院好,授课的老师里不仅有观世音菩萨,还有弥勒佛、灵吉菩萨等人,他们都是佛法无边的高人,自然能让修炼者顺利通过宇宙大爆炸考试。

双方各执一词,谁也说服不了谁。最后,他们只能请大圣来定夺哪一个学院更好。

这时候,一个老猴精走上台去,对众人说道:“这件事要分辨清楚又有何难?你们没听说咱们大王之前在天宫里,使用随机实验的办法搞清楚了仙丹和蟠桃的长生效果那件大案吗?现在整个天地都知道这件事了。我们同样可以用随机实验来回答你们的争论。”

众猴听他这么一说,忙问如何才能得到答案。只听这个老猴精悠悠说道:“我们只需要在你们当中用抽签的方式,确定让100只猴子去上西天雷音寺学院,100只猴子去上东方凌霄殿学院。等你们学满时间,再去一起参加宇宙大爆炸的考试,哪边考过的猴子数多,哪边的学院就是最好的。”

众猴一听,却都沉默不语。一来,因为这宇宙大爆炸考试,每个修道者只能考这么一回,考不上这辈子就不用再想成仙成佛的事情了,谁也不愿意拿自己这辈子唯一一次机会冒这个风险。再者,这种实验把每个猴子都当成小白鼠,可花果山上的猴子们都是兄弟姐妹,做这样的实验,大家在道德上都感到过不去。

齐天大圣笑道:“老猴精虽然说得不错,但这个实验如何使得?其实,要想知道这两个学院对考试通过率的影响有没有差别,我们还有一种方法。这种方法不是面对实验数据的,而是面对观测数据的。实验数据是通过做实验才能收集到的数据,数据的变异性是通过人为操纵产生的,比如经由随机分配的方法把实验对象分入干预组和对照组,通过比较实验结果数据的差异确定一项干预政策的因果效应。但观测数据却不是这样,它是从现实世界中搜集到的数据,本身并没有谁刻意地按照研究人员的意图进行操纵而生成的数据。所以,观测数据往往只能反映出不同变量之间的某种关联,到底这种关联是谁引起了谁,还是同时依赖第三方的条件而变化,观测数据不能直接告诉我们答案。”

老猴精面露大惑不解之色,张口问道:“大王,我们想知道上哪个学院才能更有助于考过宇宙大爆炸考试,这里面牵涉两个变量:一个变量是考试通过率,一个变量是上哪所学院,我们想知道上哪所学院是否对考试通过率有因果效应上的差别。如果观测数据无法回答这种因果关系,那么,它对解决我们今天的争论又有什么用处呢?”

大圣笑道:“老猴精你是只知其一,不知其二。若是随机分配实验这条路走不通,还有一些计量工具也可以大体上像真实实验一样,从观测数据中找出因果关系来。这些工具中最基本的就是回归方法,它可以让我们在具有相同可观测特征的处理组和控制组之间进行比较,而且这个回归的概念非常根本,它为其他那些将会使用到的复杂工具铺平了道路。基于回归进行因果推断,有一个前提假设,那就是研究人员可以把所有实验对象的特征都观察到,而当处理组和控制组在可观察到的关键变量上都一样的时候,因这些因素造成的我们观察不到的选择性偏误基本上就能得到消除,这样,干预政策的因果关系就可以得到确证。”

说话间,有猴来报:“报告大王!哼哈二位将军已经回来,他们让我报告大王,他们带回来了很多观测数据,包括自盘古开天辟地以来参加两个学院的所有考生的全部个人信息。”大圣命众猴一起出去,帮忙把这些数据抬回水帘洞。

这批数据是哼哈二将从每个修炼者处拿到的所有个人信息,不仅包括他们个人的各项特征,比如曾在哪个地区修炼,本身是何种动物出身,以及其他社会关系等信息,这里面还包括最为重要的两个变量的信息:一是他们当初曾经向两个学院投递入学申请以及是否得到录取的情况信息,二是他们的考试结果信息。

大圣命哼哈二将将满足以下条件的修炼者信息挑选出来:这些修炼者向两个学院都递交了入学申请,且都被录取,当然,最后他们只能上其中的一所学院,然后参加了宇宙大爆炸考试,取得了考试结果。哼哈二将命令众猴从诸多修炼者中进行查找,找到了这样的修炼者多达数万。然后,大圣又命他们二人去看这些人为什么去选了其中一所而不是另一所学院就读。结果,哼哈二将发现这些修道者之所以选择其中某一个学院就读,除了地域、种群等可以观察到的因素之外,完全出于随机。有的修炼者说,我当时就是扔一块石头,看掉在地上摔成几瓣,若是奇数就去东方,若是偶数就去西天;有的说完全看心情;有的更奇葩,说本来想去东方,结果走了几步被蚂蚁咬了一口,觉得不高兴了,然后折返去了西天。这些原因真是五花八门。

于是,大圣命哼哈二将根据修炼者地域、族群、修炼时间等可以观察到的特征,把去往西天雷音寺学院的修炼者和去往东方凌霄殿学院的修炼者分成许多小群。比如第一小群,修炼者都来自东海,族群都是龙族,修炼时间都是1 000年,共得500人。这个小群又分成了两组,一组就读于雷音寺学院,为250人;一组就读于凌霄殿学院,也是250人。再来看第二小群,修炼者也都是来自东海,族群是东海渔民,修炼时间500年,同样这个小群里也是分为就读于雷音寺学院的一组和就读于凌霄殿学院的一组。如此等等。

这个分群分组工作量很大,但哼哈二将工作效率极高,还是很快把这些分群和分组都做好了。在大圣的指导下,接下来他们的工作就是计算各个小群中每组的考试通过人数,等所有小组都计算完毕之后,再根据各个小组人数所占总人数的比例来做加权的权重,最后终于得出了结果。

哼哈二将拿到结果来到水帘洞,禀报大圣之后,开始宣布答案:他们发现,入西天雷音寺学院就读的修炼者,总人数虽然比到东方凌霄殿学院就读的修炼者少30%,但是双方在宇宙大爆炸考试中的通过率却是基本一致。

谜底揭晓,大家感觉原来两个学院虽然总就读人数不一样,但考试通过率却没有差别,那去哪一所学院学习也就无所谓了。

老猴精此时若有所思,喃喃道:“我终于猜出大圣的意思了。大圣使用可以观察到的这些个体修炼者的特征,尽可能地在相同特征下把修炼者匹配起来,然后分为两组,一组去雷音寺学院,一组去凌霄殿学院。而在相同的特征下,他们去到那个学院,又是完全随机的。这就相当于保持了其他特征不变,随机分配了修炼者到两组之中。基本思想与随机实验相同,但却巧妙地利用了回归的思想。看来这回归的意思,就是‘保持其他条件不变’呀!”

想到此处,老猴精不禁抚掌大笑,连呼妙绝!

“回归”(regression)这个词是查尔斯·达尔文的表弟弗朗西斯·高尔顿爵士(Sir Francis Galton)在1886年发明的。

也许是受他表兄的影响,高尔顿一直希望把达尔文的进化论思想应用到人类的性状变异研究中,他的研究涉猎范围很广,从指纹到美的特性无所不窥。而且,他还希望使用达尔文的理论进行人种改良,这种工作当然不会取得什么进展。但高尔顿在理论统计学方面的研究,确实对社会科学产生了深远的影响,为定量社会科学研究奠定了统计学基础。

1886年,高尔顿发表了一篇名为“遗传身高向平均值方向的回归”的文章[Galton, Francis. 1886.“Regression towards Mediocrity in Hereditary Stature.”Journal of the Anthropological Institute of Great Britain and Ireland, Vol. 15: 246-63.],他发现,可以用回归方程把父亲与儿子的平均身高联系起来。这当中还蕴含着一个有趣的现象,那就是:比平均身高更高的父母,其子女的身高一般会比他们矮一些;但比平均身高低的父母,其子女的身高往往要更高一些。高尔顿把这种特性称为“均值回归”(Regression to the Mean),均值回归并不是一种因果关系,仅仅是具有相互关联的变量组的一种统计属性。虽然父母和子女的身高永远不会完全相同,但其频率分布基本不变,正是这种分布的稳定性产生了高尔顿回归。

今天,我们把回归视为一种统计方法,它的主要特点是通过控制其他可以观察到的变量,而使一项干预政策效果的比较更具可比性,这就相当于是保持了其他条件不变,我们可以观察这项干预政策所产生的效果如何。高尔顿似乎并不感兴趣于把回归看成是一种控制策略,最先赋予回归这种统计意义的人是乔治·尤尔(George Udny Yule)。算起来,尤尔算是高尔顿的徒孙,因为他的老师、著名统计学家皮尔逊是高尔顿的学生。

尤尔对当时英国的《济贫法》很感兴趣。他想知道,只是为穷人提供金钱救济,却不要求他们承担义务,这种做法是否提高了所在郡县的贫困率。他使用回归控制了这些郡县的人口增长和年龄分布等其他特征,研究了这个问题。应该说,尤尔已经有意识地把这个问题作为一个因果性问题在加以对待了。

后来,法国数学家勒让德和高斯发明了最小二乘法,进一步使回归这个统计学方法流行开来。

上一章:仙丹、... 下一章:通天河...
网站所有作品均由网友搜集共同更新,仅供读者预览,如果喜欢请购买正版图书!如有侵犯版权,请来信告知,本站立即予以处理。
邮箱:yuedusg@foxmail.com
Copyright@2016-2026 文学吧