|
||||
第21章 直觉判断与公式运算,孰优孰劣?思考,快与慢 作者:丹尼尔·卡尼曼 |
||||
保罗·米尔(Paul Meehl)是个性格奇特而又超凡脱俗的人,是20世纪最有才华的心理学家之一。他曾在明尼苏达大学的心理学系、法学系、精神病学系、神经病学系以及哲学系任教,同时写了宗教、政治科学方面的文章,还曾经研究过老鼠。米尔习惯用统计数字说话,经验丰富,曾对临床心理学的空洞言论大加批评,在精神分析方面有过实践。他写过一些论述心理学研究的哲学基础的文章,这些文章很有思想,我在读研究生时几乎能把它们全部背下来。我从来没见过米尔,但自从我读了他的那本《临床与统计的预测:理论分析与事实回顾》(Clinical vs. Statistical Prediction:A Theoretical Analysis and a Review of the Evidence)后,他便成了我心目中的一位英雄。 在这本他后来称为“让我烦恼的小书”的薄册子里,米尔回顾了20项研究结果,这些结果分析了以经过训练的专业人士主观印象为基础的“临床预测”,是否比按某种规则将一些分数或等级评定结合在一起作出的“统计”预测更准确。在一项典型的研究中,经过训练的辅导员预测了新生在学年末的成绩。他们与每个学生进行了45分钟的谈话,还参考了他们高中时的成绩、几次能力测试加上一份4页长的学生的个人陈述。数据统计的方法则只采用了其中的一小部分信息,即高中成绩和能力测试。然而,应用数据统计方法得出的结果要比14名辅导员中11个的预测都准确。米尔综合其他多种预测结果得出了相似的结论,这些预测包括违反假释程序、飞行员的成功训练以及刑事累犯情况等。 不出所料,米尔的著作在临床心理学家中引起了震惊和质疑,这一争议引发了一股研究大潮,自该书出版至今50余载,这股大潮还在继续。将临床预测和统计预测进行对比的研究报告大约已有200篇,然而两者的对峙依然没有分出胜负。大约60%的研究指出,运算手法更准确。其余的比较研究认为两者准确性相近,但似乎数据统计方法更胜一筹,因为它比人工判断的成本低。至今还没有令人信服的例外情况记录在案。 预测结果的范围已经延伸到了医学的可变因素,比如癌症病人的寿命、住院时间、心脏病的诊断以及婴儿对猝死综合征的敏感性;经济措施,比如新企业的成功前景、银行对信用危机的评估、员工对未来职业的满意度;政府机构所关心的问题,比如收养人的适合条件评估、少年累犯的可能性以及其他暴力行为发生的可能性;还有一些混合结果评估,比如科学报告的评估、橄榄球比赛的胜负预测以及波尔多酒的价格预测。这些领域都有很强的不确定性和不可预见性。我们将其称为“有效性低的环境”。在这些情况下,专家预测的准确性与简单的运算得到的结果相当,甚至还要低于简单运算的结果。 在该书出版30年后,米尔自信而骄傲地说:“在社会科学中,还没有哪一项研究像这项一样,众多研究虽定性不同,结果却都一致地指向同一个方向,这一点是毫无争议的。” 专家预测比不上简单运算准确 奥利·阿申菲尔特(Orley Ashenfelter)是普林斯顿大学的经济学家,爱喝葡萄酒。对于简单的统计学方法的力量可以胜过世界著名学者的观点,阿申菲尔特曾经作过一个引人注目的论证。他想通过波尔多酒生产年所提供的相关信息来预测该酒的未来价值。这个问题之所以重要,是因为优质葡萄酒要想达到质量的顶峰需要很多年。出自同一个酒窖的酒,因其年份不同,在价格上有很大差异。生产时间相差12个月的酒,其价值会相差10倍或更多。预测未来价格的一项因素是它的本质价值,因为投资者买酒就像买艺术品一样,都希望它能够增值。 人们通常认为葡萄酒酿造期之所以能够决定酒的好坏是受生长期间天气多样性的影响,温暖干燥的夏季会酿就最好的葡萄酒,因此全球变暖貌似会惠及葡萄酒产业。湿润的春天也会使这一产业受益,这样的天气会在不影响质量的情况下增产。阿申菲尔特通过天气的三个特征—夏季生长期的平均温度、丰收期的降水量以及上一个冬季的总降水量—来估测出葡萄酒的特质及特定的年份,再将这些常识性知识转化成数据公式来预测葡萄酒的价格。他的公式给出了未来几年甚至几十年后的准确价格预测。事实上,他的公式所预测的葡萄酒期货价格比新酒的市价更准确。这个新的“米尔模式”向那些为前期价格定位提供建议的专家的估价能力发起了挑战。它还对经济理论发起了挑战,根据这些理论,价格应该能够反映出所有有用信息,包括天气因素。阿申菲尔特的公式非常精确,预测价格与真实价格的相关系数超过了0.9。 为什么专家预测不如简单运算准确?米尔猜测其中一个原因是这些专家试图变得聪明,总想跳出思维的框框,在预测时会考虑将不同特征进行复杂的结合。复杂化对稀奇古怪的事情是有影响的,但十有八九会降低其正确性,将这些特征简单地整合在一起反而会更好。有几项研究已经表明,即使人们知道公式给出的建议分数,人类决策制定者在面对预测公式时也会自叹弗如。他们认为自己比公式强大,因为人们拥有关于这一问题的其他信息,但他们往往是错的。在米尔看来,在极少数情况下,我们可以利用主观判断,其他时候用判断替代公式并不是个好主意。在一个著名的思维实验中,他描述了一个能够预测某人今晚会不会去看电影的公式,他指出,如果知道此人今天摔断了腿,不用这个公式也罢。于是就有了“断腿原则”。当然,关键问题是断腿的概率太小了,但一旦腿断了,结论也就很明确了。 专家判断不可取的另一个原因,是人们对复杂信息的最终判断很难达成一致。如果有人要求这些专家对同一信息进行两次评估,他们通常会给出不同的答案。这些不一致之处往往正是真正令人关切的地方。一个经验丰富的放射科医师在两个不同的场合看到同一张片子,这两次检查结果在“正常”与“异常”之间会有20%的偏差。一项让101名审计员独立评价企业内部审计业务可靠性的实验也反映出类似的不一致程度。此前曾有过对不同专业人士判断可靠性的41项研究,研究要求审计员、病理学家、心理学家、组织管理者等专业人士回顾自己原来的判断。尽管他们对每个案例的再次评估在几分钟内就完成了,但实验结果还是说明了判断的不一致性非常典型。不可靠的判断使人们对任何事物都不可能作出有效预测。 这种普遍的不一致性很有可能是由于系统1对极端条件的依赖所致。我们从那个主要实验可以得知,在我们的环境中有一种不被注意的刺激物在本质上影响着我们的思想和行为。这种影响会从这一时刻波及下一时刻。在炎热的天气里,短暂的凉风会使你感到心情舒畅,这个时刻无论评估什么都会相对更积极一些。对于一个将要获得假释的犯人来说,在假释审核期间的每一顿饭之间,他都会有很大的变化。由于我们对我们思想中的东西没有一个清晰的认识,我们永远不会知道在周围环境有微小的变化时,我们会作出不一样的判断。公式却不会有这样的问题,输入不变,输出也不会改变。可预见性很差—这是米尔和他的后继者们在研究中得出的—不一致性会破坏任何预测的有效性。 这项研究得出了一个惊人的结论:要提升预测的准确度,最终的结果应由公式给出,在低效的情况下尤其如此。例如,在医学院的学生录取工作中,最终决定一般由面试候选人的老师来做。这一依据是片面的,但他们的推测也有可靠的证据:如果面试官也参与最终的录取工作,面试的过程很可能会降低选拔过程的准确性。这是因为面试官过于相信自己的直觉,他们会很重视个人的喜好而忽略很多其他信息,从而降低了有效性。同样,专家在评估新酒的价格时会品尝酒,这种信息的反面作用大于正面。当然,即使清楚天气对酒质的影响,专家们也无法保证公式那样的一致性。 继米尔的最初研究之后,促进该领域最重要发展的要数罗宾。道斯所发表的著名论文《决定中非正当线性模型的稳定之美》了。社会科学中常用的数据统计分析是按照某一运算法则评估不同的预测因素,这叫做多次回归,且已经被运用于常用软件中。多次回归中体现的逻辑很有说服力:它找到了将各种预测因素权衡后再整合到一起的最理想公式。然而,道斯发现,这种复杂的数据运算没什么用处,人们也可以通过选取一组对于预测结果以及提升价值都很有效的数据作出类似的判断(使用标准数据或者是等级)。一个公式与这些预测因素以同样的权重结合起来预测新事物才有可能像使用多次回归处理原始样本一样取得理想的预测效果。更新研究则更深入地指出:均衡考虑各项预测因素的公式更有优势,因为它们不受样本突变的影响。 这种基于等权原则的计算方案的成功有着重要的实践意义:它可以在不作任何事前统计研究的基础上就能开发出有用的运算方法。这种基于现有数据或者常识的简单等权公式通常可以预测出意义重大的结果。在一个令人难忘的例子中,道斯指出了婚姻的稳定性可以通过一个公式来预测: 做爱的频率减去争吵的频率 你应该不会希望得到的结果是负数。 这个研究的重要结论是,在信封背面构思的一个运算公式通常可以和理想化的公式媲美,与专家的言论相比肯定更胜一筹了。这种逻辑适用于很多领域,从证券投资组合经理对股票的选择,到医生和病人对治疗方式的选择。 一项拯救了千万婴儿的简单运算法堪称对于这项研究的经典应用。妇产科医生清楚地知道,如果婴儿在出生后的几分钟内无法正常呼吸的话,他/她就会有很大的脑损伤甚至夭折的风险。在1953年麻醉学家弗吉尼亚·阿普加(Virginia Apgar)介入之前,内科医生和接生人员一直在用他们的临床经验来判断婴儿是否处于危险状态,不同人员的依据也不尽相同。一些人侧重于观察孩子的呼吸情况,另一些人则观察婴儿的啼哭频率。由于没有一个标准,人们经常错过危险信号,导致许多新生儿不幸夭折。 一天早饭后,一个住院医生问阿普加医生如何对新生儿作系统评估。她回答道:“这很简单,你可以这样做。”阿普加快速写下了5个变量(心率、呼吸、反应、肌肉强度和颜色)以及3个分数(0、1、2分别代表各个变量的稳健度)。阿普加意识到自己可能会有所突破,而且这一突破还可能被应用到所有的产房中,她便开始用这种方法评估每一个出生一分钟的婴儿。一个得到8分以上的婴儿一般是肤色粉红、蠕动、啼哭、面部扭曲并拥有100次以上的脉搏,这样的婴儿外形很好。低于4分的婴儿一般是浑身青紫、肌肉松弛、不爱动且心跳微弱,这样的婴儿需要立即救治。应用了阿普加的评分原则后,产房的护士们终于在判断婴儿情况是否危险的问题上有了一套标准,人们认为这个公式对减少婴儿的夭折率起到了很重要的作用。现在,阿普加的方法依然应用于每一个产房中。阿图尔·甘德(Atul Gawande)近期的著作《一份清单宣言》(A Checklist Manifesto)也介绍了一些其他案例,以说明列表以及简单原则的优点。 让许多业内人士烦恼的运算法 从一开始,很多临床心理学家就不认同米尔的观点,对此持怀疑态度。他们显然幻想过自己有长远预测的能力。我们在深思熟虑后,不难发现这种幻想是如何产生的,也可以理解临床医生为何反对米尔的研究。 证明临床统计可信度低的统计证据与临床医师对自己判断质量的日常体验相悖。经常接触患者的医生对每一个疗程都有其直觉,他们可以预测病人对干预治疗会有什么反应,并猜测下一步会发生什么。很多推测都得到了证实,这显示出临床医师真实的临床诊断能力。 问题是在整个治疗期间,这些正确的判断涉及的都是短期预测,而且是在当面诊疗后作出的预测,这项技能是治疗师经过长期实践得来的。他们失败的任务往往需要对病人的病情作长远的预测。想要做到这一点尤为困难,因为即使是最好的公式也只能是有个大概,临床医师也不可能完全了解,这需要患者多年的反馈,而不仅仅是当时短暂的治疗反馈。然而,临床医师可以出色完成的任务与他们完全不能做的事情之间没有绝对的界限,当然他们自己也是如此认为。他们知道自己有医术,但却不一定知道医术的终极。当然,认为机械地将几个变量整合到一起就会超过人工判断微妙的复杂性的想法对有经验的临床医师来说显然也是错误的。 这场关于临床预测与数据统计预测孰优孰劣的辩论总会涉及伦理道德的范畴。米尔写道,统计方法被那些临床医师批评为“机械化、自动化、附加物、模式化、人工化、不真实、表面化、武断、不完善、无生机、迂腐、片面、无关紧要、武断、数据化、表面化、死板、无前景、学术化、伪科学且很盲目”。相反,临床方法被它的支持者称赞为“灵活、全球化、有意义、正统、精细、统一、机构完整、有规律可循、系统化、丰富、深邃、真实、科学、成熟、准确、生动、正确、自然、可行,以及可以被理解”。 这种观点我们都可以理解。无论是约翰·亨利(John Henry)在山顶上挥锤,还是国际象棋天才盖瑞·卡斯帕罗夫(Garry Kasparov)与计算机“深蓝”的对决,我们总会同情我们人类自己。对通过数理统计来作决定的厌恶情绪影响着人类,这种厌恶源于我们本身对自然事物的偏好以及对人工合成产物的否定。选苹果时,如果有人问我们喜欢有机的苹果还是商业种植的,大多数人都会倾向于“全天然”的那个。即使被告知两者的口味相同、营养相同而且同样卫生,很多人还是会选择有机水果。商人们甚至发现,标签上印有“全天然”或者“不添加防腐剂”时,销量就会增加。 欧洲葡萄酒协会对阿申菲尔特推测波尔多酒价格这一公式的反应表明,业内人士对揭秘专业知识有着强烈的抵触情绪。阿申菲尔特的公式对公众而言是一种福祉:我们原本以为各地的葡萄酒爱好者都会感谢阿申菲尔特,他提出的公式提高了这些人辨别葡萄酒质量的能力,使他们能够分辨哪些葡萄酒多年后会有上乘的品质。然而事实却并非如此,据《纽约时报》报道,法国葡萄酒界对此的表现是在“愤怒和歇斯底里之间”。阿申菲尔特指出一个品酒专家认为他的发现“荒唐可笑”,还有一个人也嘲笑他“就像没有亲自看过电影却对这部电影评头论足”。 作重要决定时,对运算法的偏见就会被放大。米尔指出:“有些临床医师会因一个‘盲目的、机械化的’公式而耽误了可以治疗的病例,这是很可怕的,但我也没有什么好办法来缓和这种令人恐惧的情形。”相反,米尔和其他的运算法支持者激烈争论,如果说运算法在作出重大决定的时候可以减少错误,那么仍旧凭直觉判断就是不道德的。他们的论述有理有据,但却与一个心理学事实背道而驰:对大多数人来说,错误的原因最重要。由于运算法导致婴儿死亡的案例比人为因素造成的悲剧更让人感到悲痛。这种情感强烈程度已经上升到道德取向的层面了。 值得庆幸的是,随着运算法在生活中适用范围的不断扩大,人们也在慢慢接受它。我们在寻找喜欢的书籍或音乐时,会接受软件推荐的选项;我们理所当然地认为人为因素并没有影响信贷限额的决定;我们也越来越习惯那些以简单的运算法形式出现的指导方针,比如说我们应该努力将有益和有害的胆固醇水平维持在什么比例。公众现在已经意识到,在体育界公式能比人做得更好:一个职业球队该给新队员开多少薪水,或者在第四节的什么时候该踢凌空球。随着运算法使用范围的扩大,大多数人第一次接触米尔在他那本“让我烦恼的小书”中提到的结果模式时,他们的不适应感最终必将会降低。 “闭上眼睛”的直觉判断比主观判断更可取 1955年,作为以色列国防军中一个21岁的陆军中尉,我接受指派为全军建立一套测试系统。你也许会惊讶为什么会将如此重任交给我这么年轻的人,但请记住,以色列当时建国才7年,国内所有的机构都在筹建当中,必须有人去建设。今天听来有些奇怪,我的心理学学士学位竟然能够证明我有能力成为军中最训练有素的心理学家。我的顶头上司是一个才华横溢的研究者,他拥有化学学士学位。 当我接到任务时,例行面试已经准备就绪。每一个入伍的士兵都要完成一系列心理素质测试,对那些有作战任务的士兵要进行个性评估。我们的目标是要给这些新兵对作战适应性打一个分,并在步兵、炮兵、装甲兵等兵种中给他们选择一个最适合他们个性的兵种。面试官们本身也是新兵,之所以被选中做面试官是因为她们智商高,喜欢与人打交道,她们中的大多数人是当时不必参战的女兵。经过几周培训后,她们学会如何安排一个15~20分钟的面试,培训人员还鼓励她们要覆盖多个话题,而且要尽量对被测试者日后在军中的表现情况形成一个整体的印象。 不幸的是,接下来的评估已经显示这种测试过程对预测新兵日后成功与否毫无用处。于是他们要求我设计一个更有用但不会更耗时的测试。他们还要求我设计新的面试方法,并评估这个方法的准确性。从专业角度来讲,这些任务的难度与让我建一座横跨亚马孙河的大桥差不多。 幸运的是,我读过保罗·米尔那本一年前出版发行的“小书”。我很相信书中的论证,认为简单的运算法优于临床的直觉判断。我总结出,当前的面试之所以失败,部分原因是它允许面试者按照个人的喜好作决定,这个决定会因面试者的心理活动而发生一些变动。相反,我们应该用限时的项目来获得受试者在正常环境下更具体的信息。我从米尔那里还学到了我们应该摒弃这种用面试者的整体评估来给新兵打分的方法。米尔的书中指出这种评估不值得相信,而运算法从分散的评价中得出的结果则更有价值。 我决定采用这样的过程,面试者要评估几项相关个性特征,为每项单独打分。最后的作战适应性结果由计算机根据一个特定的公式给出,面试者不干预。我列了一个表格,其中包含与作战表现相关的6个特点,包括责任心、社交能力以及男子气概等。之后我再针对每个特点整理出一系列关于他们入伍之前生活的问题,例如之前做过几份工作、工作和学习时是否准时、和朋友交往的频率,以及他的兴趣爱好和参加过的运动等。这便使我能尽量客观地从每个角度对新兵进行评估。 通过这些标准化的真实问题,我希望能够排除光环效应,排除人们喜好的第一印象对判断结果的影响。为了进一步预防各种光环的影响,我要求面试官依照固定的顺序去测试这6个特点,在测试下一个特点之前要对前一个特点按5分制打分。我告诉他们不要为新兵在部队的未来发展操心。他们唯一的工作就是找出与新兵的过去相关的信息并以此来给每一个特性打分。“你们的作用就是提供可靠的测定值,”我说,“处理预测有效性的工作让我来。”我这句话的意思是我要用公式来整合他们的具体得分。 面试官们齐声抗议这种安排。这些优秀的年轻人对我这个和他们差不多大的中尉的命令有点不情愿,毕竟这样的要求禁止他们运用直觉,将注意力完全放在一些无聊的真实问题上。其中一个人抱怨说:“你在把我们变成机器人吧!”所以我妥协了,“按照要求进行测试吧,”我说,“请完全按照要求来进行测试,测试完后,就像许愿那样闭上眼睛,将新兵想象成一个战士,并给他打分。 我们对几百次面试都采用了这个新方法。数月之后,我们收集了新兵指挥中心对他们表现的评价,这使我们很欣喜。正如米尔的书中提到的那样,新的测试过程比原来的过程有质的飞跃。虽然离完美还有一定差距,但6项指标整合起来作出的预测比之前的整体评估要准确得多。我们已经从“徒劳”进步到了“有效”。 面试官“闭上眼睛”后的直觉判断也很准确,甚至和整合6项指标得到的运算结果一样准确,这是我最为惊喜的地方。我从这一发现中学到了毕生难忘的一课:即使是不那么正规严肃的遴选面试,直觉也会起到积极作用,当然前提是按照规定收集客观信息并对不同特性进行独立评分。我建立了一个给予“闭眼”评估和整合6项指标同等权重的公式。从这件事中我学到一个普遍规律:不要简单地相信直觉判断—无论是你自己的还是他人的—但也不要完全抛开它。 45年后,我获得了诺贝尔经济学奖,在以色列一时间也小有名气。在一次访问中,一些人想带我看看旧时服役的军事基地,那里依然矗立着测试新兵的房子。有人把我介绍给心理组的司令部官员,她向我介绍了目前的测试方法,和我当时设计的没有什么两样。在那里,大量研究显示该测试依然有效。最后在介绍如何引导面试官时,她补充道:“我们告诉他们,‘闭上你们的眼睛’。” 本章的内容已经在部队人力测试以外的项目中也得到了应用。按照米尔和道斯的原则进行的测试过程相对来说不怎么费力,但却相当严格。设想你要为你的公司招聘一名销售人员。如果真的想选择最合适的人选,那么你应该这样做:首先,选择一些这个岗位要求的先决条件(比如技能熟练程度、个性稳重程度、可靠性等)。不要列太多,6个左右即可。这些条件最好相对独立,同时要保证你通过一个问题就能够对这几个条件进行评估。下一步就是为每个条件都列出一些问题,并想好如何对其进行评估,分数为1~5分。你应该清楚什么情况“最弱”,什么情况“最强”。 作这些准备大约需要半个小时,这种很小的投入能保证你招聘到的员工的质量。为了避免光环效应,你必须在一定时间内完成某一个特性的信息采集并对其打分,之后才能测试下一个。不要越过某个特性去测其他项目。评估每个候选者时,要将这6项评分累加起来。由于你要负责作出最终决定,那就不要“闭眼”测试了。即使你认为其他候选人更合适,也一定要雇用那个得分最高的人—请尽量克制自己创造“断腿”机会改变排位的想法。大量的研究可以向你保证:只要按照该过程操作,你就能找到最合适的人选。这比人们通常用的那些没有准备就开始面试,并依靠“我看到了他深邃的眼神,我喜欢自己看到的一切“这类主观判断要好得多。 示例——人工判断和公式运算 “不管何时,只要公式能替代人工判断,我们至少应该考虑一下(运算法)。” “他认为自己的判断既缜密又微妙,但实际上把一些分数简单地整合在一起也许会更胜一筹。” “我们应该事先考虑清楚自己有多重视这些候选者以往的表现,否则,对他们的第一印象会对我们产生过多的影响。” |
||||
上一章:第20章 | 下一章:第22章 |
邮箱:yuedusg@foxmail.com Copyright@2016-2026 文学吧 |