第18章 如何让直觉性预测更恰当有效?

思考,快与慢  作者:丹尼尔·卡尼曼

生活中,许多场合都会用到预测。经济学家预测通货膨胀和失业率,财务分析师预测收益,军事专家预测伤亡人数,风险资本家预测利润率,出版商和生产商预测读者和消费人群,承包商预测项目完成所需的时间,工程师预测建造某建筑需要的水泥量,火场指挥员预测扑灭大火所需的消防车数量。一些私人问题同样需要用到预测,我们预测恋人在自己求婚时的反应,预测在新工作中需要作的自我调节。

有些预测判断,比如那些工程师所作的预测,主要就是通过查找表格、精确计算以及对类似项目的结果进行仔细分析得来的。还有一些预测则需要直觉和系统1的共同参与,主要有两种类型。有些直觉主要依靠反复训练得来的技能和经验。加里·克莱因在《力量的源泉》(Source of Power)一书中及其他场合曾提到过象棋高手、火场指挥员和内科医生所作的快速自动判断及选择,用以阐释这种经验性直觉,即由于识别出熟悉的线索,大脑中快速呈现出当前问题的解决方案。

还有些直觉有时从一开始就难以从主观上进行区分。这种直觉受启发法的影响,通常会用简单的问题来替代难以回答的问题。即使证据很不充分,决定亦不可更改,人们依此作出直觉性判断时往往也会信心十足。当然,许多判断,特别是专业领域的判断,受到了分析与直觉的共同影响。

偏离预测方向的直觉

让我们再来看看下面这个老问题:

朱莉现在是一名州立大学4年级的学生。她4岁就能流畅地进行阅读。她的平均绩点(GPA)是多少?

熟悉美国教育体制的人很快就能得出一个数字,且这个数字通常在3.7或3.8左右。为什么呢?原因在于,系统1的几个机制共同参与了预测。

·人们会探寻证据(朱莉的阅读能力)与预测目标(她的平均绩点)之间是否存在因果关系。这种关系可能不是直接的。在这个例子中,很小就能阅读与较好的平均绩点都是学术天分的表现,必然会存在某种联系。你(你的系统2)可能会否定朱莉在高中曾经赢得钓鱼比赛或是在举重比赛中表现良好的说法。这个过程被有效地一分为二。系统1能够摒弃那些无关或是错误的信息,但却无法弥补证据中相对较小的瑕疵。因此,直觉性预测对证据的实际预测结果几乎毫无感觉。一旦发现某种关联,例如朱莉很小时就能阅读,眼见即为事实原则就会发挥作用:你的联想记忆会快速自动地运用可利用信息编出最恰当的故事。

·另外,证据的评估与相关规范联系紧密。4岁时阅读能力就很强的孩子早熟吗?什么样的名次或者说百分制下得多少分才能与这样的能力相符?与这个孩子作比较的人群(我们称之为参照人群)也没能明确说明这一点,但与我们平时说话所遵循的规则相同。如果即将毕业于这所大学的某个人被赞为“相当聪明”,你几乎不必问:“当你说他‘相当聪明’时,脑子里想到的是哪些参照人群呢?”

·下一部分包括替代和快速配对。对于儿童时期认知能力这个并不周密的证据进行评估的问题被替换成关于她大学平均绩点问题的答案。朱莉的平均绩点和她小时候就能阅读这项能力的百分比值是相同的。

·这个问题明确规定答案必须在平均绩点的范围内,这也就要求另一个强度匹配的运作,即将你对朱莉的学术成就的总体印象与能证明她本人天赋的平均绩点这一证据匹配起来。最后的步骤是转化,将你对朱莉学术水准的印象转化为相应的平均绩点。

通过强度匹配得到的预测结果与支持这个预测的证据一样极端,会导致人们面对两个不同的问题却给出相同的答案:

朱莉的早期阅读能力成绩是多少(百分制)?

朱莉的平均绩点是多少(百分制)?

到目前为止,你应该很容易就能看出所有这些运作都是系统1的特点,我按照不同步骤依次将它们列在这里,当然联想记忆的大量激活并不遵循这一顺序。你应该将这种记忆大量激活的过程想象为以下几步:由信息和问题激发起联想记忆,然后自我反馈,最后选定最具连贯性的合理性方案。

我与阿莫斯曾经在一个实验中要求受试者对8位大学新生的相关描述作出判断,这个描述是由一名辅导老师根据对新班级的访谈而写成的。每个描述由5个形容词组成,如下例所示:

聪明、自信、笃学、勤奋、好问

我们问了受试者下面两个问题:

这个描述对你关于学术能力的想法有多大影响?

你认为这些关于新生的描述令你印象深刻的可能性有多大(百分制)?

这两个问题要求你根据自己的标准对新生进行描述,将自己的描述与辅导老师的描述进行对比,进而评估上述描述。你自身的评判标准存在着重大影响。虽然你根本不知道自己如何形成这一评判标准的,但你对这条描述承载的热情程度非常清楚:辅导老师认为这个学生是优秀的,但还算不上是最棒的,因为我们还有很多比“聪明”程度更深的形容词(杰出、有创造力),也有很多比“笃学”程度更深的词(博学的、渊博的),更有许多程度超过“勤奋”的形容词(积极的、力求完美的)。由此可以推测,(该生)成绩很有可能在前15%,但不太可能在前3%。人们在类似的判断中得到的结果出奇地一致,至少在相同文化背景的人群中是这样。

我们问了实验中另一组受试者不同的问题:

你估计这个学生的平均绩点是多少?

新生中取得较高平均绩点的学生占多大比例?

你需要再三思考才能看出这两组问题的微小差别。这种不同本该很明显,但事实却并非如此。第一组问题只要求你作出评估,第二组问题则与第一组不同,包含了很大的不确定性。这个问题指的是在大学一年级期末的真实表现。自访谈后,这一年发生了什么呢?你怎样才能以5个形容词来预测这个学生在大学第一年的真实表现呢?如果这只是辅导老师本人通过与该生的访谈而作出的平均绩点预测,那么她的预测会准确无误吗?

这项研究旨在比较两个判断结果(百分比成绩):受试者通过评估一个案例中的描述做出的判断结果(百分比成绩)和另一个案例中的最终预测结果。结论很明显:两个判断结果完全相同。尽管两组问题不同(一组关于该生的描述,另一组关于该生未来的学术表现),但受试者将这两个问题看成了一个。与朱莉的例子相同,受试者并没有将对未来的预测和对当前信息的估测区别开来—预测与估测相匹配。这也许是我们得到的能证明替换存在的最佳证据。当人们按要求预测时,他们总会将预测替换为对所描述问题的估测,而且没有意识到他们回答的问题并不是那个被问到的问题。这个过程证明预测时会存在系统偏见;他们完全忽略了一点,即应该回归到平均值上来。

在以色列国防军队服役期间,很长时间我都待在一支部队里,这支部队通过一系列面试及实战测试来挑选后备实训军官。成功预测的特定标准为这些人在军官学校的最终成绩。这些等级评定的效度非常低(我会在后面的章节详细说明)。若干年后,这支部队仍旧存在,而彼时我已成为一名教授,并且正与阿莫斯合作研究直觉性判断问题。我一直与这支部队的工作人员保持着密切联系,于是便请他们帮个忙。除了他们通常使用的评估候选人的评分系统以外,我还让他们猜测每个学员将来在军官学校中可能得到的分数。他们搜集了几百份这样的预测。所有作出这些预测的军官都知道学校给学员评分时用的是字母评分系统,也知道所有学员得到的A、B、C各等级的近似比例。实验结果令人惊讶:预测出来的A和B的频率几乎与学校的结业成绩中的A、B等级的频率等同。

这些发现提供了一个引人注目的例子,这个例子涉及替代和强度匹配两个方面。作出预测的军官完全将这两个任务混淆在一起了:

·他们平时的任务是对候选人在该部队的表现作出评价。

·我让他们执行的任务是对候选人的未来成绩作出切实预测。

他们运用强度匹配将自己的评级简单地转换为军官学校的评分结果。由于无法解决预测中存在(相当大)的不确定性,他们的预测又一次完全无法回归(平均值)。

对直觉性预测的偏见进行修正

我们回过头再来看朱莉,那个儿时阅读能力就很强的阅读者。前一章已经介绍过预测她平均绩点的正确方法。我在前一章中还为连续两天打高尔夫球的例子以及体重和弹钢琴的例子分别写了一个原理公式,在这里我也要为阅读年龄和大学成绩的决定因素写一个公式:

阅读年龄=共同因素+决定阅读年龄的特殊因素=100%

平均绩点=共同因素+决定平均绩点的特殊因素=100%

共同因素包括由遗传决定的潜能、家庭支持学业的程度,以及能够造成人们在孩童时期成为出色的阅读者、青年时期又在学术上有所建树的所有其他因素。当然,许多因素只会影响到其中的某个结果,却不会对其他结果产生影响。朱莉可能是因为父母对她期望过高强迫女儿读书才这么早学会阅读的,也有可能因为一段不愉快的感情经历,她的大学成绩才那么糟糕,还可能在少年时滑雪出了事故导致脑部轻微受损等。

回想一下上面两个测量公式的关联,即当前阅读年龄和平均绩点这两个公式,你会发现两者所考虑的共同因素在决定因素中所占的比例是一样的。你对这个比例能作出的最贴近的估测是多少?我给出的答案是最多30%。有了这个估测,我们就完全有条件作出不带偏见的预测了。按照以下4个简单步骤来做,我们就可以进行无偏见预测:

1.先估测出平均绩点的平均值。

2.根据你对证据的印象算出与之相匹配的平均绩点。

3.对你的证据和平均绩点的关联作出估计。

4.如果关联度是0.3,则从估算出的平均绩点的平均值中抽出30%,放到与之匹配的平均绩点里。

步骤1为你提供了基准线,即在你除了知道朱莉是个快毕业的大学生之外什么也不知道的情况下,预测她的平均绩点。在没有信息的情况下,你很有可能预测其为一般水平。(这一点与你对汤姆的预测相似,在对他一无所知的情况下,你便将企业管理专业毕业生的基础比率放在了他的身上。)步骤2是你的直觉性预测,这个预测将你的估计和证据进行了匹配。步骤3使你离开基准线靠向自己的直觉,但你能离开的距离取决于你对关联性的估测。在步骤4中,尽管你最终作出的预测还是受到了直觉的影响,但是这个影响力已经小很多了。

这种预测方法很常见。在你需要预测一个定量数值时,就可以运用这个方法,例如在预测平均绩点、投资效益、公司发展的业绩时,这个方法就可以派上用场。这个方法以你的直觉为基础,但是削弱了直觉的影响,使它回归到平均值上了。当你有充分的理由对自己的直觉性预测的准确性充满信心时,即证据和预测之间联系非常紧密,进行调整的余地就会很小。

直觉性预测需要校正是由于它并不具有回归性,因此是带有偏见的。假设我预测每一位高尔夫球员在一场锦标赛上第二天的得分与第一天的得分相同,那么这个预测并没有考虑到回归平均值的问题:第一天发挥得好的高尔夫球员第二天比赛时水平都会有所下降,而那些头天状态不佳的球员则大多会在第二天有所提高。当我们最后将预测值与实际结果进行比较时,我们会发现,缺失回归性的直觉确实带有偏见。

这些预测普遍对第一天发挥得好的人过于乐观,对开始就发挥得不怎么样的人则过于悲观。预测与证据一样极端。同样,如果不使预测回归到平均值上来,而是根据儿童时期的成就来预测其大学时期的分数,那么你多半会对孩提时代阅读能力强的人在大学时代取得的学术成绩颇感失望,而那些较晚开始阅读的孩子的大学成绩反而会给你带来惊喜。修正过的直觉性预测消除了这些偏见,所以预测(过高或过低)高估真实值或低估真实值的可能性大致是相等的。当你不带偏见地预测时仍然会犯错,但这时的错误较小,也不会导致过高或过低的估值。

两位教授候选人,应该选择哪一位?

前文中,我向大家介绍了汤姆的情况,用以说明不连续结果的预测问题,比如对其所属的专业领域或者一次考试的成功概率进行的预测,这些预测是通过评估某一特定事件的可能性(或者按照结果出现的可能性大小排序)来表达的。我还曾描述过抵制不连续预测中的常见偏见的步骤,比如忽略基础比率,对信息的优劣不敏感。

有些预测偏见是通过一个数值范围来表达的,例如某学生的平均绩点或某公司的收益,这些偏见与我们在判断结果的可能性的过程中所持偏见相似,而两种偏见的修正过程也十分相似:

·都包含一种基准线预测,如果你对手头这个案例的情况一无所知,便会作出这种预测。在绝对的情况下,这个基准线是基础比率;在有数字的情况下,这个基准线就是相关结果的平均值。

·都包含一种直觉预测,无论是可能性或是平均绩点,这种预测会将呈现在大脑中的数值通通表达出来。

·在上述两种情况中,你的目的都是要作出一种预测,这种预测可在基础比率和直觉性反应之间充当媒介。

·在没有什么有价值的信息的情况下,你会坚守基准线。

·在其他极端情况下,你还会坚守自己最初的预测。当然,只有在对支持自己最初预测的证据进行过严格验证之后,你才会信心十足地坚持那个预测。

·在大多数情况下,你会发现自己有理由怀疑自己的直觉判断和真理之间的关联其实并不完美,而你最终会给出介于两者之间的判断。

这个过程很接近一个恰当的统计分析可能会出现的结果。如果成功的话,这个过程就会使你作出的预测偏见越来越少,作出的可能性评估越来越合理,对各种数值作出的预测也越来越适度。前述两个过程意在解决同一种偏见,即直觉性预测总是过于自信或过于极端。

修正你的直觉性预测的偏见是系统2的任务。要想找到相关的参照物、对基准预测作出估测或者对证据的质量进行评估,往往需要付出很大的努力。只有在风险很高而你又特别渴望避免犯错误时,这种努力才显得合乎情理。此外,你应该知道纠正你的直觉也许会使你的生活变得复杂。无偏见预测的一个特征就是,只有在信息非常有效时才允许人们对罕见或极端的事件作出预测。如果你期待自己作出恰当有效的预测,那么你的预测结果就永远不会太离谱或者偏离平均值太多。而如果你的预测不存在偏见,你也就永远不会有极端事件的“愉快体验”了。当你在法学院最得意的学生成为最高法院的法官时,或者当你曾经很看好的那家新成立的公司成为商界新秀时,你永远不会说“我早就知道会这样”。如果信息量有限,你也无法预测到一个出色的高中生会成为普林斯顿大学的优等生;同理,一个风险资本家永远不会认为新创立的公司在起步阶段时成功的概率会“很高”。

一定要严肃对待那些反对适度的直觉性预测原则的意见,因为摆脱偏见并非总是头等大事。如果不问具体情况,对所有预测的错误都同样对待,那么对无偏见预测的偏爱就是合理的了。然而总有那么一些时候,一种错误比另一种错误更糟糕。若一位风险投资家只为寻找“下一件大事”,那么他错过下一个谷歌或脸谱网的风险就会远远大于对刚刚创立的公司(最终破产)进行适度投资带来的风险。风险投资家的目标是正确判断极端情况,甚至以高估其他许多风险为代价也在所不惜。对于借出大笔贷款的保守银行家来说,某一位借款人破产带来的风险会比拒绝几位可能会履行债务的潜在客户带来的风险更大。在这种情况下,即使作出这些判断所依据的信息效度只是适中,使用极端的语言(“前景非常好”,“违约的严峻风险”)也可能会为其带来舒适感。

对于一个理性的人来说,无偏见且适度的预测不应该引发问题。毕竟一个理性的风险投资家知道,即便是最有前景的新建公司,其成功概率也只是中等水平而已。她将自己的工作视为从所有赌注中找到的前景最好的赌注,而且关于要投资的那家新建公司的发展前景问题,她觉得没有必要欺骗自己。同样,预测某家公司收益的理性个体不会受到某个数字的束缚—他们应该考虑到最有可能出现的那个结果的不确定性。如果成功的回报足够大,一个理性的人就会考虑向一家极有可能倒闭的企业投资一大笔钱,而不会自欺欺人地抬高其成功概率。然而,我们并不都是理性的,我们中的一些人也许还需要歪曲判断作为保护来掩盖自己的无能为力。如果选择接受极端的预测来蒙蔽自己,你就会清楚地意识到自己对自己的纵容。

也许我提出来的那几个修正步骤最难能可贵的贡献就是这些步骤会要求你思考自己对事情到底了解多少。接下来我会运用一个学术界尽人皆知的例子,其他生活领域中的例子亦可依此类推。一个部门要雇用一位年轻的教授,他们希望这位教授未来的学术能力能够达到最高水平。该部门的调查委员会最后将候选人圈定为两个:

金最近完成了毕业设计。她的推荐信中都是对她的溢美之词,而且面试时她说得也很好,给在场的每个人都留下了深刻的印象。不过她没有什么实质性的科研成果。

简经过过去3年的学习取得了博士后头衔,学术成果颇丰,研究也做得非常出色,但她在面试时表现得不如金出色。

我们直觉会选择金,因为她给人的印象更深刻,而且眼见即为事实。但与简的信息相比,金的相关信息则少很多。我们可以回想一下小数原则。事实上,你从关于金的描述中得到的信息样本比简的要小,而且在小样本中更容易发现极端的结果。小样本的结果往往有更多的运气成分,因此在判断金将来的表现时,更应该回归平均值。若觉得金更有可能退步,最终你就会选择简,尽管你对她的印象并不深刻。如果按照学术能力来选人,我会投给简一票,但我得先努力克服自己对金的直觉印象—金更有希望。跟着我们的直觉走比违背直觉感觉更自然、更亲切。

你很容易就能想象出不同情境下的相似问题,例如某位风险投资家要在位于不同市场中的两家新建公司之中选出一家进行投资,他可以相当精确地预估其中一家公司的产品需求量,而另一家是一派欣欣向荣的景象,让人觉得更有希望,但其发展前景却并不是很确定。如果把这种不确定因素考虑在内的话,你对第二家公司前景的最佳猜测是否还会优于第一家公司呢?这个问题值得认真思考。信息不足时,极端预测和预测罕见事情的愿意都源于系统1。联想机制会很自然地将极端预测和作出这些极端预测所依据的可察觉的信息极端性匹配在一起—这也正是替代的运行机制。而且系统1形成过于自信的判断也是正常的,因为自信是由你根据可得信息提炼出来的最合理故事的连贯程度决定的,这一点我们都明白。但要注意:你的直觉会产生极端预测,而你也很容易对这种极端信心满满。

回归性也是系统2的一个问题。回归平均值这一概念很新奇,沟通和理解皆非易事。高尔顿在弄懂这一概念之前也颇费了一番心思。很多统计学老师在讲到这一问题时,心中也很没底,学生们最后对这个重要概念也是似懂非懂,只有个很模糊的概念。这个例子说明系统2需要经过特殊训练。将预测和信息匹配起来不仅是我们的直觉行为,这样做似乎也是很合理的。我们无法根据经验理解回归性。即使我们对回归性已经有了明确认识—就像我们在飞行教练员的故事中看到的那样—也只会用因果关系来解释这一特性,而这个解释往往又是错的。


示例——直觉性预测

“那家新成立的公司已经深入人心了,但我们不能指望他们将来也能做得这么好。他们的营销之路很长,回归的空间也很大。”

“我们的直觉性预测的确令人鼓舞,但这个预测可能离现实太远了,还是让我们再看看手中的信息资料,让预测回归到平均状态吧。”

“即使这次投资极有可能失败,我们还是觉得这项投资可能是个不错的想法。咱们还是别说什么这就是下一个谷歌这样的话吧。”

“我读过关于那个品牌的一篇评论,评价极高,然而这很可能只是侥幸成功。我们应该这样想:对这个品牌的评论很多,而我们看到的这个正巧是评价最高的。”

上一章:第17章 下一章:第19章
网站所有作品均由网友搜集共同更新,仅供读者预览,如果喜欢请购买正版图书!如有侵犯版权,请来信告知,本站立即予以处理。
邮箱:yuedusg@foxmail.com
Copyright@2016-2026 文学吧