第25章 怀疑之美

药物简史  作者:德劳因·伯奇

今天医生们所做的事,会有多少被证明有效呢?

1976年的新西兰,当阿奇·科克伦打断了演说,称他的朋友克尔·怀特为“混蛋骗子”,并指出医疗干预中至多只有10%是基于有力的证据时,他所说的数据并非随口编造。这一数字是来自1963年《医疗》(Medical Care)上的一篇论文,文中报告了对英国北部19名家庭医生为期两周的调查结果。在此期间,这些医生被要求记录所有开出的处方,并在调查期末将他们所开的药物与所要治疗的症状进行对比,以确认其中有多少存在可靠的证据支持。结果数据为9.3%——科克伦说的约10%还有一点儿水分。

贯穿整个历史,人类都在努力提升具有可靠证据支持的医疗实践所占比重,但成功的历程却磕磕绊绊。随着20世纪逐渐过去,随机对照试验的力量展现得越来越清晰,虽说如此,它却难以对医生们的多数举措形成支持。在大部分时期,对医疗干预有效性的统计学研究都被称为“临床流行病学”。对于这样一项具有普遍重要意义的工作而言,这个名字显得过于模糊而且令人不悦。因此,20世纪80年代才在加拿大麦克马斯特大学的医学教学研讨中诞生了另一个术语:“循证医学”(EBM)。这个词最早出现在《美国医学会杂志》(Journal of the American Medical Association)1991年的一篇文章中,最近才被广泛使用。“循证医学”显然只是个宣传术语,存在同义赘述,它代表了一种思想派系,即认为某些特定类别的证据要比另外一些在整体上更稳健、更有价值——实验胜于猜测,测试胜于传言,干预胜于观察。

很多医生讨厌“循证医学”这个词,他们的怒气源自其宣传论调,明里暗里指向他们的行为没有遵循证据。经常有争议认为,这一运动其实是以最缺乏思考的方式为最荒唐可笑的事物寻找试验证据,比如2003年《英国医学杂志》上由戈登·史密斯(Gordon Smith)与吉尔·佩尔(Jill Pell)所写题为《降落伞在预防引力挑战引起的死亡与重大创伤中的作用》(Parachute Use to Prevent Death and Major Trauma Related to Gravitational Challenge)的论文中说道:

如同许多期望预防健康问题的措施一样,降落伞的有效性尚未通过随机对照试验来进行严格的评估。循证医学的支持者批评这项措施仅以观察数据评估后便被采用。我们认为,如果循证医学的最激进倡导者能组织并亲身参与一项针对降落伞的双盲随机安慰剂对照交叉试验,将会对所有人都有益。

另一方面,EBM的支持者却似乎乐于对降落伞之类干预措施显然有效的结论通盘接受。1995年的《柳叶刀》上发表了一篇论文,题为《住院病人的整体医疗具备证据基础》(Inpatient general medicine is evidence based),为“循证医学的最激进倡导者”实际要求的证据标准提供了很好的指导,同时指出医学自1963年起已获得了长足进步。论文的作者之一是加拿大医生戴维·萨基特(David Sackett),他正是EBM运动最重要的传道者之一。这篇论文研究的是萨基特的医生团队在位于牛津的约翰拉德克利夫医院中,在一个月内对病人进行的所有治疗措施。萨基特对此评论道:

我们发现,像我们这样致力于寻找最佳证据来指导医疗干预的机构,能够以SR(整合多个高质量试验而进行的系统评价)和RCT(随机对照试验)为基础治疗53%的病人,另有29%的病人是在具有说服力的非试验性证据的基础上进行治疗,而仅有19%的治疗是基于猜测与期望。

有超过80%的决策是基于良好的验证证据,哪怕是在一位宣誓要跟从证据的医生所带领的医疗团队中,这也是个惊人的进步。萨基特以心脏骤停时采用电击术为例,来说明哪些治疗措施是他认为无须经过随机对照试验证据就能认可的。在医疗领域,这种电击就如同使用降落伞。极少有人能从1万英尺高空坠落到树林或雪地里还能幸存,或者自行恢复心跳到正常频率——要存活下来,一般都必须施加干预,也就是降落伞或者电击。

这一研究激起了一系列在不同医疗环境和科室内的类似研究,其中有两个着眼于家庭医生领域。一项是来自利兹大学(吉尔等)的研究,于1996年发表在《英国医学杂志》上。在调查一个家庭诊所两天内的接诊量后,他们研究得出了与《柳叶刀》上论文相似的数据,即有31%的治疗是基于RCT证据,而51%是基于“有说服力的非试验性证据”。在同年的另一篇发表在《英国医学杂志》的文章中,由鹤冈圣(Koki Tsuruoka)领衔的一组日本家庭医生报告了对49次接诊的评估结果(样本数量只有牛津或利兹研究中的大约一半),其用于判断何为具有说服力的证据的标准与另两个研究一致,并发现有81%的治疗是基于良好证据。

小山浩(Hiroshi Koyama)及其同事重复了1995年《柳叶刀》在京都大学医院的研究,看有多少治疗决策是基于RCT证据做出的。根据他们2002年发表在《国际医疗质量杂志》(International Journal for Quality in Health Care)上的内容,他们研究的211例不同的医疗干预中有49%具有RCT支持,和萨基特在牛津大学的医疗团队得出的数据一致。

其他科室也重复了此类工作,来评估自己在多大程度上是基于证据来行医。2006年,在专注于产科与妇科的《BMC妇女健康》(BMC Women's Health)杂志电子版的一篇论文中,来自英国伯明翰大学的埃马尔·卡恩(Aamir Khan)等人回顾了1998年到1999年依序就诊的325名住院病人,发现他们所接受的医疗干预中有42%是基于RCT。

1998年来自大奥蒙德街儿童医院的一篇论文指出,当时的儿科手术还较少获得相关研究的支持。巴拉蒂尼(Baraldini)和其他手术医生对这所一流医院中的手术进行了一个月的观察,结论是仅有26%的重大手术具有RCT支持,有3%落入了自证有效的范畴,3%的手术回溯来看与所有现存证据相悖,而剩下的68%则在正反两面都缺少充足证据。香港一篇由眼外科医生完成的审查结果(赖等)发表在2003年的《英国眼科杂志》(British Journal of Ophthalmology)上,其作者发现在他们2002年7月的274例连续治疗干预中,有43%得到了RCT支持,有34%具有次一等的观察证据,剩下的23%要么尚无任何证据支持,要么与现有证据相反。

关于当今医学在多大程度上具有证据支持,其他衡量方式得出的结果也与上述论文类似。很显然,在医学治疗方面,今天的我们要比1963年时更有信心;不光是治疗方法取得了进步,我们对于其真实效果也有了更多的明确知识。

如何理解对部分试验中“显然”有效的治疗措施的估计呢?他们是怎么断定哪些疗法属于不证自明的范畴,因此无须RCT证据的支持呢?小山浩的京都大学团队声称有47种疗法是属于这一类别,其中(和牛津大学一样)包括对心脏骤停者提供电击。他们列举的例子还包括为患阑尾炎的患者切除阑尾,给呼吸困难的人吸氧,患腺热者应当静养观察,静脉深处存在血栓的病人需用华法林稀释血液,而体内停止生产胰岛素或甲状腺素的患者则需要补充相应激素。

利兹大学(吉尔等)1996年的家庭医生研究也将使用甲状腺素列入了43种“已被具有说服力的非试验性证据证实的医疗干预”中。其他疗法也都差不多一样清楚,比如脱水病人需要补充液体。但这份清单中也包含一些会立刻引发质疑的疗法,例如用某种抗生素来治疗特定的感染症状。有些感染更可能是源于病毒而非细菌,比如扁桃体炎和胸腔感染——虽然他们提及的抗生素都是非常安全的种类,但与所有药一样,有时也会造成危害。(可以基本肯定地说,唯一没有副作用的药就是完全没用的药。)针对背部疼痛的强效止痛药也进入了效用不容置疑之列。这确有可能是真的,但鉴于更温和的止痛药或许能在提供疗效的同时,具有较低的重大危害(比如胃肠出血)风险,其中也仍存在疑问。

当代医学知识的错误主要来自两个方面。一是由于某个假设看起来显然为真,而未能对其进行适当的检验。激素替代疗法(HRT)就是最近一个很有代表性的例子。几十年来,更年期后的女性由于自身已不再合成激素,就服用激素进行替代。这是基于人体生理学理论,推测如果给老年人补充年轻时体内会分泌的激素,或许会对人体有益,而且这种想法也不无合理之处。随后的观察显示,在更年期后使用替代性激素的女性确实比未使用的女性寿命更长,健康状态也更好。

但问题是,人们以为这些观察可以构成一项试验,但事实上并不能。这些女性并不是通过随机分配决定使用或不使用激素——她们在进行选择。这意味着,选择了其中一项的女性与选择另一项的女性本身具有差异。直到1993年,才有一项相关试验开展。女性健康启动项目(Women's Health Initiative)是美国的一项研究,招募了超过16万名已绝经的女性,并将她们分配到激素替代疗法或安慰剂组。到2002年,由于HRT组中因乳腺癌而死亡的人数已高于预期,这项试验便提前结束了。根据英国的估算,本国每年因使用HRT可导致额外2000例乳腺癌。尽管如此,女性健康启动项目事实上并非为了测试HRT是否安全而开展的研究,其设立是因为医生们相信它会证明HRT的救治效果。

第二个仍然常犯的错误是仓促接受方向正确,但因尚未被充分完成而不够可靠的试验证据。抗抑郁药物就是个例子。关于它曾有过很多研究,其中不少也具有随机选择、双盲、变量控制机制,但这些研究不是规模太小,就是时间太短、设计太差、太容易被既得利益者曲解,因而效力受到贬损。政府与医生继续认可此类试验,是因为他们未能理解良好证据基础的本质与重要性。

糟糕的研究显然是不值得信任的,正如那些关于沙利度胺的早期研究,它们本来就没想对药物进行客观评价。有一系列药物可以用来治疗抑郁,很多都只有细微的差别。在理想状况下,我们想知道这些药物从长期来看,在人们最关心的疗效上相对彼此的确切效果如何,即是否能帮助人们变得更安全、健康、快乐。

制药公司仅在他们所需的范围内对试验进行资助,目的是说服医生开立处方,说服政府准许其上市,但这也会带来问题。《新西兰医学杂志》(New England Journal of Medicine)2008年刊载了一篇对12种抗抑郁药物具有的证据的调查研究(特纳等),其中比较了制药公司在申请监管批准时向食品药品监督管理局递交的试验数据和最终发表供公众查阅的数据。药企在开展临床研究时必须向食品药品监督管理局注册,并提交研究发现的任何结果,但没有义务公开发布。这篇论文找到了74个相关研究,涉及超过12000名病人。“在食品药品监督管理局检视的具有负面或可疑结论的研究中,”文章指出,“要么没有发表结果(22例),要么采用了在我们看来是在传达正面结果的发表方式(11例),只有3例例外。从已发表的文献看,仿佛有94%的试验得出了正面结论,但食品药品监督管理局的分析却与之相反,显示仅有51%的正面结论。”这种公开呈现上的差异——被称为“发表偏差”——应当归结于药企只愿意拿出最有利的结果,还是因为医学期刊没有兴趣发表那些指出某种治疗方法效果不显著的研究,作者感到难以判断。综合所有相关结果来看,食品药品监督管理局批准的所有药物都具有疗效,但这篇论文发现,这些疗效并没有被准确地呈现给医务人员。他们因此得出结论,“选择性发表可能导致医生做出不恰当的处方决策,不符合患者的最大利益。”更早时候,2004年发表在《柳叶刀》上的一篇论文(惠廷顿等)研究了一类用于儿童抑郁症的抗抑郁药物——选择性血清再吸收抑制剂(SSRI),也发现了同样的结果。把未发表的药企试验合并到已发表的结果中去时,药物的有效性就显得完全不同了;已发表结果中收效似乎压过了危害,但加入了额外数据之后,结论却恰恰相反。

这些影响重要吗?一篇2004年发表在《美国医学会杂志》上的论文(陈安文等)给出了肯定的答案。陈及其团队研究了1994-1995年在丹麦获批的临床试验,并跟踪查看了它们的对外呈现方式。在获得处方许可到公开发表期间,约有三分之二的试验更改了它们原先声称测量的变量——真是种绝妙的试验调整方法,总能产出你想要的结论。(根据统计学惯例,如果一项发现纯属运气的概率低于1比20,就可以认为数值显著。因此,每进行20次试验,就可能有1次得到肯定结果,但实际上不过是运气而已。一项优质的研究会在一开始就声明它的主要测试目标,并坚持不变。)陈的研究发现,“关于试验结果的报告不仅常常不完整,而且还会存在偏差,或未能遵照程序进行。已发表的文章及相关评论就可能因此失去可靠性,并会高估一项医疗干预的实际疗效”。他们希望监管法规能进行修订,强制研究者以更准确、完整的方式发表其研究结果。

科克伦协作网的设立是为了实现阿奇·科克伦的目标,让医学获得更强的实证基础。作为一家非政府组织,它的目标是发表针对各类治疗措施可得数据的全面分析。对抗抑郁药物,科克伦协作网也完成了几项综述,其中一篇发表于2004年,特别关注了此类药物研究中可能具有误导性的安慰剂对照方式[较少有人对抗抑郁药物进行互相比较。这项工作费用不菲,药企并不会自发行动。他们没这么做,表明他们对某种药物效果优于另一种并无信心,同时也提示着人们,政府对推动此类研究毫无作为。]。鉴于抗抑郁药物会引起副作用,可以合理认定受试者能分辨出他们是否在服用安慰剂,而要获得安慰剂效应,你得相信自己使用的不是安慰剂,因此这就会造成影响。科克伦协作网的三位研究人员专门检视了那些使用“活性”安慰剂来克服此类问题的试验,这种安慰剂会产生与活性药物类似的副作用,但不具备其主要功效。(他们研究的是一种叫作三环素的抗抑郁药物,通常会引起口腔及鼻腔干燥、便秘等副作用。)综述找出了9个这样的研究,总共包括751名患者,而它们证明活性安慰剂与三环素之间的效果差异比预期要小得多。他们总结道:“这意味着,在使用惰性安慰剂的试验中,这种揭盲效应可能会虚增抗抑郁药物的有效性。”换句话说,在我们所相信的抗抑郁药物的优良品质之中,大部分都可能只是幻象,不过是设计糟糕的试验所带来的结果。

早在2008年,一篇新发表的论文(基尔希等)将大众的注意力都吸引到了这一议题上,即抗抑郁药物的效果是否远不如大多数医生和患者所相信的那样。这篇论文最奇特的地方在于,其中大部分内容都并不新颖。欧文·基尔希(Irving Kirsch)就职于赫尔大学心理系,2002年他还在康涅狄格大学时,就发表过一篇十分相近的研究。当时,他研究了1987-1999年提交给食品药品监督管理局审批的6种最流行的抗抑郁药物的相关数据,并发现这些药物的几乎所有(80%)功效都是来自安慰剂效应;剩下的20%效果虽然的确存在,但并不重要,在通常用于测量抑郁程度的汉密尔顿抑郁量表中,其造成的差异只有2分。英国国家卫生与临床优化研究所(NICE)是为独立评估医疗措施有效性与安全性而设立的政府机构,而它所设定的临床有效临界点为3分。(某种药效可能在统计上显著存在,但对病人来说却因效果太小而不值得一试,尤其是已知存在一定概率会发生副作用的情形下。)基尔希2008年的研究是关于4种新出现的抗抑郁药物,想看看它们是否会影响患者的抑郁程度。结果发现,这些药物的整体影响与此前的药物类似,也低于NICE认为真正具有价值的最低水平。对于少数抑郁程度最严重的患者来说,药物带来的差异还稍微大些。他们2008年的论文引起了大量公众关注,但其中发现的问题其实早已在2002年的论文中就出现过。这件事说明了另外一个问题:信息传播与开始时的信息收集同样困难。

比起广泛使用这些基本上毫无效果的药物,还有更糟的事。抗抑郁药物并没有造成像有毒的磺胺类灵药或沙利度胺那样的丑闻,却提醒着我们,我们作为医生或病人需要了解关于医疗措施的全面效果,但目前的监管框架并不能保证我们获取此类信息。

在过去,往往要到令患者死亡或终身残疾的悲剧发生后,监管改革才会跟上。但现在我们有机会去自发地对其进行改良,而不必等到下一场医疗惨剧的曝光来迫使我们采取行动。

试验的发展之路是一个关于思维进步的故事,它为世界普降甘霖,却几乎不为人知。

检测与试验一直是人生的一部分,如果它们无法在骗人的疗法和有毒的药方面前保护我们的周全,这就是个严重的问题。一项试验除非方法充分,否则就不可信赖,而其方法的质量也就决定了结果的质量。这些方法既有可能比猜测好不了多少,也可能像双盲随机对照试验那样严谨可靠,如果不理解这一点,光是用用“检测”“实验”“试验”这样的字眼儿可是不够的。

留意前辈已经犯过、记录过、报告过的错误,对我们会非常有用。这让我们不仅能更深刻地理解他们的谨慎与烦恼,也略微降低了重蹈他们覆辙的可能性。历史学家常说,以别人看待自己的方式来看待他们,并为他们没能做得更好寻找理由,这就是“同情”。但在我看来,这种做法显得居高临下。那些认真思考如何帮助患病同伴的人并不是想要做到“可期望的最好水平”,他们也不指望自己的理论“以当时人们对世界的理解方式来看是完全合理的”。他们只是想为病患做些好事,同时揭示真理,而我们只有明白他们是如何屡次失败时,才会给予他们最认真的对待。

在1971年首版发行的著作《有效性与效率》中,阿奇·科克伦写道:

在过去20年中,用词上两个最显著的变化是相比其他证据类型,“看法”一词的使用增加,而“试验”一词的使用减少。更多使用“看法”一词无疑有多种原因,但我可以肯定,其中贡献最大的一定是电视采访者与制片人。他们希望所有东西都能简短、引人注目、非黑即白,任何关于证据的讨论都会因为冗长、无聊、含糊而被剪掉。我很少听到哪位电视采访者询问采访对象,他关于某段表述的证据是什么。

刘易斯·托马斯(Lewis Thomas)生于1913年,比科克伦小4岁,并于1937年在哈佛大学医学院获得行医资格。除了磺胺类药物以外,他发现当时的医院能提供给病人的比旅馆住宿没多多少。他写道:“你能不能活下来,要看疾病自身的自然进程。药物的作用很小,甚至没有。”

尽管情况很差劲,但当他回头想想父亲受到的医学教育时,还是惊叹于医学进步之大。他的父亲比他早25年毕业于哥伦比亚大学,在当时他所接受的前沿教育中,关于人体的真理已经比过去所知要多得多。20世纪初,支持医学的科学知识已经十分先进——病理学、微生物学、生理学、化学乃至药理学。但在临床实践中,医学与数千年前的状况几无差别。“一篇又一篇论文,”托马斯在阅读父亲的书籍时发现,“都重申着放血、火罐、强力通便、用发疱药膏拔水疱、把身体浸入冰水或难以忍受的烫水的好处……没完没了地熬煮、混合植物提取物,而其根据完全是异想天开。”人类的能力已经超乎想象,而无能的地方也令人匪夷所思。正当盖伦建议使用无效的药剂和水蛭时,古罗马人已经建造了建筑与工程上的奇迹。当托马斯的父亲正在学习几乎相同的药剂与水蛭时,爱因斯坦已经提出了相对论,飞机也已飞向天空。

医学所缺少的就是实验方法。人类能将实验方法应用于硬科学,但医生却还相信直觉的力量。他们依赖不断的试错,而且由于全无章法,导致结果全无用处。正如刘易斯·托马斯所写:

我最大的希望就是删掉头两年的大部分课程,以便留足空间,开几门关于医学愚昧之处的课,这样学生才能在一开始就清楚地了解医学尚不知道的事。

现代医学中有一个辛酸的笑话:人们对某项论点的确定程度与他们用于支持这个论点的证据数量成反比。越是缺少可靠的试验证明,人们就越是态度坚定,仿佛信心就像浆粉一样,只要施以足够的热情,就能把想法与事实牢牢地黏合在一起。

但历史证明,还有更好的做法。我们的很多观点可以得到检验,而可以被检验的观点就应当接受检验,还有什么比认识到这一点对我们更有帮助呢?过去的医学错误告诉我们,如果一项理念是基于无法检验或尚未经受检验的理论,就需要常怀谦逊。随机对照试验已经将医院和家庭中的许多痛苦与错误一扫而空,并代之以慰藉与治愈。试验里可能充斥着统计数据,既不好懂,施行起来又费力气,但它们仍然富有魅力,这种魅力来源于一种能够揭示我们身处的现实的力量。

似乎我们的天性就是易于轻信而不擅怀疑。我们都有简化并混淆事物的倾向,容易落入思维惯性,任其将我们带向失败。但一旦认识到这点,我们就能抵御其影响。在面对关于世界的特定问题,而其答案可以通过试验进行检验时,“科学”就成了“理性”的同义词。如果不要求证据,或者不明白可靠证据所应当具备的特质,我们就会不堪一击。

在医疗行业中,很多人因临床试验的兴起而感觉受到了威胁。他们害怕统计数据,或者说害怕别人比他们更懂这些数据的感觉。这些人说,临床试验不能代替病人与医生之间丰富复杂的互动。但其实没人说过它能够替代,或者应当替代。试验能告诉你关于世界的某些真相,而对其他则并不置喙。它们能提升你进行决策的能力,却不等于要否认决策的重要性。

随机对照试验技术自有其瑰丽之处,但完全不适用这一技术的人生也同样壮美。没有统计检验或试验设计能分辨出你是否正坠入爱河,或是否在被人爱着。这并不是说试验与统计学就没有用处,它们不过是有着自己擅长的领域,那是另一片丰饶之地。试验与数据能揭示真理:它们是理解世界的工具,也是改良世界的利器。

上一章:第24章 下一章:参考文献
网站所有作品均由网友搜集共同更新,仅供读者预览,如果喜欢请购买正版图书!如有侵犯版权,请来信告知,本站立即予以处理。
邮箱:yuedusg@foxmail.com
Copyright@2016-2026 文学吧