简历阅读- - -复制危机背后的错误推理

关闭

您已阅读了2个免费的每月一篇文章中的1个。学习更多的知识。

关闭

复制危机背后的错误推理

现在是改变不确定性量化的方式。

以下是同一故事的三个版本:1。1996年秋季,曼彻斯特的英国律师萨利克拉克,享受了一个...由Aubrey Clayton出生

H下面是同一个故事的三个版本:

1. 1996年秋季,曼彻斯特的英国律师莎莉克拉克生下了一个显着健康的男婴,当他11周龄时突然死亡。当次年有另一个男婴时,她仍然从创伤事件中恢复过来。悲惨地,他也在出生后八周去世了。这两个孩子死亡的原因并不明显,但警方涉嫌他们并非巧合。克拉克被逮捕并被指控有两项谋杀罪。儿科医生罗伊草甸,术语“Munchausen综合征通过代理综合征”在审判中作证说,这是一个像克拉克那样的富裕家庭的两个孩子都会死于突发的婴儿死亡综合征(SID)或“COT死亡。“他估计了7300万美元的赔率,他多于80:1的长者连续四年赢得了大型国马赛。克拉克被定罪并被判处在监狱里的生活。新闻称为她作为一个儿童凶手。

2.假设一位40多岁的健康女性在她的乳房中发现了一个可疑的肿块,她去做了乳房x光检查。报告回来说那个肿块是恶性的。她想知道诊断错误的几率。她的医生回答说,作为诊断工具,这些扫描非常准确。这样的扫描可以发现几乎100%的真正癌症,而只有大约5%的情况下会将良性肿块误诊为癌症。因此,这是假阳性的概率非常低,大约是二十分之一。

3.2012年,英属哥伦比亚大学(University of British Columbia)的阿拉·诺伦扎扬(Ara Norenzayan)教授声称,有证据表明,看着罗丹的雕塑《思想者》(the思想者)的图像,人们的宗教信仰会降低。在一项57名大学生参与的试验中,他随机分配参与者观看《思想者》或对照图像——迈伦的《铁饼》(Myron’s Discobolus),这是一个希腊运动员投掷铁饼的雕塑,然后给他们对上帝的信仰打分,从1到100。与对照组的61.55相比,接触过“思考者”的受试者报告的上帝信仰平均得分为41.42,明显较低。仅凭偶然就观察到至少这么大的差异的概率约为3%。因此,他和他的合著者得出结论,《思想者》促使他们的参与者进行分析性思考,“触发分析性思考的新奇视觉启动也鼓励了对上帝的怀疑。”

不想:一项研究声称,凝视罗丹的著名作品《思想者》,改善了分析性思维,打击了对上帝的信仰,这是复制危机的众多展示之一。 照片由Hung Chung Chih / Shutterstock

这三个小插曲都涉及到用概率推理的相同错误。前两个是众所周知的谬论的例子,分别称为检察官谬论和基础比率谬论。第三种是对一项科学研究的典型统计分析,这种分析你可以在今天大多数有声誉的杂志上找到。事实上,Norenzayan的研究结果发表在科学迄今为止在研究文献中被引用约424次。无神论者欢呼这是宗教非理性的科学证据;有宗教信仰的人对这种认为他们信仰的根源是缺乏推理能力的说法感到不快,这是可以理解的。

sapolsky_th-f1

诺贝尔交换

我们是一份科学杂志,一整期都在写名气——所以我们怎么能忽视诺贝尔奖呢?它让少数被选中的人成为科学界的超级明星,广泛宣传他们的研究,激励新一代的科学家。当然……阅读更多

这三个例子的核心推理失败,说明了为什么从天文学到动物学的许多领域的许多成果都无法被复制,这是科学界目前正在努力解决的一个大问题。


T.让我们看到这些论点的缺陷的数学透镜是贝叶斯定理.这个定理指出,根据一些观察,我们给一个理论分配的概率(萨利·克拉克有罪,一个病人患了癌症,大学生盯着罗丹看就不那么有神了),与假设该理论是正确的观察的条件概率成比例,和先验概率,我们在进行观察之前给出了理论。当两种理论相互竞争时,其中一种可能会使观测结果更有可能,也就是说,产生更高的条件概率。但根据贝叶斯规则,如果我们从一开始就给它一个很低的概率,我们可能仍然认为这个解释不太可能。

所以,这三个例子中缺失的成分就是各种假设的先验概率。在萨莉·克拉克一案中,控方认为她谋杀了自己的孩子,这本身就是极其罕见的事件。为了便于讨论,假设通过统计历史上的谋杀记录,我们得出任何一位像她这样的母亲都有两次杀婴的概率是1亿比1。这将平衡极端不可能的观察结果(两个婴儿死亡),在另一种假设下,他们被照顾得很好。从数值上讲,贝叶斯定理告诉我们比较:

(1/73,000,000) *(99999999/100000000)与(1)* (1/100,000,000)

根据这些前科,除了孩子们的死亡没有其他证据,我们得出结论,克拉克实际上有58%的可能性是无辜的。

允许我们在这些参数中看到缺陷的数学镜头是贝叶斯定理。

对于乳腺癌的例子,医生需要考虑类似症状的类似女性中癌症的总发病率,而不包括乳房X光检查的结果。也许医生会从经验中说,大约99%的相似患者发现一个肿块,它结果是良性的。因此,恶性肿瘤的低前几率将平衡获得错误阳性扫描结果的低机会。在这里,我们将权衡数字:

(0.05)*(0.99)vs.(1)*(0.01)

我们会发现病人有83%的几率没有癌症。

关于雕塑和宗教情绪的研究,我们需要评估在考虑数据之前的可能性,简要遇到艺术品可能具有这样的效果。过去的经验应该让我们非常持怀疑态度,特别是鉴于声称的效果的规模,平均对上帝的平均信仰减少了大约33%。如果艺术可能有这样的影响,我们会发现任何到博物馆的旅行会使我们在信仰和非信仰之间送去。或者如果某种方式“思想家”挥舞着独特的无神论力量,它在1904年的巴黎揭幕应该与组织宗教的群众出境相对应。相反,我们经历了自己的宗教信仰,以及我们社会的宗教信仰,通过时间相对稳定。Maybe we’re not so dogmatic as to rule out “The Thinker” hypothesis altogether, but a prior probability of 1 in 1,000, somewhere between the chance of being dealt a full house and four-of-a-kind in a poker hand, could be around the right order of magnitude.

Norenzayan声称,他的数据不太可能是偶然出现的,要想动摇我们的怀疑论,它的可能性要大得多。根据这项研究,在观测到的星等效应的假设下,结果出现的可能性大约是纯偶然假设下的12倍。用先验概率分配把这个结论带入贝叶斯定理会得到:

(12 p) * (1/ 1000) vs (p) * (999/ 1000)

根据这个实验,我们最终得出“思想者”-无神论效应的概率是0.012,也就是83分之一,这是一个比较有趣的现象,但几乎肯定不值得发表。


T.但问题是,目前统计分析的主导模式不是贝叶斯模式。自20世纪20年代以来,判断科学理论的标准方法一直是显著性检验,由统计学家罗纳德·费雪(Ronald Fisher)推广开来。费雪的方法及其后来的副产品现在是科学数据分析的通用语。特别是,谷歌Scholar目前返回285万引用,包括短语“统计显著性”。Fisher声称显著性测试是科学推理的通用工具,“对所有实验都是通用的”,这一说法似乎被它在所有学科中的广泛使用所证实。

费雪非常讨厌贝叶斯推理,认为这是一个巨大的历史错误,“这是数学世界唯一深深犯下的错误。”因此,他的方法没有任何先验概率的位置,他认为先验概率对推理没有必要。显著性检验仅使用假设为真的数据的概率,即仅使用贝叶斯规则的条件概率部分。如果观察到的数据(或更极端的数据)在一个假设下是非常不可能的,通常是没有影响的“零假设”,数据被认为是“重要的”,并认为有足够的证据来拒绝假设。

无神论者欢呼这是宗教非理性的科学证据;宗教人士被冒犯了。

捍卫这种方法的逻辑,费舍尔写道,“一个人”拒绝“假设暂时,习惯性的实践,意义时在1%或更高水平”——也就是说,当数据这种极端只能将1%的时间——“肯定会等不超过1%的错误的决定。因为如果假设是正确的,他只会在1%的情况下出错,而如果假设是错误的,他永远不会在拒绝中出错。”

然而,这种观点掩盖了一个关键点。为了理解什么是错的,考虑以下完全正确的,费舍尔总结的事实在乳腺癌的例子(没有假阴性,5%假阳性率):

假设我们扫描100万相似的女性,我们告诉所有测试他们患有癌症的人。然后,在那些实际患有癌症的人中,我们每一次都会正确。在那些没有它的人之中,我们将是5%的时间不正确。因此,总体而言,我们的程序将不得不低于5%的时间。

听起来有说服力的,对吗?但以下是对事实的另一个总结,包括1%的基本比率:

假设我们扫描100万相似的女性,我们告诉所有测试他们患有癌症的人。然后我们将正确地告诉所有10,000名患有他们拥有的癌症的女性。剩下的990,000名肿块良性的女性中,我们将错误地告诉49,500名患有癌症的女性。因此,我们识别患有癌症的女性,约有83%的诊断性会被错误地诊断出来。

想象一下你或亲人接受了积极的测试结果。您可以找到哪些摘要更相关?通过忽略假设的现有概率,显着性测试的性价比仅仅基于患者在不存在的情况下进行患者的频率,或者仅基于如何不太可能的事实而达到患者的频率,则相当于诊断医疗状况。如果嫌疑人是无辜的,案件是如此。简而言之,重要的测试将告诉我们的假设患者,她可能有癌症,并且会有错误定罪的莎莉克拉克。

自从显著性测试出现以来,就一直受到这些方面的批评。1960年,圣奥拉夫学院(St. Olaf College)的心理学教授威廉·罗兹布姆(William Rozeboom)写道,科学推理的真正逻辑是“逆概率”,也就是贝叶斯定理。1966年,芝加哥大学(University of Chicago)心理学系的大卫·巴坎(David Bakan)将显著性测试的逻辑谬误称为“每个人都知道”,但没有人会大声承认的东西,就像皇帝的新衣故事一样。1994年,统计学家雅各布·科恩(Jacob Cohen)写了一篇名为《地球是圆的》(the Earth Is Round, p < 0.05)的严厉批评文章,认为显著性检验只关注给定假设下数据的概率,而不是给定数据下的假设,这让事情变得落后了。Falk和Greenbaum(1995)将其称为“通过矛盾进行概率证明的错觉”或“获得非概率的错觉”,Gigerenzer (1993)1称为“永久幻觉”。

在萨莉·克拉克一案中,控方认为她谋杀了自己的孩子,这本身就是极其罕见的事件。

主要是由于费雪的影响,这些观点在历史上没有赢得许多人对贝叶斯主义的皈依。但实际经验现在可能开始做理论做不到的事情。


S.假设在我们的例子中,那些接受了阳性检测结果和推定诊断为癌症的女性再次接受了活组织检查。我们会看到,大多数最初的结果没有重复,这是癌症诊断中的“复制危机”。这正是当今科学界正在发生的事情。

对Norenzayan的发现进行的一项后续研究,采用相同的程序,参与者人数几乎是他的10倍,发现两组人对上帝的信仰没有显著差异。事实上,“思考者”组的上帝信仰平均得分(62.78)略高于对照组(58.82)。但由于最初的研究遵循了所有通常的研究规则,该杂志接受这篇论文是有理由的,这意味着规则是错误的。

像Norenzayan这样引人注目的复制失败导致一些科学家对可能之前所有的研究都提出了质疑。大规模的项目已经开始尝试复制不同学科的已有成果,但他们的发现并不尽如人意。它始于心理学。一项由数百名研究人员通过开放科学中心参与的合作项目发现,97项心理学研究中只有35项(即36%)被成功复制。均采用显著性检验。

只有其他一些复制伤亡包括:

  • 1988年由Strack,Martin和Stepper在“面部反馈假说:”当人们被迫微笑时,拿着一支笔在他们的牙齿之间说,它会引发他们的幸福感。

  • 例如,1996年的“社会启动”中的Bargh,Chen和Burrows的结果声称,例如,当人们接触到与老龄化有关的词语时,他们采用了陈规定型老年行为。

  • 哈佛商学院(Harvard Business School)教授艾米·卡迪(Amy Cuddy)在2010年对“强势姿势”(power pose)进行的研究:采取强势姿势几分钟可以通过影响你的荷尔蒙水平和风险承受能力,让你的生活变得更好。

但危机不会就此结束。从经济学到神经科学再到癌症生物学,类似的项目都显示出了同样的问题。一项对临床前癌症研究的分析发现,只有11%的结果是重复的;发表在期刊上的21项社会科学实验科学自然,只有13(62%)存活的复制;在经济学中,研究了18种经常引用的结果,发现11(61%)复制;并且对临床前药理学试验的估计是,只有50%的阳性结果是可重复的,这是鉴于药物行业大小的情况,据估计,美国每年每年280亿美元的实验室成本。

我们贝叶斯人多年来已经预见到了这一点。2005年,现任斯坦福医学院(Stanford Medical School)和统计学系教授的约翰·约阿尼迪斯(John Ioannidis)写了一篇题为《为什么大多数发表的研究结果都是假的》(Why most published research findings are false)的文章。”2他在一个简单的贝叶斯论证中表明,如果一种理论,比如基因和疾病之间的关联,具有较低的先验概率,那么即使在通过了统计学显著性测试后,它仍然有较低的概率是正确的。他认为,这将是医学上的规范,研究人员可以通过筛选许多可能的关联,仅仅是偶然地找到一个符合重要阈值的关联。14年后,我们在几乎所有的科学领域都看到了同样的现象。

现在,人们终于开始达成共识:科学出了问题,导致既定结果失败。一个被提议且姗姗来迟的补救措施是彻底检查统计数据的使用。2015年,该杂志基本和应用社会心理学采取了严厉的措施,禁止在所有提交的文件中使用显著性测试,今年3月,《纽约时报》的一篇社论自然共同签署了超过800名作者,旨在完全消除使用统计显着性。过去已经尝试过类似的建议,但每次抵抗被击败而且重要性测试都仍然是标准。也许这次担心担心职业生涯的职业生涯的价值,因为Irreproyucible将提供他们所需的额外动力的科学家。

想象一下你或亲人接受了积极的测试结果。您可以找到哪些摘要更相关?

历史上科学家一直拒绝使用贝叶斯推理的主要原因是他们害怕被指责为主观性。贝叶斯规则所要求的先验概率似乎是对科学道德的不恰当的违背。这些前科从何而来?我们怎么能允许个人判断污染我们的科学推断,而不是让数据自己说话呢?

但考虑克拉克案中所谓的“客观”概率。通过对观察到的SID的发病率(约1小时)的调整施加一些调整,在7300万人中提出了7300万的图,以解释克拉克家族的知名:他们是稳定工作和莎莉的非吸烟者超过26岁。他怎么知道他已经调整了所有正确的因素?为什么不包括她和她的丈夫都是律师的事实?关于他所包括的克拉克的更具体信息,他必须继续的可用数据越少,直到他的样品大小减少到1.他也假设一个家庭的SIDs死亡对在统计上独立,因此他们的概率应该得到乘以一排硬币翻转的概率连续两次。这次假设当时受到了普遍批评的,因为儿童共享的任何环境或遗传因素都将否定独立性。但是,鉴于如此罕见的事件的数据缺乏,对他们的依赖性没有任何修正是有点主观的?

根据经验和专家判断,绘制这些线路,而不是在为诺伦丹的假设的先前概率基于我们对世界所了解的假设而分配的最高概率。此外,它可能无关紧要我们使用的概率是什么。我们是否认为有机会在1千万,百万,或亿元,贝叶斯分析会告诉我们诺伦敦的结果并不是那么令人印象深刻,我们仍然非常可疑。关键是我们有充分的理由持怀疑态度,我们应该遵循数学家(和贝叶斯)皮埃尔 - 西蒙拉普拉斯的咒语,即非凡的索赔需要非凡的证据。通过忽略前瞻的必要性,意义测试将打开误阳性结果的门。

对于一个外行人来说,关于统计方法的争论可能看起来像一个深奥的争论,但其含义要大得多。科学真理与我们息息相关。从吃什么食物或担心什么健康风险的个人小决定,到教育、医疗、环境等公共政策,当科学研究的主体被假阳性污染时,我们都要付出代价。最终,复制研究可以从噪音中筛选出真正的科学,但这需要付出相当大的代价。与此同时,我们可能不断地被仅仅基于统计假象的相互矛盾的发现所颠覆。

为了解决复制危机,我们必须改变量化和管理科学不确定性的方式。在其漫长的历史中,概论在体育、医学、经济和法律等诸多领域被误用来支持错误的推理。这些错误中的大多数最终都得到了纠正。萨莉·克拉克(Sally Clark)在监狱服刑三年后被无罪释放,原因是检查她第二个孩子的病理学家向控方和辩方隐瞒了关键证据。但她的呼吁也暴露了梅多统计论点的缺陷。另外两名女性,安吉拉·坎宁斯(Angela Cannings)和唐娜·安东尼(Donna Anthony),根据梅多的证词在类似案件中被判有罪,被释放。第三名女性,因谋杀自己的三个婴儿而受审的特鲁普蒂·帕特尔(Trupti Patel),被无罪释放。但克拉克因谋杀孩子而被错误关押的创伤仍在继续折磨着她。获释几年后,她死于酒精中毒。

医学院的学生现在经常被告知基础发病率的诊断重要性。贝叶斯定理帮助他们恰当地将测试结果放在背景下,避免不必要地警告那些罕见情况下测试呈阳性的病人。如果不考虑最后一个因素,贝叶斯先验概率,就会犯与莎莉·克拉克案例相同的谬论。

复制的危机暴露了一个事实,这个事实几十年来一直是统计学的可耻秘密,同样的谬论是现代科学实践的核心。


Aubrey Clayton是一个生活在波士顿的数学家。他教导了概率的逻辑和哲学哈佛扩展学院


参考文献

1.吉仁泽,盖德。"统计推理中的超我,自我和本我"行为科学数据分析手册:方法论问题(1993):311-339。

2.埃尼迪斯,约翰。“为什么大多数发表的研究结果都是假的?”《公共科学图书馆·医学》杂志上2,没有。8 (2005): e124。

加入讨论