简历阅读- - -科学的重大统计问题

关闭

您已阅读了2个免费的每月一篇文章中的1个。学习更多的知识。

关闭

科学的重大统计问题

研究人员评估概率的惯例可能会误导人,也可能会启发人。

2009年,在泰国工作的研究人员在艾滋病毒疫苗试验中取得了小的成功,登上了新闻头条。它降低了

一世2009年,在泰国工作的研究人员在艾滋病毒疫苗试验中取得了小的成功,登上了新闻头条。据科学家计算,它将感染率降低了31%。这听起来可能并不令人印象深刻,但在抗击艾滋病毒的斗争中,这似乎是一个前所未有的成功。研究人员在《有影响力》杂志上发表了他们的研究结果新英格兰医学杂志报告称,这些数据已经通过了标准的统计测试:如果疫苗实际上毫无价值,那么它似乎具有研究中所见的有益效果的几率只有25%。

在医学领域,就像在大多数其他科学领域一样,观察到像艾滋病研究这样的低概率数据是值得庆祝的。通常情况下,生物学、心理学和其他社会科学领域的科学家在侥幸的几率低于二十分之一时就会感到高兴。然而,在某些领域,比如粒子物理学,研究人员只满足于更低的概率,大约是350万分之一。但无论阈值是多少,记录低概率数据——如果没有发现的话,就不太可能被发现——是让你有资格得出你已经有了发现的结论。观察低概率事件是检验假设的科学方法的核心。

科学家们使用精密的统计学显著性测试来区分侥幸和真实证据。但可悲的事实是,意义测试的标准方法往往不足以完成这项任务。以艾滋病毒疫苗为例,进一步的分析表明,研究结果并不像原始统计数据所显示的那样可靠。疫苗完全无效的可能性可能达到20%或更高。

数十年来,深思熟虑的专家们一直在指出标准统计方法的严重缺陷。近年来,这个问题的深度变得越来越明显,也越来越有证据证明。最近的一篇论文发现,某些神经科学研究能够从统计数据中正确识别出某种效应的可能性非常低。对遗传学研究的回顾表明,将疾病与基因联系起来的统计数据错误的次数远远多于正确的次数。制药公司发现,当重复测试时,有利于新药的测试结果通常会消失。

对遗传学研究的回顾表明,将疾病与基因联系起来的统计数据错误的次数远远多于正确的次数。

sapolsky_th-f1

克劳德香农,拉斯维加斯鲨鱼

克劳德•香农(Claude Shannon)的许多“下班后”作品都是异想天开的——比如,一台会发表讽刺言论的机器,或者罗马数字计算器。麻省理工学院(Massachusetts Institute of Technology)教授、信息理论之父所创造的其他作品则显示出他对戏剧性……阅读更多

事实上,在几乎所有的研究领域,研究通常会得出错误的结论。有时出现错误,因为统计测试被滥用,误解或被误解。有时是恶意,直接的无能,或可能欺诈是责备。但甚至在书中严格进行的研究经常因嵌入科学过程中嵌入的错误统计方法而失败。

流行病学家约翰·p·a·约阿尼迪斯(John P.A. Ioannidis)在2005年发表于该杂志的一篇具有里程碑意义的文章中宣称:“人们越来越担心,在现代研究中,大多数甚至绝大多数已发表的研究主张可能都是错误的发现。《公共科学图书馆·医学》杂志上

即使一个声称的效应被证明是正确的,它的规模通常被夸大了。哥伦比亚大学政治学家和统计学家安德鲁·格尔曼(Andrew Gelman)直言不讳地说:“我们如此喜爱的科学方法是一台制造夸大事实的机器。”

当然,并非所有的科学都是错误的。当研究被重复,证据从不同的调查方向积累时,科学研究就会集中在关于自然的可靠知识上。但任何单独的研究发现都很有可能是假的。英特尔(Intel)的查尔斯•兰姆丁(Charles Lambdin)去年在一份报告中写道:“好几代人以来,方法学家一直试图让我们注意到显著性测试的缺陷。理论和心理学.“然而这股潮流依然存在。”

这不仅仅是一个技术问题,它实际上是一个生死攸关的问题。滥用统计数据引发了关于药物安全性的争议,最终使一些人失去了挽救生命的治疗。媒体对这类问题的报道——以及科学研究的总体结果——被一种可怕的巧合所混淆:引人注目的科学研究正是最容易被统计错觉所迷惑的。因此,人们经常抱怨科学家总是改变主意,因为一篇媒体报道后来与另一篇相矛盾,这种抱怨源于用来分析实验数据概率的数学。

这种数学的起源可以追溯到17世纪数学家布莱斯·帕斯卡和皮埃尔·德·费马之间著名的一系列书信。他们的兴趣是赌博,他们的见解最终导致了现代概率论。今天博彩业在财务上的成功证明了概率论的可靠性

但将概率论应用于检验假设并非易事。近一个世纪以来,科学家们一直在与之斗争。今天的方法诞生于20世纪20年代,当时数学家罗纳德·费雪(Ronald Fisher)设计了一种名为“零假设检验”(null hypothesis testing)的实验方法。费希尔曾在英国的一个农业研究站工作,他想知道给田地施肥是否能提高作物产量。由于不同田地的产量不同,出于许多原因,他想知道你需要看到多大的差异才能得出肥料有实际影响的结论。他展示了如何计算施肥的土地产生的产量与未施肥的土地不同的概率,原因不是肥料本身——“零”假设。他称这个概率为P.价值。如果P.小于0.05——即使所研究的因素没有影响,也有5%的机会看到观察到的(或更大的)差异——这应该被认为是“统计上显著的”,Fisher说。你可以推荐肥料。

人们经常抱怨科学家总是改变主意,因为媒体的一篇报道后来与另一篇报道相矛盾,这种抱怨源于用来分析实验数据概率的数学。

费雪的方法很有影响力,但并不是所有人都满意。其他人提出了类似的方法,但对P.价值。费雪低声说P.值仅仅意味着你应该拒绝无效假设;它并没有告诉你零假设的可能性有多大正确的.其他的解释P.价值作为假阳性的可能性:结论是一个效果是真实的,而实际上它不是。教科书的作者们将这些矛盾的解释合并成一个混合处方,心理学家Gerd Gigerenzer称之为“无效仪式”,这是一种无意识的产生数据的过程,研究人员很少能正确解释。心理学很早就采用了无效仪式,然后它(像疾病一样)传播到许多其他领域,包括生物学、经济学和生态学。“人们以一种仪式的方式来做这件事,”吉杰伦泽说。“这就像强迫性的洗手。”

但是,正如一些精明的观察人士早些时候警告的那样,尽管这种仪式被广泛使用,但实际上并不是很有效。“尽管令人敬畏的卓越这个方法已经获得应用统计学实验杂志和教科书,它是基于一个基本的误解理性推理的本质,几乎从来不适合科学研究的目的,“科学哲学家威廉Rozeboom中写道:1960。

问题的核心是简单的数学挂钩P.价值并不意味着什么。它只是衡量如果没有真正的效果,你的结果有多不可能。“它并不能告诉你零假设是否为真,”吉杰伦泽指出。一个低P.价值可能意味着肥料起作用,或者它可能只是意味着你目睹了20次中有一次作物产量异常高。

这就像翻转硬币。有时候你会翻转一分钱并连续获得几头,但这并不意味着便士被操纵。例如,假设你折腾了一分钱10次。一个完美公平的硬币(头部或尾部同样可能)通常会产生更多或多个头部。事实上,您只需四分之一的时间即可获得五个头。有时你会得到六个头或四个。或七,或八个。事实上,即使有一个公平的硬币,你可能会在10个翻转中获得10个,但只有一千个10翻转试验只有一次。

多少次正面会让你怀疑?假设你投掷10次得到8次正面。对于一枚均匀的硬币,正面出现8次或更多的概率只有5.5%。这是一个P.值为0.055,接近标准显著性阈值。也许怀疑是有道理的。

但事实是,你只知道10次抛掷中有8次正面是不寻常的。硬币的权重可能更倾向于正面,也可能是1000次中有55次出现8次或更多正面。对硬币的任何结论都没有逻辑可言。

啊,一些科学家会说,也许你不能得出肯定的结论。但是如果没有效果,只有5%的几率观察到数据,那么就有95%的几率观察到效果——你可以有95%的信心相信你的结果是真实的。问题是,这种推理是百分之百错误的。首先,5%的侥幸概率是在假设没有影响的情况下计算出来的。如果有实际一个效果,计算不再有效。除此之外,这样的结论例证了一个叫做“条件转换”的逻辑谬误。正如一位统计学家所说,“这是我拥有房子和房子是我的主人。

举个简单的例子,假设每年冬天,我只去游泳三天——不到5%的时间。换句话说,我在冬天任何一天游泳的概率都小于5%,对应于aP.值小于0.05。所以,如果你观察我游泳,是不是可以(有95%的信心)打赌现在不是冬天呢?不!也许我唯一一次去游泳是在每年一月在夏威夷度假的时候。那么在冬天观察到我游泳的几率不到5%,但有100%的几率冬天,如果你看到我游泳。

当然,这是一个人为的例子,但它确实暴露了标准统计方法的一个真正缺陷。研究一再表明,科学结论是建立在计算基础上的P.价值观确实经常是假的。

在一项研究中,研究人员收集了一些论文,发现了85种基因变异与急性冠状动脉综合征风险之间具有统计学意义的联系。但当研究人员测试了811名确诊为该病的患者的基因时,85种变异中只有一种实际上比匹配组的健康人群出现得更多。这很可能只是侥幸。托马斯·摩根及其合作者写道:“我们的无效结果无法支持这一假设,即测试的85种基因变异中任何一种都是易感性因素。”

但是如果没有效果,只有5%的几率观察到数据,那么就有95%的几率观察到效果——你可以有95%的信心相信你的结果是真实的。问题是,推理100%不正确。

最近,制药公司注意到,识别可能药物靶点的标准方法往往产生无法复制的结果。拜耳公司发现,其中三分之二的研究结果无法复制。安进的科学家们对53项乍一看似乎值得研究的研究进行了跟进,但只能证实其中的6项。

正如统计上的显著性并不意味着一个效果是真实的,缺乏统计上的显著性并不意味着没有效果。很多研究都忽略了真实的联系,尤其是当样本量很小的时候。

当效果轻微时,即使是真实的,小型研究缺乏统计学家的统计力量。如果风险低(例如,心脏病发作的2%的机会)是通过使用一些新药的加倍,例如,只测试几百人不会足够强大以找到效果。小型在一个小的群体中效果的实际加倍不会被认为是统计学意义的。

在神经科学等领域,小样本是一个大问题。最近的一项研究发现,神经科学领域的平均统计能力约为20%,这意味着只有五分之一的研究能够检测出真正的效果。“统计能力低是神经科学的一个普遍问题,”凯瑟琳·巴顿(Katherine Button)及其合作者在5月份的《神经科学》杂志上写道神经系统科学自然评论

具有讽刺意味的是,低统计功率不仅意味着可能错过实际效果。它也意味着错误的效果更有可能被报告为真实,或夸大的实际效果。难以达到统计学意义,具有小型样本,因此只有异常值可能达到阈值。这个问题被称为获奖者的诅咒 - 第一个科学家“发现”效果常常记录夸张的结果。随后的研究通常会发现较低的效果,或根本没有任何影响。

另一方面,真正的大型试验也会带来问题。在一个巨大的样本中,即使是微小的差异,在实际意义上并不显著,也可能是统计有很重要的意义。一些大型研究同时调查了许多可能的关联,所以有些似乎是偶然成立的。这个多假设的问题在遗传学上尤其严重,因为在遗传学上,两万多个基因的活动可以同时被检测。其目的是发现患有某种特定疾病的人的哪些基因比正常情况下更活跃(或更不活跃)。但如果你的统计学显著性阈值是0.05-1 / 20,那么该研究可能会列出大约1000个基因的活性高于或低于正常水平,即使实际上没有。提高统计显著性的标准将消除一些侥幸,但代价是也要消除一些真正改变了的基因。虽然已经有了改善这一问题的方法,但它仍然困扰着许多类型的研究。当然,即使一次只验证一个假设,科学事业的范围是如此之大,以至于许多具有统计学意义的发现将被证明是侥幸的。每周有数千篇科学论文发表;20分之一的显著性阈值保证了每天将会出现大量的虚假声明。

这就是为什么优秀的科学家强调需要重复实验来证实最初的发现。任何已知的发现都可能是错误的,但如果在后续的研究中发现同样的结果,对其有效性的信心就会迅速增长。如果你掷一枚硬币,在10次中有8次正面朝上,你就不能得出任何结论。但如果你在下一次试验中得到8或9次正面,再下一次,你就可以很确定硬币是有偏的。在粒子物理学中,研究人员在宣布一项发现(比如去年的希格斯玻色子)之前必须跨越一个更高的门槛,而复制仍然是必要的。即使只有六百万分之一的概率,如果不是因为这个事实,很少有专家会相信这个结果两个独立的实验两者都发现了类似的有力证据。

但通常在科学领域,研究太困难或太昂贵而无法重复,或者没有人愿意费心——有时是因为大量的金钱或声誉面临风险。当一项研究没有发现任何有趣的东西时,研究人员甚至可能不会尝试发表它——或者即使他们尝试了,也可能无法发表它。科学期刊本身往往急于只发表“新的”结果,把许多重复的或“没有效果”的发现藏在文件抽屉或硬盘上。

低统计功率不仅意味着实际的影响可能被忽略。它也意味着错误的效果更有可能被报告为真实,或夸大的实际效果。

所有这些因素都在掌握积极的发现,通常可能是侥幸,比他们应得的更多关注 - 特别是在媒体上。这不是一个新闻公告,媒体经常获得科学错误。但即使一名记者忠实地呈现科学家的结论,就像科学家所做的那样,赔率仍然是错误 - 而不仅仅是因为大多数科学论文都可能是错误的。这是因为科学论文的质量,使其具有新闻价值最重要的是那些使其更容易成为统计侥幸的人。

一方面,记者和科学家一样,都急于报道发现的第一个实例。但是,第一次报道遭受了“胜利者的诅咒”——可能是错误的,或者夸大了影响的程度(如果有的话)。即使没有诅咒,最初的报告在很多情况下也可能是错误的。假设一个实验室测试了100种候选药物,想找到一种能显著减轻症状的药物。假设只有一个候选人是有效的。对于一个P.价值阈值0.05,五种额外的药物似乎偶然工作。因此,在这个简化的例子中,有效药物的第一报告是正确的赔率仅为1年。第一个报告很可能是群体之一。那是该报告将成为新闻。

记者有时确实会写一些热门研究领域的后续论文,比如癌症研究或克隆。热点话题制造新闻,但也放大错误。“一个科学领域越热(有越多的科学团队参与),研究结果的真实性就越低,”约阿尼迪斯在他2005年的论文中写道。在这些竞争激烈的领域,世界各地的众多实验室都在追求同一个目标。比如说,在一年的时间里,50篇发表的论文报告了统计上显著的结果。但另外950个实验没有发现任何值得发表的东西。这50篇发表的论文代表了5%的概率,侥幸数据会显得很重要。关于这些故事的新闻报道可能会给人一种印象,认为有很多重要的发现,但实际上没有很好的理由相信它们中的任何一个。

另一种吸引记者的方法是发布新闻稿,在新闻稿开头说:“与以前的科学信念相反……”这里,这些恰恰是最不可能经得起审查的结果。据推测(当然,并非总是如此),以前的科学信念是基于以前的科学数据。如果新数据与很多旧数据不相符,那么很有可能新的结果是统计上的异常值。通常没有理由相信一项新研究是正确的,而所有之前的研究都是错误的(除非新数据来自改进的方法或技术先进的仪器)。通常,“与先前的信念相反”应该是一个警告标志,表明报告的结果可能是错误的。相反,它通常是对故事的开绿灯。因此,新闻价值的一般标准——在一个热门领域的第一份报告,产生与之前的看法相反的发现——似乎是专门为挑选最有可能是伪造的科学论文而设计的。

还有另一种类型的论文吸引了记者,同时阐述了更广泛的观点:关于聪明动物的研究。其中一项研究涉及一种鱼——大西洋鲑鱼——在大脑扫描仪中显示人类活动的各种图片。当图片描绘情感场景时,比如一个刚掉菜的服务员脸上的恼怒,鱼大脑中的一个特定区域显示出统计上显著的活动增加。

不过,科学家们并没有急于发表他们的发现,即鲑鱼的移情能力。他们做这个测试只是为了揭示统计学上的显著性。扫描仪里的鱼已经死了。


汤姆·西格弗里德(Tom Siegfried)是弗吉尼亚州北部的自由撰稿人,曾任《纽约时报》主编科学新闻

31条评论-加入讨论