xxx.lanl.gov。这个地址很神秘,带有一股诱人的政府机密,或者更糟。
而服务器本身恰恰相反。政府,是的,它是由洛斯阿拉莫斯国家实验室主办的,但是以一种开放的方式,在20世纪90年代早期的互联网时代,这是全新的,并且在今天仍然是改变游戏规则的。
这个名为arXiv的网站(发音为“archive”,很久以前就转移到了更健康的地址“arXiv.org”,并由康奈尔大学图书馆管理)是一个巨大的科学预印本知识库,其中包括尚未经过同行评审或不打算在评审期刊上发表的文章。(论文也可以在其他地方发表后,以修改后的形式出现。)截至2016年7月,arXiv上有超过100万篇论文,严重倾向于最难的硬科学:数学、计算机科学、定量生物学、定量金融、统计学,最重要的是物理学。
ArXiv是一种30年前科学家们只能梦想的图书馆:完全可搜索,从任何地方都可访问,免费出版和阅读,基本上包含了该领域所有值得阅读的内容。在科技史上的这个黄金时刻,当你在星巴克排队时可以在维基百科上查阅原子理论的历史时,这可能看起来微不足道。但事实上,这是革命性的。
实际上,arXiv利用新技术为其社区创造了福利。然而,不那么明显的是,它不得不回答一个在科学界引起共鸣的哲学问题:到底什么东西值得阅读?什么是科学?
B在arXiv之前,预印本论文只能在小的科学圈子里获得,通过手工或邮件分发,而这些论文最终在几个月后发表的期刊(如果他们真的发表了的话)都藏在大学图书馆里。但arXiv让竞争环境变得更加大众化,让科学家们能够立即从世界各地的各种同事那里获得想法,从精英大学的著名教授到在非名牌机构辛苦工作的博士后,以及研究支持不足的发展中国家的科学家。
Paul Ginsparg于1991年创建了arXiv,当时他是洛斯阿拉莫斯的一名35岁的物理学家。他预计第一年只会有大约100篇论文通过电子邮件发给几百个订阅者。但是到1992年夏天,有1200多篇论文被提交。这是一个好问题,但仍然是一个问题。虽然Ginsparg并不打算对收到的论文进行彻底的同行评议,但他确实想确保读者能找到他们最感兴趣的论文。因此,他开始将收到的论文分类为新的类别和子类别,并聘请越来越多的版主,作为志愿者承担这项工作,作为对他们的科学界的一种服务。
无法分类的文件会在杂乱无章的混乱中丢失吗?
arXiv的信条是,论文应该对arXiv所服务的科学学科“有兴趣、相关性和价值”。但随着该网站及其公众形象的增长,它开始吸引来自普通研究圈子之外的论文,其中许多论文没有通过测试。Ginsparg说,它们不一定是坏科学。拙劣的科学可以被检验、测试和驳斥。它们是“非科学”——号称推翻爱因斯坦、牛顿和霍金的横扫一切的理论;揭示物理学、超感官知觉和不明飞行物之间的隐藏联系;几乎不需要数学和实验。
arXiv的默认立场是接受——“在被证明有罪之前”,论文是无辜的,Ginsparg说——但是非科学论文是在浪费学术读者的时间。如果他们被允许与合法的科学共享同一个虚拟书架,他们可能会在arXiv日益壮大的记者和政策制定者群体中制造混乱。因此,一篇接一篇的论文,审核员不得不做出决定:什么是科学,什么不是科学?
大多数arXiv用户都对版主的决定感到满意。但是有些人觉得应该进入arXiv的论文被扔到一边,一些科学家——尤其是那些学术边缘的科学家——指责arXiv的版主审查与谷物相悖的观点。
arXiv版主所面对的问题并不新鲜。1959年,科学哲学家托马斯·库恩(Thomas Kuhn)将其称为“本质的张力”:传统的学术限制(将科学问题和实践置于或置于边界)与自由放任的探究(拥抱特立寻常的想法和方法)之间的冲突。人们认为,要想进步,科学需要两者兼而有之。如果创新思想经常在成熟的学科之间涌现,那么无法归类但可信的论文会在真正的不连贯中丢失吗?
然而,ArXiv的版主们并没有太多时间来进行库恩式的反思。许多用户每天都浏览这个网站,arXiv希望尽可能保持最新。所以,Ginsparg说,从一开始,arXiv就强制要求“24小时的周转”。下午4点之前到的报纸。如果是在工作日,东航则会在当天晚上8点上网。审核员只有不到一天的时间来标记一篇论文的退稿或进一步审查,有时甚至只有四个小时。考虑到每天的忙活,Ginsparg想到了一个办法来帮助他的志愿版主:一个可以帮他们做一些思考的电脑程序。
可信的想法有时确实会出现在arXiv的人工和计算机过滤器的错误一边。
Ginsparg并没有打算设计一个程序来区分科学和非科学。他最初的目标是适度的:建立一种算法,可以按主题分类论文,省去审核员查看错误分类的提交的麻烦。编写程序只花了几个小时,它就能识别一篇论文,找出有意义的单词,计算每个单词出现的次数,并根据审核员过去对类似论文的分类方式对其进行分类。他没有自己输入关键字的词汇表,而是让算法自己找出哪些词是最好的预测器。因为审核员审查了每一个分类,算法得到了即时反馈,它变得更聪明,更好,一次一篇论文,每天数百篇论文。
这种计算机分类有一个令人惊讶的副作用:它有一种不可思议的能力来区分“好”和“坏”的论文。无意中,arXiv减少了库恩对练习的基本张力。如何?
通过查阅数千篇论文,分类器算法已经确定了一个真正科学的标志:语言。当程序学习科学语言时,它做出的判断与人类看门人的判断相似。被拒绝的离群论文不符合任何科学学科的常规语言规范。这种偏差可能是显而易见的,因为它出现在融合了科学上不同领域的嵌合体论文中。或者它可能很微妙:像“and”、“Or”、“it”或“that”这样似乎没有内容的词的错误分布
对语言的关注直接反映了学术编辑、同行评议者和科学家在评判工作时的做法。威尔士卡迪夫大学的科学社会学家Luis re耶斯- galindo说,ArXiv反映了“科学界的特性”,并对科学界进行了划分。
语言也是伪科学的生物标记。加州大学河滨分校(University of California, Riverside)的数学物理学家约翰·贝兹(John Baez)有一个“疯子指数”,可以根据37个疯子的优点(或缺点)来评分:5分全部大写的每个单词,10分”,声称自己的工作在最前沿的范式转变,”的第50赏金”声称有一个革命性的理论,但没有具体实验证明”(最后的这些不可否认与语言)。
这是有原因的,语言是一个很好的判断。经过正规科学训练的作者——四年的大学、多年的研究生和博士后——所做的不仅仅是吸收一套事实、一种思考和实验的方法。他们还学会用一种特定的方式交流。雷耶斯-加林多说:“作为一名科学家,90%的工作都是语言工作——知道如何说话,如何说话。”
算法认为“异常值”的论文不会自动被拒绝;它们只是被标记出来供额外的人检查。但是,由于科学渴望成为一个智力的旗手,在那里,观点是根据内容而不是风格来评估的,一些人认为,根据他们选择的词语来识别局外人并将他们驱逐出去,仍然有些令人不安。例如,如何评价跨学科、做出有价值贡献的科学家?
麻省理工学院的物理学家和科学历史学家大卫·凯泽说:“在互联网出现之前很久,我们就能找到关于边界的奇特研究。”“其中一些资金毫无用处,这是正确的,但也有一些确实兑现了。”今天许多被认为理所当然的科学原理——日心说、不可见的磁场传达物理力的概念、或者物理定律可以用数学方程来描述——在他们的时代被认为是激进的。凯泽补充说,一些在20世纪70年代被认为是模糊的、由药物引起的废话而被驳回的调查,现在在量子理论的研究中是不可或缺的。
在他2011年的书中嬉皮士是如何拯救物理学的,凯泽写道,“如今占据量子信息科学核心的许多观点曾经在一种为所欲为的反主流文化狂热中找到了自己的家,混杂着扭曲汤匙的灵媒、东方神秘主义、迷幻药之旅、CIA特工追逐读心术之梦,以及类似于《水瓶座时代》(Age of Aquarius)的狂热。”为量子计算、量子加密和量子隐形传态奠定基础的物理学家们采用了一种过时的、在学术上被边缘化的方法,但时间证明它是必不可少的。Kaiser说道:“早期的一些更丰富多彩的想法或方法是否能够出现在arXiv上还有待观察。
今天,可信的——或者至少不是完全疯狂的——想法有时也会出现在arXiv的人类和计算机过滤器的错误一边。安大略省滑铁卢周界理论物理研究所的理论物理学家Lee Smolin说:“我知道在我的研究领域有三种情况,专业物理学家的好论文被排除或质疑,其中包括发表记录良好的研究型大学的终身教授。”
一篇又一篇论文,审核员不得不做出决定:什么是科学,什么不是科学?
许多研究人员不得不为在arXiv上看到他们的论文而奋斗,但他们并不急于谈论这一经历,担心这会给他们和他们的研究留下污点。但日内瓦大学(University of Geneva)卓有成就的物理学家尼古拉斯·吉辛(Nicolas Gisin)是个例外。2015年12月,吉辛代表他的两名学生公开表达了不满。他写道,学生们已经向arXiv提交了一篇关于黑洞的论文。这篇论文得出的结论是不可能坠入黑洞,这是不正统的,而且它的作者也不是研究黑洞的一般研究人员。但是,吉辛觉得,他们的计算很清楚,逻辑也很清楚。他在量子光学和量子信息维也纳研究所(Institute for Quantum Optics and Quantum Information-Vienna)主办的博客上发表的一篇文章中写道:“我欣赏我的学生们渴望跨越物理学不同子领域之间的障碍。”
经过几个月的等待——这在快速转变的arxiv世界里是永恒的等待——这篇论文被拒绝了。它被系统标记了,然后被主持人拒绝了。然后,这两名学生的第二篇论文也被拒绝了,吉辛在博客上写道,这一次被拒绝的速度如此之快,以至于吉辛得出结论,这两名学生“现在被列入了黑名单”。
Ginsparg否认arXiv使用任何此类黑名单。他没有参与吉新学生的案件,但检查了他们的作业,觉得论文中有基本错误。参考一篇关于arXiv的文章中的案例在EMBO杂志, Ginsparg写道,arXiv“版主的工作远远超出了要求,以避免不明智的研究生不必要的尴尬。”第一篇学生论文最终发表在物理信,一份同行评议的杂志。
Ginsparg解释说,arXiv的自动筛选可能会标记出以前提交的论文被拒绝的用户,并且会拒绝那些用不同化名重新提交被拒绝论文的用户的论文。ArXiv还为用户提供上诉程序:作者可以要求被拒绝的论文由原版主重新审查,如果再次被拒绝,作者可以发起第三轮由上诉版主审查。如果一篇论文被arXiv拒绝,后来又被同行评审的期刊接受,它也会被arXiv秘密接受。不过,吉新的学生并没有试图提出上诉,即使论文被arXiv接受,也没有在arXiv上发表物理信.1
尽管偶尔会有激烈的争议,arXiv的标准还是非常自由的。ginsarg说,去年,由于内容问题,只有不到1%的提交被拒绝,许多像Gisin一样的网站评论家仍然是忠实的用户。
然而arXiv的过程仍然是不透明的。“ArXiv没有人身保护令,”Kaiser说。当版主拒绝一篇论文时,他们不需要给出超出arXiv标准的解释。斯莫林说,在被拒绝后成功提出申请可能是一种沮丧的练习。“考虑到arXiv对物理学职业的重要性,从我所知道的少数案例中,我感觉他们的上诉程序很薄弱,没有遵循最佳的专业实践。”
在接受和拒绝之间有一个中间选择:可疑的论文可以被转移到一个称为“普通物理学”或“gen-ph”的类别中。在最好的情况下,gen-ph是那些不完全属于任何其他类别的论文的家;在最坏的情况下,这是一个疯子的垃圾场。无论哪种方式,它都能让主持人避开那些被彻底拒绝的戏剧性场面。然而,对许多作者来说,被降级到gen-ph就像被直接拒绝一样令人难堪:正如一位研究人员告诉雷耶斯-加林多的那样,他的论文被重新分类到gen-ph,感觉像是故意要削弱论文的影响力。然而,gen-ph只是arXiv的一小部分:从2014年7月到2015年6月,在arXiv上发表的10万多篇论文中,只有302篇是在gen-ph上发表的。
由于arXiv的失败,英国独立物理学家菲利普•吉布斯(Philip Gibbs)创建了一个名为viXra的预印本网站。任何人都可以在viXra上发布任何内容,尽管内部规定禁止“低俗、诽谤、剽窃或危险的误导”内容。对于那些在那里工作的人来说,viXra是一种知识分子的避难所。但对科学界的许多人来说,viXra更像是Misfit Toys的小岛,一个可怜的古怪和破碎玩具的流放者。(谈到viXra的价值,Ginsparg打趣道:“这是一件伟大的事情!任何时候有人问我们为什么我们需要过滤,我们点他们[viXra]。”吉布斯,他还出版了一本17-part回顾“疯子谁是正确的”在viXra博客,viXra是家族的历史文档保存在他们那个年代的想法,未来的重要性可能会承认。
人们很容易认为,互联网为试图在科学和伪科学之间划清界限的思想家们创造了一个真正的新问题。但Kaiser表示,arXiv管理的是相同张力的超大版本。“一千年来,科学家和学者一直在抱怨,他们需要工具来管理和帮助处理最珍贵的商品——有限的注意力。”arXiv也许重塑了科学之门——使之摆动得更大更顺畅——但仍然有人被困在门外。
凯特·贝克尔写的是物理学、天文学和其他宇宙奇观。她住在马萨诸塞州的布鲁克林。
最新和最受欢迎的文章投递到您的收件箱!
拼贴照片来源:PhotoAlto/Matthieu Spohn/Getty Images;szefei,隆美尔Canlas /上面










