简历阅读- - -对于预防疾病，数据是新药

关闭

对于预防疾病，数据是新药

说出你的生物学秘密是不是太苦了?

蒂姆•麦克唐奈埃米利亚诺·庞齐的插图2015年2月5日

A.关于阿米莉亚·斯隆的几个关键数据:她喜欢吮自己的脚趾。她穿着粉红色的芭蕾舞裙。她不接受记者的采访。她于2013年4月25日下午6点54分出生在弗吉尼亚州的福尔斯彻奇，体重8磅2盎司。阿米莉亚准时来到了这个世界，但并不是她所有的金牛座同胞都准时来到了这个世界，这个事实也提出了其他关键的数据:在美国，每年大约有50万婴儿早产。出生时，每个人的重量还不到一个两升的汽水瓶。据估计，它们每年耗费医疗系统260亿美元。其中超过33万人在第一年就夭折了，剩下的许多人一生都在遭受健康和认知问题的折磨。医生们也不知道原因。

为了解开这个谜团，阿米莉亚出生的医院的科学家们正在梳理另一个数据集:将她健康的新生儿基因组中的数十亿分子与早产儿基因组进行比较。总的来说，这些数据本身只是医学科学家收集的大量基因组数据中的一个小点，而这些数据的规模在几年前还不可能达到。一群新的医学研究人员认为，检查尽可能多的人的完整基因信息，不仅会揭示从早产到癌症和自闭症等健康问题的治疗方法，还会揭示预防这些问题完全发生的预测性洞察力。

你身体的一切，从你重要器官的基本结构和功能，到你的眼睛和皮肤颜色，都被编码在一条独特的链上，由30亿个核苷酸分子组成，核苷酸有四种口味，分别由字母a、T、C和g代表。核苷酸拼出了一个蓝图——你的dna——它完全相同地排列在你的数万亿个细胞中。DNA和解码它的RNA一起组成了你的基因组，RNA使你的身体可以制造蛋白质和其他生物分子。反过来，你的基因组又被分成称为基因的功能块。当蓝图写得恰当时，你可能会忘记它的存在:你会长出四肢，消化食物，生出健康的孩子，做我们人类身体能做的所有其他事情。但是，就像一部小说的手稿可能会有拼写错误，从而混淆了它的意思一样，你的基因组中的打印错误，从父母那里遗传下来的或在怀孕时引入的，可能会给你带来糖尿病或肥胖等疾病。对研究阿米莉亚的科学家来说，找到治疗方法首先要识别这些错误。

20年前，阿米莉亚基因组的保管人、分子生物学家乔·沃克利（Joe Vockley）开始研究遗传学时，科学家们寻找基因故障，就像在黑暗的房间里用手电筒寻找丢失的袜子一样：在这里和那里发光，直到你找到它。但是现在，Inova转化医学研究所（ITMI）的首席科学官Vockley希望，大量的数据将揭示疾病的根源，而不必对可疑基因进行无休止的反复测试。Inova转化医学研究所是该国最大的医院网络之一中的一个非盈利组织。使用所谓的“大数据”就像打开泛光灯寻找你的袜子。有了正确的遗传标记，临床医生可以对女性的基因组进行取样，预测其早产的机会，然后采取措施预防早产。

沃克利说：“我们正试图从医学实践走向医学科学。”。“我认为基因组医学及其预测和预防原则将重新定义这个国家的医学实践。”

还健康

阿尔茨海默病早期告诉

艾德丽安天

20世纪90年代初，艾里斯·默多克(Iris Murdoch)正在写一部新小说，此前她已经写了25部小说。但这一次情况很糟糕。她的主人公，杰克森，一个英国男仆，对一个…阅读更多

恐惧：在未来，你的基因信息可以像谷歌搜索一样提供给健康保险公司，希望以你为代价降低风险。

但是像这样的努力已经引起了隐私专家的愤怒——其中一些人已经对国家安全局收集数百万电话记录和Facebook连接的行为大为光火。恐惧:在未来，你的基因信息就像你的谷歌搜索一样容易被营销人员、警察部门和身份窃贼获取，更不用说医疗保险公司和雇主为了降低风险而牺牲你。虽然Vockley对一个新基因组所做的第一件事就是去掉它的标识符，比如名字，但并不能保证这些数据能够或将永远保持匿名。今年1月，麻省理工学院(MIT)的数据科学家亚尼夫·埃利希(Yaniv Erlich)“重新确认了近50人的基因组”(合法地“破解”了身份)，这些人曾参与过Vockley 's等研究，方法是将匿名基因组与姓氏和来自遥远家庭成员的部分基因组数据连接起来，这些数据可以在一个家谱网站上公开。“我们将进入基因信息无处不在的时代，”埃利希说。

早产只是一个开始:今天，ITMI正在从其他患者那里收集数以万计的基因组，以找到癌症、糖尿病、骨关节炎和心血管疾病的根源。它还进行了一项研究，在婴儿出生的头两年反复取样，以观察基因的功能在这段时间内是如何变化的。Vockley估计，他的实验室总共生成了世界上超过10%的人类基因组数据。随着一个新的内部DNA测序设备正在建设中，他希望到明年年底将这个数字提高到15%。

如果Vockley成功了，他可能会改变无数早产儿的生活。但对阿米莉亚和其他人来说，这些潜在的收益值得冒着出生那天一样赤裸着身子站在数据上的风险吗?

乘着数据浪潮

我们正在迈向这样一个未来:海量数据处理将不仅为医学研究提供动力，而且几乎将为社会的各个方面提供动力。牛津大学牛津互联网研究所的数据学者Viktor Mayer-Schönberger说，他说，我们正处于一种根本性的转变之中，从一种我们基于少量信息对世界作出推断的文化，转变为一种通过稳步积累几乎无限的一切数据来收集全面的新见解的文化。

为了说明这一点，Mayer-Schönberger回顾了19世纪中期发现的海军军官生马修·方丹·莫里(Matthew Fontaine Maury)的盐渍航海日志，他是一名聪明的年轻海军军官，在1839年的一次公共马车事故中致残。在华盛顿特区的海图和仪器仓库里，毛利坐在一张桌子上，他注意到，海军的标准航线主要是由传统和迷信指引的，经常是曲折和荒谬的。沮丧之余，他仔细查看了长期被忽视的航海日志，惊奇地发现了无数关于不同时间和地点的水和风况的记录——这些数据总体上清楚地揭示了最有效的航线将在何时何地。在他的调查结束时，毛利绘制了120万个数据点(实际上是手工绘制的)，永久性地改变了美国的军事导航。

他们的工作就是从这一大堆惊人的基因数据中挖出与患病人群密切相关但与健康人群无关的变异。

现在想象一下，如果莫里不仅收集了他在航海日志中发现的数据，还收集了与航海相关的每一个数据，地球上每一个地方的每一个风速和水深。永远。他的实验结果应该是完美无缺的，但他的羽毛笔可能无法胜任这项任务。样本容量的统计概念只是因为收集才有必要所有比如说，关于投票行为的数据长期以来是不可能的。由于数字存储和处理的最新进展，情况不再如此。

“收集所有信息的价值，”Mayer-Schönberger说，并发表了一篇详尽的论文，题为大数据“你不必担心偏见或随机化。你不必担心事先要有一个假设，一个结论。”如果你把所有的东西都看一遍，景观就会变得清晰，图案就会自然而然地出现。

2009年，随着猪流感席卷全球，谷歌有机会将这一理论付诸实践。那里的分析人员发现，他们只使用搜索查询就能预测疫情即将发生的地方。结果证明，这一结果是准确的，足以让公共卫生官员提前知道这种疾病会在哪里出现。预测能力最终取决于45个搜索词，包括“流感并发症”、“感冒/流感药物”和“抗生素药物”，这些搜索词开始在谷歌服务器上集群出现。总的来说，这些术语与搜索者所在地区即将爆发的流感密切相关。

当你在谷歌上搜索“流感疗法”时，你会发现流感并不奇怪，谷歌的研究意义在于怎样它从美国5000万个最常见的搜索查询中找出了这些词。而不是假设怀疑,相关测试,,慢慢地建立一个列表,研究人员开发了一个算法(逐步说明电脑过滤数据),同时在所有查询任何话题,发现那些在时间和地点相关公共卫生记录流感暴发。正确的术语——实际上是所有的术语——自己找到了。泛光灯一亮，所有的猜测都消失了。

基因组学时代的数据

这些对Vockley和他的团队来说都很重要。他们正在筛选来自Inova费尔法克斯医院深处的近1000个新生儿基因组，包括阿米莉亚的基因组。这家医院位于华盛顿特区郊区的福尔斯彻奇，是一座庞大的砖混结构迷宫。在这里，医生治疗癌症，更换关节，移植心脏(去年，包括迪克·切尼的心脏)。

沃克利在这样的医院长大。他童年时在匹兹堡郊外的一些最早记忆是探望家庭成员，这些家庭成员不得不接受反复手术以去除疼痛的骨生长，这种骨生长可能会转化为致命的癌症，由一种称为多发性软骨外生骨疣的遗传病引起。虽然Vockley没有遗传这种疾病，但它已经传遍了他的家族几代人。因此，即使是在孩提时代，沃克利就明白家庭的不幸可能是由其细胞深处的神秘故障造成的。

“这是学习遗传学的艰难途径，”他说。

这段经历点燃了他的火花，使他获得了博士后奖学金，并在加州大学洛杉矶分校(UCLA)获得了遗传学临床实习期。到20世纪90年代初，他在SmithKline Beecham(现在的葛兰素史克，世界上收入排名第十的制药巨头)找到了一份工作，在那里他搜索了一个与癌症相关的部分基因组的小数据库。第一个完整的人类基因组直到2003年才被测序，但Vockley已经了解了其潜力。他掌握的数据越多，发现的就越多。

到2010年他来到Inova时，全基因组测序技术已经真正到来。为了将患者的血液样本转换成数字文件，实验室技术人员去除白细胞，并用化学方法融化除DNA和RNA以外的所有物质，即基因组本身。他们将其分成碎片，并将实验室生成的非人类DNA粘在两端。这种DNA与玻璃板上的互补DNA结合，将人类样本锁定在适当的位置。然后他们使用聚合酶，这种酶每次细胞分裂时都会复制你的基因组，并制造出一个精确的复制品。聚合酶经过修饰，在它复制的每个核苷酸上添加一个荧光标记，这样每个新的a、T、C和G都会进行颜色编码。这些颜色被一个超高分辨率的摄像机捕捉到，一个基因组数据文件诞生了。对于每个不同的样品，此过程最多重复30次，以纠正错误或误读。

当Vockley在SmithKline Beecham的时候，仅仅测序10000个核苷酸——仅仅是一个完整基因组的0.00033%——就需要18个小时。今天，测序仪可以在同样的时间内检测450亿个核苷酸(考虑到重复测试，大约是一个样本所需核苷酸的一半)，这要归功于工程技术的进步，它使同时处理多个样本成为可能。随着效率的提高，成本下降了几个数量级:2001年，对一个完整的人类基因组进行测序花费了大约1亿美元;如今，这个价格不到1万美元。

有了这项技术，Vockley在Inova发现了一群热衷于将大数据分析应用于医疗问题的科学家。他还发现了很多婴儿——每年大约有1万名婴儿出生在那里，使它成为全国最繁忙的新生儿设施之一，这也是他一直在等待的机会。在Inova的家乡弗吉尼亚州，每年大约有12%的婴儿早产，这是全国平均水平的一个缩影。Vockley说，几十年来，早产一直是一种棘手的疾病;近30年来，尽管产前护理取得了突飞猛进的改善，但发病率却没有变化。

“人们所做的一切，都没有产生影响，”他说。“所以问题是，我们能在基因组学的世界里找到一些改变结果的东西吗？”

预防早产儿

到2010年，Vockley和他的团队制定了一项计划，挖掘早产的基因根源。他将收集来自母亲、父亲和婴儿的数千个基因组，并以谷歌Flu Trends发现预测性搜索词的方式找到模式:同时查看所有数据。

两年前，他的团队开始在医院的产房里四处走动，寻找不仅愿意透露自己的基因组，而且愿意透露婴儿基因组的孕妇。然后，技术人员从参与研究的母亲和父亲身上采集血液和唾液样本，并在出生后一两天内采集婴儿的血液和唾液样本，从中对基因组进行排序。

Vockley现在在研究中有2710个基因组，包括881个母亲和父亲以及948个婴儿，并且仍在从任何愿意前来的早产儿身上采集样本。单是DNA就包含了惊人数量的数据：30亿个核苷酸乘以2710个参与者就等于8.1万亿个a、C、T和Gs。

这些发现的预测能力表明，与目前主要依靠猜测的做法相比，有可能发生巨大的转变。

比较任何两个人，他们的绝大多数DNA序列都是相同的；毕竟，我们是同一物种。但30亿个字母的DNA序列中，大约有10000个多字母片段因人而异，主要是基于血统（例如，来自纽约州北部的两个白人——第一批测序的人类基因组的人口统计数据——将比他们与津巴布韦的一名妇女有更多的共同点）。这些不同的部分被称为“变体”，Vockley的目标是从良性多数中挑出致病的少数。

为了做到这一点，他雇佣了一个由40名生物信息学家组成的团队，这是一群受过计算机编程和生物学训练的专业软件工程师，他们首先将早产儿研究中的每一个新基因组放入两个数字领域:“患病的”(早产)和“非患病的”(全月)。然后，他们的工作就是从这一大堆惊人的基因数据中挖出与患病人群密切相关但与健康人群无关的变异。

他们首先编写一个算法，将所有2710个基因组堆叠在一起，并同时查看它们。这使得计算机能够过滤出每个人身上相同的序列。这就是大型数据集的好处所在：如果只有少数几个基因组可以使用，那么它们之间的任何相似或差异都可能是偶然的结果。但如果在所有2710个基因组中都出现了完全相同的序列，那么它很可能是所有人类的共同点，因此不是疾病的一个因素。

下一步是过滤祖先的差异，比如巴黎人和津巴布韦人之间的差异。在这里，Vockley充分利用了华盛顿都市区的种族多样性;这项早产儿研究的参与者来自77个不同的国家，因此有可能解释和过滤许多基于血统的差异。

Vockley说:“突然之间，你从10000个变种”，可能与参与者之间的任何数量的差异有关，“到100个”，更有可能与疾病有关。

同时，不同的算法在基因组中搜索每个桶中的共同点，即所有前期家族共享的变体，但在任何全期家族中都找不到。锁定直接导致早产只是挑战的一部分:Vockley也对变异感兴趣相关与疾病;这些相关性可能不会直接导致早产，但可以作为危险信号，以特殊水平的护理观察怀孕。总的来说，这个消除过程已经产生了20个基因变异，Vockley认为这些基因变异在早产中发挥了作用，他计划将这一结果发表在同行评议的杂志上自然遗传学今年冬天。这些变异包括影响生理因素的变异，如胎盘的发育和母亲子宫颈的长度，以及母亲和胎儿之间的生化失衡。如果一名妇女对这些基因的任何组合检测呈阳性，这可能意味着她早产的风险增加。

凭借其预测能力，这些发现表明，与目前主要依靠猜测的做法相比，有可能发生重大转变。数据和它所讲述的故事赋予医生权力，医生可以开定制治疗处方，大大增加安全和成功分娩的几率。可以开发出新的药物来提前纠正不平衡，而对风险保持警惕的分娩护士可以为并发症做好准备，而不是在最后一分钟匆忙适应。

“反应性药物是我们目前所拥有的，”Vockley说。“你生病了，我们给你治疗。我们的目标是让你不生病。”

癌症的线索

世界上最先进的数据挖掘项目之一将这种分析应用于癌症。铅genomicist Ilya Shmulevich,指导基因组数据分析中心(National Institutes of Health)的癌症基因组图谱,说这个项目出生的挫败感癌症研究人员被迫共享,缺乏数据,研究癌症的一个有缺陷的基因,尽管人们怀疑这种疾病实际上是许多基因组故障同时发生的结果。

他说:“为了了解癌症中系统的哪个部分被破坏了，我们必须衡量这个系统的一切。”

麻省理工学院的“黑客”重建了近50个身份。他说，这个过程“比估计的要容易得多”。

在过去的几年里，NIH团队从世界各地1万名癌症患者的20种不同类型的癌症中获得了完整的基因组数据。为了弄清是什么导致了这种疾病，科学家们对患者健康细胞和肿瘤扭曲的基因组进行了测序。结果已经陆续出炉。10月中旬，圣路易斯华盛顿大学医学院(Washington University 's School of Medicine In St. Louis)的科学家们利用癌症基因组图谱(The Cancer Genome Atlas)的数据，发现了12种主要癌症类型中常见突变的127个基因。这一发现为一种可以在早期发现更多癌症的单一测试奠定了基础。这样的研究也为基于肿瘤独特分子特征的靶向药物的研制铺平了道路。

基因的排序在整个生命中都是不变的，这只是预测和预防遗传疾病的第一步。同样重要的是:RNA分子可以读取基因的DNA蓝图，产生功能蛋白质，从形成组织到抗击细菌疾病。随着时间的推移，这些翻译分子会随着饮食和压力等环境条件而改变。今天对同一个人进行抽样调查，一年后再对同一个人进行抽样调查，结果会截然不同。Shmulevich认为，当你从健康状态转变为疾病状态时，将你与自己进行比较具有很大的潜力。庞大的基因组数据可以揭示细胞行为中前所未见的模式，就像大规模的交通数据可以帮助你的GPS导航器找到最有效的回家路线。利用这些数据，医生可以在你出现任何症状之前就知道你“患上”了癌症。

大数据的未来

像Shmulevich这样的数据爱好者说，我们即将实现这样的未来:为每一个走进诊所的病人获取整个基因组信息将是廉价、快速和简单的;一群生物科技初创公司正在竞相推出首个100美元的基因组，这可能只需要几年时间。对Vockley来说，这将为医生对抗疾病提供前所未有的战略优势，避免任何需要在黑暗中打针。与精心挑选数据来回答预先设定的问题的小型统计样本不同，大规模数据收集在揭示信息方面没有限制;今天由ITMI和癌症基因组图谱收集的基因组数据，明天可能被用于研究其他疾病，如糖尿病或肥胖。

但大数据的长期保存期也让它暴露在不可预见的风险中：不择手段的玩家可以利用它在你发病前提高医疗保险费，在你拖欠贷款前拒绝信贷，或者，在梅耶·舍恩伯格（Mayer Schönberger）个人最喜欢的启示录场景中，在“罪犯”犯罪前惩罚他们，所有这些都基于您的大数据档案。认为少数派报告但这些预测是由纯粹的数据而不是怪异的浮动千里眼做出的。换句话说，真正的风险并不是NSA会知道你在工作期间给男朋友打了长途电话，而是你可能从一开始就不会被录用，因为有你数据资料的人很可能会打这样的电话。

将基因组数据添加到关于你的所有信息中，增加了有一天它可能被用于原始研究之外的其他目的的风险。Mayer-Schönberger表示，有了大数据，“我们人类不一定会变得更赤裸、更受监视。”“作为一个人类群体，我们变得更加赤裸。社会中的互动和动态将会暴露出来。”

阿米莉亚·斯隆在她出生的第二天就成为了大数据时代的一员。还在医院的时候，她为早产研究提供了血液和唾液样本，这是她的母亲霍莉(Holly)自愿参加的。霍莉有充分的理由签约:她自己在这家医院做了5年的接生护士，已经为数十起早产做好了准备，而且太频繁地目睹本应是欢乐的家庭聚会变成了葬礼。

“刚开始的时候，这太可怕了，”她说，“因为他们出来的时候都很小，那里有所有的设备，还有所有的人，你会想，‘这个小婴儿到底怎么能活下来？’”

霍莉不想再问自己这个问题了。因此，她、她的新生儿和一些家庭成员向Vockley的研究提供了他们的基因组，并承诺在与其他研究人员分享之前，这些数据将是匿名的。但这可能只是一厢情愿的想法。事实上，要想保护你的基因组不被窥探，可能已经太晚了。正如麻省理工学院的埃利希所指出的，当这些数据被置于与他们有关的所有其他数据的背景之下时，参与者从他们的基因组“匿名化”中获得的安慰就会减少。

埃利希的职业生涯始于银行雇佣他侵入银行系统，寻找安全漏洞。这段经历让他对数据集到底有多安全产生了怀疑，所以去年晚些时候，他决定测试基因组数据的锁。他从公共研究数据库中提取了10个完整的、据称是匿名的基因组，并将它们与人们提交给一个商业基因家谱重建网站的部分Y染色体DNA片段进行了匹配。因为Y染色体传输从父亲到儿子姓氏一样,做一个匹配不需要在同一个人使它足以推断匿名基因组的姓,然后缩小个体年龄和state-of-residency信息不合法使用考虑识别的研究数据库。埃利希重建了近50个身份，他说，这个过程“比估计的要容易得多”。

将研究基因组与任何其他基因组数据来源结合起来，也可以获得类似的结果，比如另一项医学研究或为警方调查或亲子测试收集的DNA。除此之外，任何数量的组合都是可能的:基因组数据可以与亚马逊(Amazon)的购买习惯相结合，以针对具有特定基因特征或疾病的人进行营销活动。它所需要的只是通过一场混乱(Netflix在2009年面临50亿美元的诉讼，因为它公布了据称是匿名的电影评论数据，但很快被两名德克萨斯大学的研究人员重新确认)或一个维基解密式的义务人员数据dump。既然如此多的基因组数据是由家庭成员共享的，那么你妹妹参与泄露的基因组研究也会泄露你的秘密。

在大数据时代,迈尔·舍恩伯格说,“如果一个人选择他的基因组测序,在本质上他是妥协的基因组信息他所有的亲戚,也“开辟了一个伦理裂缝对于任何想捐赠他们的基因组科学,自愿的或代表他们的新生儿。

Vockley和Shmulevich都提到了《健康保险可携带和责任法案》(HIPAA)，这是自1996年比尔·克林顿总统签署成为法律以来的医疗隐私标准，是防止非自愿医疗数据共享的充分保障。但信息和隐私法专家，比如纽约大学法学院的凯瑟琳·j·斯特兰德伯格(Katherine J. Strandburg)认为，从基因组到Facebook上的“赞”，需要一种新的法律保护，这种保护超越了在数据收集时可以做出的任何保证(比如，你在签署电子邮件提供商时同意的传统通知和同意合同)，并明确禁止未来的滥用。

她说:“人们不知道如何处理收集到的关于他们的信息。”“所以我们真的需要更直接的监管，禁止某些行为，某些信息的使用。”

这可能就是为什么去年秋天，2009年，美国总统巴拉克·奥巴马（Barack Obama）成立了生物伦理问题研究总统委员会，就生物医学技术进步引起的伦理问题向他提供建议。该委员会向总统发送了一份备忘录，敦促制定州和联邦法律，扩大对基因组数据的隐私保护，无论其来源如何。对霍莉和阿米莉亚来说，幸运的是，在这方面较为进步的法律之一是乔治·W·布什总统在2008年签署的《基因组信息不歧视法》（GINA），该法明确禁止保险公司或雇主基于基因信息的歧视。与HIPAA不同，GINA的工作假设是，所有数据都有一天会进入公共领域，因此禁止滥用数据本身，而不是共享数据。

对Vockley来说，基因组医学的前景大于风险。他认为，在不远的将来，基因组数据将让医生花更多的时间来抵御你可能患上的疾病，而不是击退你已经患上的疾病。他想知道，“如果每个人都有预测，而不是生病，医院会是什么样子?”

因为技术总是超过监管，共享多少数据仍然是只有你，或者你妈妈才能做出的决定。

“我觉得把我的基因组绘制出来会很酷，”霍利·斯隆说。“20年后再问我一次，我是否仍然认为这是个好主意。”

蒂姆·麦克唐奈是琼斯妈妈他在杂志上报道环境科学和政策。

本文最初发表于2013年10月的《秘密密码》(Secret Codes)杂志。

第021期

信息

探讨这个问题

第一章
在记录

下一篇文章：

文化

ISIS是如何破坏我的调查问卷的

由丽迪雅威尔逊

选择通讯和提交必威开户官网联系细节…
新的章节周四每周四，鹦鹉螺号都会根据其每月的主题出版一个新的专题故事章节。注册此列表以了解最新和最棒的最新信息。编辑精选星期天阅读我们过去一周一直在思考的关于鹦鹉螺的故事和博客。

阿尔茨海默病早期告诉

第021期

信息

探讨这个问题

下一篇文章：

ISIS是如何破坏我的调查问卷的

相关文章:

你想让人工智能有意识吗？

机器人的智能生活

为什么电脑写不出好小说