一个关于阿米莉亚·斯隆的几个关键数据:她喜欢吮自己的脚趾。她穿着粉红色的芭蕾舞裙。她不接受记者的采访。她于2013年4月25日下午6点54分出生在弗吉尼亚州的福尔斯彻奇,体重8磅2盎司。阿米莉亚准时来到了这个世界,但并不是她所有的金牛座同胞都准时来到了这个世界,这个事实也提出了其他关键的数据:在美国,每年大约有50万婴儿早产。出生时,每个人的重量还不到一个两升的汽水瓶。据估计,它们每年耗费医疗系统260亿美元。其中超过33万人在第一年就夭折了,剩下的许多人一生都在遭受健康和认知问题的折磨。医生们也不知道原因。
为了解开这个谜团,阿米莉亚出生的医院的科学家们正在梳理另一个数据集:将她健康的新生儿基因组中的数十亿分子与早产儿基因组进行比较。总的来说,这些数据本身只是医学科学家收集的大量基因组数据中的一个小点,而这些数据的规模在几年前还不可能达到。一群新的医学研究人员认为,检查尽可能多的人的完整基因信息,不仅会揭示从早产到癌症和自闭症等健康问题的治疗方法,还会揭示预防这些问题完全发生的预测性洞察力。
关于您的身体的一切,从您的重要器官到您的眼睛和肤色的基本结构和功能,是在一个叫做核苷酸的独特分子的独特链中,这是由字母A,T,C,和G.在骨料中,核苷酸拼出蓝图 - 你的DNA - 它相同地包装成你量的万亿个细胞。DNA和RNA一起解码,以便您的身体可以制造蛋白质和其他生物分子,包括您的基因组。反过来,您的基因组分为名为基因的功能块。当蓝图写得适当的时候,你可能会忘记它的那里:你生长了四肢和消化食物,产生了健康的孩子,做了我们人体所做的所有其他事情。但正如小说的稿件含有混淆它的拼写错误,这些错误混淆了它的意义,从你的父母继承或在概念中引入的基因组中的错误印刷可以给你患有糖尿病等疾病或肥胖的易感性。对于使用Amelia的科学家来说,寻找治疗始于识别这些错误印刷品。
20年前,当分子生物学家、阿米莉亚(Amelia)基因组的保管者乔·沃克利(Joe Vockley)开始研究遗传学时,科学家们搜寻基因故障的方式就像在黑暗的房间里用手电筒寻找一只丢失的袜子一样:到处照照,直到找到为止。但现在,美国最大的医院网络之一的非营利组织Inova转化医学研究所(ITMI)的首席科学官Vockley希望,大量的数据将揭示疾病的根源,而不是对可疑基因进行无休止的偶然检测。使用所谓的“大数据”就像打开泛光灯寻找你的袜子。有了正确的基因标记,临床医生就可以对女性的基因组进行取样,预测她早产的可能性,然后采取措施预防。
“我们正试图从医学实践走向医学科学,”Vockley说。“我认为,基因组医学,以其预测和预防的原则,将重新定义这个国家的医学实践。”
为什么住在贫穷的社区会让你变胖
这是美国住房和城市发展部进行的最雄心勃勃的社会试验。这是最令人惊讶的。1994年,美国住房和城市发展部随机分配了4600个贫困家庭,其中大部分是非洲裔美国人,分布在巴尔的摩、波士顿、芝加哥、洛杉矶……阅读更多
恐惧:在未来,你的基因信息就像你的谷歌搜索一样,可以被医疗保险公司获取,这些公司希望以你为代价降低他们的风险。
但是像这样的努力已经引起了隐私专家的愤怒——其中一些人已经对国家安全局收集数百万电话记录和Facebook连接的行为大为光火。恐惧:在未来,你的基因信息就像你的谷歌搜索一样容易被营销人员、警察部门和身份窃贼获取,更不用说医疗保险公司和雇主为了降低风险而牺牲你。虽然Vockley对一个新基因组所做的第一件事就是去掉它的标识符,比如名字,但并不能保证这些数据能够或将永远保持匿名。今年1月,麻省理工学院(MIT)的数据科学家亚尼夫·埃利希(Yaniv Erlich)“重新确认了近50人的基因组”(合法地“破解”了身份),这些人曾参与过Vockley 's等研究,方法是将匿名基因组与姓氏和来自遥远家庭成员的部分基因组数据连接起来,这些数据可以在一个家谱网站上公开。“我们将进入基因信息无处不在的时代,”埃利希说。
早产只是一个开始:今天,ITMI正在从其他患者那里收集数以万计的基因组,以找到癌症、糖尿病、骨关节炎和心血管疾病的根源。它还进行了一项研究,在婴儿出生的头两年反复取样,以观察基因的功能在这段时间内是如何变化的。Vockley估计,他的实验室总共生成了世界上超过10%的人类基因组数据。随着一个新的内部DNA测序设备正在建设中,他希望到明年年底将这个数字提高到15%。
如果Vockley成功了,他可能会改变无数早产儿的生活。但对阿米莉亚和其他人来说,这些潜在的收益值得冒着出生那天一样赤裸着身子站在数据上的风险吗?
乘着数据浪潮
我们正在迈向这样一个未来:海量数据处理将不仅为医学研究提供动力,而且几乎将为社会的各个方面提供动力。牛津大学牛津互联网研究所的数据学者Viktor Mayer-Schönberger说,他说,我们正处于一种根本性的转变之中,从一种我们基于少量信息对世界作出推断的文化,转变为一种通过稳步积累几乎无限的一切数据来收集全面的新见解的文化。
为了说明这一点,Mayer-Schönberger回顾了19世纪中期发现的海军军官生马修·方丹·莫里(Matthew Fontaine Maury)的盐渍航海日志,他是一名聪明的年轻海军军官,在1839年的一次公共马车事故中致残。在华盛顿特区的海图和仪器仓库里,毛利坐在一张桌子上,他注意到,海军的标准航线主要是由传统和迷信指引的,经常是曲折和荒谬的。沮丧之余,他仔细查看了长期被忽视的航海日志,惊奇地发现了无数关于不同时间和地点的水和风况的记录——这些数据总体上清楚地揭示了最有效的航线将在何时何地。在他的调查结束时,毛利绘制了120万个数据点(实际上是手工绘制的),永久性地改变了美国的军事导航。
他们的工作就是从这一大堆惊人的基因数据中挖出与患病人群密切相关但与健康人群无关的变异。
现在想象一下,如果Maury汇总了他在日志中发现的东西,而是每一件导航相关数据,地球上无处不在的各个风速和水深。曾经。他的结果将是完美的,但他的羽毛笔可能不是在任务上。样本大小的统计概念仅是必要的,因为收集所有比如,关于投票行为的数据,长期以来都是不可能的。由于最近数字存储和处理技术的进步,情况不再如此。
“收集所有信息的价值,”Mayer-Schönberger说,并发表了一篇详尽的论文,题为大数据“你不必担心偏见或随机化。你不必担心事先要有一个假设,一个结论。”如果你把所有的东西都看一遍,景观就会变得清晰,图案就会自然而然地出现。
2009年,随着猪流感席卷全球,谷歌有机会将这一理论付诸实践。那里的分析人员发现,他们只使用搜索查询就能预测疫情即将发生的地方。结果证明,这一结果是准确的,足以让公共卫生官员提前知道这种疾病会在哪里出现。预测能力最终取决于45个搜索词,包括“流感并发症”、“感冒/流感药物”和“抗生素药物”,这些搜索词开始在谷歌服务器上集群出现。总的来说,这些术语与搜索者所在地区即将爆发的流感密切相关。
当你在谷歌上搜索“流感疗法”时,你会发现流感并不奇怪,谷歌的研究意义在于如何它从美国5000万个最常见的搜索查询中找出了这些词。而不是假设怀疑,相关测试,,慢慢地建立一个列表,研究人员开发了一个算法(逐步说明电脑过滤数据),同时在所有查询任何话题,发现那些在时间和地点相关公共卫生记录流感暴发。正确的术语——实际上是所有的术语——自己找到了。泛光灯一亮,所有的猜测都消失了。
基因组学时的数据
这些对Vockley和他的团队来说都很重要。他们正在筛选来自Inova费尔法克斯医院深处的近1000个新生儿基因组,包括阿米莉亚的基因组。这家医院位于华盛顿特区郊区的福尔斯彻奇,是一座庞大的砖混结构迷宫。在这里,医生治疗癌症,更换关节,移植心脏(去年,包括迪克·切尼的心脏)。
Vockley就是在这样的医院长大的他最早的一些记忆来自于他在匹兹堡郊区度过的童年时光,那时候他的家人来看望他,为了去除痛苦的骨骼生长,他不得不多次接受手术。这种生长可能会变成致命的癌症,它是由一种名为多发性软骨外骨骼的遗传疾病引起的。虽然Vockley没有遗传这种疾病,但它已经在他的家族中代代相传。所以,即使还是个孩子,Vockley也明白一个家庭的不幸可能是由他们细胞深处的神秘故障造成的。
“这是学习遗传学的艰难途径,”他说。
这段经历点燃了他的火花,使他获得了博士后奖学金,并在加州大学洛杉矶分校(UCLA)获得了遗传学临床实习期。到20世纪90年代初,他在SmithKline Beecham(现在的葛兰素史克,世界上收入排名第十的制药巨头)找到了一份工作,在那里他搜索了一个与癌症相关的部分基因组的小数据库。第一个完整的人类基因组直到2003年才被测序,但Vockley已经了解了其潜力。他掌握的数据越多,发现的就越多。
当他在2010年抵达Inova时,全基因组测序技术真正到达。为了将患者的血液样本转换为数字文件,实验室技术人员去除白细胞,并在基因组本身,除了DNA和RNA的所有内容,并将其进行化学融化。它们将其分成碎片并将实验室生成的非人DNA粘贴到每一端。该DNA与玻璃板上的互补DNA结合,将人样品锁定到位。然后他们使用聚合酶,同样的酶,每次一个细胞分裂,并搅拌出精确的复制品。修饰聚合酶以将荧光标记物添加到每个核苷酸上,使得每个新的A,T,C和G是颜色编码的。通过超高分辨率相机拾取的颜色,并诞生了基因组数据文件。每个不同样品重复该过程最多30次,以纠正错误或误读。
当Vockley在SmithKline Beecham的时候,仅仅测序10000个核苷酸——仅仅是一个完整基因组的0.00033%——就需要18个小时。今天,测序仪可以在同样的时间内检测450亿个核苷酸(考虑到重复测试,大约是一个样本所需核苷酸的一半),这要归功于工程技术的进步,它使同时处理多个样本成为可能。随着效率的提高,成本下降了几个数量级:2001年,对一个完整的人类基因组进行测序花费了大约1亿美元;如今,这个价格不到1万美元。
通过该技术,Vockley发现Inova的科学家社区,热衷于对医疗问题进行大数据分析。他还发现了很多婴儿 - 每年都在那里出生,使其成为国家最繁忙的新生儿设施之一,以及他一直在等待的机会。在Inova的家庭州,弗吉尼亚州大约12%的婴儿每年都是过早出生的,这是全国范围内的近似微观微观。瓦克利说,预期出生是几十年的棘手症;即使产前护理有所改善,发病率在近30年内没有突然出现跨越式突飞猛进。
“人们正在做的每一件事,都没有产生影响,”他说。“所以问题是,我们能否在基因组学领域找到改变结果的方法?”
预防追求
到2010年,Vockley和他的团队制定了一项计划,挖掘早产的基因根源。他将收集来自母亲、父亲和婴儿的数千个基因组,并以谷歌Flu Trends发现预测性搜索词的方式找到模式:同时查看所有数据。
两年前,他的团队开始在医院的产科病房里漫游,寻找那些不仅愿意透露自己的基因组,还愿意透露孩子基因组的孕妇。然后,技术人员收集了参与研究的父母的血液和唾液样本,并在婴儿出生后的一到两天内收集了他们的血液和唾液样本,以此来对基因组进行排序。
在这项研究中,Vockley现在有2710个基因组,包括父母各881个基因组和948个婴儿,并仍在收集任何自愿出现的早产儿的样本。单是DNA就包含了惊人的数据量:30亿个核苷酸乘以2710个参与者等于8.1万亿a、C、T和g。
这些发现的预测能力表明,与目前主要依靠猜测的做法相比,有可能发生巨大的转变。
比较任何两个人,他们的绝大多数DNA序列将是相同的;毕竟,我们是同一物种。但是大约10000多字母块的3 billion-letter DNA字符串因人而异,主要基于血统(两个白人从纽约。北部人口有史以来第一次人类基因组sequenced-will彼此有更多的共同点比和一个女人从津巴布韦,例如)。这些不同的部分被称为“变异”,Vockley的目标是从良性的多数中筛选出致病的少数。
为了做到这一点,他雇佣了一个由40名生物信息学家组成的团队,这是一群受过计算机编程和生物学训练的专业软件工程师,他们首先将早产儿研究中的每一个新基因组放入两个数字领域:“患病的”(早产)和“非患病的”(全月)。然后,他们的工作就是从这一大堆惊人的基因数据中挖出与患病人群密切相关但与健康人群无关的变异。
他们首先编写了一种算法,将所有2710个基因组堆叠在一起,并同时观察它们。这使得计算机能够过滤掉每个人身上相同的序列。这就是大数据集的好处发挥作用的地方:如果只有少数几个基因组可供研究,它们之间的任何相似或不同可能都是偶然的产物。但如果在所有2710个基因组中都出现了完全相同的序列,则更有可能这是所有人类共有的东西,因此不是疾病的因素。
下一步是过滤祖先的差异,比如巴黎人和津巴布韦人之间的差异。在这里,Vockley充分利用了华盛顿都市区的种族多样性;这项早产儿研究的参与者来自77个不同的国家,因此有可能解释和过滤许多基于血统的差异。
Vockley说:“突然之间,你从10000个变种”,可能与参与者之间的任何数量的差异有关,“到100个”,更有可能与疾病有关。
同时,不同的算法搜索每个基因组中的共性,所有早产家族共享的变异,但在任何足月家族中都没有发现。直接确定变量导致早产只是挑战的一部分:Vockley也对变异感兴趣相关与疾病;这些相关性可能不会直接导致早产,但可以作为危险信号,以特殊水平的护理观察怀孕。总的来说,这个消除过程已经产生了20个基因变异,Vockley认为这些基因变异在早产中发挥了作用,他计划将这一结果发表在同行评议的杂志上自然遗传学这个冬天。这些包括影响像胎盘发展的物理因素的变体以及母亲的子宫颈的长度,以及母亲和她的胎儿之间的生化失衡。如果一个女人对这些基因的任何组合进行阳性,它可能会指示她预先出生的风险增加。
这些发现的预测能力表明,与目前主要依靠猜测的做法相比,有可能发生巨大的转变。有了数据和它所讲述的故事的支持,医生可以开出定制的治疗方案,大大增加安全成功分娩的几率。可以开发新的药物来提前纠正失衡,提醒分娩护士警惕风险,可以为并发症做好准备,而不是在最后一分钟匆忙适应它们。
“反应性药物是我们目前所拥有的,”Vockley说。“你生病了,我们给你治疗。我们的目标是让你不生病。”
癌症的线索
世界上最先进的数据挖掘项目之一将这种分析应用于癌症。铅genomicist Ilya Shmulevich,指导基因组数据分析中心(National Institutes of Health)的癌症基因组图谱,说这个项目出生的挫败感癌症研究人员被迫共享,缺乏数据,研究癌症的一个有缺陷的基因,尽管人们怀疑这种疾病实际上是许多基因组故障同时发生的结果。
他说:“为了了解癌症中系统的哪个部分被破坏了,我们必须衡量这个系统的一切。”
麻省理工学院的“黑客”重建了近50个身份。他说,这个过程“比估计的要容易得多”。
在过去的几年里,NIH团队从世界各地1万名癌症患者的20种不同类型的癌症中获得了完整的基因组数据。为了弄清是什么导致了这种疾病,科学家们对患者健康细胞和肿瘤扭曲的基因组进行了测序。结果已经陆续出炉。10月中旬,圣路易斯华盛顿大学医学院(Washington University 's School of Medicine In St. Louis)的科学家们利用癌症基因组图谱(The Cancer Genome Atlas)的数据,发现了12种主要癌症类型中常见突变的127个基因。这一发现为一种可以在早期发现更多癌症的单一测试奠定了基础。这样的研究也为基于肿瘤独特分子特征的靶向药物的研制铺平了道路。
基因的排序在整个生命中都是不变的,这只是预测和预防遗传疾病的第一步。同样重要的是:RNA分子可以读取基因的DNA蓝图,产生功能蛋白质,从形成组织到抗击细菌疾病。随着时间的推移,这些翻译分子会随着饮食和压力等环境条件而改变。今天对同一个人进行抽样调查,一年后再对同一个人进行抽样调查,结果会截然不同。Shmulevich认为,当你从健康状态转变为疾病状态时,将你与自己进行比较具有很大的潜力。庞大的基因组数据可以揭示细胞行为中前所未见的模式,就像大规模的交通数据可以帮助你的GPS导航器找到最有效的回家路线。利用这些数据,医生可以在你出现任何症状之前就知道你“患上”了癌症。
大数据的未来
像Shmulevich这样的数据爱好者说,我们即将实现这样的未来:为每一个走进诊所的病人获取整个基因组信息将是廉价、快速和简单的;一群生物科技初创公司正在竞相推出首个100美元的基因组,这可能只需要几年时间。对Vockley来说,这将为医生对抗疾病提供前所未有的战略优势,避免任何需要在黑暗中打针。与精心挑选数据来回答预先设定的问题的小型统计样本不同,大规模数据收集在揭示信息方面没有限制;今天由ITMI和癌症基因组图谱收集的基因组数据,明天可能被用于研究其他疾病,如糖尿病或肥胖。
但大数据的长期存在也让它面临着不可预见的风险:肆无忌惮的玩家可以利用它在你患上疾病之前提高医疗保险费,在你拖欠贷款之前拒绝信贷,或者在Mayer-Schönberger个人最喜欢的末日场景中,在“罪犯”犯罪之前惩罚他们,所有这些都基于你的大数据档案。认为少数派报告但这些预测是由纯粹的数据而不是怪异的浮动千里眼做出的。换句话说,真正的风险并不是NSA会知道你在工作期间给男朋友打了长途电话,而是你可能从一开始就不会被录用,因为有你数据资料的人很可能会打这样的电话。
将基因组数据添加到关于你的所有信息中,增加了有一天它可能被用于原始研究之外的其他目的的风险。Mayer-Schönberger表示,有了大数据,“我们人类不一定会变得更赤裸、更受监视。”“作为一个人类群体,我们变得更加赤裸。社会中的互动和动态将会暴露出来。”
阿米莉亚·斯隆在她出生的第二天就成为了大数据时代的一员。还在医院的时候,她为早产研究提供了血液和唾液样本,这是她的母亲霍莉(Holly)自愿参加的。霍莉有充分的理由签约:她自己在这家医院做了5年的接生护士,已经为数十起早产做好了准备,而且太频繁地目睹本应是欢乐的家庭聚会变成了葬礼。
她说:“刚开始的时候,我很害怕,因为他们出来的时候非常小,有那么多设备,那么多人,你会想,‘这个小婴儿到底是怎么活下来的?’”
霍莉不想再问自己这个问题了。因此,她、她的新生儿和一些家庭成员向Vockley的研究提供了他们的基因组,并承诺在与其他研究人员分享之前,这些数据将是匿名的。但这可能只是一厢情愿的想法。事实上,要想保护你的基因组不被窥探,可能已经太晚了。正如麻省理工学院的埃利希所指出的,当这些数据被置于与他们有关的所有其他数据的背景之下时,参与者从他们的基因组“匿名化”中获得的安慰就会减少。
Erlich开始由银行支付的职业生涯,以破解他们的系统,寻找安全弱点。这些经验使他对任何数据集可以真正的安全,这是去年晚些时候他决定在基因组数据上测试锁。他从公共研究数据库中获得了10个完整的,据说匿名的基因组,并将它们与y染色体的部分DNA片段与他们的姓氏一起提交给商业遗传家庭树重建网站。Because Y chromosomes transmit from father to son like surnames, making a match didn’t require the same individual to be in both sets—it was enough to infer the anonymous genomes’ surname, then narrow down to an individual using age and state-of-residency information that wasn’t legally considered identifying in the research database. Erlich reconstructed nearly 50 identities, and the process, he says, was “much easier than what has been estimated.”
将研究基因组与任何其他基因组数据来源结合起来,也可以获得类似的结果,比如另一项医学研究或为警方调查或亲子测试收集的DNA。除此之外,任何数量的组合都是可能的:基因组数据可以与亚马逊(Amazon)的购买习惯相结合,以针对具有特定基因特征或疾病的人进行营销活动。它所需要的只是通过一场混乱(Netflix在2009年面临50亿美元的诉讼,因为它公布了据称是匿名的电影评论数据,但很快被两名德克萨斯大学的研究人员重新确认)或一个维基解密式的义务人员数据dump。既然如此多的基因组数据是由家庭成员共享的,那么你妹妹参与泄露的基因组研究也会泄露你的秘密。
在大数据时代,迈尔·舍恩伯格说,“如果一个人选择他的基因组测序,在本质上他是妥协的基因组信息他所有的亲戚,也“开辟了一个伦理裂缝对于任何想捐赠他们的基因组科学,自愿的或代表他们的新生儿。
Vockley和Shmulevich都提到了《健康保险可携带和责任法案》(HIPAA),这是自1996年比尔·克林顿总统签署成为法律以来的医疗隐私标准,是防止非自愿医疗数据共享的充分保障。但信息和隐私法专家,比如纽约大学法学院的凯瑟琳·j·斯特兰德伯格(Katherine J. Strandburg)认为,从基因组到Facebook上的“赞”,需要一种新的法律保护,这种保护超越了在数据收集时可以做出的任何保证(比如,你在签署电子邮件提供商时同意的传统通知和同意合同),并明确禁止未来的滥用。
她说:“人们不知道如何处理收集到的关于他们的信息。”“所以我们真的需要更直接的监管,禁止某些行为,某些信息的使用。”
这可能就是为什么去年秋天,生命伦理的研究总统委员会2009年由美国总统巴拉克•奥巴马(Barack Obama) Issues-created劝其伦理并发症引起的生物医学的进步technology-sent一份备忘录,总统敦促建立州和联邦法律,扩大基因数据的隐私保护而不管它的来源。对霍莉和阿米莉亚来说,幸运的是,在这方面较为进步的法律之一是2008年乔治·w·布什总统签署的《基因组信息非歧视法案》(Genome Information Nondiscrimination Act, GINA),该法案明确禁止保险公司或雇主基于基因信息进行歧视。与HIPAA不同的是,GINA的工作基于这样一个假设,即所有的数据终有一天都会进入公共领域,因此禁止滥用本身,而不是共享数据。
对Vockley来说,基因组医学的前景大于风险。他认为,在不远的将来,基因组数据将让医生花更多的时间来抵御你可能患上的疾病,而不是击退你已经患上的疾病。他想知道,“如果每个人都有预测,而不是生病,医院会是什么样子?”
因为科技总是超越监管,分享多少数据仍然是只有你,或者也许是你的妈妈才能做出的决定。
“我觉得把我的基因组绘制出来会很酷,”霍利·斯隆说。“20年后再问我一次,我是否仍然认为这是个好主意。”
蒂姆·麦克唐奈是琼斯妈妈他在杂志上报道环境科学和政策。










