Return to Video

如何解读基因组并组装人类

  • 0:01 - 0:03
    接下来的一刻钟,我要带大家踏上一段旅程
  • 0:03 - 0:07
    这大概是全人类的终极梦想——
  • 0:07 - 0:09
    解读生命的密码!
  • 0:09 - 0:11
    我的经历开始于很多很多年以前,
  • 0:11 - 0:14
    那时我遇到了第一台3D打印机。
  • 0:14 - 0:17
    3D打印真是个非常赞的概念
  • 0:17 - 0:18
    它需要三个要素:
  • 0:18 - 0:22
    少量的信息,一些原材料,再加上点能量
  • 0:22 - 0:26
    就能制造出以前从没存在过的任何东西。
  • 0:26 - 0:28
    当时我正在研究物理学
  • 0:28 - 0:32
    有天我回到家,突然意识到我家里就有台3D打印机
  • 0:32 - 0:33
    而且每人家里都有一台
  • 0:33 - 0:35
    就是我妈妈。
  • 0:35 - 0:38
    我妈妈用这三个要素:
  • 0:38 - 0:39
    少量的信息——
  • 0:39 - 0:42
    来自我爸和我妈的共同投入
  • 0:42 - 0:46
    原材料和能量的共同来源——食物
  • 0:46 - 0:49
    历时几个月,制造出了我
  • 0:49 - 0:51
    而我以前从来没有存在过!
  • 0:51 - 0:54
    除了震惊的发现我妈其实是台3D打印机
  • 0:54 - 0:59
    我还立即被另一个部分吸引了
  • 0:59 - 1:01
    第一个要素,信息——
  • 1:01 - 1:03
    到底需要多少信息
  • 1:03 - 1:05
    才能制造和组装一个人呢?
  • 1:05 - 1:07
    是要很多?还是很少?
  • 1:07 - 1:09
    要用多少个U盘去储存?
  • 1:09 - 1:12
    我最开始是学物理的,
  • 1:12 - 1:17
    我想如果把人看成是一个巨型的乐高玩具
  • 1:17 - 1:21
    小的乐高模块就像是原子——
  • 1:21 - 1:26
    这里有氢原子,这边有碳原子,上面这有氮原子。
  • 1:26 - 1:27
    按照最初的这个设定
  • 1:27 - 1:32
    如果能够列出组成人类的所有原子
  • 1:32 - 1:33
    应该就能组装出一个人。
  • 1:33 - 1:35
    大致计算一下
  • 1:35 - 1:38
    得到的结果非常惊人。
  • 1:38 - 1:41
    所需要的原子的总数,
  • 1:41 - 1:46
    全部存到U盘里面——即便是组装一个小婴儿
  • 1:46 - 1:51
    用掉的U盘就能装满整个泰坦尼克号
  • 1:51 - 1:53
    再乘以2000倍...
  • 1:54 - 1:57
    这就是生命的奇迹。
  • 1:57 - 2:00
    现在你再看到一个孕妇
  • 2:00 - 2:04
    她正在组装你能见到的最大量的信息
  • 2:04 - 2:07
    不要谈大数据,不要谈以前听说过的数字
  • 2:07 - 2:11
    这就是现存的,最最大量的信息。
  • 2:11 - 2:12
    (掌声)
  • 2:12 - 2:13
    但是......
  • 2:14 - 2:19
    好在大自然比一个年轻的物理学家要聪明多了。
  • 2:19 - 2:21
    在四十亿年的进化过程中
  • 2:21 - 2:25
    这些信息被压缩在叫做DNA的小晶体当中。
  • 2:26 - 2:28
    在1950年代我们第一次知道了DNA
  • 2:28 - 2:31
    那时一位杰出的女科学家Rosalind Franklin
  • 2:32 - 2:33
    给DNA拍了张照
  • 2:33 - 2:36
    但我们花了超过40年的时间,
  • 2:36 - 2:39
    才最终能够从人类细胞中提取这种晶体,
  • 2:39 - 2:43
    展开来,第一次去阅读它。
  • 2:44 - 2:47
    这个遗传密码由简单的字母表组成,
  • 2:47 - 2:51
    四个字母,A,T,C和G (碱基)。
  • 2:51 - 2:54
    要组装一个人,需要30亿个字母。
  • 2:55 - 2:58
    30亿....30亿是多少?
  • 2:58 - 3:01
    光这么说大家可能都没概念,
  • 3:01 - 3:05
    我在想怎么表达才能让人更清楚,
  • 3:05 - 3:08
    这些遗传密码的数量到底有多庞大。
  • 3:08 - 3:11
    所以...我需要点帮助...
  • 3:11 - 3:14
    最合适来帮我介绍遗传密码的人,
  • 3:14 - 3:16
    就是第一位进行人类基因组测序的人,
  • 3:16 - 3:18
    Craig Venter 博士。
  • 3:18 - 3:22
    我们欢迎Craig Venter博士到台上来——
  • 3:22 - 3:27
    (掌声)
  • 3:28 - 3:30
    不是他本人——
  • 3:31 - 3:37
    但这是史上第一次,一个人的基因组
  • 3:37 - 3:41
    被一页一页,一个字母一个字母的打印在纸上——
  • 3:41 - 3:47
    总共26万2千页,450千克,
  • 3:47 - 3:50
    从美国运到加拿大
  • 3:50 - 3:53
    感谢Bruno Bowden还有 Lulu.com——
  • 3:53 - 3:56
    他们负责完成了这一切,一项壮举。
  • 3:56 - 4:00
    这些就是生命密码给人最直观的视觉感受。
  • 4:00 - 4:03
    现在我可以来玩点有趣的——
  • 4:03 - 4:05
    从这里面挑一段来读一读。
  • 4:05 - 4:10
    我来找一本有意思的...比如这一本...
  • 4:13 - 4:16
    我放了书签在里面,这书太厚了...
  • 4:16 - 4:19
    给你们看一下,生命的密码长什么样子
  • 4:21 - 4:26
    成百上千...成千上万...上百万的字母...
  • 4:27 - 4:29
    它们当然都有意义。
  • 4:29 - 4:31
    让我来找一段特殊的
  • 4:32 - 4:33
    读给你们听...
  • 4:34 - 4:38
    "AAG, AAT, ATA"
  • 4:39 - 4:41
    你们可能觉得像是听天书,
  • 4:41 - 4:45
    但这段序列决定了Craig眼睛的颜色。
  • 4:46 - 4:48
    在看看另外一段...
  • 4:48 - 4:50
    这一段稍微复杂一些...
  • 4:51 - 4:54
    第14号染色体,书本编号132...
  • 4:54 - 4:56
    (笑声)
  • 4:56 - 4:57
    你们想象到了哦...
  • 4:57 - 5:01
    (笑声)
  • 5:03 - 5:07
    "ATT, CTT, GATT"
  • 5:08 - 5:10
    这个人很幸运,
  • 5:10 - 5:15
    因为如果他在这个位点上少了2个字母,
  • 5:15 - 5:16
    30亿中的2个...
  • 5:16 - 5:19
    他就会患上一种非常可怕的疾病——
  • 5:19 - 5:20
    囊肿性纤维化(cystic fibrosis)
  • 5:20 - 5:23
    目前没有治疗的方法,这是绝症,
  • 5:23 - 5:27
    仅仅是2个字母的区别。
  • 5:28 - 5:30
    这是一部鸿篇巨著,
  • 5:31 - 5:34
    它帮助我理解,也能让你们看到
  • 5:34 - 5:37
    一件更加另人叹为观止的事。
  • 5:37 - 5:38
    我们中的每一个人,
  • 5:38 - 5:41
    是什么让我成为我,让你成为你...
  • 5:41 - 5:44
    大概只占这其中的500万...
  • 5:44 - 5:46
    只有半本书...
  • 5:46 - 5:50
    所有剩下的,我们完全一模一样。
  • 5:51 - 5:55
    500页,涵盖了你的生命奇迹;
  • 5:55 - 5:58
    余下的,我们全都一样。
  • 5:58 - 6:01
    讨论人与人差异的时候反思一下,
  • 6:01 - 6:03
    我们有这么多共通的东西。
  • 6:03 - 6:07
    现在我已经引起了你们的兴趣,
  • 6:07 - 6:08
    下一步就是:
  • 6:08 - 6:09
    怎么去读取这些信息?
  • 6:09 - 6:11
    怎么理解和运用它们?
  • 6:11 - 6:16
    不管你在组装宜家家居上有多在行...
  • 6:16 - 6:19
    这么长的说明书...基本是不可能完成的任务
  • 6:20 - 6:24
    2014年,两位著名的TED参加者
  • 6:24 - 6:27
    Peter Diamandis 和 Craig Venter
  • 6:27 - 6:29
    决定成立一个新公司
  • 6:29 - 6:30
    人类长寿公司(Human Longevity, Inc.)诞生了。
  • 6:30 - 6:31
    唯一的任务——
  • 6:31 - 6:36
    竭尽全力,穷尽其学的研究这些书目
  • 6:36 - 6:38
    只为达到一个目的:
  • 6:39 - 6:42
    让个人化医疗成为现实。
  • 6:42 - 6:45
    怎么做才能提高人类健康水平
  • 6:45 - 6:48
    了解这些书目背后的秘密。
  • 6:48 - 6:51
    一个强大的团队,拥有40位数据分析人员
  • 6:51 - 6:53
    还有很多其他的人力支持
  • 6:53 - 6:54
    和他们一起工作十分愉快。
  • 6:54 - 6:56
    实际上工作流程不很复杂
  • 6:56 - 6:59
    我们用一种叫做机器学习的方法。
  • 6:59 - 7:04
    一方面,我们有几千个基因组;
  • 7:04 - 7:08
    另一边我们建立一个超大的人类信息数据库:
  • 7:08 - 7:12
    性状,3D扫描,核磁共振,所有能想到的
  • 7:12 - 7:15
    在这两个端点之间,
  • 7:15 - 7:18
    有神秘的翻译在进行。
  • 7:18 - 7:20
    我们在中间建了一个机器,
  • 7:21 - 7:23
    建好之后训练这台机器——
  • 7:23 - 7:26
    实际上不只一台机器,而是很多台...
  • 7:26 - 7:31
    试图去理解基因组并把它翻译成性状。
  • 7:31 - 7:35
    有哪些字母——它们控制什么性状——
  • 7:35 - 7:37
    这是普适的方法,可以用在所有问题上,
  • 7:37 - 7:40
    但用在基因组学上异常的复杂。
  • 7:41 - 7:44
    一点一点有了进展,我们再尝试更有挑战性的东西
  • 7:44 - 7:47
    最开始我们从常见的特征下手,
  • 7:47 - 7:49
    常见特征最容易因为它们太常见了,
  • 7:49 - 7:50
    每个人都有。
  • 7:50 - 7:53
    我们开始提出如下问题:
  • 7:53 - 7:54
    能预测身高吗?
  • 7:55 - 7:57
    能不能根据这些信息预测身高?
  • 7:57 - 8:00
    可以,在5厘米的误差范围以内。
  • 8:00 - 8:03
    BMI 主要跟生活习惯有关,
  • 8:03 - 8:07
    但我们仍然能预测得差不多,8千克上下的误差。
  • 8:07 - 8:09
    眼睛的颜色能不能预测?
  • 8:09 - 8:11
    可以,80%准确率。
  • 8:11 - 8:13
    皮肤颜色?
  • 8:13 - 8:16
    可以,80%准确。
  • 8:16 - 8:18
    年龄?
  • 8:18 - 8:22
    可以,因为很明显基因随着年龄产生变化。
  • 8:22 - 8:25
    DNA 会变短,缺失一些片段,插入另外一些片段
  • 8:25 - 8:28
    我们读取这些信号,然后建立模型。
  • 8:28 - 8:30
    现在来个有意思点的挑战:
  • 8:30 - 8:32
    我们能不能预测人的面孔?
  • 8:33 - 8:34
    这个略有点复杂,
  • 8:34 - 8:38
    因为有几百万个碱基都对人脸产生影响。
  • 8:38 - 8:40
    而且人脸并不是一个构造十分精准的物体。
  • 8:40 - 8:42
    所以必须要建立一整个单独的模块,
  • 8:42 - 8:45
    给机器去训练和学习人脸是什么,
  • 8:45 - 8:47
    再把这个模块压缩整合进去。
  • 8:47 - 8:49
    如果你对机器学习有点概念的话,
  • 8:49 - 8:52
    就能够想象这个挑战是有多大。
  • 8:52 - 8:58
    现在15年过去了——15年前我们读取第一条序列
  • 8:58 - 9:01
    ——今年10月,我们总算有了些进展,
  • 9:01 - 9:04
    当时还是很激动人心的。
  • 9:04 - 9:09
    这是我们的一个测试对象,一张人的脸——
  • 9:10 - 9:13
    我们要对测试对象的面孔进行简化,
  • 9:13 - 9:15
    因为并不是所有的特征都是面孔的一部分——
  • 9:15 - 9:19
    很多特点、缺陷和不对称是生活的痕迹。
  • 9:19 - 9:23
    把面孔调整对称之后,跟我们运算的结果比较。
  • 9:23 - 9:29
    现在给你们看,我们根据血液样本生成的预测。
  • 9:30 - 9:31
    (掌声)
  • 9:31 - 9:33
    等一下——
  • 9:33 - 9:37
    你们的眼睛正在左右两边交替看,
  • 9:37 - 9:41
    大脑希望两幅图是一模一样的。
  • 9:41 - 9:44
    我其实想请大家反过来,
  • 9:44 - 9:46
    找找两幅图的不同点,
  • 9:46 - 9:47
    其实非常多。
  • 9:47 - 9:50
    性别提供最多的信息,
  • 9:50 - 9:55
    接下来是年龄,BMI(体质指数),种族;
  • 9:55 - 9:59
    再考虑更多因素会变得更加复杂。
  • 9:59 - 10:02
    但是这样的结果,即便有很多不同,
  • 10:02 - 10:06
    表示我们已经接近了,
  • 10:06 - 10:10
    正在逐渐靠得更近——而且这已经能够鼓舞人心了
  • 10:10 - 10:12
    这是另外一个测试对象,
  • 10:12 - 10:14
    这边是预测结果。
  • 10:14 - 10:18
    脸小了一点,完整的颅骨结构没预测到。
  • 10:18 - 10:21
    但至少像那么回事。
  • 10:22 - 10:24
    这是又一个测试对象,
  • 10:24 - 10:25
    这是预测结果。
  • 10:26 - 10:31
    这些面孔在训练机器的时候是没有用过的,
  • 10:31 - 10:34
    就是所谓的随机测试组。
  • 10:34 - 10:37
    并且你们不认识这些人,可能说服力不太够。
  • 10:37 - 10:40
    我们在学术期刊上发表了这些结果,
  • 10:40 - 10:41
    你们可以去读一下。
  • 10:41 - 10:44
    但既然我们在台上,Chris 给我出了个点子,
  • 10:44 - 10:50
    我可以挑战一下,尝试预测一个你们都认识的人。
  • 10:50 - 10:55
    这里有管血液——你们很难想象
  • 10:55 - 10:58
    我们为了带一管血液到这里花了多少工夫...
  • 10:58 - 11:04
    这支试管里的血液足够完成一次全基因组测序
  • 11:04 - 11:06
    只需要这么多。
  • 11:07 - 11:10
    完成了测序,下面我们一条条来看——
  • 11:10 - 11:14
    我们综合了所有已知的信息——
  • 11:14 - 11:17
    从血液测试的结果,我们预测这是一名男性,
  • 11:17 - 11:18
    被试是男性。
  • 11:19 - 11:21
    预测他身高1米76,
  • 11:21 - 11:24
    被试身高1米77。
  • 11:24 - 11:28
    预测他体重76kg,被试是82kg;
  • 11:29 - 11:31
    我们还预测了年龄,38岁
  • 11:31 - 11:33
    被试实际是35岁。
  • 11:34 - 11:38
    预测了眼睛的颜色,有点偏深了;
  • 11:38 - 11:40
    预测他的皮肤颜色,
  • 11:40 - 11:41
    基本上准确。
  • 11:42 - 11:44
    这是他的面孔...
  • 11:45 - 11:48
    现在到了揭晓的时刻:
  • 11:48 - 11:50
    被试对象是这个人。
  • 11:50 - 11:52
    (笑声)
  • 11:52 - 11:54
    我是有意拿自己做测试的,
  • 11:54 - 11:58
    我属于一个特别又特殊的种族,
  • 11:58 - 12:01
    南欧人,意大利人——从来都不符合模型预测。
  • 12:01 - 12:06
    而且这一种族在模型里是一个复杂的边界情况。
  • 12:06 - 12:08
    但还有另一个重点——
  • 12:08 - 12:11
    最常用的来辨识人的方法,
  • 12:11 - 12:13
    不是由基因组编译的。
  • 12:13 - 12:15
    是人们的自由意志——我想让自己看起来怎么样,
  • 12:15 - 12:18
    虽然我的发型不是我自己决定的,但胡子是的。
  • 12:19 - 12:22
    下面我们来看一下——
  • 12:22 - 12:25
    单纯的用photoshop,不用建模——
  • 12:25 - 12:27
    把胡子加上去。
  • 12:27 - 12:30
    是不是立即觉得变得很相像了。
  • 12:31 - 12:34
    那么,我们为什么要研究这些?
  • 12:36 - 12:41
    当然不是为了预测身高,
  • 12:41 - 12:44
    或者是根据血液样本得到一张美照;
  • 12:44 - 12:48
    我们研究是因为同样的技术和手段——
  • 12:48 - 12:51
    对基因组的机器学习,
  • 12:51 - 12:54
    能帮助我们了解人类自身,
  • 12:54 - 12:57
    你的身体怎么运作,身体如何老化,
  • 12:57 - 13:00
    疾病是如何产生的,
  • 13:00 - 13:03
    癌症是怎么出现和恶化的;
  • 13:03 - 13:05
    药物如何起作用——
  • 13:05 - 13:07
    药物是不是能够对你有效。
  • 13:08 - 13:10
    这是一个巨大的挑战,
  • 13:10 - 13:14
    而且是一个全球的科学家都面临的挑战
  • 13:14 - 13:16
    ——个性化医疗。
  • 13:17 - 13:21
    从只能借助统计学方法——
  • 13:21 - 13:23
    每个人都只是沧海一粟——
  • 13:23 - 13:24
    到能够实现有针对性的治疗,
  • 13:25 - 13:27
    通过解码这些基因信息,
  • 13:27 - 13:30
    我们能够彻底了解每一个人。
  • 13:30 - 13:34
    但这是一项异常复杂的挑战,
  • 13:34 - 13:38
    因为到目前为止在这么庞大的基因组信息中,
  • 13:38 - 13:40
    我们大概只了解2%:
  • 13:41 - 13:45
    175本书里的4本...
  • 13:46 - 13:49
    当然这不是我今天演讲的主题,
  • 13:50 - 13:53
    因为我们会进步,会了解更多——
  • 13:53 - 13:56
    有很多顶尖的人才在从事这项工作。
  • 13:57 - 14:01
    预测能力会提升,模型会更准确。
  • 14:01 - 14:03
    随着了解的逐渐深入,
  • 14:03 - 14:08
    我们需要做的决定会越来越多,
  • 14:08 - 14:11
    而且是一些从前没有想象过的决定——
  • 14:11 - 14:16
    关于生,关于死,关于子孙后代...
  • 14:18 - 14:26
    所以我们在此的讨论,涉及生命最本质的东西,
  • 14:26 - 14:32
    这些改变不只是在科学和技术层面。
  • 14:32 - 14:36
    我们必须要有全球性的对话,
  • 14:36 - 14:41
    必须要为全人类的未来设想。
  • 14:41 - 14:45
    我们需要和创新人才、艺术家、哲学家交流,
  • 14:45 - 14:47
    还需要政治家的参与。
  • 14:47 - 14:51
    每个人都身在其中,因为这关乎人类的未来。
  • 14:51 - 14:54
    不需要惊慌——
  • 14:54 - 14:59
    但必须了解我们现在做出的每一项决定,
  • 14:59 - 15:03
    都会彻底改变历史。
  • 15:04 - 15:05
    谢谢。
  • 15:05 - 15:15
    (持久的掌声)
Title:
如何解读基因组并组装人类
Speaker:
Riccardo Sabatini
Description:

生命的秘密,疾病和美丽都由基因组编译——基因组是构建一个人需要的所有遗传信息。科学家和实业家Riccardo Sabatini在这里告诉我们,仅从一支试管的血液中,就可以读取基因组信息并预测身高、年龄、眼睛的颜色甚至面部构造。在不久的将来,我们对基因组的深入了解将能够实现针对个人的疾病治疗。拥有改变未来的能力,我们将如何运用它?

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
15:28

Chinese, Simplified subtitles

Revisions