如何解读基因组并组装人类

0:01 - 0:03

接下来的一刻钟，我要带大家踏上一段旅程
0:03 - 0:07

这大概是全人类的终极梦想——
0:07 - 0:09

解读生命的密码！
0:09 - 0:11

我的经历开始于很多很多年以前，
0:11 - 0:14

那时我遇到了第一台3D打印机。
0:14 - 0:17

3D打印真是个非常赞的概念
0:17 - 0:18

它需要三个要素：
0:18 - 0:22

少量的信息，一些原材料，再加上点能量
0:22 - 0:26

就能制造出以前从没存在过的任何东西。
0:26 - 0:28

当时我正在研究物理学
0:28 - 0:32

有天我回到家，突然意识到我家里就有台3D打印机
0:32 - 0:33

而且每人家里都有一台
0:33 - 0:35

就是我妈妈。
0:35 - 0:38

我妈妈用这三个要素：
0:38 - 0:39

少量的信息——
0:39 - 0:42

来自我爸和我妈的共同投入
0:42 - 0:46

原材料和能量的共同来源——食物
0:46 - 0:49

历时几个月，制造出了我
0:49 - 0:51

而我以前从来没有存在过！
0:51 - 0:54

除了震惊的发现我妈其实是台3D打印机
0:54 - 0:59

我还立即被另一个部分吸引了
0:59 - 1:01

第一个要素，信息——
1:01 - 1:03

到底需要多少信息
1:03 - 1:05

才能制造和组装一个人呢？
1:05 - 1:07

是要很多？还是很少？
1:07 - 1:09

要用多少个U盘去储存？
1:09 - 1:12

我最开始是学物理的，
1:12 - 1:17

我想如果把人看成是一个巨型的乐高玩具
1:17 - 1:21

小的乐高模块就像是原子——
1:21 - 1:26

这里有氢原子，这边有碳原子，上面这有氮原子。
1:26 - 1:27

按照最初的这个设定
1:27 - 1:32

如果能够列出组成人类的所有原子
1:32 - 1:33

应该就能组装出一个人。
1:33 - 1:35

大致计算一下
1:35 - 1:38

得到的结果非常惊人。
1:38 - 1:41

所需要的原子的总数，
1:41 - 1:46

全部存到U盘里面——即便是组装一个小婴儿
1:46 - 1:51

用掉的U盘就能装满整个泰坦尼克号
1:51 - 1:53

再乘以2000倍...
1:54 - 1:57

这就是生命的奇迹。
1:57 - 2:00

现在你再看到一个孕妇
2:00 - 2:04

她正在组装你能见到的最大量的信息
2:04 - 2:07

不要谈大数据，不要谈以前听说过的数字
2:07 - 2:11

这就是现存的，最最大量的信息。
2:11 - 2:12

（掌声）
2:12 - 2:13

但是......
2:14 - 2:19

好在大自然比一个年轻的物理学家要聪明多了。
2:19 - 2:21

在四十亿年的进化过程中
2:21 - 2:25

这些信息被压缩在叫做DNA的小晶体当中。
2:26 - 2:28

在1950年代我们第一次知道了DNA
2:28 - 2:31

那时一位杰出的女科学家Rosalind Franklin
2:32 - 2:33

给DNA拍了张照
2:33 - 2:36

但我们花了超过40年的时间，
2:36 - 2:39

才最终能够从人类细胞中提取这种晶体，
2:39 - 2:43

展开来，第一次去阅读它。
2:44 - 2:47

这个遗传密码由简单的字母表组成，
2:47 - 2:51

四个字母，A，T，C和G （碱基）。
2:51 - 2:54

要组装一个人，需要30亿个字母。
2:55 - 2:58

30亿....30亿是多少？
2:58 - 3:01

光这么说大家可能都没概念，
3:01 - 3:05

我在想怎么表达才能让人更清楚，
3:05 - 3:08

这些遗传密码的数量到底有多庞大。
3:08 - 3:11

所以...我需要点帮助...
3:11 - 3:14

最合适来帮我介绍遗传密码的人，
3:14 - 3:16

就是第一位进行人类基因组测序的人，
3:16 - 3:18

Craig Venter 博士。
3:18 - 3:22

我们欢迎Craig Venter博士到台上来——
3:22 - 3:27

（掌声）
3:28 - 3:30

不是他本人——
3:31 - 3:37

但这是史上第一次，一个人的基因组
3:37 - 3:41

被一页一页，一个字母一个字母的打印在纸上——
3:41 - 3:47

总共26万2千页，450千克，
3:47 - 3:50

从美国运到加拿大
3:50 - 3:53

感谢Bruno Bowden还有 Lulu.com——
3:53 - 3:56

他们负责完成了这一切，一项壮举。
3:56 - 4:00

这些就是生命密码给人最直观的视觉感受。
4:00 - 4:03

现在我可以来玩点有趣的——
4:03 - 4:05

从这里面挑一段来读一读。
4:05 - 4:10

我来找一本有意思的...比如这一本...
4:13 - 4:16

我放了书签在里面，这书太厚了...
4:16 - 4:19

给你们看一下，生命的密码长什么样子
4:21 - 4:26

成百上千...成千上万...上百万的字母...
4:27 - 4:29

它们当然都有意义。
4:29 - 4:31

让我来找一段特殊的
4:32 - 4:33

读给你们听...
4:34 - 4:38

"AAG, AAT, ATA"
4:39 - 4:41

你们可能觉得像是听天书，
4:41 - 4:45

但这段序列决定了Craig眼睛的颜色。
4:46 - 4:48

在看看另外一段...
4:48 - 4:50

这一段稍微复杂一些...
4:51 - 4:54

第14号染色体，书本编号132...
4:54 - 4:56

（笑声）
4:56 - 4:57

你们想象到了哦...
4:57 - 5:01

（笑声）
5:03 - 5:07

"ATT, CTT, GATT"
5:08 - 5:10

这个人很幸运，
5:10 - 5:15

因为如果他在这个位点上少了2个字母，
5:15 - 5:16

30亿中的2个...
5:16 - 5:19

他就会患上一种非常可怕的疾病——
5:19 - 5:20

囊肿性纤维化（cystic fibrosis）
5:20 - 5:23

目前没有治疗的方法，这是绝症，
5:23 - 5:27

仅仅是2个字母的区别。
5:28 - 5:30

这是一部鸿篇巨著，
5:31 - 5:34

它帮助我理解，也能让你们看到
5:34 - 5:37

一件更加另人叹为观止的事。
5:37 - 5:38

我们中的每一个人，
5:38 - 5:41

是什么让我成为我，让你成为你...
5:41 - 5:44

大概只占这其中的500万...
5:44 - 5:46

只有半本书...
5:46 - 5:50

所有剩下的，我们完全一模一样。
5:51 - 5:55

500页，涵盖了你的生命奇迹；
5:55 - 5:58

余下的，我们全都一样。
5:58 - 6:01

讨论人与人差异的时候反思一下，
6:01 - 6:03

我们有这么多共通的东西。
6:03 - 6:07

现在我已经引起了你们的兴趣，
6:07 - 6:08

下一步就是：
6:08 - 6:09

怎么去读取这些信息？
6:09 - 6:11

怎么理解和运用它们？
6:11 - 6:16

不管你在组装宜家家居上有多在行...
6:16 - 6:19

这么长的说明书...基本是不可能完成的任务
6:20 - 6:24

2014年，两位著名的TED参加者
6:24 - 6:27

Peter Diamandis 和 Craig Venter
6:27 - 6:29

决定成立一个新公司
6:29 - 6:30

人类长寿公司（Human Longevity, Inc.）诞生了。
6:30 - 6:31

唯一的任务——
6:31 - 6:36

竭尽全力，穷尽其学的研究这些书目
6:36 - 6:38

只为达到一个目的：
6:39 - 6:42

让个人化医疗成为现实。
6:42 - 6:45

怎么做才能提高人类健康水平
6:45 - 6:48

了解这些书目背后的秘密。
6:48 - 6:51

一个强大的团队，拥有40位数据分析人员
6:51 - 6:53

还有很多其他的人力支持
6:53 - 6:54

和他们一起工作十分愉快。
6:54 - 6:56

实际上工作流程不很复杂
6:56 - 6:59

我们用一种叫做机器学习的方法。
6:59 - 7:04

一方面，我们有几千个基因组；
7:04 - 7:08

另一边我们建立一个超大的人类信息数据库：
7:08 - 7:12

性状，3D扫描，核磁共振，所有能想到的
7:12 - 7:15

在这两个端点之间，
7:15 - 7:18

有神秘的翻译在进行。
7:18 - 7:20

我们在中间建了一个机器，
7:21 - 7:23

建好之后训练这台机器——
7:23 - 7:26

实际上不只一台机器，而是很多台...
7:26 - 7:31

试图去理解基因组并把它翻译成性状。
7:31 - 7:35

有哪些字母——它们控制什么性状——
7:35 - 7:37

这是普适的方法，可以用在所有问题上，
7:37 - 7:40

但用在基因组学上异常的复杂。
7:41 - 7:44

一点一点有了进展，我们再尝试更有挑战性的东西
7:44 - 7:47

最开始我们从常见的特征下手，
7:47 - 7:49

常见特征最容易因为它们太常见了，
7:49 - 7:50

每个人都有。
7:50 - 7:53

我们开始提出如下问题：
7:53 - 7:54

能预测身高吗？
7:55 - 7:57

能不能根据这些信息预测身高？
7:57 - 8:00

可以，在5厘米的误差范围以内。
8:00 - 8:03

BMI 主要跟生活习惯有关，
8:03 - 8:07

但我们仍然能预测得差不多，8千克上下的误差。
8:07 - 8:09

眼睛的颜色能不能预测？
8:09 - 8:11

可以，80%准确率。
8:11 - 8:13

皮肤颜色？
8:13 - 8:16

可以，80%准确。
8:16 - 8:18

年龄？
8:18 - 8:22

可以，因为很明显基因随着年龄产生变化。
8:22 - 8:25

DNA 会变短，缺失一些片段，插入另外一些片段
8:25 - 8:28

我们读取这些信号，然后建立模型。
8:28 - 8:30

现在来个有意思点的挑战：
8:30 - 8:32

我们能不能预测人的面孔？
8:33 - 8:34

这个略有点复杂，
8:34 - 8:38

因为有几百万个碱基都对人脸产生影响。
8:38 - 8:40

而且人脸并不是一个构造十分精准的物体。
8:40 - 8:42

所以必须要建立一整个单独的模块，
8:42 - 8:45

给机器去训练和学习人脸是什么，
8:45 - 8:47

再把这个模块压缩整合进去。
8:47 - 8:49

如果你对机器学习有点概念的话，
8:49 - 8:52

就能够想象这个挑战是有多大。
8:52 - 8:58

现在15年过去了——15年前我们读取第一条序列
8:58 - 9:01

——今年10月，我们总算有了些进展，
9:01 - 9:04

当时还是很激动人心的。
9:04 - 9:09

这是我们的一个测试对象，一张人的脸——
9:10 - 9:13

我们要对测试对象的面孔进行简化，
9:13 - 9:15

因为并不是所有的特征都是面孔的一部分——
9:15 - 9:19

很多特点、缺陷和不对称是生活的痕迹。
9:19 - 9:23

把面孔调整对称之后，跟我们运算的结果比较。
9:23 - 9:29

现在给你们看，我们根据血液样本生成的预测。
9:30 - 9:31

（掌声）
9:31 - 9:33

等一下——
9:33 - 9:37

你们的眼睛正在左右两边交替看，
9:37 - 9:41

大脑希望两幅图是一模一样的。
9:41 - 9:44

我其实想请大家反过来，
9:44 - 9:46

找找两幅图的不同点，
9:46 - 9:47

其实非常多。
9:47 - 9:50

性别提供最多的信息，
9:50 - 9:55

接下来是年龄，BMI（体质指数），种族；
9:55 - 9:59

再考虑更多因素会变得更加复杂。
9:59 - 10:02

但是这样的结果，即便有很多不同，
10:02 - 10:06

表示我们已经接近了，
10:06 - 10:10

正在逐渐靠得更近——而且这已经能够鼓舞人心了
10:10 - 10:12

这是另外一个测试对象，
10:12 - 10:14

这边是预测结果。
10:14 - 10:18

脸小了一点，完整的颅骨结构没预测到。
10:18 - 10:21

但至少像那么回事。
10:22 - 10:24

这是又一个测试对象，
10:24 - 10:25

这是预测结果。
10:26 - 10:31

这些面孔在训练机器的时候是没有用过的，
10:31 - 10:34

就是所谓的随机测试组。
10:34 - 10:37

并且你们不认识这些人，可能说服力不太够。
10:37 - 10:40

我们在学术期刊上发表了这些结果，
10:40 - 10:41

你们可以去读一下。
10:41 - 10:44

但既然我们在台上，Chris 给我出了个点子，
10:44 - 10:50

我可以挑战一下，尝试预测一个你们都认识的人。
10:50 - 10:55

这里有管血液——你们很难想象
10:55 - 10:58

我们为了带一管血液到这里花了多少工夫...
10:58 - 11:04

这支试管里的血液足够完成一次全基因组测序
11:04 - 11:06

只需要这么多。
11:07 - 11:10

完成了测序，下面我们一条条来看——
11:10 - 11:14

我们综合了所有已知的信息——
11:14 - 11:17

从血液测试的结果，我们预测这是一名男性，
11:17 - 11:18

被试是男性。
11:19 - 11:21

预测他身高1米76，
11:21 - 11:24

被试身高1米77。
11:24 - 11:28

预测他体重76kg，被试是82kg；
11:29 - 11:31

我们还预测了年龄，38岁
11:31 - 11:33

被试实际是35岁。
11:34 - 11:38

预测了眼睛的颜色，有点偏深了；
11:38 - 11:40

预测他的皮肤颜色，
11:40 - 11:41

基本上准确。
11:42 - 11:44

这是他的面孔...
11:45 - 11:48

现在到了揭晓的时刻：
11:48 - 11:50

被试对象是这个人。
11:50 - 11:52

（笑声）
11:52 - 11:54

我是有意拿自己做测试的，
11:54 - 11:58

我属于一个特别又特殊的种族,
11:58 - 12:01

南欧人，意大利人——从来都不符合模型预测。
12:01 - 12:06

而且这一种族在模型里是一个复杂的边界情况。
12:06 - 12:08

但还有另一个重点——
12:08 - 12:11

最常用的来辨识人的方法，
12:11 - 12:13

不是由基因组编译的。
12:13 - 12:15

是人们的自由意志——我想让自己看起来怎么样，
12:15 - 12:18

虽然我的发型不是我自己决定的，但胡子是的。
12:19 - 12:22

下面我们来看一下——
12:22 - 12:25

单纯的用photoshop，不用建模——
12:25 - 12:27

把胡子加上去。
12:27 - 12:30

是不是立即觉得变得很相像了。
12:31 - 12:34

那么，我们为什么要研究这些？
12:36 - 12:41

当然不是为了预测身高，
12:41 - 12:44

或者是根据血液样本得到一张美照；
12:44 - 12:48

我们研究是因为同样的技术和手段——
12:48 - 12:51

对基因组的机器学习，
12:51 - 12:54

能帮助我们了解人类自身，
12:54 - 12:57

你的身体怎么运作，身体如何老化，
12:57 - 13:00

疾病是如何产生的，
13:00 - 13:03

癌症是怎么出现和恶化的；
13:03 - 13:05

药物如何起作用——
13:05 - 13:07

药物是不是能够对你有效。
13:08 - 13:10

这是一个巨大的挑战，
13:10 - 13:14

而且是一个全球的科学家都面临的挑战
13:14 - 13:16

——个性化医疗。
13:17 - 13:21

从只能借助统计学方法——
13:21 - 13:23

每个人都只是沧海一粟——
13:23 - 13:24

到能够实现有针对性的治疗，
13:25 - 13:27

通过解码这些基因信息，
13:27 - 13:30

我们能够彻底了解每一个人。
13:30 - 13:34

但这是一项异常复杂的挑战，
13:34 - 13:38

因为到目前为止在这么庞大的基因组信息中，
13:38 - 13:40

我们大概只了解2%：
13:41 - 13:45

175本书里的4本...
13:46 - 13:49

当然这不是我今天演讲的主题，
13:50 - 13:53

因为我们会进步，会了解更多——
13:53 - 13:56

有很多顶尖的人才在从事这项工作。
13:57 - 14:01

预测能力会提升，模型会更准确。
14:01 - 14:03

随着了解的逐渐深入，
14:03 - 14:08

我们需要做的决定会越来越多，
14:08 - 14:11

而且是一些从前没有想象过的决定——
14:11 - 14:16

关于生，关于死，关于子孙后代...
14:18 - 14:26

所以我们在此的讨论，涉及生命最本质的东西，
14:26 - 14:32

这些改变不只是在科学和技术层面。
14:32 - 14:36

我们必须要有全球性的对话，
14:36 - 14:41

必须要为全人类的未来设想。
14:41 - 14:45

我们需要和创新人才、艺术家、哲学家交流，
14:45 - 14:47

还需要政治家的参与。
14:47 - 14:51

每个人都身在其中，因为这关乎人类的未来。
14:51 - 14:54

不需要惊慌——
14:54 - 14:59

但必须了解我们现在做出的每一项决定，
14:59 - 15:03

都会彻底改变历史。
15:04 - 15:05

谢谢。
15:05 - 15:15

（持久的掌声）

Title:: 如何解读基因组并组装人类
Speaker:: Riccardo Sabatini
Description:: 生命的秘密，疾病和美丽都由基因组编译——基因组是构建一个人需要的所有遗传信息。科学家和实业家Riccardo Sabatini在这里告诉我们，仅从一支试管的血液中，就可以读取基因组信息并预测身高、年龄、眼睛的颜色甚至面部构造。在不久的将来，我们对基因组的深入了解将能够实现针对个人的疾病治疗。拥有改变未来的能力，我们将如何运用它？

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 15:28

	Tony Yet approved Chinese, Simplified subtitles for How to read the genome and build a human being
	Tony Yet edited Chinese, Simplified subtitles for How to read the genome and build a human being
	Rachel Li accepted Chinese, Simplified subtitles for How to read the genome and build a human being
	Rachel Li edited Chinese, Simplified subtitles for How to read the genome and build a human being
	Jingqi Gong edited Chinese, Simplified subtitles for How to read the genome and build a human being
	Jingqi Gong edited Chinese, Simplified subtitles for How to read the genome and build a human being
	Jingqi Gong edited Chinese, Simplified subtitles for How to read the genome and build a human being
	Jingqi Gong edited Chinese, Simplified subtitles for How to read the genome and build a human being

Show all

Chinese, Simplified subtitles

Revisions

Revision 17 Edited

Tony Yet

如何解读基因组并组装人类

Revisions

Our website uses cookies

Operating cookies (Required)