WEBVTT

00:00:20.820 --> 00:00:25.096
你们大多数人可能都没听说过Roy Price

00:00:25.120 --> 00:00:27.616
不过在2013年4月19日那天，他可能要为让你们

00:00:27.640 --> 00:00:33.624
度过无聊的22分钟负责

00:00:34.560 --> 00:00:37.736
当然有些人觉得那22分钟非常有趣

00:00:37.760 --> 00:00:40.016
不过这些人很少

00:00:40.040 --> 00:00:41.936
为什么要这样说呢，这还得追溯到

00:00:41.960 --> 00:00:43.960
Roy三年前做出的一个决定

00:00:43.984 --> 00:00:48.816
Roy Price 是亚马逊制片室的高级主管

00:00:48.840 --> 00:00:51.856
专门负责亚马逊的电视制作

00:00:51.880 --> 00:00:55.136
他47岁，很瘦，头发有点竖起

00:00:55.160 --> 00:00:59.976
推特上的签名是“电影，电视，技术，墨西哥玉米薄卷饼”

00:01:00.000 --> 00:01:05.176
Roy Pric负责为亚马逊挑选要制作的

00:01:05.200 --> 00:01:09.256
原创电视剧

00:01:09.280 --> 00:01:11.616
美国电视剧竞争非常激烈

00:01:11.640 --> 00:01:14.376
那么多的电视节目

00:01:14.400 --> 00:01:16.576
Roy也不知道选哪个

00:01:16.600 --> 00:01:20.696
他得选出特别特别好的剧

00:01:20.720 --> 00:01:23.536
也就是说，他得找

00:01:23.560 --> 00:01:25.936
在这曲线靠近最右边的电视剧

00:01:25.960 --> 00:01:28.616
这条曲线是2500多部电视剧在网站IMDB上

00:01:28.640 --> 00:01:33.016
的评分分布图

00:01:33.040 --> 00:01:35.936
评分从0到10

00:01:35.960 --> 00:01:38.936
高度表示有多少电视剧是那个分数

00:01:38.960 --> 00:01:43.656
如果你制作的电视剧超过9分，那太牛了

00:01:43.680 --> 00:01:45.496
击败了98%的电视剧

00:01:45.520 --> 00:01:49.416
这就是像“绝命毒师”，“权利的游戏”，“火线”那样的电视剧

00:01:49.440 --> 00:01:51.736
非常容易上瘾

00:01:51.760 --> 00:01:54.816
看完一季你就会

00:01:54.840 --> 00:01:57.016
非常期待下一季

00:01:57.040 --> 00:01:58.240
这就是超过9分的剧

00:01:58.920 --> 00:02:01.416
在曲线左边

00:02:01.440 --> 00:02:04.616
就是像"Toddlers and Tiaras"这种剧

00:02:04.640 --> 00:02:07.296
（笑）

00:02:07.320 --> 00:02:08.856
你们都知道在曲线左边的剧

00:02:08.880 --> 00:02:11.071
是怎样的

00:02:11.095 --> 00:02:15.256
现在，Roy Price不担心制作出曲线最左边的剧

00:02:15.280 --> 00:02:18.216
要做出比"Toddlers and Tiaras"还左边的

00:02:18.240 --> 00:02:19.936
剧脑力得多强大啊

00:02:19.960 --> 00:02:23.896
他担心的是制作出中间的那种剧

00:02:23.920 --> 00:02:25.736
很一般

00:02:25.760 --> 00:02:28.616
不好不坏

00:02:28.639 --> 00:02:30.295
看了没什么激情

00:02:30.320 --> 00:02:35.176
所以他得确保制作出靠近最右边的剧

00:02:35.200 --> 00:02:36.776
压力山大

00:02:36.800 --> 00:02:38.976
当然，这也是亚马逊

00:02:39.000 --> 00:02:41.176
第一次做这样的事情

00:02:41.200 --> 00:02:44.536
Roy Price不想冒险

00:02:44.560 --> 00:02:47.016
他要创造成功

00:02:47.040 --> 00:02:48.816
他要确保成功

00:02:48.840 --> 00:02:51.416
所以他这样做：搞一个比赛

00:02:51.440 --> 00:02:54.576
他拿了一堆电视节目的点子

00:02:54.600 --> 00:02:56.896
从这些点子中

00:02:56.920 --> 00:03:01.016
选出8个来制作电视节目

00:03:01.040 --> 00:03:04.256
每个都制做试播集

00:03:04.280 --> 00:03:07.416
将它们放到网上给人们看

00:03:07.440 --> 00:03:09.696
当亚马逊提供免费的东西时

00:03:09.720 --> 00:03:11.256
我们都买帐，对吧？

00:03:11.280 --> 00:03:16.416
所以成千上万的人收看这些节目

00:03:16.440 --> 00:03:19.656
他们没有意识到的是，当他们在看节目的时候

00:03:19.680 --> 00:03:21.976
实际上被看的是他们

00:03:22.000 --> 00:03:24.336
他们被Roy Price 和他们的团队“观看”

00:03:24.360 --> 00:03:25.736
并被记录

00:03:25.760 --> 00:03:29.136
他们记录他们什么时候点播放，什么时候点暂停

00:03:29.160 --> 00:03:31.696
哪些部分被跳过，哪些部分被重播

00:03:31.720 --> 00:03:33.976
因此他们采集了大量的数据

00:03:34.000 --> 00:03:36.096
因为他们需要这些数据

00:03:36.120 --> 00:03:38.816
来决定他们应该制作什么电视剧

00:03:38.840 --> 00:03:41.016
毫无疑问，他们收集了所有的数据

00:03:41.040 --> 00:03:43.616
他们对数据进行分析然后得到一个结果

00:03:43.640 --> 00:03:44.856
这个结果就是

00:03:44.880 --> 00:03:50.416
亚马逊应该制作一个关于四个美国共和党参议员的情景喜剧

00:03:50.440 --> 00:03:51.656
于是就做出来了

00:03:51.680 --> 00:03:53.840
有谁知道那个节目的名字吗

00:03:54.720 --> 00:03:56.016

阿尔法屋

00:03:56.040 --> 00:03:57.496
对，阿尔法屋

00:03:57.520 --> 00:04:01.616
不过看起来记得那个节目的人不多

00:04:01.640 --> 00:04:03.496
因为它不是特别地精彩

00:04:03.520 --> 00:04:05.376
实际上它只是一个很普通的剧

00:04:05.400 --> 00:04:09.976
这条曲线的平均分是7.4

00:04:10.000 --> 00:04:12.416
而阿尔法屋是7.5分

00:04:12.440 --> 00:04:14.456
只是稍微高过平均分

00:04:14.480 --> 00:04:17.399
这个显然不是Roy Price和他的团队的目标

00:04:18.320 --> 00:04:21.176
然而，几乎与此同时

00:04:21.200 --> 00:04:22.776
在另一家公司

00:04:22.800 --> 00:04:27.016
另一个制作人却成功地使用数据分析选出了一个顶级剧

00:04:27.040 --> 00:04:28.616
他的名字就是Ted

00:04:28.640 --> 00:04:32.056
Ted Sarandos是Netflix的首席内容官

00:04:32.080 --> 00:04:34.216
和Roy一样他也要经常寻找

00:04:34.240 --> 00:04:35.736
顶级电视剧

00:04:35.760 --> 00:04:37.776
而且他也使用数据分析

00:04:37.800 --> 00:04:39.815
不过有一点不同

00:04:39.839 --> 00:04:43.576
他们不举办比赛，而是利用

00:04:43.600 --> 00:04:47.136
Netflix已经有的用户数据

00:04:47.160 --> 00:04:49.256
那就是用户对节目的评分

00:04:49.280 --> 00:04:51.976
用户观看历史，用户喜欢什么节目等等

00:04:52.000 --> 00:04:53.896
然后他们用这些数据发现

00:04:53.920 --> 00:04:56.536
观众各种零碎的信息

00:04:56.560 --> 00:04:58.016
比如他们喜欢什么节目

00:04:58.040 --> 00:05:00.136
他们喜欢哪些制片人，哪些演员

00:05:00.160 --> 00:05:02.736
当他们把这些零碎的信息汇总

00:05:02.760 --> 00:05:04.416
他们带着很大的信心

00:05:04.440 --> 00:05:06.536
决定制作

00:05:06.560 --> 00:05:09.016
关于一个参议员的剧情剧

00:05:09.040 --> 00:05:11.920
而不是四个参议员的情景喜剧

00:05:12.760 --> 00:05:14.416
你们知道那部剧吗？

00:05:14.440 --> 00:05:15.736
（笑）

00:05:15.760 --> 00:05:19.496
是的，纸牌屋。Netflix正确地选中那部剧

00:05:19.520 --> 00:05:21.656
至少前两季是这样

00:05:21.680 --> 00:05:25.656
（笑）

00:05:25.680 --> 00:05:28.856
纸牌屋在这条曲线上取得9.1的高分

00:05:28.880 --> 00:05:32.056
这就是他们想要的结果

00:05:32.080 --> 00:05:34.496
现在问题来了，发生什么事了？

00:05:34.520 --> 00:05:37.176
两家非常有竞争力的、数据处理能力非常强的公司

00:05:37.200 --> 00:05:40.056
他们收集这些庞大的数据

00:05:40.080 --> 00:05:42.456
一个起作用

00:05:42.480 --> 00:05:44.336
另一个却不起作用

00:05:44.360 --> 00:05:45.576
为什么呢？

00:05:45.600 --> 00:05:49.056
因为按照逻辑应该都起作用

00:05:49.080 --> 00:05:51.536
我的意思是，如果你收集大量的数据

00:05:51.560 --> 00:05:53.296
来做一个决定

00:05:53.320 --> 00:05:55.936
那你应该能做出一个很好的决定

00:05:55.960 --> 00:05:58.176
你有200年的数据可以依赖

00:05:58.200 --> 00:06:01.216
你通过强大的计算机将它放大

00:06:01.240 --> 00:06:04.520
你至少能得到一部好的电视剧吧？

00:06:05.880 --> 00:06:08.600
而且如果那样做数据分析不起作用

00:06:09.520 --> 00:06:11.576
那就有点可怕了

00:06:11.600 --> 00:06:15.416
因为现在我们越来越多地依赖数据

00:06:15.440 --> 00:06:19.920
来做出远比电视剧更重要的决定

00:06:20.760 --> 00:06:24.000
有人知道Multi-Health Systems这家公司吗

00:06:25.080 --> 00:06:26.736
没有人吗？好吧，这其实是好事

00:06:26.760 --> 00:06:29.976
Multi-Health Systems是一家软件公司

00:06:30.000 --> 00:06:32.816
我希望在座没有人

00:06:32.840 --> 00:06:36.016
会接触到这个软件

00:06:36.040 --> 00:06:38.136
因为如果你接触了，说明你入狱了

00:06:38.160 --> 00:06:39.336
（笑）

00:06:39.360 --> 00:06:42.896
在美国，如果有人入狱然后他们申请假释

00:06:42.920 --> 00:06:47.216
那很有可能会用到这家公司的软件进行数据分析

00:06:47.240 --> 00:06:50.856
来决定是否批准假释

00:06:50.880 --> 00:06:53.456
这和亚马逊还有 Netflix是一样的原理

00:06:53.480 --> 00:06:58.096
只不过现在是决定你是个好人还是坏人

00:06:58.120 --> 00:07:01.016
而不是预测一个电视节目是好是坏

00:07:01.040 --> 00:07:06.536
看一个一般般的电视剧22分钟确实挺糟糕的

00:07:06.560 --> 00:07:09.200
但在监狱多待几年那就更惨了

00:07:10.360 --> 00:07:14.496
不幸的是，有证据显示这个数据分析

00:07:14.520 --> 00:07:18.736
尽管包含大量数据，但却不能总是得到最佳的结果

00:07:18.760 --> 00:07:21.482
然而这不是因为像 Multi-Health Systems这样的公司

00:07:21.506 --> 00:07:23.133
不会做数据分析

00:07:23.158 --> 00:07:25.456
即使是数据分析能力很强的公司也有搞错的时候

00:07:25.480 --> 00:07:27.880
Google也不例外

00:07:28.680 --> 00:07:33.176
2009年，谷歌宣布他们能够

00:07:33.200 --> 00:07:37.336
通过对谷歌搜索的数据进行分析

00:07:37.360 --> 00:07:41.136
来预测流感的爆发

00:07:41.160 --> 00:07:45.016
而且工作得很好，在新闻上产生很大反响

00:07:45.040 --> 00:07:47.176
还在自然杂志上发文

00:07:47.200 --> 00:07:49.656
可以说在学术上也是巨大成功

00:07:49.680 --> 00:07:53.296
很多年这分析都工作得很好

00:07:53.320 --> 00:07:54.976
直到有一年失败了

00:07:55.000 --> 00:07:57.256
没有人明确知道为什么

00:07:57.280 --> 00:07:58.976
那一年就是不起作用了

00:07:59.000 --> 00:08:00.936
当然这又是一个巨大的新闻

00:08:00.960 --> 00:08:02.576
自然杂志也撤回了

00:08:02.600 --> 00:08:05.440
出版的文章

00:08:06.480 --> 00:08:09.816
所以即使是像亚马逊和谷歌这种数据处理这么强的公司

00:08:09.840 --> 00:08:11.976
都有出错的时候

00:08:12.000 --> 00:08:14.936
尽管有这么多失败的例子

00:08:14.960 --> 00:08:18.816
数据分析发展很快，无论是在生活中做决定

00:08:18.840 --> 00:08:20.656
还是在工作中

00:08:20.680 --> 00:08:22.496
法律实施中

00:08:22.520 --> 00:08:23.720
医药中我们都会用到

00:08:24.400 --> 00:08:27.736
所以我们最好确保数据有用

00:08:27.760 --> 00:08:30.896
现在，我个人是看过很多这种数据不起作用的

00:08:30.920 --> 00:08:32.895
因为我在计算遗传学领域工作

00:08:32.919 --> 00:08:35.416
在这个领域工作的很多高智商的人

00:08:35.440 --> 00:08:39.096
都要利用庞大的数据来做一些重大决定

00:08:39.120 --> 00:08:42.679
比如决定癌症治疗或者开发药物

00:08:43.520 --> 00:08:45.896
这么多年，我已经发现一些

00:08:45.920 --> 00:08:48.376
关于利用数据

00:08:48.400 --> 00:08:51.096
做出成功决定

00:08:51.120 --> 00:08:52.736
还是失败决定的规律

00:08:52.760 --> 00:08:56.640
我觉得這个规律值得分享，这个规律是这样的

00:08:58.520 --> 00:09:00.655
每次当你要解决一个复杂问题时

00:09:00.679 --> 00:09:02.416
其实你是在做两件重要的事情

00:09:02.440 --> 00:09:05.736
第一是将问题分解成很多很小的一部分

00:09:05.760 --> 00:09:08.256
这样你才能更深入地去分析这些小部分

00:09:08.280 --> 00:09:10.296
然后就是第二件事

00:09:10.320 --> 00:09:12.976
你把所有这些小部分汇总起来

00:09:13.000 --> 00:09:14.336
得出你的结论

00:09:14.360 --> 00:09:16.696
有时你还再做一次

00:09:16.720 --> 00:09:18.376
但还是那两件事

00:09:18.400 --> 00:09:20.720
分解再汇总

00:09:22.280 --> 00:09:23.896
比较残酷的是

00:09:23.920 --> 00:09:26.816
数据还有数据分析

00:09:26.840 --> 00:09:29.336
只对第一部分起作用

00:09:29.360 --> 00:09:31.576
数据还有数据分析，无论多么强大

00:09:31.600 --> 00:09:36.056
只能帮你把问题分解成小部分，然后帮你理解这些小部分

00:09:36.080 --> 00:09:39.576
把数据汇总后再分析

00:09:39.600 --> 00:09:41.496
然后得出结论就不适合了

00:09:41.520 --> 00:09:44.256
不过有一种工具可以做汇总这件事

00:09:44.280 --> 00:09:45.576
那就是大脑

00:09:45.600 --> 00:09:47.536
大脑擅长一件事

00:09:47.560 --> 00:09:49.816
那就是将碎片信息重新汇总

00:09:49.840 --> 00:09:51.856
即使你的信息并不完整

00:09:51.880 --> 00:09:53.456
然后得出结论

00:09:53.480 --> 00:09:56.416
特别是专家的脑子

00:09:56.440 --> 00:09:59.096
这就是我觉得为什么Netflix会这么成功

00:09:59.120 --> 00:10:02.696
因为他们让数据还有大脑各司其职

00:10:02.720 --> 00:10:06.256
他们先使用数据了解观众的一些零碎信息

00:10:06.280 --> 00:10:09.696
如果没有数据他们不可能了解这么深入

00:10:09.720 --> 00:10:12.336
但是将这些零碎信息汇总

00:10:12.360 --> 00:10:15.696
决定要制作纸牌屋这样的电视剧

00:10:15.720 --> 00:10:17.136
这些就不是在数据里

00:10:17.160 --> 00:10:21.136
Ted Sarandos和他的团队做出要制作这样剧的决定

00:10:21.160 --> 00:10:23.541
这也意味着

00:10:23.565 --> 00:10:26.416
他们冒着很大的个人风险

00:10:26.440 --> 00:10:29.456
但是另一方面亚马逊却用了完全错误的方法

00:10:29.480 --> 00:10:32.216
他们一路上都依赖数据做决定

00:10:32.240 --> 00:10:34.656
开始他们举行电视剧点子的比赛

00:10:34.680 --> 00:10:38.376
然后他们又选择制作阿尔法屋

00:10:38.400 --> 00:10:40.896
当然对于他们这是个非常安全的决定

00:10:40.920 --> 00:10:43.376
因为他们总是将责任可以推给数据

00:10:43.400 --> 00:10:45.096
看，这就是数据告诉我们的

00:10:45.120 --> 00:10:49.360
但这也没有给他们带来预期的结果

00:10:50.120 --> 00:10:55.096
因此数据确实是做出更好决定的有用工具

00:10:55.120 --> 00:10:57.496
但我相信当数据开始驱使决定时

00:10:57.520 --> 00:11:00.096
事情就出错了

00:11:00.120 --> 00:11:03.896
无论多么强大，数据只是一个工具

00:11:03.920 --> 00:11:07.256
要记住这个，我发现一个设备非常有用

00:11:07.280 --> 00:11:08.496
你们很多人会...

00:11:08.520 --> 00:11:09.736
（笑）

00:11:09.760 --> 00:11:10.976
在数据之前

00:11:11.000 --> 00:11:13.856
这个是用来做决定的设备

00:11:13.880 --> 00:11:15.136
（笑）

00:11:15.160 --> 00:11:16.496
你们很多人都知道这个

00:11:16.520 --> 00:11:18.473
这个玩具叫做魔力8号球

00:11:18.497 --> 00:11:19.696
这个真的很神奇

00:11:19.720 --> 00:11:22.616
因为如果你要做出一个决定，是或否的问题

00:11:22.640 --> 00:11:26.376
你只需要摇这个球，就得到一个答案

00:11:26.400 --> 00:11:29.216
“很可能” 这次在这里显示的是这个结果

00:11:29.240 --> 00:11:31.336
稍后我再将它用在科技样品上

00:11:31.360 --> 00:11:32.576
（笑）

00:11:32.600 --> 00:11:36.176
在我的生命中我做过一些决定

00:11:36.200 --> 00:11:39.096
现在看来，其实我只要听从这个球就行了

00:11:39.120 --> 00:11:42.456
当然，如果你有数据

00:11:42.480 --> 00:11:45.536
你想要一些更加理智的东西来代替这个球

00:11:45.560 --> 00:11:49.176
做决定，比如数据分析

00:11:49.200 --> 00:11:51.816
但这不会改变最初的设定

00:11:51.840 --> 00:11:55.016
所以这个球会变得越来越聪明

00:11:55.040 --> 00:11:57.856
但我相信还是由我们来做决定

00:11:57.880 --> 00:12:00.896
如果我们想要在这个曲线的最右边

00:12:00.920 --> 00:12:02.856
取得非凡的成就

00:12:02.880 --> 00:12:07.376
我发现一个非常鼓舞人心的信息

00:12:07.400 --> 00:12:11.376
事实上即使面对庞大的数据

00:12:11.400 --> 00:12:15.496
做出选择仍然是值得的

00:12:15.520 --> 00:12:18.176
在你做的领域做一个专家

00:12:18.200 --> 00:12:20.296
去承担风险

00:12:20.320 --> 00:12:23.096
因为在最后，不是数据

00:12:23.120 --> 00:12:27.080
而是承担的风险让你取得曲线右边的成就

00:12:27.840 --> 00:12:29.056
谢谢

00:12:29.080 --> 00:12:32.170
掌声