WEBVTT 00:00:20.820 --> 00:00:25.096 你们大多数人可能都没听说过Roy Price 00:00:25.120 --> 00:00:27.616 不过在2013年4月19日那天,他可能要为让你们 00:00:27.640 --> 00:00:33.624 度过无聊的22分钟负责 00:00:34.560 --> 00:00:37.736 当然有些人觉得那22分钟非常有趣 00:00:37.760 --> 00:00:40.016 不过这些人很少 00:00:40.040 --> 00:00:41.936 为什么要这样说呢,这还得追溯到 00:00:41.960 --> 00:00:43.960 Roy三年前做出的一个决定 00:00:43.984 --> 00:00:48.816 Roy Price 是亚马逊制片室的高级主管 00:00:48.840 --> 00:00:51.856 专门负责亚马逊的电视制作 00:00:51.880 --> 00:00:55.136 他47岁,很瘦,头发有点竖起 00:00:55.160 --> 00:00:59.976 推特上的签名是“电影,电视,技术,墨西哥玉米薄卷饼” 00:01:00.000 --> 00:01:05.176 Roy Pric负责为亚马逊挑选要制作的 00:01:05.200 --> 00:01:09.256 原创电视剧 00:01:09.280 --> 00:01:11.616 美国电视剧竞争非常激烈 00:01:11.640 --> 00:01:14.376 那么多的电视节目 00:01:14.400 --> 00:01:16.576 Roy也不知道选哪个 00:01:16.600 --> 00:01:20.696 他得选出特别特别好的剧 00:01:20.720 --> 00:01:23.536 也就是说,他得找 00:01:23.560 --> 00:01:25.936 在这曲线靠近最右边的电视剧 00:01:25.960 --> 00:01:28.616 这条曲线是2500多部电视剧在网站IMDB上 00:01:28.640 --> 00:01:33.016 的评分分布图 00:01:33.040 --> 00:01:35.936 评分从0到10 00:01:35.960 --> 00:01:38.936 高度表示有多少电视剧是那个分数 00:01:38.960 --> 00:01:43.656 如果你制作的电视剧超过9分,那太牛了 00:01:43.680 --> 00:01:45.496 击败了98%的电视剧 00:01:45.520 --> 00:01:49.416 这就是像“绝命毒师”,“权利的游戏”,“火线”那样的电视剧 00:01:49.440 --> 00:01:51.736 非常容易上瘾 00:01:51.760 --> 00:01:54.816 看完一季你就会 00:01:54.840 --> 00:01:57.016 非常期待下一季 00:01:57.040 --> 00:01:58.240 这就是超过9分的剧 00:01:58.920 --> 00:02:01.416 在曲线左边 00:02:01.440 --> 00:02:04.616 就是像"Toddlers and Tiaras"这种剧 00:02:04.640 --> 00:02:07.296 (笑) 00:02:07.320 --> 00:02:08.856 你们都知道在曲线左边的剧 00:02:08.880 --> 00:02:11.071 是怎样的 00:02:11.095 --> 00:02:15.256 现在,Roy Price不担心制作出曲线最左边的剧 00:02:15.280 --> 00:02:18.216 要做出比"Toddlers and Tiaras"还左边的 00:02:18.240 --> 00:02:19.936 剧脑力得多强大啊 00:02:19.960 --> 00:02:23.896 他担心的是制作出中间的那种剧 00:02:23.920 --> 00:02:25.736 很一般 00:02:25.760 --> 00:02:28.616 不好不坏 00:02:28.639 --> 00:02:30.295 看了没什么激情 00:02:30.320 --> 00:02:35.176 所以他得确保制作出靠近最右边的剧 00:02:35.200 --> 00:02:36.776 压力山大 00:02:36.800 --> 00:02:38.976 当然,这也是亚马逊 00:02:39.000 --> 00:02:41.176 第一次做这样的事情 00:02:41.200 --> 00:02:44.536 Roy Price不想冒险 00:02:44.560 --> 00:02:47.016 他要创造成功 00:02:47.040 --> 00:02:48.816 他要确保成功 00:02:48.840 --> 00:02:51.416 所以他这样做:搞一个比赛 00:02:51.440 --> 00:02:54.576 他拿了一堆电视节目的点子 00:02:54.600 --> 00:02:56.896 从这些点子中 00:02:56.920 --> 00:03:01.016 选出8个来制作电视节目 00:03:01.040 --> 00:03:04.256 每个都制做试播集 00:03:04.280 --> 00:03:07.416 将它们放到网上给人们看 00:03:07.440 --> 00:03:09.696 当亚马逊提供免费的东西时 00:03:09.720 --> 00:03:11.256 我们都买帐,对吧? 00:03:11.280 --> 00:03:16.416 所以成千上万的人收看这些节目 00:03:16.440 --> 00:03:19.656 他们没有意识到的是,当他们在看节目的时候 00:03:19.680 --> 00:03:21.976 实际上被看的是他们 00:03:22.000 --> 00:03:24.336 他们被Roy Price 和他们的团队“观看” 00:03:24.360 --> 00:03:25.736 并被记录 00:03:25.760 --> 00:03:29.136 他们记录他们什么时候点播放,什么时候点暂停 00:03:29.160 --> 00:03:31.696 哪些部分被跳过,哪些部分被重播 00:03:31.720 --> 00:03:33.976 因此他们采集了大量的数据 00:03:34.000 --> 00:03:36.096 因为他们需要这些数据 00:03:36.120 --> 00:03:38.816 来决定他们应该制作什么电视剧 00:03:38.840 --> 00:03:41.016 毫无疑问,他们收集了所有的数据 00:03:41.040 --> 00:03:43.616 他们对数据进行分析然后得到一个结果 00:03:43.640 --> 00:03:44.856 这个结果就是 00:03:44.880 --> 00:03:50.416 亚马逊应该制作一个关于四个美国共和党参议员的情景喜剧 00:03:50.440 --> 00:03:51.656 于是就做出来了 00:03:51.680 --> 00:03:53.840 有谁知道那个节目的名字吗 00:03:54.720 --> 00:03:56.016 阿尔法屋 00:03:56.040 --> 00:03:57.496 对,阿尔法屋 00:03:57.520 --> 00:04:01.616 不过看起来记得那个节目的人不多 00:04:01.640 --> 00:04:03.496 因为它不是特别地精彩 00:04:03.520 --> 00:04:05.376 实际上它只是一个很普通的剧 00:04:05.400 --> 00:04:09.976 这条曲线的平均分是7.4 00:04:10.000 --> 00:04:12.416 而阿尔法屋是7.5分 00:04:12.440 --> 00:04:14.456 只是稍微高过平均分 00:04:14.480 --> 00:04:17.399 这个显然不是Roy Price和他的团队的目标 00:04:18.320 --> 00:04:21.176 然而,几乎与此同时 00:04:21.200 --> 00:04:22.776 在另一家公司 00:04:22.800 --> 00:04:27.016 另一个制作人却成功地使用数据分析选出了一个顶级剧 00:04:27.040 --> 00:04:28.616 他的名字就是Ted 00:04:28.640 --> 00:04:32.056 Ted Sarandos是Netflix的首席内容官 00:04:32.080 --> 00:04:34.216 和Roy一样他也要经常寻找 00:04:34.240 --> 00:04:35.736 顶级电视剧 00:04:35.760 --> 00:04:37.776 而且他也使用数据分析 00:04:37.800 --> 00:04:39.815 不过有一点不同 00:04:39.839 --> 00:04:43.576 他们不举办比赛,而是利用 00:04:43.600 --> 00:04:47.136 Netflix已经有的用户数据 00:04:47.160 --> 00:04:49.256 那就是用户对节目的评分 00:04:49.280 --> 00:04:51.976 用户观看历史,用户喜欢什么节目等等 00:04:52.000 --> 00:04:53.896 然后他们用这些数据发现 00:04:53.920 --> 00:04:56.536 观众各种零碎的信息 00:04:56.560 --> 00:04:58.016 比如他们喜欢什么节目 00:04:58.040 --> 00:05:00.136 他们喜欢哪些制片人,哪些演员 00:05:00.160 --> 00:05:02.736 当他们把这些零碎的信息汇总 00:05:02.760 --> 00:05:04.416 他们带着很大的信心 00:05:04.440 --> 00:05:06.536 决定制作 00:05:06.560 --> 00:05:09.016 关于一个参议员的剧情剧 00:05:09.040 --> 00:05:11.920 而不是四个参议员的情景喜剧 00:05:12.760 --> 00:05:14.416 你们知道那部剧吗? 00:05:14.440 --> 00:05:15.736 (笑) 00:05:15.760 --> 00:05:19.496 是的,纸牌屋。Netflix正确地选中那部剧 00:05:19.520 --> 00:05:21.656 至少前两季是这样 00:05:21.680 --> 00:05:25.656 (笑) 00:05:25.680 --> 00:05:28.856 纸牌屋在这条曲线上取得9.1的高分 00:05:28.880 --> 00:05:32.056 这就是他们想要的结果 00:05:32.080 --> 00:05:34.496 现在问题来了,发生什么事了? 00:05:34.520 --> 00:05:37.176 两家非常有竞争力的、数据处理能力非常强的公司 00:05:37.200 --> 00:05:40.056 他们收集这些庞大的数据 00:05:40.080 --> 00:05:42.456 一个起作用 00:05:42.480 --> 00:05:44.336 另一个却不起作用 00:05:44.360 --> 00:05:45.576 为什么呢? 00:05:45.600 --> 00:05:49.056 因为按照逻辑应该都起作用 00:05:49.080 --> 00:05:51.536 我的意思是,如果你收集大量的数据 00:05:51.560 --> 00:05:53.296 来做一个决定 00:05:53.320 --> 00:05:55.936 那你应该能做出一个很好的决定 00:05:55.960 --> 00:05:58.176 你有200年的数据可以依赖 00:05:58.200 --> 00:06:01.216 你通过强大的计算机将它放大 00:06:01.240 --> 00:06:04.520 你至少能得到一部好的电视剧吧? 00:06:05.880 --> 00:06:08.600 而且如果那样做数据分析不起作用 00:06:09.520 --> 00:06:11.576 那就有点可怕了 00:06:11.600 --> 00:06:15.416 因为现在我们越来越多地依赖数据 00:06:15.440 --> 00:06:19.920 来做出远比电视剧更重要的决定 00:06:20.760 --> 00:06:24.000 有人知道Multi-Health Systems这家公司吗 00:06:25.080 --> 00:06:26.736 没有人吗?好吧,这其实是好事 00:06:26.760 --> 00:06:29.976 Multi-Health Systems是一家软件公司 00:06:30.000 --> 00:06:32.816 我希望在座没有人 00:06:32.840 --> 00:06:36.016 会接触到这个软件 00:06:36.040 --> 00:06:38.136 因为如果你接触了,说明你入狱了 00:06:38.160 --> 00:06:39.336 (笑) 00:06:39.360 --> 00:06:42.896 在美国,如果有人入狱然后他们申请假释 00:06:42.920 --> 00:06:47.216 那很有可能会用到这家公司的软件进行数据分析 00:06:47.240 --> 00:06:50.856 来决定是否批准假释 00:06:50.880 --> 00:06:53.456 这和亚马逊还有 Netflix是一样的原理 00:06:53.480 --> 00:06:58.096 只不过现在是决定你是个好人还是坏人 00:06:58.120 --> 00:07:01.016 而不是预测一个电视节目是好是坏 00:07:01.040 --> 00:07:06.536 看一个一般般的电视剧22分钟确实挺糟糕的 00:07:06.560 --> 00:07:09.200 但在监狱多待几年那就更惨了 00:07:10.360 --> 00:07:14.496 不幸的是,有证据显示这个数据分析 00:07:14.520 --> 00:07:18.736 尽管包含大量数据,但却不能总是得到最佳的结果 00:07:18.760 --> 00:07:21.482 然而这不是因为像 Multi-Health Systems这样的公司 00:07:21.506 --> 00:07:23.133 不会做数据分析 00:07:23.158 --> 00:07:25.456 即使是数据分析能力很强的公司也有搞错的时候 00:07:25.480 --> 00:07:27.880 Google也不例外 00:07:28.680 --> 00:07:33.176 2009年,谷歌宣布他们能够 00:07:33.200 --> 00:07:37.336 通过对谷歌搜索的数据进行分析 00:07:37.360 --> 00:07:41.136 来预测流感的爆发 00:07:41.160 --> 00:07:45.016 而且工作得很好,在新闻上产生很大反响 00:07:45.040 --> 00:07:47.176 还在自然杂志上发文 00:07:47.200 --> 00:07:49.656 可以说在学术上也是巨大成功 00:07:49.680 --> 00:07:53.296 很多年这分析都工作得很好 00:07:53.320 --> 00:07:54.976 直到有一年失败了 00:07:55.000 --> 00:07:57.256 没有人明确知道为什么 00:07:57.280 --> 00:07:58.976 那一年就是不起作用了 00:07:59.000 --> 00:08:00.936 当然这又是一个巨大的新闻 00:08:00.960 --> 00:08:02.576 自然杂志也撤回了 00:08:02.600 --> 00:08:05.440 出版的文章 00:08:06.480 --> 00:08:09.816 所以即使是像亚马逊和谷歌这种数据处理这么强的公司 00:08:09.840 --> 00:08:11.976 都有出错的时候 00:08:12.000 --> 00:08:14.936 尽管有这么多失败的例子 00:08:14.960 --> 00:08:18.816 数据分析发展很快,无论是在生活中做决定 00:08:18.840 --> 00:08:20.656 还是在工作中 00:08:20.680 --> 00:08:22.496 法律实施中 00:08:22.520 --> 00:08:23.720 医药中我们都会用到 00:08:24.400 --> 00:08:27.736 所以我们最好确保数据有用 00:08:27.760 --> 00:08:30.896 现在,我个人是看过很多这种数据不起作用的 00:08:30.920 --> 00:08:32.895 因为我在计算遗传学领域工作 00:08:32.919 --> 00:08:35.416 在这个领域工作的很多高智商的人 00:08:35.440 --> 00:08:39.096 都要利用庞大的数据来做一些重大决定 00:08:39.120 --> 00:08:42.679 比如决定癌症治疗或者开发药物 00:08:43.520 --> 00:08:45.896 这么多年,我已经发现一些 00:08:45.920 --> 00:08:48.376 关于利用数据 00:08:48.400 --> 00:08:51.096 做出成功决定 00:08:51.120 --> 00:08:52.736 还是失败决定的规律 00:08:52.760 --> 00:08:56.640 我觉得這个规律值得分享,这个规律是这样的 00:08:58.520 --> 00:09:00.655 每次当你要解决一个复杂问题时 00:09:00.679 --> 00:09:02.416 其实你是在做两件重要的事情 00:09:02.440 --> 00:09:05.736 第一是将问题分解成很多很小的一部分 00:09:05.760 --> 00:09:08.256 这样你才能更深入地去分析这些小部分 00:09:08.280 --> 00:09:10.296 然后就是第二件事 00:09:10.320 --> 00:09:12.976 你把所有这些小部分汇总起来 00:09:13.000 --> 00:09:14.336 得出你的结论 00:09:14.360 --> 00:09:16.696 有时你还再做一次 00:09:16.720 --> 00:09:18.376 但还是那两件事 00:09:18.400 --> 00:09:20.720 分解再汇总 00:09:22.280 --> 00:09:23.896 比较残酷的是 00:09:23.920 --> 00:09:26.816 数据还有数据分析 00:09:26.840 --> 00:09:29.336 只对第一部分起作用 00:09:29.360 --> 00:09:31.576 数据还有数据分析,无论多么强大 00:09:31.600 --> 00:09:36.056 只能帮你把问题分解成小部分,然后帮你理解这些小部分 00:09:36.080 --> 00:09:39.576 把数据汇总后再分析 00:09:39.600 --> 00:09:41.496 然后得出结论就不适合了 00:09:41.520 --> 00:09:44.256 不过有一种工具可以做汇总这件事 00:09:44.280 --> 00:09:45.576 那就是大脑 00:09:45.600 --> 00:09:47.536 大脑擅长一件事 00:09:47.560 --> 00:09:49.816 那就是将碎片信息重新汇总 00:09:49.840 --> 00:09:51.856 即使你的信息并不完整 00:09:51.880 --> 00:09:53.456 然后得出结论 00:09:53.480 --> 00:09:56.416 特别是专家的脑子 00:09:56.440 --> 00:09:59.096 这就是我觉得为什么Netflix会这么成功 00:09:59.120 --> 00:10:02.696 因为他们让数据还有大脑各司其职 00:10:02.720 --> 00:10:06.256 他们先使用数据了解观众的一些零碎信息 00:10:06.280 --> 00:10:09.696 如果没有数据他们不可能了解这么深入 00:10:09.720 --> 00:10:12.336 但是将这些零碎信息汇总 00:10:12.360 --> 00:10:15.696 决定要制作纸牌屋这样的电视剧 00:10:15.720 --> 00:10:17.136 这些就不是在数据里 00:10:17.160 --> 00:10:21.136 Ted Sarandos和他的团队做出要制作这样剧的决定 00:10:21.160 --> 00:10:23.541 这也意味着 00:10:23.565 --> 00:10:26.416 他们冒着很大的个人风险 00:10:26.440 --> 00:10:29.456 但是另一方面亚马逊却用了完全错误的方法 00:10:29.480 --> 00:10:32.216 他们一路上都依赖数据做决定 00:10:32.240 --> 00:10:34.656 开始他们举行电视剧点子的比赛 00:10:34.680 --> 00:10:38.376 然后他们又选择制作阿尔法屋 00:10:38.400 --> 00:10:40.896 当然对于他们这是个非常安全的决定 00:10:40.920 --> 00:10:43.376 因为他们总是将责任可以推给数据 00:10:43.400 --> 00:10:45.096 看,这就是数据告诉我们的 00:10:45.120 --> 00:10:49.360 但这也没有给他们带来预期的结果 00:10:50.120 --> 00:10:55.096 因此数据确实是做出更好决定的有用工具 00:10:55.120 --> 00:10:57.496 但我相信当数据开始驱使决定时 00:10:57.520 --> 00:11:00.096 事情就出错了 00:11:00.120 --> 00:11:03.896 无论多么强大,数据只是一个工具 00:11:03.920 --> 00:11:07.256 要记住这个,我发现一个设备非常有用 00:11:07.280 --> 00:11:08.496 你们很多人会... 00:11:08.520 --> 00:11:09.736 (笑) 00:11:09.760 --> 00:11:10.976 在数据之前 00:11:11.000 --> 00:11:13.856 这个是用来做决定的设备 00:11:13.880 --> 00:11:15.136 (笑) 00:11:15.160 --> 00:11:16.496 你们很多人都知道这个 00:11:16.520 --> 00:11:18.473 这个玩具叫做魔力8号球 00:11:18.497 --> 00:11:19.696 这个真的很神奇 00:11:19.720 --> 00:11:22.616 因为如果你要做出一个决定,是或否的问题 00:11:22.640 --> 00:11:26.376 你只需要摇这个球,就得到一个答案 00:11:26.400 --> 00:11:29.216 “很可能” 这次在这里显示的是这个结果 00:11:29.240 --> 00:11:31.336 稍后我再将它用在科技样品上 00:11:31.360 --> 00:11:32.576 (笑) 00:11:32.600 --> 00:11:36.176 在我的生命中我做过一些决定 00:11:36.200 --> 00:11:39.096 现在看来,其实我只要听从这个球就行了 00:11:39.120 --> 00:11:42.456 当然,如果你有数据 00:11:42.480 --> 00:11:45.536 你想要一些更加理智的东西来代替这个球 00:11:45.560 --> 00:11:49.176 做决定,比如数据分析 00:11:49.200 --> 00:11:51.816 但这不会改变最初的设定 00:11:51.840 --> 00:11:55.016 所以这个球会变得越来越聪明 00:11:55.040 --> 00:11:57.856 但我相信还是由我们来做决定 00:11:57.880 --> 00:12:00.896 如果我们想要在这个曲线的最右边 00:12:00.920 --> 00:12:02.856 取得非凡的成就 00:12:02.880 --> 00:12:07.376 我发现一个非常鼓舞人心的信息 00:12:07.400 --> 00:12:11.376 事实上即使面对庞大的数据 00:12:11.400 --> 00:12:15.496 做出选择仍然是值得的 00:12:15.520 --> 00:12:18.176 在你做的领域做一个专家 00:12:18.200 --> 00:12:20.296 去承担风险 00:12:20.320 --> 00:12:23.096 因为在最后,不是数据 00:12:23.120 --> 00:12:27.080 而是承担的风险让你取得曲线右边的成就 00:12:27.840 --> 00:12:29.056 谢谢 00:12:29.080 --> 00:12:32.170 掌声