Return to Video

大数据好处多

  • 0:01 - 0:05
    美国人最爱的馅饼是什么?
  • 0:05 - 0:08
    观众:苹果派
    Kenneth Cukier:苹果派 毋庸置疑
  • 0:08 - 0:09
    我们是怎么知道的?
  • 0:09 - 0:12
    因为数据
  • 0:12 - 0:14
    当你观察超市的销售数据
  • 0:14 - 0:17
    会发现超市销售的30厘米冷冻馅饼中
  • 0:17 - 0:21
    苹果派胜出, 毫无悬念
  • 0:21 - 0:26
    绝大多数的销售份额就是来自苹果派
  • 0:26 - 0:29
    但是之后超市开始销售
  • 0:29 - 0:32
    比较小的11厘米的馅饼
  • 0:32 - 0:36
    突然间苹果派的销量下降到了第4或第5名
  • 0:36 - 0:39
    为什么?怎么了?
  • 0:39 - 0:42
    好, 想象一下
  • 0:42 - 0:46
    当你准备买一个30厘米的馅饼时
  • 0:46 - 0:48
    全家都不得不同意(选择苹果派馅饼)
  • 0:48 - 0:52
    虽然苹果派只是每个人的次选项
  • 0:52 - 0:54
    (笑声)
  • 0:54 - 0:57
    但当你给自己选一个11厘米馅饼时
  • 0:57 - 1:01
    你可以买你最爱吃的口味
  • 1:01 - 1:05
    你会选你的首选项
  • 1:05 - 1:07
    你有了更多数据
  • 1:07 - 1:08
    你可以知道些事情
  • 1:08 - 1:09
    这些事情在你只有少量数据时
  • 1:09 - 1:13
    你是无法知道的
  • 1:13 - 1:16
    这里, 关键的是更多的数据
  • 1:16 - 1:18
    不单单让我们知道更多
  • 1:18 - 1:20
    知道更多我们正在关注的同样事物
  • 1:20 - 1:23
    更多的数据使我们能了解新的事情
  • 1:23 - 1:27
    让我们更好地了解
  • 1:27 - 1:30
    让我们有不同的视角
  • 1:30 - 1:33
    在这个例子里 更多的数据让我们知道
  • 1:33 - 1:36
    美国人最喜欢的馅饼
  • 1:36 - 1:39
    不是苹果派
  • 1:39 - 1:42
    你或许听说过大数据这个词
  • 1:42 - 1:44
    事实上, 你可能对这个词
  • 1:44 - 1:46
    已经心生厌恶
  • 1:46 - 1:49
    确实, 大数据受到了空前的宣传炒作
  • 1:49 - 1:52
    这很不应该
  • 1:52 - 1:55
    因为大数据是一个非常重要的工具
  • 1:55 - 1:59
    社会将由此而不断进步
  • 1:59 - 2:02
    过去我们习惯于处理小数据
  • 2:02 - 2:04
    思考这些小数据的意义
  • 2:04 - 2:05
    并以此来了解世界
  • 2:05 - 2:07
    现在我们有很多很多的数据
  • 2:07 - 2:10
    数据量前所未有的巨大
  • 2:10 - 2:12
    当我们掌握海量数据时
  • 2:12 - 2:15
    我们可以做一些事
  • 2:15 - 2:18
    一些在只有较少数据时不可能办到的事
  • 2:18 - 2:21
    大数据很重要, 它也是一个新兴事物
  • 2:21 - 2:22
    想象一下
  • 2:22 - 2:25
    能够帮助我们应对
  • 2:25 - 2:26
    世界性难题
  • 2:26 - 2:30
    像食物短缺 医疗短缺
  • 2:30 - 2:33
    能源短缺 电力短缺
  • 2:33 - 2:34
    还有确保人类家园
  • 2:34 - 2:36
    不会因为全球变暖而生灵涂炭
  • 2:36 - 2:40
    的唯一办法是有效利用大数据
  • 2:40 - 2:44
    那么大数据新在何处, 重在何处呢?
  • 2:44 - 2:46
    为了回答这个问题, 让我们看一下
  • 2:46 - 2:48
    信息看上去是什么样的
  • 2:48 - 2:51
    信息在以前是什么样的
  • 2:51 - 2:55
    1908年在克里特岛上
    (注:位于地中海 为希腊第一大岛)
  • 2:55 - 3:00
    考古学家发现了一个粘土做的盘子
  • 3:00 - 3:04
    这是个公元前2000年的盘子
    距今约有4000年的历史
  • 3:04 - 3:06
    盘子上有铭文
  • 3:06 - 3:07
    但是我们不知道它们是什么意思
  • 3:07 - 3:09
    这完全是个谜团
  • 3:09 - 3:11
    但这就是4000年前
  • 3:11 - 3:13
    信息的样子
  • 3:13 - 3:16
    这就是当时社会
  • 3:16 - 3:19
    存储和传递信息的方式
  • 3:19 - 3:23
    现代社会也没有什么很大的进步
  • 3:23 - 3:27
    我们还是把数据存储在盘中
    (注:指磁盘)
  • 3:27 - 3:30
    但我们可以存储更多的信息
  • 3:30 - 3:31
    远远超过以前的信息容量
  • 3:31 - 3:34
    这些信息搜索和复制起来更简单
  • 3:34 - 3:38
    分享和处理起来也更便捷
  • 3:38 - 3:41
    我们也可以重新利用这些数据
  • 3:41 - 3:42
    一些我们当初收集的时候
  • 3:42 - 3:46
    从来没有料想过的用途
  • 3:46 - 3:47
    从这个方面来说
  • 3:47 - 3:51
    数据已经从储存状态到了流动状态
  • 3:51 - 3:55
    从静态的统计性的数据
  • 3:55 - 3:59
    变成动态的数据流
  • 3:59 - 4:03
    这就是信息的流动性
  • 4:03 - 4:06
    克里特岛发现的粘土盘
  • 4:06 - 4:10
    有4000年的历史, 非常笨重
  • 4:10 - 4:12
    但它不能记录太多的信息
  • 4:12 - 4:15
    并且它所记录的信息是不能更改的
  • 4:15 - 4:18
    与此相反
  • 4:18 - 4:21
    爱德华·斯诺登从美国国家安全局
  • 4:21 - 4:24
    所获得的文件
  • 4:24 - 4:26
    可以放在一个
  • 4:26 - 4:29
    仅有指甲大小的存储盘里
  • 4:29 - 4:34
    并且可以以光速进行数据共享
  • 4:34 - 4:39
    更多数据 更多
  • 4:39 - 4:41
    今天我们有这么多数据的一个原因是
  • 4:41 - 4:43
    我们一直在收集信息
  • 4:43 - 4:46
    就像我们一直在做的一样
  • 4:46 - 4:49
    另一个原因是我们记录了
  • 4:49 - 4:51
    许多蕴含丰富信息的事物
  • 4:51 - 4:54
    但是从没把信息转换成数据形式
  • 4:54 - 4:56
    现在我们正在把信息转变成数据
  • 4:56 - 5:00
    举个例子, 定位问题
  • 5:00 - 5:02
    比如说马丁·路德
  • 5:02 - 5:03
    在16世纪 如果我们想知道
  • 5:03 - 5:06
    马丁·路德在哪里
  • 5:06 - 5:08
    我们必须一直跟着他
  • 5:08 - 5:10
    或许用羽毛笔和墨水
  • 5:10 - 5:12
    把这些情况记录下来
  • 5:12 - 5:14
    那现今是什么样的情形呢?
  • 5:14 - 5:16
    在某些地方
  • 5:16 - 5:19
    可能在电信运营商的数据库里
  • 5:19 - 5:22
    有个电子数据表或者至少一个数据目录
  • 5:22 - 5:24
    记录着所有关于你
  • 5:24 - 5:26
    任何时候在什么地点的信息
  • 5:26 - 5:27
    如果你有个手机
  • 5:27 - 5:30
    这个手机有GPS, 或者即使没有GPS
  • 5:30 - 5:33
    它还是可以记录你的信息
  • 5:33 - 5:37
    从这方面来说, 位置信息被数据化了
  • 5:37 - 5:41
    再举个例子, 关于姿势
  • 5:41 - 5:42
    你们现在坐着的姿势
  • 5:42 - 5:45
    你坐着的姿势
  • 5:45 - 5:47
    你坐着的姿势 你坐着的姿势
  • 5:47 - 5:49
    这些都不一样 这是一个关于腿长
  • 5:49 - 5:51
    你的背部和背部轮廓的函数
  • 5:51 - 5:54
    如果我现在放一些传感器 或许100个
  • 5:54 - 5:56
    在你的椅子里
  • 5:56 - 5:59
    我可以算出你的独一无二的参数
  • 5:59 - 6:04
    就像你的指纹 但不是针对你的手指
  • 6:04 - 6:07
    那我们能用它来干什么呢?
  • 6:07 - 6:09
    东京的研究者把它
  • 6:09 - 6:14
    运用在一个汽车防盗设施的雏形上
  • 6:14 - 6:16
    它的设想是盗贼坐在驾驶座上
  • 6:16 - 6:19
    企图把车开走 但是汽车识别出
  • 6:19 - 6:21
    驾驶座上的是个未授权驾驶人
  • 6:21 - 6:23
    那汽车可能就会熄火
  • 6:23 - 6:26
    除非你在仪表盘上输入密码
  • 6:26 - 6:31
    来表明“我已获得授权”
  • 6:31 - 6:33
    如果欧洲的每辆汽车
  • 6:33 - 6:35
    都装备了这项技术会是怎样的情形?
  • 6:35 - 6:38
    我们还能做些什么呢?
  • 6:38 - 6:40
    或许如果我们整合数据
  • 6:40 - 6:44
    我们可以识别示警信号
  • 6:44 - 6:47
    对于在下一个五秒钟内
  • 6:47 - 6:53
    可能发生的意外做出最佳预判
  • 6:53 - 6:55
    我们也可以进行数据化的是
  • 6:55 - 6:57
    司机的疲劳度
  • 6:57 - 6:59
    当汽车侦测到司机的坐姿
  • 6:59 - 7:03
    倒成某一特定姿势时
  • 7:03 - 7:07
    这个设备感知到并发出车内警告
  • 7:07 - 7:09
    可能是震动方向盘或语音提示
  • 7:09 - 7:11
    “嗨,醒醒
  • 7:11 - 7:12
    集中精神在路况上”
  • 7:12 - 7:14
    这就是生活的更多方面数据化后
  • 7:14 - 7:17
    我们能做的事情
  • 7:17 - 7:21
    那么大数据的价值在哪里?
  • 7:21 - 7:23
    好 思考一下
  • 7:23 - 7:25
    你有了更多地信息
  • 7:25 - 7:29
    你可以做你以前不能做的事
  • 7:29 - 7:30
    在运用这个概念的领域里
  • 7:30 - 7:32
    让人印象最为最深刻的
  • 7:32 - 7:35
    是机器学习
  • 7:35 - 7:39
    机器学习是人工智能的一个分支
  • 7:39 - 7:42
    人工智能又是计算机科学的一个分支
  • 7:42 - 7:43
    它的基本理念是
  • 7:43 - 7:46
    把关于某个问题的一堆数据扔给电脑
  • 7:46 - 7:48
    让电脑自己找出解决方案
  • 7:48 - 7:51
    而不是教电脑应该做什么
  • 7:51 - 7:53
    通过机器学习的原型
  • 7:53 - 7:57
    可以帮助你来理解这个理念
  • 7:57 - 7:59
    20世纪50年代IBM的计算机科学家
  • 7:59 - 8:03
    亚瑟·塞缪尔想玩跳棋
  • 8:03 - 8:04
    所以他写了个程序
  • 8:04 - 8:07
    这样他就可以和电脑来玩
  • 8:07 - 8:10
    开始他下一盘 赢一盘
  • 8:10 - 8:12
    下一盘 赢一盘
  • 8:12 - 8:15
    下一盘 赢一盘
  • 8:15 - 8:17
    因为电脑只知道
  • 8:17 - 8:19
    规则允许怎样走
  • 8:19 - 8:21
    亚瑟·塞缪尔还知道其他东西
  • 8:21 - 8:26
    他知道下棋的策略
  • 8:26 - 8:28
    所以他又写了一个附加程序
  • 8:28 - 8:30
    这个程序在后台运行
  • 8:30 - 8:32
    它的功能只是计算概率
  • 8:32 - 8:34
    在一个给定的棋局里
  • 8:34 - 8:37
    每走一步后
  • 8:37 - 8:40
    会获胜或者失败的概率
  • 8:40 - 8:43
    再和电脑下棋 还是下一盘 赢一盘
  • 8:43 - 8:45
    下一盘 赢一盘
  • 8:45 - 8:49
    下一盘 赢一盘
  • 8:49 - 8:51
    后来亚瑟让电脑
  • 8:51 - 8:54
    自己和自己下棋
  • 8:54 - 8:57
    电脑自己玩的时候收集了更多的数据
  • 8:57 - 9:01
    收集的数据越多, 预测的准确率就越高
  • 9:01 - 9:03
    然后亚瑟又继续和电脑下棋
  • 9:03 - 9:06
    这次他下一盘 输一盘
  • 9:06 - 9:08
    下一盘 输一盘
  • 9:08 - 9:10
    下一盘 输一盘
  • 9:10 - 9:13
    亚瑟创造了一个机器
  • 9:13 - 9:19
    它的能力超越了亚瑟开始时所教给它的
  • 9:19 - 9:21
    机器学习的理念
  • 9:21 - 9:25
    现在已经随处可见
  • 9:25 - 9:28
    你们觉得无人驾驶汽车(关键的技术)是什么?
  • 9:28 - 9:31
    是不是把所有交通规则输入软件
  • 9:31 - 9:34
    就万事大吉了?不是
  • 9:34 - 9:36
    内存很便宜?不是
  • 9:36 - 9:40
    算法更快了 不是 处理器更强大了 不是
  • 9:40 - 9:43
    这些都有影响, 但不是真正的原因
  • 9:43 - 9:46
    真正的原因是我们改变了问题的本质
  • 9:46 - 9:48
    我们把问题的本质从
  • 9:48 - 9:50
    试图明确无误地
  • 9:50 - 9:53
    教会电脑怎样驾驶
  • 9:53 - 9:54
    变成我们对电脑说
  • 9:54 - 9:56
    “这里有许多关于汽车的数据
  • 9:56 - 9:57
    你自己搞定它
  • 9:57 - 9:59
    你知道那是交通信号灯
  • 9:59 - 10:01
    那是红灯不是绿灯
  • 10:01 - 10:03
    遇到红灯你必须停下来
  • 10:03 - 10:06
    不能往前走”
  • 10:06 - 10:08
    机器学习是许多
  • 10:08 - 10:10
    网上在线应用的基础
  • 10:10 - 10:12
    搜索引擎
  • 10:12 - 10:16
    亚马逊的个性化算法
  • 10:16 - 10:18
    电脑智能翻译
  • 10:18 - 10:22
    语音识别系统
  • 10:22 - 10:25
    研究者最近在研究
  • 10:25 - 10:28
    关于活组织检查的问题
  • 10:28 - 10:31
    关于肿瘤活组织检查
  • 10:31 - 10:33
    他们让电脑
  • 10:33 - 10:36
    通过 (历史) 数据和存活率
  • 10:36 - 10:40
    来判断这些细胞
  • 10:40 - 10:43
    是否是癌症细胞
  • 10:43 - 10:45
    果不其然 当你把数据交给电脑
  • 10:45 - 10:47
    电脑通过自主学习
  • 10:47 - 10:49
    可以寻找出
  • 10:49 - 10:51
    12个最佳的鉴别特征用来预测
  • 10:51 - 10:54
    乳腺癌细胞的活检切片
  • 10:54 - 10:57
    确实是癌症细胞
  • 10:57 - 11:00
    问题是医学文献
  • 11:00 - 11:03
    只知道其中的九个鉴别特征
  • 11:03 - 11:04
    其他三个
  • 11:04 - 11:07
    人们不会去寻找
  • 11:07 - 11:13
    但是电脑把它们找了出来
  • 11:13 - 11:19
    大数据也有黑暗的一面
  • 11:19 - 11:21
    它可以改善我们的生活
  • 11:21 - 11:24
    但也会带来一些我们需要注意的问题
  • 11:24 - 11:26
    首先就是
  • 11:26 - 11:29
    我们可能因为预测的结果而受到惩罚
  • 11:29 - 11:33
    警察可能会用大数据来实现目标
  • 11:33 - 11:35
    有点像“少数派报告”
  • 11:35 - 11:38
    现在有个词叫做预见性监管
  • 11:38 - 11:40
    或者叫算法犯罪学
  • 11:40 - 11:42
    这个想法是如果我们掌握了大量数据
  • 11:42 - 11:44
    比如以往犯罪发生的地点
  • 11:44 - 11:47
    我们可以就知道把警力派到哪里
  • 11:47 - 11:49
    这很合理 但问题是
  • 11:49 - 11:53
    数据分析不会仅限于地点数据
  • 11:53 - 11:56
    它会进一步深入到个人层面
  • 11:56 - 11:59
    为什么我们不去分析
  • 11:59 - 12:01
    某人的中学成绩单
  • 12:01 - 12:02
    或者我们可以了解
  • 12:02 - 12:04
    他们的就职情况、信用记录
  • 12:04 - 12:06
    他们的上网行为
  • 12:06 - 12:08
    他们是否熬夜
  • 12:08 - 12:11
    当可以通过健康腕带读取生化数据时
  • 12:11 - 12:15
    就可以知道他们是否有激进的想法
  • 12:15 - 12:17
    我们可以用算法来预测
  • 12:17 - 12:19
    我们将要做什么
  • 12:19 - 12:20
    可能有些事情还没做
  • 12:20 - 12:23
    我们就要承担责任
  • 12:23 - 12:25
    个人隐私在小数据时代
  • 12:25 - 12:28
    是主要挑战
  • 12:28 - 12:30
    在大数据时代
  • 12:30 - 12:34
    这个挑战将会成为保卫自由意愿
  • 12:34 - 12:38
    道德选择 、人类意志
  • 12:38 - 12:41
    人类的能动性
  • 12:43 - 12:45
    还有另一个问题
  • 12:45 - 12:48
    大数据会偷走我们的工作
  • 12:48 - 12:52
    在21世纪
  • 12:52 - 12:55
    大数据和算法会威胁到
  • 12:55 - 12:57
    白领和需要专业知识的工作
  • 12:57 - 12:59
    就像在20世纪工厂自动化
  • 12:59 - 13:01
    和装配生产线的应用
  • 13:01 - 13:04
    威胁到了蓝领们的工作岗位
  • 13:04 - 13:06
    想象一下一个研究室技术员
  • 13:06 - 13:08
    他的工作就是通过一个显微镜
  • 13:08 - 13:09
    观察一个癌症活检组织
  • 13:09 - 13:12
    来判定它是不是癌症的
  • 13:12 - 13:14
    这个人上大学
  • 13:14 - 13:15
    买房子
  • 13:15 - 13:17
    他/她投票选举
  • 13:17 - 13:21
    他/她是这个社会的一份子
  • 13:21 - 13:22
    然后这个人的工作
  • 13:22 - 13:24
    还有其他
  • 13:24 - 13:26
    像他一样的专业人员
  • 13:26 - 13:29
    将会发现他们的工作被彻底改变了
  • 13:29 - 13:31
    或者彻底废除了
  • 13:31 - 13:33
    我们一直以为
  • 13:33 - 13:36
    在短时或者暂时的就业调整期后
  • 13:36 - 13:39
    一段时间内科技会创造就业机会
  • 13:39 - 13:41
    这对于我们所处的参考系
  • 13:41 - 13:43
    工业革命来说就是这样
  • 13:43 - 13:46
    因为在工业革命时期事情就是这样的
  • 13:46 - 13:48
    但是我们忘记了一件事情
  • 13:48 - 13:50
    有些类型的职业
  • 13:50 - 13:53
    已经彻底消失了并且再也不会回来
  • 13:53 - 13:55
    如果你是一匹马
  • 13:55 - 13:59
    工业革命不是一件好事
  • 13:59 - 14:01
    所以我们必须非常小心
  • 14:01 - 14:05
    根据我们的需求和整个人类的需求
  • 14:05 - 14:08
    来利用和适应大数据
  • 14:08 - 14:10
    我们必须是技术的主人
  • 14:10 - 14:12
    而不是技术的仆人
  • 14:12 - 14:15
    我们正在步入大数据时代
  • 14:15 - 14:18
    老实说, 我们并不能很好地
  • 14:18 - 14:22
    处理所有我们现在能够收集到的数据
  • 14:22 - 14:25
    这不仅仅是国家安全局的问题
  • 14:25 - 14:28
    许多企业也搜集并不恰当地使用数据
  • 14:28 - 14:32
    我们需要时间来纠正这个问题
  • 14:32 - 14:34
    这有点像原始人类面对火时
  • 14:34 - 14:36
    所面临的挑战
  • 14:36 - 14:38
    火是一种工具
  • 14:38 - 14:42
    但是如果使用不当就会引火烧身
  • 14:44 - 14:47
    大数据即将改变我们的生活方式
  • 14:47 - 14:50
    我们的工作方式和思考方式
  • 14:50 - 14:52
    它可以帮助我们管理事业
  • 14:52 - 14:55
    帮助我们过想要的满足、充满希望
  • 14:55 - 14:58
    幸福和健康的生活
  • 14:58 - 15:02
    但是在过去, 对于信息技术(IT)
  • 15:02 - 15:04
    我们经常只看到了T
  • 15:04 - 15:06
    就是技术、硬件
  • 15:06 - 15:08
    因为这是切实可见的东西
  • 15:08 - 15:11
    现在我们需要把目光放在 I 上
  • 15:11 - 15:12
    信息
  • 15:12 - 15:14
    它不是那么切实可见
  • 15:14 - 15:18
    但某种程度上却更加重要
  • 15:18 - 15:21
    在人类永无止境的探索过程中
  • 15:21 - 15:24
    我们可以从我们能收集的信息中
  • 15:24 - 15:26
    来了解这个世界
  • 15:26 - 15:29
    以及人类在这个世界中所处的地位
  • 15:29 - 15:34
    这就是为什么大数据非常重要
  • 15:34 - 15:38
    (掌声)
Title:
大数据好处多
Speaker:
Kenneth Cukier
Description:

无人驾驶汽车只是大数据时代的开始。由大数据所带来的未来技术和设计将会是什么样子的?Kenneth Cukier的精彩演讲给我们展现了由大数据给机器学习和人类知识带来的翻天覆地的变化。

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
15:51

Chinese, Simplified subtitles

Revisions