Return to Video

盲目信仰大数据的时代必须结束

  • 0:01 - 0:03
    算法无处不在。
  • 0:04 - 0:07
    他们把成功者和失败者区分开来。
  • 0:08 - 0:10
    成功者得到工作
  • 0:10 - 0:12
    或是一个很好的信用卡优惠计划。
  • 0:12 - 0:15
    失败者甚至连面试机会都没有,
  • 0:16 - 0:17
    或者要为保险付更多的钱。
  • 0:18 - 0:22
    我们被不理解的秘密公式打分,
  • 0:23 - 0:26
    却并没有上诉的渠道。
  • 0:27 - 0:29
    这引出了一个问题:
  • 0:29 - 0:31
    如果算法是错误的怎么办?
  • 0:33 - 0:35
    构建一个算法需要两个要素:
  • 0:35 - 0:37
    需要数据,如过去发生的事情,
  • 0:37 - 0:38
    和成功的定义,
  • 0:38 - 0:41
    你正在寻找的,通常希望得到的东西。
  • 0:41 - 0:46
    你可以通过观察,理解来训练算法。
  • 0:46 - 0:50
    这种算法能找出与成功相关的因素。
  • 0:50 - 0:52
    什么情况意味着成功?
  • 0:53 - 0:55
    其实,每个人都使用算法。
  • 0:55 - 0:57
    他们只是没有把它们写成书面代码。
  • 0:57 - 0:58
    举个例子。
  • 0:58 - 1:02
    我每天都用一种算法来
    为我的家人做饭。
  • 1:02 - 1:04
    我使用的数据
  • 1:04 - 1:06
    就是我厨房里的原料,
  • 1:06 - 1:08
    我拥有的时间,
  • 1:08 - 1:09
    我的热情,
  • 1:09 - 1:11
    然后我整理了这些数据。
  • 1:11 - 1:15
    我不把那种小包拉面算作食物。
  • 1:15 - 1:17
    (笑声)
  • 1:17 - 1:19
    我对成功的定义是:
  • 1:19 - 1:21
    如果我的孩子们肯吃蔬菜,
    这顿饭就是成功的。
  • 1:22 - 1:25
    这和我最小的儿子
    负责做饭时的情况有所不同。
  • 1:25 - 1:28
    他说,如果他能吃很多
    Nutella巧克力榛子酱就是成功。
  • 1:29 - 1:31
    但我可以选择成功。
  • 1:31 - 1:34
    我负责。我的意见就很重要。
  • 1:34 - 1:37
    这就是算法的第一个规则。
  • 1:37 - 1:40
    算法是嵌入在代码中的观点。
  • 1:42 - 1:45
    这和你认为大多数人对
    算法的看法是不同的。
  • 1:45 - 1:50
    他们认为算法是客观、真实和科学的。
  • 1:50 - 1:52
    那是一种营销技巧。
  • 1:53 - 1:55
    这也是一种用算法来
  • 1:55 - 1:59
    恐吓你的营销手段,
  • 1:59 - 2:02
    为了让你信任和恐惧算法
  • 2:02 - 2:04
    因为你信任并害怕数学。
  • 2:06 - 2:10
    当我们盲目信任大数据时,
    很多人都可能犯错。
  • 2:12 - 2:15
    这是凯丽·索尔斯。
    她是布鲁克林的一名高中校长。
  • 2:15 - 2:18
    2011年,她告诉我,
    她学校的老师们正在被一个复杂
  • 2:18 - 2:20
    并且隐秘的算法进行打分,
  • 2:20 - 2:22
    这个算法被称为“增值模型"。
  • 2:23 - 2:25
    我告诉她,“先弄清楚这个
    公式是什么,然后给我看看。
  • 2:25 - 2:27
    我来给你解释一下。”
  • 2:27 - 2:29
    她说,“我寻求过这个公式,
  • 2:29 - 2:32
    但是教育部的负责人告诉我这是数学,
  • 2:32 - 2:34
    给我我也看不懂。”
  • 2:35 - 2:37
    更糟的还在后面。
  • 2:37 - 2:40
    纽约邮报提出了“信息自由法”的要求,
  • 2:40 - 2:43
    来得到所有老师的名字与他们的分数,
  • 2:43 - 2:46
    并且他们以羞辱教师的方式
    发表了这些数据。
  • 2:47 - 2:51
    当我试图用同样的方法来获取公式,
    源代码的时候,
  • 2:51 - 2:53
    我被告知我没有权力这么做。
  • 2:53 - 2:54
    我被拒绝了。
  • 2:54 - 2:55
    后来我发现,
  • 2:55 - 2:58
    纽约市压根儿没有人能接触到这个公式。
  • 2:58 - 3:00
    没有人能看懂。
  • 3:02 - 3:05
    然后,一个非常聪明的人参与了,
    加里·鲁宾斯坦。
  • 3:05 - 3:09
    他从纽约邮报的数据中
    找到了665名教师,
  • 3:09 - 3:11
    实际上他们有两个分数。
  • 3:11 - 3:13
    如果他们同时教七年级与八年级的数学,
  • 3:13 - 3:15
    就会得到两个评分。
  • 3:15 - 3:17
    他决定把这些数据绘成图表。
  • 3:17 - 3:19
    每个点代表一个教师。
  • 3:19 - 3:22
    (笑声)
  • 3:22 - 3:23
    那是什么?
  • 3:23 - 3:24
    (笑声)
  • 3:24 - 3:28
    它永远不应该被用于个人评估。
  • 3:28 - 3:30
    它几乎是一个随机数生成器。
  • 3:30 - 3:33
    (掌声)
  • 3:33 - 3:33
    但它确实被使用了。
  • 3:33 - 3:35
    这是莎拉·维索斯基。
  • 3:35 - 3:37
    她连同另外205名教师被解雇了,
  • 3:37 - 3:40
    都是来自华盛顿特区的学区,
  • 3:40 - 3:43
    尽管她的校长还有学生的
  • 3:43 - 3:44
    父母都非常推荐她。
  • 3:45 - 3:47
    我知道你们很多人在想什么,
  • 3:47 - 3:50
    尤其是这里的数据科学家,
    人工智能专家。
  • 3:50 - 3:54
    你在想,“我可永远不会做出
    这样前后矛盾的算法。”
  • 3:55 - 3:56
    但是算法可能会出错,
  • 3:56 - 4:01
    即使有良好的意图,
    也会产生毁灭性的影响。
  • 4:03 - 4:05
    每个人都能看到一架设计的
  • 4:05 - 4:07
    很糟糕的飞机会坠毁在地,
  • 4:07 - 4:09
    而一个设计糟糕的算法
  • 4:10 - 4:14
    可以持续很长一段时间,
    并无声地造成破坏。
  • 4:16 - 4:17
    这是罗杰·艾尔斯。
  • 4:17 - 4:19
    (笑声)
  • 4:21 - 4:23
    他在1996年创办了福克斯新闻。
  • 4:23 - 4:26
    公司有超过20多名女性曾抱怨过性骚扰。
  • 4:26 - 4:29
    她们说她们不被允许在
    福克斯新闻有所成就。
  • 4:29 - 4:32
    他去年被赶下台,但我们最近看到
  • 4:32 - 4:35
    问题依然存在。
  • 4:36 - 4:37
    这引出了一个问题:
  • 4:37 - 4:40
    福克斯新闻应该做些什么改变?
  • 4:41 - 4:44
    如果他们用机器学习算法
  • 4:44 - 4:46
    取代传统的招聘流程呢?
  • 4:46 - 4:47
    听起来不错,对吧?
  • 4:47 - 4:49
    想想看。
  • 4:49 - 4:51
    数据,这些数据到底是什么?
  • 4:51 - 4:56
    福克斯新闻在过去21年的申请函
    是一个合理的选择。
  • 4:56 - 4:58
    很合理。
  • 4:58 - 4:59
    那么成功的定义呢?
  • 5:00 - 5:01
    合理的选择将是,
  • 5:01 - 5:03
    谁在福克斯新闻取得了成功?
  • 5:03 - 5:07
    我猜的是,比如在那里呆了四年,
  • 5:07 - 5:08
    至少得到过一次晋升的人。
  • 5:09 - 5:10
    听起来很合理。
  • 5:10 - 5:13
    然后这个算法将会被训练。
  • 5:13 - 5:17
    它会被训练去向人们
    学习是什么造就了成功,
  • 5:17 - 5:22
    什么样的申请函在过去拥有
  • 5:22 - 5:23
    这种成功的定义。
  • 5:24 - 5:26
    现在想想如果我们把它
  • 5:26 - 5:29
    应用到目前的申请者中会发生什么。
  • 5:29 - 5:31
    它会过滤掉女性,
  • 5:32 - 5:36
    因为她们看起来不像
    在过去取得成功的人。
  • 5:40 - 5:42
    算法不会让事情变得公平,
  • 5:42 - 5:45
    如果你只是轻率地,
    盲目地应用算法。
  • 5:45 - 5:46
    它们不会让事情变得公平。
  • 5:46 - 5:49
    它们只是重复我们过去的做法,
  • 5:49 - 5:50
    我们的规律。
  • 5:50 - 5:52
    它们使现状自动化。
  • 5:53 - 5:55
    如果我们有一个
    完美的世界那就太好了,
  • 5:56 - 5:57
    但是我们没有。
  • 5:57 - 6:01
    我还要补充一点,
    大多数公司都没有令人尴尬的诉讼,
  • 6:02 - 6:05
    但是这些公司的数据科学家
  • 6:05 - 6:07
    被告知要跟随数据,
  • 6:07 - 6:09
    关注它的准确性。
  • 6:10 - 6:11
    想想这意味着什么。
  • 6:11 - 6:16
    因为我们都有偏见,
    这意味着他们可以编纂性别歧视
  • 6:16 - 6:18
    或者任何其他的偏见。
  • 6:19 - 6:21
    思维实验,
  • 6:21 - 6:22
    因为我喜欢它们:
  • 6:24 - 6:27
    一个完全隔离的社会——
  • 6:28 - 6:32
    种族隔离存在于所有的城镇,
    所有的社区,
  • 6:32 - 6:34
    我们把警察只送到少数族裔的社区
  • 6:34 - 6:36
    去寻找犯罪。
  • 6:36 - 6:39
    逮捕数据将会是十分有偏见的。
  • 6:40 - 6:42
    除此之外,我们还会寻找数据科学家
  • 6:42 - 6:47
    并付钱给他们来预测
    下一起犯罪会发生在哪里?
  • 6:47 - 6:49
    少数族裔的社区。
  • 6:49 - 6:52
    或者预测下一个罪犯会是谁?
  • 6:53 - 6:54
    少数族裔。
  • 6:56 - 6:59
    这些数据科学家们
    会吹嘘他们的模型有多好,
  • 6:59 - 7:01
    多精确,
  • 7:01 - 7:02
    当然他们是对的。
  • 7:04 - 7:09
    不过现实并没有那么极端,
    但我们确实在许多城市里
  • 7:09 - 7:10
    有严重的种族隔离,
  • 7:10 - 7:12
    并且我们有大量的证据表明
  • 7:12 - 7:15
    警察和司法系统的数据存有偏见。
  • 7:16 - 7:18
    而且我们确实预测过热点,
  • 7:18 - 7:20
    那些犯罪会发生的地方。
  • 7:20 - 7:24
    我们确实会预测个人犯罪,
  • 7:24 - 7:26
    个人的犯罪行为。
  • 7:27 - 7:31
    新闻机构“人民 (ProPublica)”最近调查了,
  • 7:31 - 7:32
    其中一个称为
  • 7:32 - 7:33
    “累犯风险”的算法。
  • 7:33 - 7:37
    并在佛罗里达州的
    宣判期间被法官采用。
  • 7:38 - 7:42
    伯纳德,左边的那个黑人,
    10分中得了满分。
  • 7:43 - 7:45
    在右边的迪伦,
    10分中得了3分。
  • 7:45 - 7:48
    10分代表高风险。
    3分代表低风险。
  • 7:49 - 7:51
    他们都因为持有毒品
    而被带进了监狱。
  • 7:51 - 7:52
    他们都有犯罪记录,
  • 7:52 - 7:55
    但是迪伦有一个重罪
  • 7:55 - 7:56
    但伯纳德没有。
  • 7:58 - 8:01
    这很重要,因为你的分数越高,
  • 8:01 - 8:04
    你被判长期服刑的可能性就越大。
  • 8:06 - 8:08
    到底发生了什么?
  • 8:09 - 8:10
    数据洗钱。
  • 8:11 - 8:15
    这是一个技术人员
    把丑陋真相隐藏在
  • 8:15 - 8:17
    算法黑盒子中的过程,
  • 8:17 - 8:19
    并称之为客观;
  • 8:19 - 8:21
    称之为精英模式。
  • 8:23 - 8:25
    当它们是秘密的,
    重要的并具有破坏性的,
  • 8:25 - 8:28
    我为这些算法创造了一个术语:
  • 8:28 - 8:30
    “杀伤性数学武器”。
  • 8:30 - 8:32
    (笑声)
  • 8:32 - 8:35
    (鼓掌)
  • 8:35 - 8:37
    它们无处不在,也不是一个错误。
  • 8:38 - 8:41
    这些是私有公司为了私人目的
  • 8:41 - 8:43
    建立的私有算法。
  • 8:43 - 8:46
    甚至是我谈到的老师
    与公共警察使用的(算法),
  • 8:46 - 8:48
    也都是由私人公司所打造的,
  • 8:48 - 8:51
    然后卖给政府机构。
  • 8:51 - 8:52
    他们称之为“秘密配方(来源)”——
  • 8:52 - 8:55
    这就是他们不能告诉我们的原因。
  • 8:55 - 8:57
    这也是私人权力。
  • 8:58 - 9:03
    他们利用神秘莫测的权威来获利。
  • 9:05 - 9:08
    你可能会想,既然所有这些都是私有的
  • 9:08 - 9:09
    而且会有竞争,
  • 9:09 - 9:12
    也许自由市场会解决这个问题。
  • 9:12 - 9:13
    然而并不会。
  • 9:13 - 9:16
    在不公平的情况下,
    有很多钱可以赚。
  • 9:17 - 9:20
    而且,我们不是经济理性的代理人。
  • 9:21 - 9:22
    我们都是有偏见的。
  • 9:23 - 9:26
    我们都是固执的种族主义者,
    虽然我们希望我们不是,
  • 9:26 - 9:28
    虽然我们甚至没有意识到。
  • 9:29 - 9:32
    总的来说,我们知道这一点,
  • 9:32 - 9:35
    因为社会学家会一直通过这些实验
  • 9:35 - 9:37
    来证明这一点,
  • 9:37 - 9:40
    他们发送了大量的工作申请,
  • 9:40 - 9:43
    都是有同样资格的候选人,
    有些用白人人名,
  • 9:43 - 9:44
    有些用黑人人名,
  • 9:44 - 9:47
    然而结果总是令人失望的。
  • 9:48 - 9:49
    所以我们是有偏见的,
  • 9:49 - 9:53
    我们还通过选择收集到的数据
  • 9:53 - 9:55
    来把偏见注入到算法中,
  • 9:55 - 9:57
    就像我不选择去想拉面一样——
  • 9:57 - 9:59
    我自认为这无关紧要。
  • 9:59 - 10:05
    但是,通过信任那些
    在过去的实践中获得的数据
  • 10:05 - 10:07
    以及通过选择成功的定义,
  • 10:07 - 10:11
    我们怎么能指望算法
    会是毫无瑕疵的呢?
  • 10:11 - 10:13
    我们不能。我们必须检查。
  • 10:14 - 10:16
    我们必须检查它们是否公平。
  • 10:16 - 10:19
    好消息是,我们可以做到这一点。
  • 10:19 - 10:22
    算法是可以被审问的,
  • 10:22 - 10:24
    而且每次都能告诉我们真相。
  • 10:24 - 10:27
    然后我们可以修复它们。
    我们可以让他们变得更好。
  • 10:27 - 10:29
    我把它叫做算法审计,
  • 10:29 - 10:31
    接下来我会为你们解释。
  • 10:31 - 10:33
    首先,数据的完整性检查。
  • 10:34 - 10:37
    对于刚才提到过的累犯风险算法,
  • 10:38 - 10:41
    数据的完整性检查将意味着
    我们不得不接受这个事实,
  • 10:41 - 10:45
    在美国,白人和黑人
    吸毒的比例是一样的,
  • 10:45 - 10:47
    但是黑人更有可能被逮捕——
  • 10:47 - 10:50
    取决于区域,可能性是白人的4到5倍。
  • 10:51 - 10:54
    这种偏见在其他犯罪类别中
    是什么样子的,
  • 10:54 - 10:56
    我们又该如何解释呢?
  • 10:56 - 10:59
    其次,我们应该考虑成功的定义,
  • 10:59 - 11:01
    审计它。
  • 11:01 - 11:03
    还记得我们谈论的雇佣算法吗?
  • 11:03 - 11:07
    那个呆了四年的人,
    然后被提升了一次?
  • 11:07 - 11:08
    这的确是一个成功的员工,
  • 11:08 - 11:11
    但这也是一名受到公司文化支持的员工。
  • 11:12 - 11:14
    也就是说,
    这可能会有很大的偏差。
  • 11:14 - 11:16
    我们需要把这两件事分开。
  • 11:16 - 11:19
    我们应该去看一下乐团盲选试奏,
  • 11:19 - 11:19
    举个例子。
  • 11:19 - 11:23
    这就是人们在幕后选拔乐手的地方。
  • 11:23 - 11:24
    我想要考虑的是
  • 11:24 - 11:28
    倾听的人已经
    决定了什么是重要的,
  • 11:28 - 11:30
    同时他们已经决定了
    什么是不重要的,
  • 11:30 - 11:32
    他们也不会因此而分心。
  • 11:33 - 11:36
    当乐团盲选开始时,
  • 11:36 - 11:39
    在管弦乐队中,
    女性的数量上升了5倍。
  • 11:40 - 11:42
    其次,我们必须考虑准确性。
  • 11:43 - 11:47
    这就是针对教师的增值模型
    立刻失效的地方。
  • 11:48 - 11:50
    当然,没有一个算法是完美的,
  • 11:51 - 11:54
    所以我们要考虑每一个算法的误差。
  • 11:55 - 11:59
    出现错误的频率有多高,
    让这个模型失败的对象是谁?
  • 12:00 - 12:02
    失败的代价是什么?
  • 12:02 - 12:05
    最后,我们必须考虑
  • 12:06 - 12:08
    这个算法的长期效果,
  • 12:09 - 12:11
    与正在产生的反馈循环。
  • 12:12 - 12:13
    这听起来很抽象,
  • 12:13 - 12:16
    但是想象一下
    如果脸书的工程师们之前考虑过,
  • 12:16 - 12:21
    并决定只向我们展示
    我们朋友所发布的东西。
  • 12:22 - 12:25
    我还有两条建议,
    一条是给数据科学家的。
  • 12:25 - 12:29
    数据科学家们:我们不应该
    成为真相的仲裁者。
  • 12:30 - 12:33
    我们应该成为大社会中
    所发生的道德讨论的
  • 12:33 - 12:35
    翻译者。
  • 12:36 - 12:38
    (掌声)
  • 12:38 - 12:39
    然后剩下的人,
  • 12:40 - 12:41
    非数据科学家们:
  • 12:41 - 12:43
    这不是一个数学测试。
  • 12:44 - 12:45
    这是一场政治斗争。
  • 12:47 - 12:50
    我们应该要求我们的
    算法霸主承担问责。
  • 12:52 - 12:54
    (掌声)
  • 12:54 - 12:58
    盲目信仰大数据的时代必须结束。
  • 12:58 - 12:59
    非常感谢。
  • 12:59 - 13:04
    (掌声)
Title:
盲目信仰大数据的时代必须结束
Speaker:
凯西·奥尼尔
Description:

算法决定谁会得到贷款,谁会得到工作面试,谁会得到保险等等—— 但它们不会自动使事情变得公平。身为数学家兼数据科学家的凯西·奥尼尔为算法创造了一个术语,它们是秘密的、重要的和有害的:“杀伤性数学武器”。通过这个演讲了解更多关于这些公式背后不为人知的运作方式吧。

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:18

Chinese, Simplified subtitles

Revisions