WEBVTT 00:00:00.556 --> 00:00:04.573 我们的情感影响着我们生活的方方面面, 00:00:04.573 --> 00:00:08.149 它影响我们的健康,影响我们如何学习、做生意以及做决定, 00:00:08.149 --> 00:00:09.922 影响着大大小小各各方面。 00:00:10.672 --> 00:00:14.162 我们的情感还影响着我们与他人的联系的方式。 00:00:15.132 --> 00:00:19.108 我们进化成可以生活在现在这样的世界, 00:00:19.108 --> 00:00:23.427 然而我们却越来越生活成这样子—— 00:00:23.427 --> 00:00:26.561 这是我女儿昨晚给我发的短信—— 00:00:26.561 --> 00:00:29.301 这是个缺乏情感的世界。 00:00:29.301 --> 00:00:31.252 所以我现在正致力于改变那种情况。 00:00:31.252 --> 00:00:35.343 我想把情感带回到我们的数字体验中来。 NOTE Paragraph 00:00:36.223 --> 00:00:39.300 15年前我就开始走上了这条道路。 00:00:39.300 --> 00:00:41.366 那时我是一个生活在埃及的计算机科学家, 00:00:41.366 --> 00:00:45.871 并且刚刚接受了剑桥大学的博士学位项目。 00:00:45.871 --> 00:00:47.984 我做了一件对于一个年轻的 00:00:47.984 --> 00:00:52.209 埃及穆斯林新婚妻子来说非常不寻常的事情: 00:00:53.599 --> 00:00:56.598 我的丈夫不能离开埃及,但在他的支持下, 00:00:56.598 --> 00:00:59.616 我独自收拾行李搬到英国去了。 00:00:59.616 --> 00:01:02.844 在离家数千里之外的剑桥, 00:01:02.844 --> 00:01:06.257 我意识到我花在笔记本电脑上的时间 00:01:06.257 --> 00:01:08.486 要多于我与其他人相处的时间。 00:01:08.486 --> 00:01:13.339 然而尽管我和电脑如此亲密,电脑却对我的感受毫无所知。 00:01:13.339 --> 00:01:16.550 它根本不知道我是快乐, 00:01:16.550 --> 00:01:19.538 还是经历着糟糕的一天,或者是感到有压力、困惑, 00:01:19.538 --> 00:01:22.460 这就很让人不爽。 00:01:23.600 --> 00:01:28.831 而且更糟的是,当我回家后在线跟家人聊天时, 00:01:29.421 --> 00:01:32.703 我觉得我所有的情感都在网络空间中消失了。 00:01:32.703 --> 00:01:37.858 我想家,我感到孤独,而且有些日子我真的哭了, 00:01:37.858 --> 00:01:42.786 而我也仅仅只能用这个表情来表达我的情感。 00:01:42.786 --> 00:01:44.806 (笑声) 00:01:44.806 --> 00:01:49.780 现今有很多技术具有智商,但是还没有具有情商的, 00:01:49.780 --> 00:01:52.956 很多技术具有认知性智能,但还没有具有情绪性智能的。 00:01:52.956 --> 00:01:55.153 这让我想到, 00:01:55.153 --> 00:01:58.777 如果我们的技术可以识别我们的情绪将会怎样? 00:01:58.777 --> 00:02:02.853 如果我们的设备能识别我们的感受并做出相应的反应, 00:02:02.853 --> 00:02:05.866 就像情商高的朋友所做的那样将会怎样? 00:02:06.666 --> 00:02:10.230 这些问题引导着我和我的团队 00:02:10.230 --> 00:02:14.607 去创造可以阅读我们的情绪并做出反应的技术, 00:02:14.607 --> 00:02:17.697 我们的起点是人脸。 NOTE Paragraph 00:02:18.577 --> 00:02:21.750 人脸是交流的最强大的渠道之一, 00:02:21.750 --> 00:02:25.766 我们所有人都用它来表达社会和情绪状态, 00:02:25.766 --> 00:02:28.776 从喜悦、惊讶 00:02:28.776 --> 00:02:32.979 到同情、好奇等等。 00:02:32.979 --> 00:02:37.907 在情感科学中,我们将每一个面肌运动称为一个动作单元。 00:02:37.907 --> 00:02:40.832 例如,动作单元12, 00:02:40.832 --> 00:02:42.870 这不是好莱坞大片, 00:02:42.870 --> 00:02:46.312 这就是简单的嘴角上扬,它是微笑的主要构成。 00:02:46.312 --> 00:02:49.300 大家都试一下。让我们都微笑起来。 00:02:49.300 --> 00:02:51.954 另一个例子是动作单元4。它是眉间纹。 00:02:51.954 --> 00:02:54.192 当你将眉毛拧到一起的时候 00:02:54.192 --> 00:02:56.459 你就创造出了这些纹理和皱纹。 00:02:56.459 --> 00:03:00.754 我们不喜欢它,但它是一个非常强的负面情绪指示器。 00:03:00.754 --> 00:03:02.960 我们大概有45个这样的单元, 00:03:02.960 --> 00:03:06.350 它们的组合可以表达上百种情绪。 NOTE Paragraph 00:03:06.350 --> 00:03:10.251 教会电脑去读取这些面部情绪很难, 00:03:10.251 --> 00:03:13.223 因为这些动作单元行动很微妙,而且稍纵即逝, 00:03:13.223 --> 00:03:15.777 而且它们有很多的组合方式。 00:03:15.777 --> 00:03:19.515 例如,微笑和假笑。 00:03:19.515 --> 00:03:23.268 它们看起来有几分相似,但意味却是天差地别。 00:03:23.268 --> 00:03:24.986 (笑声) 00:03:24.986 --> 00:03:27.990 微笑是正面的, 00:03:27.990 --> 00:03:29.260 假笑常常是负面的。 00:03:29.260 --> 00:03:33.136 有时一个假笑可以让你出名。 00:03:33.136 --> 00:03:35.960 但是严肃地讲,让电脑能够 00:03:35.960 --> 00:03:38.815 描述这两种表情的区别是很重要的。 NOTE Paragraph 00:03:38.815 --> 00:03:40.627 那我们是如何做的呢? 00:03:40.627 --> 00:03:42.414 我们给我们的算法 00:03:42.414 --> 00:03:46.524 成千上万的不同种族、年龄和性别的人们 00:03:46.524 --> 00:03:49.589 正在微笑的例子, 00:03:49.589 --> 00:03:52.400 然后我们也用同样的方法研究假笑。 00:03:52.400 --> 00:03:53.954 然后使用深度学习, 00:03:53.954 --> 00:03:56.810 算法可以观察我们脸上的所有这些纹理和皱纹 00:03:56.810 --> 00:03:59.390 以及形状变化, 00:03:59.390 --> 00:04:02.592 并且基本上得知所有的微笑都有共同特性, 00:04:02.592 --> 00:04:05.773 而所有的假笑都有些微的不同特性。 00:04:05.773 --> 00:04:08.141 然后下一次当它看到一个新面孔时, 00:04:08.141 --> 00:04:10.440 它就基本上能知道 00:04:10.440 --> 00:04:13.473 这张面孔上有和微笑相同的特性, 00:04:13.473 --> 00:04:17.751 然后它就会说:“啊哈,我知道了,这是一个微笑的表情。” NOTE Paragraph 00:04:18.381 --> 00:04:21.181 所以展示这种技术如何工作的最好方式 00:04:21.181 --> 00:04:23.317 是来一个现场演示, 00:04:23.317 --> 00:04:27.230 所以我需要一位志愿者,最好是个“有脸”的人。 00:04:27.230 --> 00:04:29.564 (笑声) 00:04:29.564 --> 00:04:32.335 克洛将成为我们今天的志愿者。 NOTE Paragraph 00:04:33.325 --> 00:04:37.783 在过去的5年间,我们从只是麻省理工学院的一个研究项目 00:04:37.783 --> 00:04:38.939 到成立一个公司, 00:04:38.939 --> 00:04:42.131 在公司里我的团队非常非常努力地工作以使这项技术成功, 00:04:42.131 --> 00:04:44.540 就像我们说的那样,我们在荒野里生存。 00:04:44.540 --> 00:04:47.210 我们还将它缩小了,这样的话这个核心情绪引擎 00:04:47.210 --> 00:04:50.530 就能在一个带摄像头的移动设备上运行,比如这个iPad。 00:04:50.530 --> 00:04:53.316 让我们来试一试。 NOTE Paragraph 00:04:54.756 --> 00:04:58.680 正如你们看到的,此算法基本上找到了克洛的脸, 00:04:58.680 --> 00:05:00.372 就是这个白色的边界框, 00:05:00.372 --> 00:05:02.943 它在跟踪她脸上的主要特征点, 00:05:02.943 --> 00:05:05.799 她的眉毛、眼睛、嘴巴和鼻子。 00:05:05.799 --> 00:05:08.786 问题是,它能识别她的表情吗? 00:05:08.786 --> 00:05:10.457 那么我们测试一下这台机器。 00:05:10.457 --> 00:05:14.643 首先,做一个面无表情的样子。嗯,好极了。(笑声) 00:05:14.643 --> 00:05:17.456 然后当她微笑时,这是一个真诚的微笑,很好。 00:05:17.456 --> 00:05:19.756 大家可以看到当她微笑时这些绿条增长了。 00:05:19.756 --> 00:05:20.978 这是一个大大的微笑。 00:05:20.978 --> 00:05:24.021 你能试着轻轻微笑一下,看看电脑能否识别出来吗? 00:05:24.021 --> 00:05:26.352 它确实也能识别轻轻的微笑。 00:05:26.352 --> 00:05:28.477 我们付出了很多的努力才使它能够做到这些。 00:05:28.477 --> 00:05:31.439 眉毛上扬,是惊喜的标志。 00:05:31.439 --> 00:05:35.688 眉间的皱纹,是困惑的标志。 00:05:35.688 --> 00:05:39.695 皱眉。嗯,很完美。 00:05:39.695 --> 00:05:43.188 这些都是不同的行动单元。还有很多这样的行动单元。 00:05:43.188 --> 00:05:45.220 这只是一个小型的演示。 00:05:45.220 --> 00:05:48.368 我们称每一次读取为一个情感数据点, 00:05:48.368 --> 00:05:51.337 然后它们可以组合在一起来描绘不同的情绪。 00:05:51.337 --> 00:05:55.990 因此在演示的右边,你看起来很开心。 00:05:55.990 --> 00:05:57.444 那表示快乐,快乐就被启动了。 00:05:57.444 --> 00:05:59.371 再做一个厌恶的表情。 00:05:59.371 --> 00:06:03.643 试着回想一下当泽恩离开单向乐队时的情景。 00:06:03.643 --> 00:06:05.153 (笑声) 00:06:05.153 --> 00:06:09.495 是的,皱一下鼻。很好。 00:06:09.495 --> 00:06:13.226 而“抗体效价”一项也呈现负值,因此你一定是他们的铁杆粉丝。 00:06:13.226 --> 00:06:15.926 抗体效价是用来描述一种体验的积极或消极程度的, 00:06:15.926 --> 00:06:18.712 而“参与度”是用来描述她的表现力的。 00:06:18.712 --> 00:06:22.126 所以大家可以想象一下如果克洛能够使用这种实时的情感流, 00:06:22.126 --> 00:06:24.935 并且能分享给任何她想分享的人的情景。 00:06:24.935 --> 00:06:27.858 谢谢。 00:06:27.858 --> 00:06:32.479 (掌声) NOTE Paragraph 00:06:33.749 --> 00:06:39.019 迄今为止,我们已经积累了120亿这种情感数据点。 00:06:39.019 --> 00:06:41.630 这是世界上最大的情感数据库。 00:06:41.630 --> 00:06:44.593 我们是从两百九十万个面部视频中去收集的, 00:06:44.593 --> 00:06:47.193 这些视频来自那些同意将他们的情感与我们一起分享的人们, 00:06:47.193 --> 00:06:50.398 并且这些人们来自全世界75个国家。 00:06:50.398 --> 00:06:52.113 它每天都在发展。 00:06:52.603 --> 00:06:54.670 它发散了我的思维: 00:06:54.670 --> 00:06:57.865 原来我们可以将情绪这么个性化的东西进行量化, 00:06:57.865 --> 00:07:00.100 并且是在这样的规模下去做这件事。 NOTE Paragraph 00:07:00.100 --> 00:07:02.277 到现在我们从这些数据中学到了什么呢? 00:07:03.057 --> 00:07:05.388 性别差异。 00:07:05.388 --> 00:07:09.034 我们的数据证实了某些你可能正在猜测的事情。 00:07:09.034 --> 00:07:10.891 女性比男性更具表现力。 00:07:10.891 --> 00:07:13.574 不仅是她们笑得更多,更因为她们笑得更久, 00:07:13.574 --> 00:07:16.478 并且我们现在可以真实地量化男性和女性 00:07:16.478 --> 00:07:18.614 在反应方面的差异性。 00:07:18.614 --> 00:07:20.904 让我们从文化方面来看:在美国, 00:07:20.904 --> 00:07:24.108 女性的表现力要比男性高40%, 00:07:24.108 --> 00:07:27.753 但奇怪的是,在英国我们看不到男女在这方面的任何差异。 00:07:27.753 --> 00:07:30.259 (笑声) 00:07:31.296 --> 00:07:35.323 在年龄方面:50岁及以上的人 00:07:35.323 --> 00:07:38.759 情绪化比小于50岁的人高25%。 00:07:39.899 --> 00:07:43.751 女性在20来岁的时候要比同龄的男性笑得更多, 00:07:43.751 --> 00:07:47.590 也许这是约会的必需品。 00:07:47.590 --> 00:07:50.207 但也许这些数据带给我们最大的惊喜是 00:07:50.207 --> 00:07:53.410 我们每时每刻都在表达, 00:07:53.410 --> 00:07:56.243 即使当我们独自坐在电子设备前, 00:07:56.243 --> 00:07:59.517 而且不仅是我们在脸书上看猫的视频时。 00:08:00.217 --> 00:08:03.227 不管我们在发邮件、发短信、网购,甚至报税的时候 00:08:03.227 --> 00:08:05.527 我们无时无刻不在表达自己。 NOTE Paragraph 00:08:05.527 --> 00:08:07.919 那么如今这些数据用在何处呢? 00:08:07.919 --> 00:08:10.682 用在弄明白我们如何和传媒结合, 00:08:10.682 --> 00:08:13.166 从而搞明白网络扩散和投票行为, 00:08:13.166 --> 00:08:15.906 以及情绪授权技术。 00:08:15.906 --> 00:08:20.527 我想分享一些触动我心的例子。 00:08:21.197 --> 00:08:24.265 情绪授权可佩戴眼镜 00:08:24.265 --> 00:08:27.493 可以帮助那些视力受损的人读懂他人的脸部表情, 00:08:27.493 --> 00:08:31.680 也可帮助患有自闭症的人们解读情绪, 00:08:31.680 --> 00:08:34.458 因为解读情绪对他们来说是很困难的。 00:08:35.918 --> 00:08:38.777 在教育方面,想象如果你的学习类应用程序 00:08:38.777 --> 00:08:41.587 察觉出你有困惑,应用程序会放慢速度, 00:08:41.587 --> 00:08:43.444 或者你无聊了,它则会加快进程, 00:08:43.444 --> 00:08:46.413 就像教室里经验丰富的老师一样。 00:08:47.043 --> 00:08:49.644 再想象一下你的手表可以感知你的情绪, 00:08:49.644 --> 00:08:52.337 或你的车可以觉察出你疲惫了, 00:08:52.337 --> 00:08:54.885 或者说你的冰箱知道你有压力, 00:08:54.885 --> 00:09:00.951 所以它会自动上锁防止你暴饮暴食。(笑声) 00:09:00.951 --> 00:09:03.668 我会喜欢这个的,没错。 00:09:03.668 --> 00:09:05.595 设想当我在剑桥时, 00:09:05.595 --> 00:09:07.908 我可以连接到实时情绪流, 00:09:07.908 --> 00:09:11.437 我可以和我家里的亲人 用很自然的方式分享一些东西, 00:09:11.437 --> 00:09:15.408 就像我和家人在同一间房里所做的事一样将会怎样? NOTE Paragraph 00:09:15.408 --> 00:09:18.550 我猜想也就在五年后, 00:09:18.550 --> 00:09:20.887 所有的电子设备都会有一个情绪芯片, 00:09:20.887 --> 00:09:24.951 我们将会体验到我们皱眉后电子设备回应 “嗯,你不喜欢这个,对吧?” 00:09:24.951 --> 00:09:29.200 这一举动实现时的感受。 00:09:29.200 --> 00:09:32.961 我们最大的挑战就是 现在关于这方面的科技有许多用途, 00:09:32.961 --> 00:09:35.864 我和我的团队意识到我们无法 靠我们自己就把所有事情都完成, 00:09:35.864 --> 00:09:39.360 所以我们把这项科技开放, 00:09:39.360 --> 00:09:41.474 这样其他开发者就能创造创新。 00:09:41.474 --> 00:09:45.560 我们知道这有潜在的风险, 00:09:45.560 --> 00:09:47.627 还有可能被滥用, 00:09:47.627 --> 00:09:50.576 但就我个人来说,花了这么多年做这件事, 00:09:50.576 --> 00:09:53.548 我相信情绪智能技术 00:09:53.548 --> 00:09:55.823 给人类带来的好处 00:09:55.823 --> 00:09:59.399 远超过被滥用的可能性。 00:09:59.399 --> 00:10:01.930 所以我邀请大家一起加入。 00:10:01.930 --> 00:10:04.484 越多的人知道这项技术, 00:10:04.484 --> 00:10:07.661 我们就越能说出如何使用的想法。 00:10:09.081 --> 00:10:13.655 所以随着我们的生活越来越数字化, 00:10:13.655 --> 00:10:17.153 我们其实在打一场处于劣势的战争,试图去控制我们的电子设备的用途 00:10:17.153 --> 00:10:19.382 从而开拓我们的情绪。 00:10:20.622 --> 00:10:24.536 所以相反地,我所做的就是把情绪带到我们的科技中 00:10:24.536 --> 00:10:26.765 让我们的科技更加有响应性。 00:10:26.765 --> 00:10:29.435 我想要那些把我们分离开来的电子设备 00:10:29.435 --> 00:10:31.897 重新把我们聚在一起。 00:10:31.897 --> 00:10:36.485 现在是黄金时机,我们可以通过人性化科技 00:10:36.485 --> 00:10:39.782 重新想象我们该如何和这些机器交流结合, 00:10:39.782 --> 00:10:44.263 从而重新想象,作为人类的我们 00:10:44.263 --> 00:10:46.167 如何与彼此交流结合。 NOTE Paragraph 00:10:46.167 --> 00:10:48.327 谢谢。 NOTE Paragraph 00:10:48.327 --> 00:10:51.640 (掌声)