1 00:00:00,556 --> 00:00:04,573 我们的情感影响着我们生活的方方面面, 2 00:00:04,573 --> 00:00:08,149 它影响我们的健康,影响我们如何学习、做生意以及做决定, 3 00:00:08,149 --> 00:00:09,922 影响着大大小小各各方面。 4 00:00:10,672 --> 00:00:14,162 我们的情感还影响着我们与他人的联系的方式。 5 00:00:15,132 --> 00:00:19,108 我们进化成可以生活在现在这样的世界, 6 00:00:19,108 --> 00:00:23,427 然而我们却越来越生活成这样子—— 7 00:00:23,427 --> 00:00:26,561 这是我女儿昨晚给我发的短信—— 8 00:00:26,561 --> 00:00:29,301 这是个缺乏情感的世界。 9 00:00:29,301 --> 00:00:31,252 所以我现在正致力于改变那种情况。 10 00:00:31,252 --> 00:00:35,343 我想把情感带回到我们的数字体验中来。 11 00:00:36,223 --> 00:00:39,300 15年前我就开始走上了这条道路。 12 00:00:39,300 --> 00:00:41,366 那时我是一个生活在埃及的计算机科学家, 13 00:00:41,366 --> 00:00:45,871 并且刚刚接受了剑桥大学的博士学位项目。 14 00:00:45,871 --> 00:00:47,984 我做了一件对于一个年轻的 15 00:00:47,984 --> 00:00:52,209 埃及穆斯林新婚妻子来说非常不寻常的事情: 16 00:00:53,599 --> 00:00:56,598 我的丈夫不能离开埃及,但在他的支持下, 17 00:00:56,598 --> 00:00:59,616 我独自收拾行李搬到英国去了。 18 00:00:59,616 --> 00:01:02,844 在离家数千里之外的剑桥, 19 00:01:02,844 --> 00:01:06,257 我意识到我花在笔记本电脑上的时间 20 00:01:06,257 --> 00:01:08,486 要多于我与其他人相处的时间。 21 00:01:08,486 --> 00:01:13,339 然而尽管我和电脑如此亲密,电脑却对我的感受毫无所知。 22 00:01:13,339 --> 00:01:16,550 它根本不知道我是快乐, 23 00:01:16,550 --> 00:01:19,538 还是经历着糟糕的一天,或者是感到有压力、困惑, 24 00:01:19,538 --> 00:01:22,460 这就很让人不爽。 25 00:01:23,600 --> 00:01:28,831 而且更糟的是,当我回家后在线跟家人聊天时, 26 00:01:29,421 --> 00:01:32,703 我觉得我所有的情感都在网络空间中消失了。 27 00:01:32,703 --> 00:01:37,858 我想家,我感到孤独,而且有些日子我真的哭了, 28 00:01:37,858 --> 00:01:42,786 而我也仅仅只能用这个表情来表达我的情感。 29 00:01:42,786 --> 00:01:44,806 (笑声) 30 00:01:44,806 --> 00:01:49,780 现今有很多技术具有智商,但是还没有具有情商的, 31 00:01:49,780 --> 00:01:52,956 很多技术具有认知性智能,但还没有具有情绪性智能的。 32 00:01:52,956 --> 00:01:55,153 这让我想到, 33 00:01:55,153 --> 00:01:58,777 如果我们的技术可以识别我们的情绪将会怎样? 34 00:01:58,777 --> 00:02:02,853 如果我们的设备能识别我们的感受并做出相应的反应, 35 00:02:02,853 --> 00:02:05,866 就像情商高的朋友所做的那样将会怎样? 36 00:02:06,666 --> 00:02:10,230 这些问题引导着我和我的团队 37 00:02:10,230 --> 00:02:14,607 去创造可以阅读我们的情绪并做出反应的技术, 38 00:02:14,607 --> 00:02:17,697 我们的起点是人脸。 39 00:02:18,577 --> 00:02:21,750 人脸是交流的最强大的渠道之一, 40 00:02:21,750 --> 00:02:25,766 我们所有人都用它来表达社会和情绪状态, 41 00:02:25,766 --> 00:02:28,776 从喜悦、惊讶 42 00:02:28,776 --> 00:02:32,979 到同情、好奇等等。 43 00:02:32,979 --> 00:02:37,907 在情感科学中,我们将每一个面肌运动称为一个动作单元。 44 00:02:37,907 --> 00:02:40,832 例如,动作单元12, 45 00:02:40,832 --> 00:02:42,870 这不是好莱坞大片, 46 00:02:42,870 --> 00:02:46,312 这就是简单的嘴角上扬,它是微笑的主要构成。 47 00:02:46,312 --> 00:02:49,300 大家都试一下。让我们都微笑起来。 48 00:02:49,300 --> 00:02:51,954 另一个例子是动作单元4。它是眉间纹。 49 00:02:51,954 --> 00:02:54,192 当你将眉毛拧到一起的时候 50 00:02:54,192 --> 00:02:56,459 你就创造出了这些纹理和皱纹。 51 00:02:56,459 --> 00:03:00,754 我们不喜欢它,但它是一个非常强的负面情绪指示器。 52 00:03:00,754 --> 00:03:02,960 我们大概有45个这样的单元, 53 00:03:02,960 --> 00:03:06,350 它们的组合可以表达上百种情绪。 54 00:03:06,350 --> 00:03:10,251 教会电脑去读取这些面部情绪很难, 55 00:03:10,251 --> 00:03:13,223 因为这些动作单元行动很微妙,而且稍纵即逝, 56 00:03:13,223 --> 00:03:15,777 而且它们有很多的组合方式。 57 00:03:15,777 --> 00:03:19,515 例如,微笑和假笑。 58 00:03:19,515 --> 00:03:23,268 它们看起来有几分相似,但意味却是天差地别。 59 00:03:23,268 --> 00:03:24,986 (笑声) 60 00:03:24,986 --> 00:03:27,990 微笑是正面的, 61 00:03:27,990 --> 00:03:29,260 假笑常常是负面的。 62 00:03:29,260 --> 00:03:33,136 有时一个假笑可以让你出名。 63 00:03:33,136 --> 00:03:35,960 但是严肃地讲,让电脑能够 64 00:03:35,960 --> 00:03:38,815 描述这两种表情的区别是很重要的。 65 00:03:38,815 --> 00:03:40,627 那我们是如何做的呢? 66 00:03:40,627 --> 00:03:42,414 我们给我们的算法 67 00:03:42,414 --> 00:03:46,524 成千上万的不同种族、年龄和性别的人们 68 00:03:46,524 --> 00:03:49,589 正在微笑的例子, 69 00:03:49,589 --> 00:03:52,400 然后我们也用同样的方法研究假笑。 70 00:03:52,400 --> 00:03:53,954 然后使用深度学习, 71 00:03:53,954 --> 00:03:56,810 算法可以观察我们脸上的所有这些纹理和皱纹 72 00:03:56,810 --> 00:03:59,390 以及形状变化, 73 00:03:59,390 --> 00:04:02,592 并且基本上得知所有的微笑都有共同特性, 74 00:04:02,592 --> 00:04:05,773 而所有的假笑都有些微的不同特性。 75 00:04:05,773 --> 00:04:08,141 然后下一次当它看到一个新面孔时, 76 00:04:08,141 --> 00:04:10,440 它就基本上能知道 77 00:04:10,440 --> 00:04:13,473 这张面孔上有和微笑相同的特性, 78 00:04:13,473 --> 00:04:17,751 然后它就会说:“啊哈,我知道了,这是一个微笑的表情。” 79 00:04:18,381 --> 00:04:21,181 所以展示这种技术如何工作的最好方式 80 00:04:21,181 --> 00:04:23,317 是来一个现场演示, 81 00:04:23,317 --> 00:04:27,230 所以我需要一位志愿者,最好是个“有脸”的人。 82 00:04:27,230 --> 00:04:29,564 (笑声) 83 00:04:29,564 --> 00:04:32,335 克洛将成为我们今天的志愿者。 84 00:04:33,325 --> 00:04:37,783 在过去的5年间,我们从只是麻省理工学院的一个研究项目 85 00:04:37,783 --> 00:04:38,939 到成立一个公司, 86 00:04:38,939 --> 00:04:42,131 在公司里我的团队非常非常努力地工作以使这项技术成功, 87 00:04:42,131 --> 00:04:44,540 就像我们说的那样,我们在荒野里生存。 88 00:04:44,540 --> 00:04:47,210 我们还将它缩小了,这样的话这个核心情绪引擎 89 00:04:47,210 --> 00:04:50,530 就能在一个带摄像头的移动设备上运行,比如这个iPad。 90 00:04:50,530 --> 00:04:53,316 让我们来试一试。 91 00:04:54,756 --> 00:04:58,680 正如你们看到的,此算法基本上找到了克洛的脸, 92 00:04:58,680 --> 00:05:00,372 就是这个白色的边界框, 93 00:05:00,372 --> 00:05:02,943 它在跟踪她脸上的主要特征点, 94 00:05:02,943 --> 00:05:05,799 她的眉毛、眼睛、嘴巴和鼻子。 95 00:05:05,799 --> 00:05:08,786 问题是,它能识别她的表情吗? 96 00:05:08,786 --> 00:05:10,457 那么我们测试一下这台机器。 97 00:05:10,457 --> 00:05:14,643 首先,做一个面无表情的样子。嗯,好极了。(笑声) 98 00:05:14,643 --> 00:05:17,456 然后当她微笑时,这是一个真诚的微笑,很好。 99 00:05:17,456 --> 00:05:19,756 大家可以看到当她微笑时这些绿条增长了。 100 00:05:19,756 --> 00:05:20,978 这是一个大大的微笑。 101 00:05:20,978 --> 00:05:24,021 你能试着轻轻微笑一下,看看电脑能否识别出来吗? 102 00:05:24,021 --> 00:05:26,352 它确实也能识别轻轻的微笑。 103 00:05:26,352 --> 00:05:28,477 我们付出了很多的努力才使它能够做到这些。 104 00:05:28,477 --> 00:05:31,439 眉毛上扬,是惊喜的标志。 105 00:05:31,439 --> 00:05:35,688 眉间的皱纹,是困惑的标志。 106 00:05:35,688 --> 00:05:39,695 皱眉。嗯,很完美。 107 00:05:39,695 --> 00:05:43,188 这些都是不同的行动单元。还有很多这样的行动单元。 108 00:05:43,188 --> 00:05:45,220 这只是一个小型的演示。 109 00:05:45,220 --> 00:05:48,368 我们称每一次读取为一个情感数据点, 110 00:05:48,368 --> 00:05:51,337 然后它们可以组合在一起来描绘不同的情绪。 111 00:05:51,337 --> 00:05:55,990 因此在演示的右边,你看起来很开心。 112 00:05:55,990 --> 00:05:57,444 那表示快乐,快乐就被启动了。 113 00:05:57,444 --> 00:05:59,371 再做一个厌恶的表情。 114 00:05:59,371 --> 00:06:03,643 试着回想一下当泽恩离开单向乐队时的情景。 115 00:06:03,643 --> 00:06:05,153 (笑声) 116 00:06:05,153 --> 00:06:09,495 是的,皱一下鼻。很好。 117 00:06:09,495 --> 00:06:13,226 而“抗体效价”一项也呈现负值,因此你一定是他们的铁杆粉丝。 118 00:06:13,226 --> 00:06:15,926 抗体效价是用来描述一种体验的积极或消极程度的, 119 00:06:15,926 --> 00:06:18,712 而“参与度”是用来描述她的表现力的。 120 00:06:18,712 --> 00:06:22,126 所以大家可以想象一下如果克洛能够使用这种实时的情感流, 121 00:06:22,126 --> 00:06:24,935 并且能分享给任何她想分享的人的情景。 122 00:06:24,935 --> 00:06:27,858 谢谢。 123 00:06:27,858 --> 00:06:32,479 (掌声) 124 00:06:33,749 --> 00:06:39,019 迄今为止,我们已经积累了120亿这种情感数据点。 125 00:06:39,019 --> 00:06:41,630 这是世界上最大的情感数据库。 126 00:06:41,630 --> 00:06:44,593 我们是从两百九十万个面部视频中去收集的, 127 00:06:44,593 --> 00:06:47,193 这些视频来自那些同意将他们的情感与我们一起分享的人们, 128 00:06:47,193 --> 00:06:50,398 并且这些人们来自全世界75个国家。 129 00:06:50,398 --> 00:06:52,113 它每天都在发展。 130 00:06:52,603 --> 00:06:54,670 它发散了我的思维: 131 00:06:54,670 --> 00:06:57,865 原来我们可以将情绪这么个性化的东西进行量化, 132 00:06:57,865 --> 00:07:00,100 并且是在这样的规模下去做这件事。 133 00:07:00,100 --> 00:07:02,277 到现在我们从这些数据中学到了什么呢? 134 00:07:03,057 --> 00:07:05,388 性别差异。 135 00:07:05,388 --> 00:07:09,034 我们的数据证实了某些你可能正在猜测的事情。 136 00:07:09,034 --> 00:07:10,891 女性比男性更具表现力。 137 00:07:10,891 --> 00:07:13,574 不仅是她们笑得更多,更因为她们笑得更久, 138 00:07:13,574 --> 00:07:16,478 并且我们现在可以真实地量化男性和女性 139 00:07:16,478 --> 00:07:18,614 在反应方面的差异性。 140 00:07:18,614 --> 00:07:20,904 让我们从文化方面来看:在美国, 141 00:07:20,904 --> 00:07:24,108 女性的表现力要比男性高40%, 142 00:07:24,108 --> 00:07:27,753 但奇怪的是,在英国我们看不到男女在这方面的任何差异。 143 00:07:27,753 --> 00:07:30,259 (笑声) 144 00:07:31,296 --> 00:07:35,323 在年龄方面:50岁及以上的人 145 00:07:35,323 --> 00:07:38,759 情绪化比小于50岁的人高25%。 146 00:07:39,899 --> 00:07:43,751 女性在20来岁的时候要比同龄的男性笑得更多, 147 00:07:43,751 --> 00:07:47,590 也许这是约会的必需品。 148 00:07:47,590 --> 00:07:50,207 但也许这些数据带给我们最大的惊喜是 149 00:07:50,207 --> 00:07:53,410 我们每时每刻都在表达, 150 00:07:53,410 --> 00:07:56,243 即使当我们独自坐在电子设备前, 151 00:07:56,243 --> 00:07:59,517 而且不仅是我们在脸书上看猫的视频时。 152 00:08:00,217 --> 00:08:03,227 不管我们在发邮件、发短信、网购,甚至报税的时候 153 00:08:03,227 --> 00:08:05,527 我们无时无刻不在表达自己。 154 00:08:05,527 --> 00:08:07,919 那么如今这些数据用在何处呢? 155 00:08:07,919 --> 00:08:10,682 用在弄明白我们如何和传媒结合, 156 00:08:10,682 --> 00:08:13,166 从而搞明白网络扩散和投票行为, 157 00:08:13,166 --> 00:08:15,906 以及情绪授权技术。 158 00:08:15,906 --> 00:08:20,527 我想分享一些触动我心的例子。 159 00:08:21,197 --> 00:08:24,265 情绪授权可佩戴眼镜 160 00:08:24,265 --> 00:08:27,493 可以帮助那些视力受损的人读懂他人的脸部表情, 161 00:08:27,493 --> 00:08:31,680 也可帮助患有自闭症的人们解读情绪, 162 00:08:31,680 --> 00:08:34,458 因为解读情绪对他们来说是很困难的。 163 00:08:35,918 --> 00:08:38,777 在教育方面,想象如果你的学习类应用程序 164 00:08:38,777 --> 00:08:41,587 察觉出你有困惑,应用程序会放慢速度, 165 00:08:41,587 --> 00:08:43,444 或者你无聊了,它则会加快进程, 166 00:08:43,444 --> 00:08:46,413 就像教室里经验丰富的老师一样。 167 00:08:47,043 --> 00:08:49,644 再想象一下你的手表可以感知你的情绪, 168 00:08:49,644 --> 00:08:52,337 或你的车可以觉察出你疲惫了, 169 00:08:52,337 --> 00:08:54,885 或者说你的冰箱知道你有压力, 170 00:08:54,885 --> 00:09:00,951 所以它会自动上锁防止你暴饮暴食。(笑声) 171 00:09:00,951 --> 00:09:03,668 我会喜欢这个的,没错。 172 00:09:03,668 --> 00:09:05,595 设想当我在剑桥时, 173 00:09:05,595 --> 00:09:07,908 我可以连接到实时情绪流, 174 00:09:07,908 --> 00:09:11,437 我可以和我家里的亲人 用很自然的方式分享一些东西, 175 00:09:11,437 --> 00:09:15,408 就像我和家人在同一间房里所做的事一样将会怎样? 176 00:09:15,408 --> 00:09:18,550 我猜想也就在五年后, 177 00:09:18,550 --> 00:09:20,887 所有的电子设备都会有一个情绪芯片, 178 00:09:20,887 --> 00:09:24,951 我们将会体验到我们皱眉后电子设备回应 “嗯,你不喜欢这个,对吧?” 179 00:09:24,951 --> 00:09:29,200 这一举动实现时的感受。 180 00:09:29,200 --> 00:09:32,961 我们最大的挑战就是 现在关于这方面的科技有许多用途, 181 00:09:32,961 --> 00:09:35,864 我和我的团队意识到我们无法 靠我们自己就把所有事情都完成, 182 00:09:35,864 --> 00:09:39,360 所以我们把这项科技开放, 183 00:09:39,360 --> 00:09:41,474 这样其他开发者就能创造创新。 184 00:09:41,474 --> 00:09:45,560 我们知道这有潜在的风险, 185 00:09:45,560 --> 00:09:47,627 还有可能被滥用, 186 00:09:47,627 --> 00:09:50,576 但就我个人来说,花了这么多年做这件事, 187 00:09:50,576 --> 00:09:53,548 我相信情绪智能技术 188 00:09:53,548 --> 00:09:55,823 给人类带来的好处 189 00:09:55,823 --> 00:09:59,399 远超过被滥用的可能性。 190 00:09:59,399 --> 00:10:01,930 所以我邀请大家一起加入。 191 00:10:01,930 --> 00:10:04,484 越多的人知道这项技术, 192 00:10:04,484 --> 00:10:07,661 我们就越能说出如何使用的想法。 193 00:10:09,081 --> 00:10:13,655 所以随着我们的生活越来越数字化, 194 00:10:13,655 --> 00:10:17,153 我们其实在打一场处于劣势的战争,试图去控制我们的电子设备的用途 195 00:10:17,153 --> 00:10:19,382 从而开拓我们的情绪。 196 00:10:20,622 --> 00:10:24,536 所以相反地,我所做的就是把情绪带到我们的科技中 197 00:10:24,536 --> 00:10:26,765 让我们的科技更加有响应性。 198 00:10:26,765 --> 00:10:29,435 我想要那些把我们分离开来的电子设备 199 00:10:29,435 --> 00:10:31,897 重新把我们聚在一起。 200 00:10:31,897 --> 00:10:36,485 现在是黄金时机,我们可以通过人性化科技 201 00:10:36,485 --> 00:10:39,782 重新想象我们该如何和这些机器交流结合, 202 00:10:39,782 --> 00:10:44,263 从而重新想象,作为人类的我们 203 00:10:44,263 --> 00:10:46,167 如何与彼此交流结合。 204 00:10:46,167 --> 00:10:48,327 谢谢。 205 00:10:48,327 --> 00:10:51,640 (掌声)