1 00:00:07,052 --> 00:00:11,642 每年,机器逐渐在一些我们以前认为 2 00:00:11,642 --> 00:00:14,848 只有人类可以做的事情中超越人类 3 00:00:14,848 --> 00:00:18,423 如今,电脑可以在复杂的桌面游戏中打败我们 4 00:00:18,423 --> 00:00:21,294 能够转录各种语言 5 00:00:21,294 --> 00:00:24,746 并能迅速识别几乎所有物体 6 00:00:24,746 --> 00:00:27,112 而未来的机器人 7 00:00:27,112 --> 00:00:30,243 或许能在感知我们的情绪方面取得突破 8 00:00:30,243 --> 00:00:32,381 为什么这很重要? 9 00:00:32,381 --> 00:00:34,673 因为如果机器和操作他们的人 10 00:00:34,673 --> 00:00:37,223 可以准确地感知到我们的情绪 11 00:00:37,223 --> 00:00:39,723 他们可以前所未有地帮助我们 12 00:00:39,723 --> 00:00:43,102 甚至是操纵我们 13 00:00:43,102 --> 00:00:44,614 但是在这之前 14 00:00:44,614 --> 00:00:47,763 我们先来探讨一下 为什么像情绪这么复杂的东西 15 00:00:47,763 --> 00:00:53,253 可以被转化为数字, 这种计算机唯一能够理解的语言呢? 16 00:00:53,253 --> 00:00:56,843 本质上,机器理解感情的方式与我们大脑一样, 17 00:00:56,843 --> 00:00:58,994 通过情绪识别。 18 00:00:58,994 --> 00:01:04,120 美国心理学家保罗·艾克曼 定义了几种全球通用的情绪 19 00:01:04,120 --> 00:01:09,174 这些情绪的视觉信号在不同文化中是相同的。 20 00:01:09,174 --> 00:01:14,193 例如,微笑的画面对于现代城市人而言意味着愉悦 21 00:01:14,193 --> 00:01:16,965 对于土著原始人而言也是如此。 22 00:01:16,965 --> 00:01:18,094 根据艾克曼的理论, 23 00:01:18,094 --> 00:01:18,823 愤怒, 24 00:01:18,823 --> 00:01:19,533 厌恶, 25 00:01:19,533 --> 00:01:20,275 恐惧, 26 00:01:20,275 --> 00:01:21,092 愉悦 27 00:01:21,092 --> 00:01:21,848 悲伤 28 00:01:21,848 --> 00:01:25,433 和惊喜都一样容易被识别。 29 00:01:25,433 --> 00:01:29,836 事实证明,电脑的图像识别能力正在迅速提高 30 00:01:29,836 --> 00:01:34,015 这归功于神经网络这样的机器学习算法。 31 00:01:34,015 --> 00:01:37,155 这些人工节点通过建成关联和交换信息, 32 00:01:37,155 --> 00:01:41,784 模仿人们的生物神经元。 33 00:01:41,784 --> 00:01:46,285 为了训练这样的网络, 输入的样例被预分类到不同类别, 34 00:01:46,285 --> 00:01:49,175 譬如被标记成快乐或伤心的图片, 35 00:01:49,175 --> 00:01:51,285 被输入到这个系统里。 36 00:01:51,285 --> 00:01:54,745 然后,这个系统网络通过改变不同特征的比重 37 00:01:54,745 --> 00:01:58,405 来辨别不同的样例。 38 00:01:58,405 --> 00:02:00,025 这样的训练越多, 39 00:02:00,025 --> 00:02:04,795 算法就能更准确地识别新的图像。 40 00:02:04,795 --> 00:02:06,527 这一原理正与我们的大脑相像, 41 00:02:06,527 --> 00:02:11,725 我们的大脑依据过往的经历来处理新的刺激。 42 00:02:11,725 --> 00:02:15,466 识别算法并不只限于面部表情。 43 00:02:15,466 --> 00:02:17,886 我们的情感通过许多不同的方式被表露。 44 00:02:17,886 --> 00:02:20,116 比如肢体语言,语音语调 45 00:02:20,116 --> 00:02:23,237 心跳的改变,面色和皮肤温度, 46 00:02:23,237 --> 00:02:28,046 甚至写作的用词频率和句型结构。 47 00:02:28,046 --> 00:02:31,205 你也许会认为通过训练神经网络来识别这些特征 48 00:02:31,205 --> 00:02:33,637 会是一个漫长而复杂的过程 49 00:02:33,637 --> 00:02:36,966 考虑到当下巨大的数据量, 50 00:02:36,966 --> 00:02:40,375 以及现代电脑的数据处理速度。 51 00:02:40,375 --> 00:02:41,917 从社交网络的更新, 52 00:02:41,917 --> 00:02:43,586 上传的图片和视频, 53 00:02:43,586 --> 00:02:44,987 电话录音, 54 00:02:44,987 --> 00:02:46,767 到热敏感安全摄像机 55 00:02:46,767 --> 00:02:50,437 和可穿戴的生理信号监视器, 56 00:02:50,437 --> 00:02:52,947 关键问题并不是如何获得足够的数据, 57 00:02:52,947 --> 00:02:55,255 而是我们应该如何运用这些数据。 58 00:02:55,255 --> 00:02:59,706 电子情感识别的用途是多方面的。 59 00:02:59,706 --> 00:03:02,627 比如,用算法识别面部表情的机器人 60 00:03:02,627 --> 00:03:04,246 可以用于帮助儿童学习 61 00:03:04,246 --> 00:03:07,636 或者为孤独的人作伴。 62 00:03:07,636 --> 00:03:10,637 许多社交网络公司正在考虑使用算法 63 00:03:10,637 --> 00:03:17,047 来标记帖子里的特殊字词以防范自杀行为。 64 00:03:17,047 --> 00:03:21,287 情感识别软件可以帮助治疗精神疾病 65 00:03:21,287 --> 00:03:25,238 或者提供低价的自动化心理治疗。 66 00:03:25,238 --> 00:03:27,188 尽管情感识别有这些好处, 67 00:03:27,188 --> 00:03:30,869 通过一个巨大的网络自动扫描我们的照片, 68 00:03:30,869 --> 00:03:31,958 通信, 69 00:03:31,958 --> 00:03:36,877 和生理信号也让人感到不安。 70 00:03:36,877 --> 00:03:44,146 当我们的隐私信息被这个没有人情味的系统收集, 进而被公司利用到广告中来欺骗我们的感情 71 00:03:44,146 --> 00:03:45,208 这意味着什么? 72 00:03:45,208 --> 00:03:46,718 我们的权利又是什么 73 00:03:46,718 --> 00:03:51,477 如果任何的权力机构认为 他们可以在人们决定做任何事情之前, 74 00:03:51,477 --> 00:03:54,927 就能辨别有可能作案的人? 75 00:03:54,927 --> 00:03:57,691 当前的机器人在辨别情感的微妙变化上 76 00:03:57,691 --> 00:04:00,304 还需要提升,比如辨识讽刺 77 00:04:00,304 --> 00:04:04,758 以及识别情绪的程度, 分辨一个人有多么的开心或者难过。 78 00:04:04,758 --> 00:04:09,278 无论如何, 它们或许终究能够正确识别我们的情绪 79 00:04:09,288 --> 00:04:11,414 并且做出回应。 80 00:04:11,414 --> 00:04:15,657 至于他们能否体会到我们不想被过度入侵的恐惧, 81 00:04:15,657 --> 00:04:17,767 这就是另外一回事了。