1
00:00:07,052 --> 00:00:11,642
每年，机器逐渐在一些我们以前认为

2
00:00:11,642 --> 00:00:14,848
只有人类可以做的事情中超越人类

3
00:00:14,848 --> 00:00:18,423
如今，电脑可以在复杂的桌面游戏中打败我们

4
00:00:18,423 --> 00:00:21,294
能够转录各种语言

5
00:00:21,294 --> 00:00:24,746
并能迅速识别几乎所有物体

6
00:00:24,746 --> 00:00:27,112
而未来的机器人

7
00:00:27,112 --> 00:00:30,243
或许能在感知我们的情绪方面取得突破

8
00:00:30,243 --> 00:00:32,381
为什么这很重要？

9
00:00:32,381 --> 00:00:34,673
因为如果机器和操作他们的人

10
00:00:34,673 --> 00:00:37,223
可以准确地感知到我们的情绪

11
00:00:37,223 --> 00:00:39,723
他们可以前所未有地帮助我们

12
00:00:39,723 --> 00:00:43,102
甚至是操纵我们

13
00:00:43,102 --> 00:00:44,614
但是在这之前

14
00:00:44,614 --> 00:00:47,763
我们先来探讨一下
为什么像情绪这么复杂的东西

15
00:00:47,763 --> 00:00:53,253
可以被转化为数字，
这种计算机唯一能够理解的语言呢？

16
00:00:53,253 --> 00:00:56,843
本质上，机器理解感情的方式与我们大脑一样，

17
00:00:56,843 --> 00:00:58,994
通过情绪识别。

18
00:00:58,994 --> 00:01:04,120
美国心理学家保罗·艾克曼
定义了几种全球通用的情绪

19
00:01:04,120 --> 00:01:09,174
这些情绪的视觉信号在不同文化中是相同的。

20
00:01:09,174 --> 00:01:14,193
例如，微笑的画面对于现代城市人而言意味着愉悦

21
00:01:14,193 --> 00:01:16,965
对于土著原始人而言也是如此。

22
00:01:16,965 --> 00:01:18,094
根据艾克曼的理论，

23
00:01:18,094 --> 00:01:18,823
愤怒，

24
00:01:18,823 --> 00:01:19,533
厌恶，

25
00:01:19,533 --> 00:01:20,275
恐惧，

26
00:01:20,275 --> 00:01:21,092
愉悦

27
00:01:21,092 --> 00:01:21,848
悲伤

28
00:01:21,848 --> 00:01:25,433
和惊喜都一样容易被识别。

29
00:01:25,433 --> 00:01:29,836
事实证明，电脑的图像识别能力正在迅速提高

30
00:01:29,836 --> 00:01:34,015
这归功于神经网络这样的机器学习算法。

31
00:01:34,015 --> 00:01:37,155
这些人工节点通过建成关联和交换信息，

32
00:01:37,155 --> 00:01:41,784
模仿人们的生物神经元。

33
00:01:41,784 --> 00:01:46,285
为了训练这样的网络，
输入的样例被预分类到不同类别，

34
00:01:46,285 --> 00:01:49,175
譬如被标记成快乐或伤心的图片，

35
00:01:49,175 --> 00:01:51,285
被输入到这个系统里。

36
00:01:51,285 --> 00:01:54,745
然后，这个系统网络通过改变不同特征的比重

37
00:01:54,745 --> 00:01:58,405
来辨别不同的样例。

38
00:01:58,405 --> 00:02:00,025
这样的训练越多，

39
00:02:00,025 --> 00:02:04,795
算法就能更准确地识别新的图像。

40
00:02:04,795 --> 00:02:06,527
这一原理正与我们的大脑相像，

41
00:02:06,527 --> 00:02:11,725
我们的大脑依据过往的经历来处理新的刺激。

42
00:02:11,725 --> 00:02:15,466
识别算法并不只限于面部表情。

43
00:02:15,466 --> 00:02:17,886
我们的情感通过许多不同的方式被表露。

44
00:02:17,886 --> 00:02:20,116
比如肢体语言，语音语调

45
00:02:20,116 --> 00:02:23,237
心跳的改变，面色和皮肤温度，

46
00:02:23,237 --> 00:02:28,046
甚至写作的用词频率和句型结构。

47
00:02:28,046 --> 00:02:31,205
你也许会认为通过训练神经网络来识别这些特征

48
00:02:31,205 --> 00:02:33,637
会是一个漫长而复杂的过程

49
00:02:33,637 --> 00:02:36,966
考虑到当下巨大的数据量，

50
00:02:36,966 --> 00:02:40,375
以及现代电脑的数据处理速度。

51
00:02:40,375 --> 00:02:41,917
从社交网络的更新，

52
00:02:41,917 --> 00:02:43,586
上传的图片和视频，

53
00:02:43,586 --> 00:02:44,987
电话录音，

54
00:02:44,987 --> 00:02:46,767
到热敏感安全摄像机

55
00:02:46,767 --> 00:02:50,437
和可穿戴的生理信号监视器，

56
00:02:50,437 --> 00:02:52,947
关键问题并不是如何获得足够的数据，

57
00:02:52,947 --> 00:02:55,255
而是我们应该如何运用这些数据。

58
00:02:55,255 --> 00:02:59,706
电子情感识别的用途是多方面的。

59
00:02:59,706 --> 00:03:02,627
比如，用算法识别面部表情的机器人

60
00:03:02,627 --> 00:03:04,246
可以用于帮助儿童学习

61
00:03:04,246 --> 00:03:07,636
或者为孤独的人作伴。

62
00:03:07,636 --> 00:03:10,637
许多社交网络公司正在考虑使用算法

63
00:03:10,637 --> 00:03:17,047
来标记帖子里的特殊字词以防范自杀行为。

64
00:03:17,047 --> 00:03:21,287
情感识别软件可以帮助治疗精神疾病

65
00:03:21,287 --> 00:03:25,238
或者提供低价的自动化心理治疗。

66
00:03:25,238 --> 00:03:27,188
尽管情感识别有这些好处，

67
00:03:27,188 --> 00:03:30,869
通过一个巨大的网络自动扫描我们的照片，

68
00:03:30,869 --> 00:03:31,958
通信，

69
00:03:31,958 --> 00:03:36,877
和生理信号也让人感到不安。

70
00:03:36,877 --> 00:03:44,146
当我们的隐私信息被这个没有人情味的系统收集，
进而被公司利用到广告中来欺骗我们的感情

71
00:03:44,146 --> 00:03:45,208
这意味着什么？

72
00:03:45,208 --> 00:03:46,718
我们的权利又是什么

73
00:03:46,718 --> 00:03:51,477
如果任何的权力机构认为
他们可以在人们决定做任何事情之前，

74
00:03:51,477 --> 00:03:54,927
就能辨别有可能作案的人？

75
00:03:54,927 --> 00:03:57,691
当前的机器人在辨别情感的微妙变化上

76
00:03:57,691 --> 00:04:00,304
还需要提升，比如辨识讽刺

77
00:04:00,304 --> 00:04:04,758
以及识别情绪的程度，
分辨一个人有多么的开心或者难过。

78
00:04:04,758 --> 00:04:09,278
无论如何，
它们或许终究能够正确识别我们的情绪

79
00:04:09,288 --> 00:04:11,414
并且做出回应。

80
00:04:11,414 --> 00:04:15,657
至于他们能否体会到我们不想被过度入侵的恐惧，

81
00:04:15,657 --> 00:04:17,767
这就是另外一回事了。