1
00:00:02,366 --> 00:00:06,104
이걸 보시죠.

2
00:00:06,104 --> 00:00:10,260
(영상) 소녀: "고양이가 
침대에 앉아 있습니다."

3
00:00:10,260 --> 00:00:14,300
"소년이 코끼리를 쓰다듬고 있습니다."

4
00:00:14,300 --> 00:00:18,274
"사람들이 비행기에 타고 있습니다."

5
00:00:18,274 --> 00:00:21,224
"큰 비행기입니다."

6
00:00:21,224 --> 00:00:27,360
이건 세 살짜리 아이가
사진을 보고 설명하는 것입니다.

7
00:00:27,360 --> 00:00:30,194
그녀는 아직 이 세상에 대해
배울 것이 많지만,

8
00:00:30,194 --> 00:00:34,743
한 가지 일에서만큼은
이미 전문가 수준입니다.

9
00:00:34,743 --> 00:00:37,589
본 것을 이해하는 일이죠.

10
00:00:38,229 --> 00:00:42,455
우리 사회는 그 어느 때보다 
기술적으로 진보하고 있습니다.

11
00:00:42,455 --> 00:00:46,084
우리는 달에 사람을 보내고,
말을 하는 전화를 만들거나

12
00:00:46,084 --> 00:00:51,030
좋아하는 곡만 방송하는
맞춤형 라디오를 만듭니다.

13
00:00:51,030 --> 00:00:55,085
그러나 첨단 기계와 컴퓨터로도

14
00:00:55,085 --> 00:00:57,988
애를 먹는 일이 있습니다.

15
00:00:57,988 --> 00:01:01,447
저는 오늘 컴퓨터 비전 연구의

16
00:01:01,447 --> 00:01:05,494
최신 동향에 대해 말하고자 합니다

17
00:01:05,494 --> 00:01:11,935
컴퓨터 과학에서 가장 
선도적이고 혁명적인 기술이죠.

18
00:01:12,865 --> 00:01:17,412
스스로 운전하는 자동차
시험판을 만들더라도

19
00:01:17,412 --> 00:01:21,265
똑똑한 인식 능력이 없다면

20
00:01:21,265 --> 00:01:25,235
도로 위에 있는 것이
밟아도 될 종이 봉투인지

21
00:01:25,235 --> 00:01:28,575
피해야 할 돌덩이인지
구분할 수 없습니다.

22
00:01:29,415 --> 00:01:32,805
수백만 화소의 엄청난
카메라를 만들더라도

23
00:01:32,805 --> 00:01:35,940
시각장애인의 눈이 되지는 못합니다.

24
00:01:36,420 --> 00:01:39,725
무인기가 광활한 땅을 날 수 있어도

25
00:01:39,725 --> 00:01:41,859
컴퓨터 비전 기술이 없으면

26
00:01:41,859 --> 00:01:45,320
열대 우림의 변화를 추적하지 못합니다.

27
00:01:45,320 --> 00:01:48,270
감시 카메라가 도처에 있어도

28
00:01:48,270 --> 00:01:53,337
수영장에서 물에 빠진 아이를 보고
우리에게 경고해 주지는 않습니다.

29
00:01:54,167 --> 00:01:59,762
사진과 비디오는 지구 생활의
불가결한 부분이 되고 있습니다.

30
00:01:59,762 --> 00:02:03,849
어떤 개인이나 단체가 
다 볼 수 없을 분량의

31
00:02:03,849 --> 00:02:06,632
영상이 만들어지고 있습니다.

32
00:02:06,632 --> 00:02:10,553
여기 TED도 일조하고 있지요.

33
00:02:10,553 --> 00:02:15,785
그러나 가장 진보한 
소프트웨어도 아직까지는

34
00:02:15,785 --> 00:02:19,661
이 방대한 영상을 이해하고 
관리하는데 애를 먹고 있습니다.

35
00:02:19,661 --> 00:02:24,933
달리 말하자면 사회 전체적으로

36
00:02:24,933 --> 00:02:26,679
우리는 장님과 같습니다.

37
00:02:26,679 --> 00:02:30,066
우리의 가장 똑똑한 기계가
아직까지 장님이니까요.

38
00:02:31,526 --> 00:02:34,452
"그게 왜 어렵지?" 하고
물으실 수 있어요.

39
00:02:34,452 --> 00:02:37,145
카메라는 이런 사진을 찍을 수 있고

40
00:02:37,145 --> 00:02:41,139
빛을 숫자의 2차원 배열인

41
00:02:41,139 --> 00:02:42,789
픽셀로 변환할 수 있지만,

42
00:02:42,789 --> 00:02:45,040
이는 그저 죽은 숫자일 뿐입니다.

43
00:02:45,040 --> 00:02:48,151
그 자체에 의미는 없습니다.

44
00:02:48,151 --> 00:02:52,494
'들리는' 것과 '듣는' 것이
똑같지 않듯이

45
00:02:52,494 --> 00:02:56,534
사진을 '찍는' 것과 '보는' 것은 
똑같지 않습니다.

46
00:02:56,534 --> 00:03:00,363
'본다'는 말에는
'이해한다'는 뜻이 있습니다.

47
00:03:01,293 --> 00:03:07,470
사실 자연은 5억 4천만년에 걸쳐

48
00:03:07,470 --> 00:03:09,443
이 작업을 했는데요.

49
00:03:09,443 --> 00:03:11,324
그 노력의 대부분은

50
00:03:11,324 --> 00:03:16,595
우리 뇌의 시각처리능력을 
발달시키는데 소요되었고

51
00:03:16,595 --> 00:03:19,242
눈을 만드는데 소요되지 않았습니다.

52
00:03:19,242 --> 00:03:21,989
시각현상은 눈에서 시작되지만

53
00:03:21,989 --> 00:03:25,507
사실상 나타나는 곳은 뇌 안쪽이죠.

54
00:03:26,287 --> 00:03:31,347
저는 최근 15년간 캘리포니아 
공대 박사 과정에서부터

55
00:03:31,347 --> 00:03:34,273
스탠포드대 컴퓨터 
비전 연구실을 이끌기까지

56
00:03:34,273 --> 00:03:38,669
지도교수, 공동연구자, 학생들과 함께

57
00:03:38,669 --> 00:03:41,558
컴퓨터에게 '보는 법'을
가르쳐왔습니다.

58
00:03:42,658 --> 00:03:45,952
저희 연구 분야를 컴퓨터 비전과 
기계 학습이라고 합니다.

59
00:03:45,952 --> 00:03:49,830
인공지능 일반 분야에 속하죠.

60
00:03:51,000 --> 00:03:56,493
궁극적으로 우리는 기계가
인간처럼 볼 수 있게 하려고 합니다.

61
00:03:56,493 --> 00:04:01,880
물체와 사람을 식별하고,
3차원 기하구조를 추측하고,

62
00:04:01,880 --> 00:04:07,568
관계, 감정, 행동과 의도를
이해하게 하는 겁니다.

63
00:04:07,568 --> 00:04:13,721
여러분과 저는 한번 보기만 해도

64
00:04:13,721 --> 00:04:15,885
사람, 장소, 사물로
이야기를 엮어낼 수 있습니다.

65
00:04:16,954 --> 00:04:22,538
이런 목표를 향한 첫걸음이
컴퓨터를 가르쳐

66
00:04:22,538 --> 00:04:25,906
사물, 시각 세계의 구성요소를
보게 하는 것입니다.

67
00:04:25,906 --> 00:04:30,340
간단히 말해, 이런 학습 과정을 
상상해보세요.

68
00:04:30,340 --> 00:04:33,335
컴퓨터에 특정 사물의
훈련용 이미지를 보여줍니다.

69
00:04:33,335 --> 00:04:36,656
고양이라고 해보죠.

70
00:04:36,656 --> 00:04:41,393
그리고 그 훈련용 이미지로
학습하는 모델을 설계합니다.

71
00:04:41,393 --> 00:04:43,437
간단하게 들리는데요.
얼마나 어려울 수 있을까요?

72
00:04:43,437 --> 00:04:47,489
고양이는 모양과 색깔의 집합이고,

73
00:04:47,489 --> 00:04:51,575
이것이 우리가 초창기 
객체 모델링으로 한 일이죠.

74
00:04:51,575 --> 00:04:55,197
우리는 컴퓨터 알고리즘을
수학적 언어로 표현합니다.

75
00:04:55,197 --> 00:04:58,540
고양이는 둥근 얼굴과 통통한 몸,

76
00:04:58,540 --> 00:05:00,839
두 개의 뾰족한 귀,
긴 꼬리가 있다고 가르칩니다.

77
00:05:00,839 --> 00:05:02,249
다 괜찮아 보였습니다.

78
00:05:02,859 --> 00:05:04,972
그런데 이 고양이는 어떨까요?

79
00:05:04,972 --> 00:05:06,063
(웃음)

80
00:05:06,063 --> 00:05:07,689
몸을 말고 있습니다.

81
00:05:07,689 --> 00:05:12,408
이제 객체 모델에 다른 모양과 
관점을 추가합니다.

82
00:05:12,408 --> 00:05:14,123
그런데 만약 고양이가 숨어 있으면요?

83
00:05:15,143 --> 00:05:17,362
이런 웃기는 고양이들은요?

84
00:05:19,112 --> 00:05:21,529
이제 제 말을 아시겠죠.

85
00:05:21,529 --> 00:05:24,896
집안의 애완동물처럼 단순한 사물조차

86
00:05:24,896 --> 00:05:29,400
객체 모델에 무한한 변형이 
존재할 수 있고,

87
00:05:29,400 --> 00:05:31,633
그게 한 개의 객체일 뿐이죠.

88
00:05:32,573 --> 00:05:35,065
약 8년 전

89
00:05:35,065 --> 00:05:40,095
단순하고도 깊은 관찰이
제 생각을 바꾸었습니다.

90
00:05:41,425 --> 00:05:44,110
아이에게 보는 법을 가르칠 순 없죠.

91
00:05:44,110 --> 00:05:46,371
특히 어린 시절에 말이죠.

92
00:05:46,371 --> 00:05:51,371
아이들은 현실세계의 경험과 
사례로 보는 법을 배웁니다.

93
00:05:51,371 --> 00:05:54,111
만약 아이의 눈을

94
00:05:54,111 --> 00:05:56,665
생물학적 카메라 한쌍이라 치면

95
00:05:56,665 --> 00:06:00,845
200밀리초마다 한 장씩 
사진을 찍는 셈이죠.

96
00:06:00,845 --> 00:06:03,979
눈이 움직이는 평균 시간이에요.

97
00:06:03,979 --> 00:06:11,173
아이는 세 살까지 수억장의 
현실세계 사진을 보게 됩니다.

98
00:06:11,173 --> 00:06:13,643
방대한 양의 학습 사례죠.

99
00:06:14,383 --> 00:06:20,372
그래서 제 생각엔 더 나은 
알고리즘에만 집중하기보다,

100
00:06:20,372 --> 00:06:25,644
알고리즘에 주는 학습 데이터를

101
00:06:25,644 --> 00:06:28,963
아이가 경험하는 것과 같이
만들어야 했습니다.

102
00:06:28,963 --> 00:06:32,841
양적으로나 질적으로 말이죠.

103
00:06:32,841 --> 00:06:34,699
이걸 알게 되자,

104
00:06:34,699 --> 00:06:42,140
우리는 이전보다 훨씬 많은 
데이터를 모아야 했습니다.

105
00:06:42,140 --> 00:06:44,706
거의 수천배였죠.

106
00:06:44,706 --> 00:06:48,817
그래서 전 프린스턴 대학의
카이 리 교수와 함께

107
00:06:48,817 --> 00:06:53,569
2007년 이미지넷 프로젝트를
시작했습니다.

108
00:06:53,569 --> 00:06:57,407
다행히도 우리는
머리에 카메라를 매달고

109
00:06:57,407 --> 00:06:59,171
몇년씩 기다릴 필요는 없었습니다.

110
00:06:59,171 --> 00:07:00,634
인터넷이 있었거든요.

111
00:07:00,634 --> 00:07:05,070
인류가 만든 최대의 사진 창고죠.

112
00:07:05,070 --> 00:07:08,111
우리는 거의 10억장의 이미지를
다운로드했고

113
00:07:08,111 --> 00:07:13,991
아마존 MTurk 같은
크라우드 소싱 기술을 사용해

114
00:07:13,991 --> 00:07:16,330
이미지에 라벨을 붙였습니다.

115
00:07:16,330 --> 00:07:21,230
가장 최고치에서는 이미지넷이

116
00:07:21,230 --> 00:07:24,226
아마존 MTurk 일꾼들의 
최대 고용주였습니다.

117
00:07:24,226 --> 00:07:28,080
5만명 가까운 작업자가

118
00:07:28,080 --> 00:07:32,120
세계 167개국에서

119
00:07:32,120 --> 00:07:36,067
약 10억장의 후보 이미지의

120
00:07:36,067 --> 00:07:39,642
정리 분류 작업을 도왔습니다.

121
00:07:40,612 --> 00:07:43,265
아이의 성장 초기에

122
00:07:43,265 --> 00:07:47,165
이미지의 일부라도 수집하는데

123
00:07:47,165 --> 00:07:51,336
얼마나 많은 노력이 드는가
하는 것과 같았죠.

124
00:07:52,148 --> 00:07:56,050
지나고 보니, 컴퓨터 알고리즘의 훈련에

125
00:07:56,050 --> 00:08:00,600
빅데이터를 사용한다는 아이디어는
이제 확실한 것 같습니다만,

126
00:08:00,600 --> 00:08:04,710
2007년 당시에는 그렇지 않았습니다.

127
00:08:04,710 --> 00:08:08,588
우리 혼자 이런 일을 한 게
꽤 오래 됐습니다.

128
00:08:08,588 --> 00:08:13,591
친절한 동료는 종신교수가 되려면 
더 유용한 일을 하라고 조언했고,

129
00:08:13,591 --> 00:08:17,933
우리는 늘 연구 자금 문제에 시달렸죠.

130
00:08:17,933 --> 00:08:20,418
저는 이미지넷의 자금 조달을 위해
세탁소를 다시 열어야겠다고

131
00:08:20,418 --> 00:08:24,481
대학원생들에게 농담을 했죠.

132
00:08:24,481 --> 00:08:29,242
제가 대학 학비를 마련한 방법이거든요.

133
00:08:29,242 --> 00:08:31,098
우리는 계속 진행했습니다.

134
00:08:31,098 --> 00:08:34,813
2009년에 이미지넷 프로젝트는

135
00:08:34,813 --> 00:08:38,855
객체와 사물을 2만2천개 범주로 분류한

136
00:08:38,855 --> 00:08:43,659
1천5백만장 이미지의 
데이터베이스를 만들었고

137
00:08:43,659 --> 00:08:46,980
일상적인 영단어로 표현했습니다.

138
00:08:46,980 --> 00:08:49,906
양적으로나 질적으로나

139
00:08:49,906 --> 00:08:52,878
전례 없는 규모였죠.

140
00:08:52,878 --> 00:08:56,339
예를 들어, 고양이의 경우

141
00:08:56,339 --> 00:08:59,148
6만 2천장의 이미지가

142
00:08:59,148 --> 00:09:03,258
다양한 모양과 자세,

143
00:09:03,258 --> 00:09:08,481
집고양이부터 들고양이까지
모든 종류를 망라합니다.

144
00:09:08,481 --> 00:09:11,825
우리는 이미지넷을 만든 것에 흥분했고

145
00:09:11,825 --> 00:09:15,563
모든 연구자들과 혜택을
나누고자 했습니다.

146
00:09:15,563 --> 00:09:19,604
그래서 TED 방식으로 모든 데이터를

147
00:09:19,604 --> 00:09:23,196
전세계의 연구자 커뮤니티에
무료로 공개했습니다.

148
00:09:24,636 --> 00:09:28,636
(박수)

149
00:09:29,416 --> 00:09:33,954
이제 우리는 컴퓨터 두뇌에 
영양을 공급할 데이터가 있고,

150
00:09:33,954 --> 00:09:37,691
알고리즘 자체로 돌아올 준비가 되었죠.

151
00:09:37,691 --> 00:09:42,869
결과적으로 이미지넷의 풍부한 정보는

152
00:09:42,869 --> 00:09:47,675
기계 학습 알고리즘의 
특정 분류에 딱 들어맞았는데,

153
00:09:47,675 --> 00:09:50,090
이를 합성곱 신경망이라고 합니다.

154
00:09:50,090 --> 00:09:55,338
쿠니히코 후쿠시마, 
제프리 힌튼, 양 루캉이

155
00:09:55,338 --> 00:09:58,983
1970~80년대에 개척한 영역이죠.

156
00:09:58,983 --> 00:10:04,602
마치 뇌가 고도로 연결된 뉴런
수십억개로 구성된 것처럼

157
00:10:04,602 --> 00:10:08,456
신경망의 기본 단위는

158
00:10:08,456 --> 00:10:10,871
뉴런과 같은 노드입니다.

159
00:10:10,871 --> 00:10:13,425
다른 노드에서 입력을 받고

160
00:10:13,425 --> 00:10:16,143
다른 노드로 출력을 보냅니다.

161
00:10:16,143 --> 00:10:20,856
게다가 이런 수십만, 수백만의 노드는

162
00:10:20,856 --> 00:10:24,083
계층 형태로 조직화됩니다.

163
00:10:24,083 --> 00:10:26,637
뇌와 마찬가지죠.

164
00:10:26,637 --> 00:10:31,420
우리가 사물 인식 모델을 훈련하려고
사용한 전형적인 신경망에는

165
00:10:31,420 --> 00:10:34,601
2천4백만의 노드,

166
00:10:34,601 --> 00:10:37,898
1억4천만의 매개변수,

167
00:10:37,898 --> 00:10:40,661
150억의 결합이 존재합니다.

168
00:10:40,661 --> 00:10:43,076
어마어마한 모델이죠.

169
00:10:43,076 --> 00:10:46,977
이미지넷의 방대한 데이터와

170
00:10:46,977 --> 00:10:52,410
현대의 CPU와 GPU에 힘입어

171
00:10:52,410 --> 00:10:54,779
합성곱 신경망은

172
00:10:54,779 --> 00:10:58,215
아무도 예상치 못한 방식으로
꽃피었습니다.

173
00:10:58,215 --> 00:11:00,723
사물의 인식에 있어

174
00:11:00,723 --> 00:11:06,063
흥미롭고도 새로운 결과를 내는 
우수한 구조가 되었습니다.

175
00:11:06,063 --> 00:11:08,873
이 컴퓨터는 우리에게

176
00:11:08,873 --> 00:11:11,173
이 사진에 고양이가 있는지,

177
00:11:11,173 --> 00:11:13,076
어디에 있는지 말해줍니다.

178
00:11:13,076 --> 00:11:15,188
물론 고양이 이외의 것도
인식할 수 있고,

179
00:11:15,188 --> 00:11:17,626
여기서 컴퓨터 알고리즘은 사진 속에

180
00:11:17,626 --> 00:11:20,900
소년과 테디 베어가 있다고 말해줍니다.

181
00:11:20,900 --> 00:11:25,266
개, 사람, 배경에 작은 연이 있습니다.

182
00:11:25,266 --> 00:11:28,401
또는 많은 것이 찍힌 사진에서

183
00:11:28,401 --> 00:11:33,045
사람, 스케이트 보드, 난간, 
가로등 같은 것을 가려냅니다.

184
00:11:33,045 --> 00:11:38,338
때때로 컴퓨터가 보는 것이 무엇인지
확신하지 못할 때는

185
00:11:39,498 --> 00:11:41,774
우리는 컴퓨터를 가르쳐서

186
00:11:41,774 --> 00:11:45,652
억측을 하기 보다는
안전한 대답을 하게 합니다.

187
00:11:45,652 --> 00:11:48,463
사람과 마찬가지죠.

188
00:11:48,463 --> 00:11:53,129
반면 컴퓨터 알고리즘은 놀랍게도

189
00:11:53,129 --> 00:11:55,382
사물이 정확히 무엇인지 
말해주기도 합니다.

190
00:11:55,382 --> 00:11:58,818
자동차의 차종, 모델, 
연식 같은 것이죠.

191
00:11:58,818 --> 00:12:04,204
수백개 미국 도시에서 찍은 
구글 스크리트 뷰 이미지

192
00:12:04,204 --> 00:12:07,339
수백만장에 알고리즘을 적용했더니

193
00:12:07,339 --> 00:12:10,265
흥미로운 것을 발견했습니다.

194
00:12:10,265 --> 00:12:13,585
먼저, 일반적으로 예상하듯이

195
00:12:13,585 --> 00:12:16,875
자동차 가격이 가계 수입과

196
00:12:16,875 --> 00:12:19,220
매우 관련이 있다는 것이었습니다.

197
00:12:19,220 --> 00:12:23,747
하지만 놀랍게도, 자동차 가격은

198
00:12:23,747 --> 00:12:26,047
도시의 범죄율과도 관련이 있었고,

199
00:12:27,007 --> 00:12:30,970
도시구역별 투표 경향과도
관련이 있었습니다.

200
00:12:32,060 --> 00:12:34,266
잠깐만요. 그런가요?

201
00:12:34,266 --> 00:12:39,419
컴퓨터는 이미 인간의 능력을 
따라잡거나 추월한 것인가요?

202
00:12:39,419 --> 00:12:41,557
그렇지는 않습니다.

203
00:12:41,557 --> 00:12:46,480
지금까지 우리는 컴퓨터에 
사물 인식을 가르쳤을 뿐이에요.

204
00:12:46,480 --> 00:12:51,124
마치 어린 아이가 명사 몇개를
배운 것과 같죠.

205
00:12:51,124 --> 00:12:53,794
엄청난 성과이지만

206
00:12:53,794 --> 00:12:56,254
그저 첫 걸음에 불과합니다.

207
00:12:56,254 --> 00:13:00,016
곧 다음 개발 목표에 이를 것이고,

208
00:13:00,016 --> 00:13:03,477
어린 아이는 문장으로 
소통을 하기 시작할 겁니다.

209
00:13:03,477 --> 00:13:07,701
그래서 사진을 보고 
'고양이입니다' 하는 대신

210
00:13:07,701 --> 00:13:12,903
여러분이 이미 들었듯
'고양이가 침대에 누워 있다'고 합니다.

211
00:13:12,903 --> 00:13:18,498
컴퓨터가 사진을 보고
문장을 만들게 가르치려면,

212
00:13:18,498 --> 00:13:22,446
빅 데이터와 기계 학습 
알고리즘의 결합이

213
00:13:22,446 --> 00:13:24,721
또 한발짝 나아가야 합니다.

214
00:13:24,721 --> 00:13:28,877
이제 컴퓨터는 사진 뿐만 아니라

215
00:13:28,877 --> 00:13:31,733
사람이 만든 자연 언어 문장도

216
00:13:31,733 --> 00:13:35,055
배워야 합니다.

217
00:13:35,055 --> 00:13:38,908
뇌가 시각과 언어를 결합하듯이,

218
00:13:38,908 --> 00:13:44,109
우리가 개발한 모델은
이미지의 단편과 같은

219
00:13:44,109 --> 00:13:46,013
시각적 요소를

220
00:13:46,013 --> 00:13:50,216
문장 속 단어나 문구와 연결합니다.

221
00:13:50,216 --> 00:13:52,979
약 4달 전

222
00:13:52,979 --> 00:13:55,626
우리는 마침내 이 모두를 엮어

223
00:13:55,626 --> 00:13:59,410
최초의 컴퓨터 비전 모델 
하나를 만들었습니다.

224
00:13:59,410 --> 00:14:03,404
사진을 처음 보았을때 사람과 같이

225
00:14:03,404 --> 00:14:06,910
문장을 만들어내는 모델입니다.

226
00:14:06,910 --> 00:14:11,554
이제, 여러분께 컴퓨터가 사진을 보고

227
00:14:11,554 --> 00:14:13,529
말하는 것을 보여드리겠습니다.

228
00:14:13,529 --> 00:14:17,359
앞서 어린 소녀가 봤던 사진입니다.

229
00:14:18,999 --> 00:14:22,863
(컴퓨터) "남자가 
코끼리 옆에 서 있습니다."

230
00:14:24,393 --> 00:14:28,027
"큰 비행기가 공항 활주로 끝에 있습니다."

231
00:14:29,057 --> 00:14:33,269
물론, 우리는 여전히 알고리즘을
개량하려고 일하고 있고

232
00:14:33,269 --> 00:14:35,555
배워야 할 게 많습니다.

233
00:14:35,555 --> 00:14:38,156
(박수)

234
00:14:39,556 --> 00:14:42,877
컴퓨터는 여전히 실수를 저지릅니다.

235
00:14:42,877 --> 00:14:46,268
(컴퓨터) "고양이가 침대 위
이불 안에 있습니다."

236
00:14:46,268 --> 00:14:48,821
고양이를 너무 많이 봐서

237
00:14:48,821 --> 00:14:51,747
뭐든지 고양이로 보이는지도 모르죠.

238
00:14:53,317 --> 00:14:56,181
(컴퓨터) "어린 소년이 
야구 방망이를 들고 있습니다."

239
00:14:56,181 --> 00:14:57,946
(웃음)

240
00:14:57,946 --> 00:15:02,529
칫솔을 본 적이 없다면 
야구 방망이와 혼동합니다.

241
00:15:03,309 --> 00:15:06,743
(컴퓨터) "남자가 말을 타고 
건물 옆 길을 내려갑니다."

242
00:15:06,743 --> 00:15:08,766
(웃음)

243
00:15:08,766 --> 00:15:12,318
우리는 컴퓨터에게 
미술을 가르치지 않았습니다.

244
00:15:13,768 --> 00:15:16,652
(컴퓨터) "얼룩말이 초원에 서있습니다"

245
00:15:16,652 --> 00:15:20,019
컴퓨터는 자연의 경이로운 
아름다움에 감상하는 것을

246
00:15:20,019 --> 00:15:22,457
배우지도 않았습니다.

247
00:15:22,457 --> 00:15:25,289
이는 오랜 여정이었습니다.

248
00:15:25,289 --> 00:15:29,515
0세에서 3세까지 가는 건
힘들었습니다.

249
00:15:29,515 --> 00:15:35,111
하지만 진짜 도전은 3세에서 13세,
그 이상으로 나아가는 것입니다.

250
00:15:35,111 --> 00:15:39,476
이 소년과 케이크의 사진을
다시 보시죠.

251
00:15:39,476 --> 00:15:43,540
지금까지 우리는 컴퓨터에
사물을 식별하고

252
00:15:43,540 --> 00:15:47,998
간단한 말을 하는 것을 가르쳤습니다.

253
00:15:47,998 --> 00:15:51,574
(컴퓨터) "한 사람이 케이크가 있는 
테이블에 앉아 있습니다."

254
00:15:51,574 --> 00:15:54,204
그러나 이 사진에는
사람과 케이크 이외에

255
00:15:54,204 --> 00:15:56,474
더 많은 것이 들어있죠.

256
00:15:56,474 --> 00:16:00,941
컴퓨터가 보지 못하는 것은 
이 특별한 이태리 케이크가

257
00:16:00,941 --> 00:16:04,158
부활절에만 먹는 것이란 겁니다.

258
00:16:04,158 --> 00:16:07,363
소년은 자기가 좋아하는 
티셔츠를 입고 있는데

259
00:16:07,363 --> 00:16:11,333
아이 아버지가 시드니 여행을 
다녀와 선물로 준 것입니다.

260
00:16:11,333 --> 00:16:15,141
여러분과 저는 이 아이가 
얼마나 기뻐하는지,

261
00:16:15,141 --> 00:16:18,344
저 순간 무슨 생각을 하는지 
이야기할 수 있습니다.

262
00:16:19,214 --> 00:16:22,339
제 아들 레오입니다.

263
00:16:22,339 --> 00:16:24,963
시각 지능에 대한 탐구를 하며

264
00:16:24,963 --> 00:16:27,354
저는 항상 레오와

265
00:16:27,354 --> 00:16:30,257
레오가 살 미래세계를 생각합니다.

266
00:16:30,257 --> 00:16:32,278
기계가 인식을 하게 되면,

267
00:16:32,278 --> 00:16:36,990
의사와 간호사는
쉬지 않는 기계 눈을 이용해

268
00:16:36,990 --> 00:16:41,082
환자를 진단하고 돌볼 수 있겠지요.

269
00:16:41,082 --> 00:16:45,465
자동차는 더 똑똑하고 안전하게
도로를 주행할 겁니다.

270
00:16:45,465 --> 00:16:48,159
인간 뿐 아니라 로봇이

271
00:16:48,159 --> 00:16:53,008
재난 지역에서 갇히고 부상당한 사람을 
구하는 걸 도울 겁니다.

272
00:16:53,798 --> 00:16:57,594
우리는 기계의 도움으로 
새로운 종, 더 나은 물질을 발견하고

273
00:16:57,594 --> 00:17:02,103
보지 못한 개척지를 
탐험하게 될 겁니다.

274
00:17:03,113 --> 00:17:07,280
조금씩 우리는 기계에게
시각을 주고 있습니다.

275
00:17:07,280 --> 00:17:10,078
처음에 우리는 기계에게
보는 것을 가르쳤습니다.

276
00:17:10,078 --> 00:17:12,840
다음엔, 기계가 우리를 도와
더 잘 보게 할 겁니다.

277
00:17:12,840 --> 00:17:17,006
처음으로, 인간의 눈이 아닌 것이

278
00:17:17,006 --> 00:17:19,940
세계를 생각하고 탐험하게 되었습니다.

279
00:17:19,940 --> 00:17:23,400
우리는 인공지능 때문에
기계를 이용할 뿐만 아니라

280
00:17:23,400 --> 00:17:29,579
상상치 못했던 방식으로 
기계와 협력하게 될 것입니다.

281
00:17:29,579 --> 00:17:31,740
이것이 제 탐구입니다.

282
00:17:31,740 --> 00:17:34,452
컴퓨터에 시각 지능을 부여하는 것,

283
00:17:34,452 --> 00:17:39,583
그리고 레오와 세계를 위해서
더 나은 미래를 만드는 것입니다.

284
00:17:39,583 --> 00:17:41,394
감사합니다.

285
00:17:41,394 --> 00:17:45,179
(박수)