1 00:00:02,366 --> 00:00:06,104 이걸 보시죠. 2 00:00:06,104 --> 00:00:10,260 (영상) 소녀: "고양이가 침대에 앉아 있습니다." 3 00:00:10,260 --> 00:00:14,300 "소년이 코끼리를 쓰다듬고 있습니다." 4 00:00:14,300 --> 00:00:18,274 "사람들이 비행기에 타고 있습니다." 5 00:00:18,274 --> 00:00:21,224 "큰 비행기입니다." 6 00:00:21,224 --> 00:00:27,360 이건 세 살짜리 아이가 사진을 보고 설명하는 것입니다. 7 00:00:27,360 --> 00:00:30,194 그녀는 아직 이 세상에 대해 배울 것이 많지만, 8 00:00:30,194 --> 00:00:34,743 한 가지 일에서만큼은 이미 전문가 수준입니다. 9 00:00:34,743 --> 00:00:37,589 본 것을 이해하는 일이죠. 10 00:00:38,229 --> 00:00:42,455 우리 사회는 그 어느 때보다 기술적으로 진보하고 있습니다. 11 00:00:42,455 --> 00:00:46,084 우리는 달에 사람을 보내고, 말을 하는 전화를 만들거나 12 00:00:46,084 --> 00:00:51,030 좋아하는 곡만 방송하는 맞춤형 라디오를 만듭니다. 13 00:00:51,030 --> 00:00:55,085 그러나 첨단 기계와 컴퓨터로도 14 00:00:55,085 --> 00:00:57,988 애를 먹는 일이 있습니다. 15 00:00:57,988 --> 00:01:01,447 저는 오늘 컴퓨터 비전 연구의 16 00:01:01,447 --> 00:01:05,494 최신 동향에 대해 말하고자 합니다 17 00:01:05,494 --> 00:01:11,935 컴퓨터 과학에서 가장 선도적이고 혁명적인 기술이죠. 18 00:01:12,865 --> 00:01:17,412 스스로 운전하는 자동차 시험판을 만들더라도 19 00:01:17,412 --> 00:01:21,265 똑똑한 인식 능력이 없다면 20 00:01:21,265 --> 00:01:25,235 도로 위에 있는 것이 밟아도 될 종이 봉투인지 21 00:01:25,235 --> 00:01:28,575 피해야 할 돌덩이인지 구분할 수 없습니다. 22 00:01:29,415 --> 00:01:32,805 수백만 화소의 엄청난 카메라를 만들더라도 23 00:01:32,805 --> 00:01:35,940 시각장애인의 눈이 되지는 못합니다. 24 00:01:36,420 --> 00:01:39,725 무인기가 광활한 땅을 날 수 있어도 25 00:01:39,725 --> 00:01:41,859 컴퓨터 비전 기술이 없으면 26 00:01:41,859 --> 00:01:45,320 열대 우림의 변화를 추적하지 못합니다. 27 00:01:45,320 --> 00:01:48,270 감시 카메라가 도처에 있어도 28 00:01:48,270 --> 00:01:53,337 수영장에서 물에 빠진 아이를 보고 우리에게 경고해 주지는 않습니다. 29 00:01:54,167 --> 00:01:59,762 사진과 비디오는 지구 생활의 불가결한 부분이 되고 있습니다. 30 00:01:59,762 --> 00:02:03,849 어떤 개인이나 단체가 다 볼 수 없을 분량의 31 00:02:03,849 --> 00:02:06,632 영상이 만들어지고 있습니다. 32 00:02:06,632 --> 00:02:10,553 여기 TED도 일조하고 있지요. 33 00:02:10,553 --> 00:02:15,785 그러나 가장 진보한 소프트웨어도 아직까지는 34 00:02:15,785 --> 00:02:19,661 이 방대한 영상을 이해하고 관리하는데 애를 먹고 있습니다. 35 00:02:19,661 --> 00:02:24,933 달리 말하자면 사회 전체적으로 36 00:02:24,933 --> 00:02:26,679 우리는 장님과 같습니다. 37 00:02:26,679 --> 00:02:30,066 우리의 가장 똑똑한 기계가 아직까지 장님이니까요. 38 00:02:31,526 --> 00:02:34,452 "그게 왜 어렵지?" 하고 물으실 수 있어요. 39 00:02:34,452 --> 00:02:37,145 카메라는 이런 사진을 찍을 수 있고 40 00:02:37,145 --> 00:02:41,139 빛을 숫자의 2차원 배열인 41 00:02:41,139 --> 00:02:42,789 픽셀로 변환할 수 있지만, 42 00:02:42,789 --> 00:02:45,040 이는 그저 죽은 숫자일 뿐입니다. 43 00:02:45,040 --> 00:02:48,151 그 자체에 의미는 없습니다. 44 00:02:48,151 --> 00:02:52,494 '들리는' 것과 '듣는' 것이 똑같지 않듯이 45 00:02:52,494 --> 00:02:56,534 사진을 '찍는' 것과 '보는' 것은 똑같지 않습니다. 46 00:02:56,534 --> 00:03:00,363 '본다'는 말에는 '이해한다'는 뜻이 있습니다. 47 00:03:01,293 --> 00:03:07,470 사실 자연은 5억 4천만년에 걸쳐 48 00:03:07,470 --> 00:03:09,443 이 작업을 했는데요. 49 00:03:09,443 --> 00:03:11,324 그 노력의 대부분은 50 00:03:11,324 --> 00:03:16,595 우리 뇌의 시각처리능력을 발달시키는데 소요되었고 51 00:03:16,595 --> 00:03:19,242 눈을 만드는데 소요되지 않았습니다. 52 00:03:19,242 --> 00:03:21,989 시각현상은 눈에서 시작되지만 53 00:03:21,989 --> 00:03:25,507 사실상 나타나는 곳은 뇌 안쪽이죠. 54 00:03:26,287 --> 00:03:31,347 저는 최근 15년간 캘리포니아 공대 박사 과정에서부터 55 00:03:31,347 --> 00:03:34,273 스탠포드대 컴퓨터 비전 연구실을 이끌기까지 56 00:03:34,273 --> 00:03:38,669 지도교수, 공동연구자, 학생들과 함께 57 00:03:38,669 --> 00:03:41,558 컴퓨터에게 '보는 법'을 가르쳐왔습니다. 58 00:03:42,658 --> 00:03:45,952 저희 연구 분야를 컴퓨터 비전과 기계 학습이라고 합니다. 59 00:03:45,952 --> 00:03:49,830 인공지능 일반 분야에 속하죠. 60 00:03:51,000 --> 00:03:56,493 궁극적으로 우리는 기계가 인간처럼 볼 수 있게 하려고 합니다. 61 00:03:56,493 --> 00:04:01,880 물체와 사람을 식별하고, 3차원 기하구조를 추측하고, 62 00:04:01,880 --> 00:04:07,568 관계, 감정, 행동과 의도를 이해하게 하는 겁니다. 63 00:04:07,568 --> 00:04:13,721 여러분과 저는 한번 보기만 해도 64 00:04:13,721 --> 00:04:15,885 사람, 장소, 사물로 이야기를 엮어낼 수 있습니다. 65 00:04:16,954 --> 00:04:22,538 이런 목표를 향한 첫걸음이 컴퓨터를 가르쳐 66 00:04:22,538 --> 00:04:25,906 사물, 시각 세계의 구성요소를 보게 하는 것입니다. 67 00:04:25,906 --> 00:04:30,340 간단히 말해, 이런 학습 과정을 상상해보세요. 68 00:04:30,340 --> 00:04:33,335 컴퓨터에 특정 사물의 훈련용 이미지를 보여줍니다. 69 00:04:33,335 --> 00:04:36,656 고양이라고 해보죠. 70 00:04:36,656 --> 00:04:41,393 그리고 그 훈련용 이미지로 학습하는 모델을 설계합니다. 71 00:04:41,393 --> 00:04:43,437 간단하게 들리는데요. 얼마나 어려울 수 있을까요? 72 00:04:43,437 --> 00:04:47,489 고양이는 모양과 색깔의 집합이고, 73 00:04:47,489 --> 00:04:51,575 이것이 우리가 초창기 객체 모델링으로 한 일이죠. 74 00:04:51,575 --> 00:04:55,197 우리는 컴퓨터 알고리즘을 수학적 언어로 표현합니다. 75 00:04:55,197 --> 00:04:58,540 고양이는 둥근 얼굴과 통통한 몸, 76 00:04:58,540 --> 00:05:00,839 두 개의 뾰족한 귀, 긴 꼬리가 있다고 가르칩니다. 77 00:05:00,839 --> 00:05:02,249 다 괜찮아 보였습니다. 78 00:05:02,859 --> 00:05:04,972 그런데 이 고양이는 어떨까요? 79 00:05:04,972 --> 00:05:06,063 (웃음) 80 00:05:06,063 --> 00:05:07,689 몸을 말고 있습니다. 81 00:05:07,689 --> 00:05:12,408 이제 객체 모델에 다른 모양과 관점을 추가합니다. 82 00:05:12,408 --> 00:05:14,123 그런데 만약 고양이가 숨어 있으면요? 83 00:05:15,143 --> 00:05:17,362 이런 웃기는 고양이들은요? 84 00:05:19,112 --> 00:05:21,529 이제 제 말을 아시겠죠. 85 00:05:21,529 --> 00:05:24,896 집안의 애완동물처럼 단순한 사물조차 86 00:05:24,896 --> 00:05:29,400 객체 모델에 무한한 변형이 존재할 수 있고, 87 00:05:29,400 --> 00:05:31,633 그게 한 개의 객체일 뿐이죠. 88 00:05:32,573 --> 00:05:35,065 약 8년 전 89 00:05:35,065 --> 00:05:40,095 단순하고도 깊은 관찰이 제 생각을 바꾸었습니다. 90 00:05:41,425 --> 00:05:44,110 아이에게 보는 법을 가르칠 순 없죠. 91 00:05:44,110 --> 00:05:46,371 특히 어린 시절에 말이죠. 92 00:05:46,371 --> 00:05:51,371 아이들은 현실세계의 경험과 사례로 보는 법을 배웁니다. 93 00:05:51,371 --> 00:05:54,111 만약 아이의 눈을 94 00:05:54,111 --> 00:05:56,665 생물학적 카메라 한쌍이라 치면 95 00:05:56,665 --> 00:06:00,845 200밀리초마다 한 장씩 사진을 찍는 셈이죠. 96 00:06:00,845 --> 00:06:03,979 눈이 움직이는 평균 시간이에요. 97 00:06:03,979 --> 00:06:11,173 아이는 세 살까지 수억장의 현실세계 사진을 보게 됩니다. 98 00:06:11,173 --> 00:06:13,643 방대한 양의 학습 사례죠. 99 00:06:14,383 --> 00:06:20,372 그래서 제 생각엔 더 나은 알고리즘에만 집중하기보다, 100 00:06:20,372 --> 00:06:25,644 알고리즘에 주는 학습 데이터를 101 00:06:25,644 --> 00:06:28,963 아이가 경험하는 것과 같이 만들어야 했습니다. 102 00:06:28,963 --> 00:06:32,841 양적으로나 질적으로 말이죠. 103 00:06:32,841 --> 00:06:34,699 이걸 알게 되자, 104 00:06:34,699 --> 00:06:42,140 우리는 이전보다 훨씬 많은 데이터를 모아야 했습니다. 105 00:06:42,140 --> 00:06:44,706 거의 수천배였죠. 106 00:06:44,706 --> 00:06:48,817 그래서 전 프린스턴 대학의 카이 리 교수와 함께 107 00:06:48,817 --> 00:06:53,569 2007년 이미지넷 프로젝트를 시작했습니다. 108 00:06:53,569 --> 00:06:57,407 다행히도 우리는 머리에 카메라를 매달고 109 00:06:57,407 --> 00:06:59,171 몇년씩 기다릴 필요는 없었습니다. 110 00:06:59,171 --> 00:07:00,634 인터넷이 있었거든요. 111 00:07:00,634 --> 00:07:05,070 인류가 만든 최대의 사진 창고죠. 112 00:07:05,070 --> 00:07:08,111 우리는 거의 10억장의 이미지를 다운로드했고 113 00:07:08,111 --> 00:07:13,991 아마존 MTurk 같은 크라우드 소싱 기술을 사용해 114 00:07:13,991 --> 00:07:16,330 이미지에 라벨을 붙였습니다. 115 00:07:16,330 --> 00:07:21,230 가장 최고치에서는 이미지넷이 116 00:07:21,230 --> 00:07:24,226 아마존 MTurk 일꾼들의 최대 고용주였습니다. 117 00:07:24,226 --> 00:07:28,080 5만명 가까운 작업자가 118 00:07:28,080 --> 00:07:32,120 세계 167개국에서 119 00:07:32,120 --> 00:07:36,067 약 10억장의 후보 이미지의 120 00:07:36,067 --> 00:07:39,642 정리 분류 작업을 도왔습니다. 121 00:07:40,612 --> 00:07:43,265 아이의 성장 초기에 122 00:07:43,265 --> 00:07:47,165 이미지의 일부라도 수집하는데 123 00:07:47,165 --> 00:07:51,336 얼마나 많은 노력이 드는가 하는 것과 같았죠. 124 00:07:52,148 --> 00:07:56,050 지나고 보니, 컴퓨터 알고리즘의 훈련에 125 00:07:56,050 --> 00:08:00,600 빅데이터를 사용한다는 아이디어는 이제 확실한 것 같습니다만, 126 00:08:00,600 --> 00:08:04,710 2007년 당시에는 그렇지 않았습니다. 127 00:08:04,710 --> 00:08:08,588 우리 혼자 이런 일을 한 게 꽤 오래 됐습니다. 128 00:08:08,588 --> 00:08:13,591 친절한 동료는 종신교수가 되려면 더 유용한 일을 하라고 조언했고, 129 00:08:13,591 --> 00:08:17,933 우리는 늘 연구 자금 문제에 시달렸죠. 130 00:08:17,933 --> 00:08:20,418 저는 이미지넷의 자금 조달을 위해 세탁소를 다시 열어야겠다고 131 00:08:20,418 --> 00:08:24,481 대학원생들에게 농담을 했죠. 132 00:08:24,481 --> 00:08:29,242 제가 대학 학비를 마련한 방법이거든요. 133 00:08:29,242 --> 00:08:31,098 우리는 계속 진행했습니다. 134 00:08:31,098 --> 00:08:34,813 2009년에 이미지넷 프로젝트는 135 00:08:34,813 --> 00:08:38,855 객체와 사물을 2만2천개 범주로 분류한 136 00:08:38,855 --> 00:08:43,659 1천5백만장 이미지의 데이터베이스를 만들었고 137 00:08:43,659 --> 00:08:46,980 일상적인 영단어로 표현했습니다. 138 00:08:46,980 --> 00:08:49,906 양적으로나 질적으로나 139 00:08:49,906 --> 00:08:52,878 전례 없는 규모였죠. 140 00:08:52,878 --> 00:08:56,339 예를 들어, 고양이의 경우 141 00:08:56,339 --> 00:08:59,148 6만 2천장의 이미지가 142 00:08:59,148 --> 00:09:03,258 다양한 모양과 자세, 143 00:09:03,258 --> 00:09:08,481 집고양이부터 들고양이까지 모든 종류를 망라합니다. 144 00:09:08,481 --> 00:09:11,825 우리는 이미지넷을 만든 것에 흥분했고 145 00:09:11,825 --> 00:09:15,563 모든 연구자들과 혜택을 나누고자 했습니다. 146 00:09:15,563 --> 00:09:19,604 그래서 TED 방식으로 모든 데이터를 147 00:09:19,604 --> 00:09:23,196 전세계의 연구자 커뮤니티에 무료로 공개했습니다. 148 00:09:24,636 --> 00:09:28,636 (박수) 149 00:09:29,416 --> 00:09:33,954 이제 우리는 컴퓨터 두뇌에 영양을 공급할 데이터가 있고, 150 00:09:33,954 --> 00:09:37,691 알고리즘 자체로 돌아올 준비가 되었죠. 151 00:09:37,691 --> 00:09:42,869 결과적으로 이미지넷의 풍부한 정보는 152 00:09:42,869 --> 00:09:47,675 기계 학습 알고리즘의 특정 분류에 딱 들어맞았는데, 153 00:09:47,675 --> 00:09:50,090 이를 합성곱 신경망이라고 합니다. 154 00:09:50,090 --> 00:09:55,338 쿠니히코 후쿠시마, 제프리 힌튼, 양 루캉이 155 00:09:55,338 --> 00:09:58,983 1970~80년대에 개척한 영역이죠. 156 00:09:58,983 --> 00:10:04,602 마치 뇌가 고도로 연결된 뉴런 수십억개로 구성된 것처럼 157 00:10:04,602 --> 00:10:08,456 신경망의 기본 단위는 158 00:10:08,456 --> 00:10:10,871 뉴런과 같은 노드입니다. 159 00:10:10,871 --> 00:10:13,425 다른 노드에서 입력을 받고 160 00:10:13,425 --> 00:10:16,143 다른 노드로 출력을 보냅니다. 161 00:10:16,143 --> 00:10:20,856 게다가 이런 수십만, 수백만의 노드는 162 00:10:20,856 --> 00:10:24,083 계층 형태로 조직화됩니다. 163 00:10:24,083 --> 00:10:26,637 뇌와 마찬가지죠. 164 00:10:26,637 --> 00:10:31,420 우리가 사물 인식 모델을 훈련하려고 사용한 전형적인 신경망에는 165 00:10:31,420 --> 00:10:34,601 2천4백만의 노드, 166 00:10:34,601 --> 00:10:37,898 1억4천만의 매개변수, 167 00:10:37,898 --> 00:10:40,661 150억의 결합이 존재합니다. 168 00:10:40,661 --> 00:10:43,076 어마어마한 모델이죠. 169 00:10:43,076 --> 00:10:46,977 이미지넷의 방대한 데이터와 170 00:10:46,977 --> 00:10:52,410 현대의 CPU와 GPU에 힘입어 171 00:10:52,410 --> 00:10:54,779 합성곱 신경망은 172 00:10:54,779 --> 00:10:58,215 아무도 예상치 못한 방식으로 꽃피었습니다. 173 00:10:58,215 --> 00:11:00,723 사물의 인식에 있어 174 00:11:00,723 --> 00:11:06,063 흥미롭고도 새로운 결과를 내는 우수한 구조가 되었습니다. 175 00:11:06,063 --> 00:11:08,873 이 컴퓨터는 우리에게 176 00:11:08,873 --> 00:11:11,173 이 사진에 고양이가 있는지, 177 00:11:11,173 --> 00:11:13,076 어디에 있는지 말해줍니다. 178 00:11:13,076 --> 00:11:15,188 물론 고양이 이외의 것도 인식할 수 있고, 179 00:11:15,188 --> 00:11:17,626 여기서 컴퓨터 알고리즘은 사진 속에 180 00:11:17,626 --> 00:11:20,900 소년과 테디 베어가 있다고 말해줍니다. 181 00:11:20,900 --> 00:11:25,266 개, 사람, 배경에 작은 연이 있습니다. 182 00:11:25,266 --> 00:11:28,401 또는 많은 것이 찍힌 사진에서 183 00:11:28,401 --> 00:11:33,045 사람, 스케이트 보드, 난간, 가로등 같은 것을 가려냅니다. 184 00:11:33,045 --> 00:11:38,338 때때로 컴퓨터가 보는 것이 무엇인지 확신하지 못할 때는 185 00:11:39,498 --> 00:11:41,774 우리는 컴퓨터를 가르쳐서 186 00:11:41,774 --> 00:11:45,652 억측을 하기 보다는 안전한 대답을 하게 합니다. 187 00:11:45,652 --> 00:11:48,463 사람과 마찬가지죠. 188 00:11:48,463 --> 00:11:53,129 반면 컴퓨터 알고리즘은 놀랍게도 189 00:11:53,129 --> 00:11:55,382 사물이 정확히 무엇인지 말해주기도 합니다. 190 00:11:55,382 --> 00:11:58,818 자동차의 차종, 모델, 연식 같은 것이죠. 191 00:11:58,818 --> 00:12:04,204 수백개 미국 도시에서 찍은 구글 스크리트 뷰 이미지 192 00:12:04,204 --> 00:12:07,339 수백만장에 알고리즘을 적용했더니 193 00:12:07,339 --> 00:12:10,265 흥미로운 것을 발견했습니다. 194 00:12:10,265 --> 00:12:13,585 먼저, 일반적으로 예상하듯이 195 00:12:13,585 --> 00:12:16,875 자동차 가격이 가계 수입과 196 00:12:16,875 --> 00:12:19,220 매우 관련이 있다는 것이었습니다. 197 00:12:19,220 --> 00:12:23,747 하지만 놀랍게도, 자동차 가격은 198 00:12:23,747 --> 00:12:26,047 도시의 범죄율과도 관련이 있었고, 199 00:12:27,007 --> 00:12:30,970 도시구역별 투표 경향과도 관련이 있었습니다. 200 00:12:32,060 --> 00:12:34,266 잠깐만요. 그런가요? 201 00:12:34,266 --> 00:12:39,419 컴퓨터는 이미 인간의 능력을 따라잡거나 추월한 것인가요? 202 00:12:39,419 --> 00:12:41,557 그렇지는 않습니다. 203 00:12:41,557 --> 00:12:46,480 지금까지 우리는 컴퓨터에 사물 인식을 가르쳤을 뿐이에요. 204 00:12:46,480 --> 00:12:51,124 마치 어린 아이가 명사 몇개를 배운 것과 같죠. 205 00:12:51,124 --> 00:12:53,794 엄청난 성과이지만 206 00:12:53,794 --> 00:12:56,254 그저 첫 걸음에 불과합니다. 207 00:12:56,254 --> 00:13:00,016 곧 다음 개발 목표에 이를 것이고, 208 00:13:00,016 --> 00:13:03,477 어린 아이는 문장으로 소통을 하기 시작할 겁니다. 209 00:13:03,477 --> 00:13:07,701 그래서 사진을 보고 '고양이입니다' 하는 대신 210 00:13:07,701 --> 00:13:12,903 여러분이 이미 들었듯 '고양이가 침대에 누워 있다'고 합니다. 211 00:13:12,903 --> 00:13:18,498 컴퓨터가 사진을 보고 문장을 만들게 가르치려면, 212 00:13:18,498 --> 00:13:22,446 빅 데이터와 기계 학습 알고리즘의 결합이 213 00:13:22,446 --> 00:13:24,721 또 한발짝 나아가야 합니다. 214 00:13:24,721 --> 00:13:28,877 이제 컴퓨터는 사진 뿐만 아니라 215 00:13:28,877 --> 00:13:31,733 사람이 만든 자연 언어 문장도 216 00:13:31,733 --> 00:13:35,055 배워야 합니다. 217 00:13:35,055 --> 00:13:38,908 뇌가 시각과 언어를 결합하듯이, 218 00:13:38,908 --> 00:13:44,109 우리가 개발한 모델은 이미지의 단편과 같은 219 00:13:44,109 --> 00:13:46,013 시각적 요소를 220 00:13:46,013 --> 00:13:50,216 문장 속 단어나 문구와 연결합니다. 221 00:13:50,216 --> 00:13:52,979 약 4달 전 222 00:13:52,979 --> 00:13:55,626 우리는 마침내 이 모두를 엮어 223 00:13:55,626 --> 00:13:59,410 최초의 컴퓨터 비전 모델 하나를 만들었습니다. 224 00:13:59,410 --> 00:14:03,404 사진을 처음 보았을때 사람과 같이 225 00:14:03,404 --> 00:14:06,910 문장을 만들어내는 모델입니다. 226 00:14:06,910 --> 00:14:11,554 이제, 여러분께 컴퓨터가 사진을 보고 227 00:14:11,554 --> 00:14:13,529 말하는 것을 보여드리겠습니다. 228 00:14:13,529 --> 00:14:17,359 앞서 어린 소녀가 봤던 사진입니다. 229 00:14:18,999 --> 00:14:22,863 (컴퓨터) "남자가 코끼리 옆에 서 있습니다." 230 00:14:24,393 --> 00:14:28,027 "큰 비행기가 공항 활주로 끝에 있습니다." 231 00:14:29,057 --> 00:14:33,269 물론, 우리는 여전히 알고리즘을 개량하려고 일하고 있고 232 00:14:33,269 --> 00:14:35,555 배워야 할 게 많습니다. 233 00:14:35,555 --> 00:14:38,156 (박수) 234 00:14:39,556 --> 00:14:42,877 컴퓨터는 여전히 실수를 저지릅니다. 235 00:14:42,877 --> 00:14:46,268 (컴퓨터) "고양이가 침대 위 이불 안에 있습니다." 236 00:14:46,268 --> 00:14:48,821 고양이를 너무 많이 봐서 237 00:14:48,821 --> 00:14:51,747 뭐든지 고양이로 보이는지도 모르죠. 238 00:14:53,317 --> 00:14:56,181 (컴퓨터) "어린 소년이 야구 방망이를 들고 있습니다." 239 00:14:56,181 --> 00:14:57,946 (웃음) 240 00:14:57,946 --> 00:15:02,529 칫솔을 본 적이 없다면 야구 방망이와 혼동합니다. 241 00:15:03,309 --> 00:15:06,743 (컴퓨터) "남자가 말을 타고 건물 옆 길을 내려갑니다." 242 00:15:06,743 --> 00:15:08,766 (웃음) 243 00:15:08,766 --> 00:15:12,318 우리는 컴퓨터에게 미술을 가르치지 않았습니다. 244 00:15:13,768 --> 00:15:16,652 (컴퓨터) "얼룩말이 초원에 서있습니다" 245 00:15:16,652 --> 00:15:20,019 컴퓨터는 자연의 경이로운 아름다움에 감상하는 것을 246 00:15:20,019 --> 00:15:22,457 배우지도 않았습니다. 247 00:15:22,457 --> 00:15:25,289 이는 오랜 여정이었습니다. 248 00:15:25,289 --> 00:15:29,515 0세에서 3세까지 가는 건 힘들었습니다. 249 00:15:29,515 --> 00:15:35,111 하지만 진짜 도전은 3세에서 13세, 그 이상으로 나아가는 것입니다. 250 00:15:35,111 --> 00:15:39,476 이 소년과 케이크의 사진을 다시 보시죠. 251 00:15:39,476 --> 00:15:43,540 지금까지 우리는 컴퓨터에 사물을 식별하고 252 00:15:43,540 --> 00:15:47,998 간단한 말을 하는 것을 가르쳤습니다. 253 00:15:47,998 --> 00:15:51,574 (컴퓨터) "한 사람이 케이크가 있는 테이블에 앉아 있습니다." 254 00:15:51,574 --> 00:15:54,204 그러나 이 사진에는 사람과 케이크 이외에 255 00:15:54,204 --> 00:15:56,474 더 많은 것이 들어있죠. 256 00:15:56,474 --> 00:16:00,941 컴퓨터가 보지 못하는 것은 이 특별한 이태리 케이크가 257 00:16:00,941 --> 00:16:04,158 부활절에만 먹는 것이란 겁니다. 258 00:16:04,158 --> 00:16:07,363 소년은 자기가 좋아하는 티셔츠를 입고 있는데 259 00:16:07,363 --> 00:16:11,333 아이 아버지가 시드니 여행을 다녀와 선물로 준 것입니다. 260 00:16:11,333 --> 00:16:15,141 여러분과 저는 이 아이가 얼마나 기뻐하는지, 261 00:16:15,141 --> 00:16:18,344 저 순간 무슨 생각을 하는지 이야기할 수 있습니다. 262 00:16:19,214 --> 00:16:22,339 제 아들 레오입니다. 263 00:16:22,339 --> 00:16:24,963 시각 지능에 대한 탐구를 하며 264 00:16:24,963 --> 00:16:27,354 저는 항상 레오와 265 00:16:27,354 --> 00:16:30,257 레오가 살 미래세계를 생각합니다. 266 00:16:30,257 --> 00:16:32,278 기계가 인식을 하게 되면, 267 00:16:32,278 --> 00:16:36,990 의사와 간호사는 쉬지 않는 기계 눈을 이용해 268 00:16:36,990 --> 00:16:41,082 환자를 진단하고 돌볼 수 있겠지요. 269 00:16:41,082 --> 00:16:45,465 자동차는 더 똑똑하고 안전하게 도로를 주행할 겁니다. 270 00:16:45,465 --> 00:16:48,159 인간 뿐 아니라 로봇이 271 00:16:48,159 --> 00:16:53,008 재난 지역에서 갇히고 부상당한 사람을 구하는 걸 도울 겁니다. 272 00:16:53,798 --> 00:16:57,594 우리는 기계의 도움으로 새로운 종, 더 나은 물질을 발견하고 273 00:16:57,594 --> 00:17:02,103 보지 못한 개척지를 탐험하게 될 겁니다. 274 00:17:03,113 --> 00:17:07,280 조금씩 우리는 기계에게 시각을 주고 있습니다. 275 00:17:07,280 --> 00:17:10,078 처음에 우리는 기계에게 보는 것을 가르쳤습니다. 276 00:17:10,078 --> 00:17:12,840 다음엔, 기계가 우리를 도와 더 잘 보게 할 겁니다. 277 00:17:12,840 --> 00:17:17,006 처음으로, 인간의 눈이 아닌 것이 278 00:17:17,006 --> 00:17:19,940 세계를 생각하고 탐험하게 되었습니다. 279 00:17:19,940 --> 00:17:23,400 우리는 인공지능 때문에 기계를 이용할 뿐만 아니라 280 00:17:23,400 --> 00:17:29,579 상상치 못했던 방식으로 기계와 협력하게 될 것입니다. 281 00:17:29,579 --> 00:17:31,740 이것이 제 탐구입니다. 282 00:17:31,740 --> 00:17:34,452 컴퓨터에 시각 지능을 부여하는 것, 283 00:17:34,452 --> 00:17:39,583 그리고 레오와 세계를 위해서 더 나은 미래를 만드는 것입니다. 284 00:17:39,583 --> 00:17:41,394 감사합니다. 285 00:17:41,394 --> 00:17:45,179 (박수)