어떻게 컴퓨터가 사진을 이해하게 되었는가
-
0:02 - 0:06이걸 보시죠.
-
0:06 - 0:10(영상) 소녀: "고양이가
침대에 앉아 있습니다." -
0:10 - 0:14"소년이 코끼리를 쓰다듬고 있습니다."
-
0:14 - 0:18"사람들이 비행기에 타고 있습니다."
-
0:18 - 0:21"큰 비행기입니다."
-
0:21 - 0:27이건 세 살짜리 아이가
사진을 보고 설명하는 것입니다. -
0:27 - 0:30그녀는 아직 이 세상에 대해
배울 것이 많지만, -
0:30 - 0:35한 가지 일에서만큼은
이미 전문가 수준입니다. -
0:35 - 0:38본 것을 이해하는 일이죠.
-
0:38 - 0:42우리 사회는 그 어느 때보다
기술적으로 진보하고 있습니다. -
0:42 - 0:46우리는 달에 사람을 보내고,
말을 하는 전화를 만들거나 -
0:46 - 0:51좋아하는 곡만 방송하는
맞춤형 라디오를 만듭니다. -
0:51 - 0:55그러나 첨단 기계와 컴퓨터로도
-
0:55 - 0:58애를 먹는 일이 있습니다.
-
0:58 - 1:01저는 오늘 컴퓨터 비전 연구의
-
1:01 - 1:05최신 동향에 대해 말하고자 합니다
-
1:05 - 1:12컴퓨터 과학에서 가장
선도적이고 혁명적인 기술이죠. -
1:13 - 1:17스스로 운전하는 자동차
시험판을 만들더라도 -
1:17 - 1:21똑똑한 인식 능력이 없다면
-
1:21 - 1:25도로 위에 있는 것이
밟아도 될 종이 봉투인지 -
1:25 - 1:29피해야 할 돌덩이인지
구분할 수 없습니다. -
1:29 - 1:33수백만 화소의 엄청난
카메라를 만들더라도 -
1:33 - 1:36시각장애인의 눈이 되지는 못합니다.
-
1:36 - 1:40무인기가 광활한 땅을 날 수 있어도
-
1:40 - 1:42컴퓨터 비전 기술이 없으면
-
1:42 - 1:45열대 우림의 변화를 추적하지 못합니다.
-
1:45 - 1:48감시 카메라가 도처에 있어도
-
1:48 - 1:53수영장에서 물에 빠진 아이를 보고
우리에게 경고해 주지는 않습니다. -
1:54 - 2:00사진과 비디오는 지구 생활의
불가결한 부분이 되고 있습니다. -
2:00 - 2:04어떤 개인이나 단체가
다 볼 수 없을 분량의 -
2:04 - 2:07영상이 만들어지고 있습니다.
-
2:07 - 2:11여기 TED도 일조하고 있지요.
-
2:11 - 2:16그러나 가장 진보한
소프트웨어도 아직까지는 -
2:16 - 2:20이 방대한 영상을 이해하고
관리하는데 애를 먹고 있습니다. -
2:20 - 2:25달리 말하자면 사회 전체적으로
-
2:25 - 2:27우리는 장님과 같습니다.
-
2:27 - 2:30우리의 가장 똑똑한 기계가
아직까지 장님이니까요. -
2:32 - 2:34"그게 왜 어렵지?" 하고
물으실 수 있어요. -
2:34 - 2:37카메라는 이런 사진을 찍을 수 있고
-
2:37 - 2:41빛을 숫자의 2차원 배열인
-
2:41 - 2:43픽셀로 변환할 수 있지만,
-
2:43 - 2:45이는 그저 죽은 숫자일 뿐입니다.
-
2:45 - 2:48그 자체에 의미는 없습니다.
-
2:48 - 2:52'들리는' 것과 '듣는' 것이
똑같지 않듯이 -
2:52 - 2:57사진을 '찍는' 것과 '보는' 것은
똑같지 않습니다. -
2:57 - 3:00'본다'는 말에는
'이해한다'는 뜻이 있습니다. -
3:01 - 3:07사실 자연은 5억 4천만년에 걸쳐
-
3:07 - 3:09이 작업을 했는데요.
-
3:09 - 3:11그 노력의 대부분은
-
3:11 - 3:17우리 뇌의 시각처리능력을
발달시키는데 소요되었고 -
3:17 - 3:19눈을 만드는데 소요되지 않았습니다.
-
3:19 - 3:22시각현상은 눈에서 시작되지만
-
3:22 - 3:26사실상 나타나는 곳은 뇌 안쪽이죠.
-
3:26 - 3:31저는 최근 15년간 캘리포니아
공대 박사 과정에서부터 -
3:31 - 3:34스탠포드대 컴퓨터
비전 연구실을 이끌기까지 -
3:34 - 3:39지도교수, 공동연구자, 학생들과 함께
-
3:39 - 3:42컴퓨터에게 '보는 법'을
가르쳐왔습니다. -
3:43 - 3:46저희 연구 분야를 컴퓨터 비전과
기계 학습이라고 합니다. -
3:46 - 3:50인공지능 일반 분야에 속하죠.
-
3:51 - 3:56궁극적으로 우리는 기계가
인간처럼 볼 수 있게 하려고 합니다. -
3:56 - 4:02물체와 사람을 식별하고,
3차원 기하구조를 추측하고, -
4:02 - 4:08관계, 감정, 행동과 의도를
이해하게 하는 겁니다. -
4:08 - 4:14여러분과 저는 한번 보기만 해도
-
4:14 - 4:16사람, 장소, 사물로
이야기를 엮어낼 수 있습니다. -
4:17 - 4:23이런 목표를 향한 첫걸음이
컴퓨터를 가르쳐 -
4:23 - 4:26사물, 시각 세계의 구성요소를
보게 하는 것입니다. -
4:26 - 4:30간단히 말해, 이런 학습 과정을
상상해보세요. -
4:30 - 4:33컴퓨터에 특정 사물의
훈련용 이미지를 보여줍니다. -
4:33 - 4:37고양이라고 해보죠.
-
4:37 - 4:41그리고 그 훈련용 이미지로
학습하는 모델을 설계합니다. -
4:41 - 4:43간단하게 들리는데요.
얼마나 어려울 수 있을까요? -
4:43 - 4:47고양이는 모양과 색깔의 집합이고,
-
4:47 - 4:52이것이 우리가 초창기
객체 모델링으로 한 일이죠. -
4:52 - 4:55우리는 컴퓨터 알고리즘을
수학적 언어로 표현합니다. -
4:55 - 4:59고양이는 둥근 얼굴과 통통한 몸,
-
4:59 - 5:01두 개의 뾰족한 귀,
긴 꼬리가 있다고 가르칩니다. -
5:01 - 5:02다 괜찮아 보였습니다.
-
5:03 - 5:05그런데 이 고양이는 어떨까요?
-
5:05 - 5:06(웃음)
-
5:06 - 5:08몸을 말고 있습니다.
-
5:08 - 5:12이제 객체 모델에 다른 모양과
관점을 추가합니다. -
5:12 - 5:14그런데 만약 고양이가 숨어 있으면요?
-
5:15 - 5:17이런 웃기는 고양이들은요?
-
5:19 - 5:22이제 제 말을 아시겠죠.
-
5:22 - 5:25집안의 애완동물처럼 단순한 사물조차
-
5:25 - 5:29객체 모델에 무한한 변형이
존재할 수 있고, -
5:29 - 5:32그게 한 개의 객체일 뿐이죠.
-
5:33 - 5:35약 8년 전
-
5:35 - 5:40단순하고도 깊은 관찰이
제 생각을 바꾸었습니다. -
5:41 - 5:44아이에게 보는 법을 가르칠 순 없죠.
-
5:44 - 5:46특히 어린 시절에 말이죠.
-
5:46 - 5:51아이들은 현실세계의 경험과
사례로 보는 법을 배웁니다. -
5:51 - 5:54만약 아이의 눈을
-
5:54 - 5:57생물학적 카메라 한쌍이라 치면
-
5:57 - 6:01200밀리초마다 한 장씩
사진을 찍는 셈이죠. -
6:01 - 6:04눈이 움직이는 평균 시간이에요.
-
6:04 - 6:11아이는 세 살까지 수억장의
현실세계 사진을 보게 됩니다. -
6:11 - 6:14방대한 양의 학습 사례죠.
-
6:14 - 6:20그래서 제 생각엔 더 나은
알고리즘에만 집중하기보다, -
6:20 - 6:26알고리즘에 주는 학습 데이터를
-
6:26 - 6:29아이가 경험하는 것과 같이
만들어야 했습니다. -
6:29 - 6:33양적으로나 질적으로 말이죠.
-
6:33 - 6:35이걸 알게 되자,
-
6:35 - 6:42우리는 이전보다 훨씬 많은
데이터를 모아야 했습니다. -
6:42 - 6:45거의 수천배였죠.
-
6:45 - 6:49그래서 전 프린스턴 대학의
카이 리 교수와 함께 -
6:49 - 6:542007년 이미지넷 프로젝트를
시작했습니다. -
6:54 - 6:57다행히도 우리는
머리에 카메라를 매달고 -
6:57 - 6:59몇년씩 기다릴 필요는 없었습니다.
-
6:59 - 7:01인터넷이 있었거든요.
-
7:01 - 7:05인류가 만든 최대의 사진 창고죠.
-
7:05 - 7:08우리는 거의 10억장의 이미지를
다운로드했고 -
7:08 - 7:14아마존 MTurk 같은
크라우드 소싱 기술을 사용해 -
7:14 - 7:16이미지에 라벨을 붙였습니다.
-
7:16 - 7:21가장 최고치에서는 이미지넷이
-
7:21 - 7:24아마존 MTurk 일꾼들의
최대 고용주였습니다. -
7:24 - 7:285만명 가까운 작업자가
-
7:28 - 7:32세계 167개국에서
-
7:32 - 7:36약 10억장의 후보 이미지의
-
7:36 - 7:40정리 분류 작업을 도왔습니다.
-
7:41 - 7:43아이의 성장 초기에
-
7:43 - 7:47이미지의 일부라도 수집하는데
-
7:47 - 7:51얼마나 많은 노력이 드는가
하는 것과 같았죠. -
7:52 - 7:56지나고 보니, 컴퓨터 알고리즘의 훈련에
-
7:56 - 8:01빅데이터를 사용한다는 아이디어는
이제 확실한 것 같습니다만, -
8:01 - 8:052007년 당시에는 그렇지 않았습니다.
-
8:05 - 8:09우리 혼자 이런 일을 한 게
꽤 오래 됐습니다. -
8:09 - 8:14친절한 동료는 종신교수가 되려면
더 유용한 일을 하라고 조언했고, -
8:14 - 8:18우리는 늘 연구 자금 문제에 시달렸죠.
-
8:18 - 8:20저는 이미지넷의 자금 조달을 위해
세탁소를 다시 열어야겠다고 -
8:20 - 8:24대학원생들에게 농담을 했죠.
-
8:24 - 8:29제가 대학 학비를 마련한 방법이거든요.
-
8:29 - 8:31우리는 계속 진행했습니다.
-
8:31 - 8:352009년에 이미지넷 프로젝트는
-
8:35 - 8:39객체와 사물을 2만2천개 범주로 분류한
-
8:39 - 8:441천5백만장 이미지의
데이터베이스를 만들었고 -
8:44 - 8:47일상적인 영단어로 표현했습니다.
-
8:47 - 8:50양적으로나 질적으로나
-
8:50 - 8:53전례 없는 규모였죠.
-
8:53 - 8:56예를 들어, 고양이의 경우
-
8:56 - 8:596만 2천장의 이미지가
-
8:59 - 9:03다양한 모양과 자세,
-
9:03 - 9:08집고양이부터 들고양이까지
모든 종류를 망라합니다. -
9:08 - 9:12우리는 이미지넷을 만든 것에 흥분했고
-
9:12 - 9:16모든 연구자들과 혜택을
나누고자 했습니다. -
9:16 - 9:20그래서 TED 방식으로 모든 데이터를
-
9:20 - 9:23전세계의 연구자 커뮤니티에
무료로 공개했습니다. -
9:25 - 9:29(박수)
-
9:29 - 9:34이제 우리는 컴퓨터 두뇌에
영양을 공급할 데이터가 있고, -
9:34 - 9:38알고리즘 자체로 돌아올 준비가 되었죠.
-
9:38 - 9:43결과적으로 이미지넷의 풍부한 정보는
-
9:43 - 9:48기계 학습 알고리즘의
특정 분류에 딱 들어맞았는데, -
9:48 - 9:50이를 합성곱 신경망이라고 합니다.
-
9:50 - 9:55쿠니히코 후쿠시마,
제프리 힌튼, 양 루캉이 -
9:55 - 9:591970~80년대에 개척한 영역이죠.
-
9:59 - 10:05마치 뇌가 고도로 연결된 뉴런
수십억개로 구성된 것처럼 -
10:05 - 10:08신경망의 기본 단위는
-
10:08 - 10:11뉴런과 같은 노드입니다.
-
10:11 - 10:13다른 노드에서 입력을 받고
-
10:13 - 10:16다른 노드로 출력을 보냅니다.
-
10:16 - 10:21게다가 이런 수십만, 수백만의 노드는
-
10:21 - 10:24계층 형태로 조직화됩니다.
-
10:24 - 10:27뇌와 마찬가지죠.
-
10:27 - 10:31우리가 사물 인식 모델을 훈련하려고
사용한 전형적인 신경망에는 -
10:31 - 10:352천4백만의 노드,
-
10:35 - 10:381억4천만의 매개변수,
-
10:38 - 10:41150억의 결합이 존재합니다.
-
10:41 - 10:43어마어마한 모델이죠.
-
10:43 - 10:47이미지넷의 방대한 데이터와
-
10:47 - 10:52현대의 CPU와 GPU에 힘입어
-
10:52 - 10:55합성곱 신경망은
-
10:55 - 10:58아무도 예상치 못한 방식으로
꽃피었습니다. -
10:58 - 11:01사물의 인식에 있어
-
11:01 - 11:06흥미롭고도 새로운 결과를 내는
우수한 구조가 되었습니다. -
11:06 - 11:09이 컴퓨터는 우리에게
-
11:09 - 11:11이 사진에 고양이가 있는지,
-
11:11 - 11:13어디에 있는지 말해줍니다.
-
11:13 - 11:15물론 고양이 이외의 것도
인식할 수 있고, -
11:15 - 11:18여기서 컴퓨터 알고리즘은 사진 속에
-
11:18 - 11:21소년과 테디 베어가 있다고 말해줍니다.
-
11:21 - 11:25개, 사람, 배경에 작은 연이 있습니다.
-
11:25 - 11:28또는 많은 것이 찍힌 사진에서
-
11:28 - 11:33사람, 스케이트 보드, 난간,
가로등 같은 것을 가려냅니다. -
11:33 - 11:38때때로 컴퓨터가 보는 것이 무엇인지
확신하지 못할 때는 -
11:39 - 11:42우리는 컴퓨터를 가르쳐서
-
11:42 - 11:46억측을 하기 보다는
안전한 대답을 하게 합니다. -
11:46 - 11:48사람과 마찬가지죠.
-
11:48 - 11:53반면 컴퓨터 알고리즘은 놀랍게도
-
11:53 - 11:55사물이 정확히 무엇인지
말해주기도 합니다. -
11:55 - 11:59자동차의 차종, 모델,
연식 같은 것이죠. -
11:59 - 12:04수백개 미국 도시에서 찍은
구글 스크리트 뷰 이미지 -
12:04 - 12:07수백만장에 알고리즘을 적용했더니
-
12:07 - 12:10흥미로운 것을 발견했습니다.
-
12:10 - 12:14먼저, 일반적으로 예상하듯이
-
12:14 - 12:17자동차 가격이 가계 수입과
-
12:17 - 12:19매우 관련이 있다는 것이었습니다.
-
12:19 - 12:24하지만 놀랍게도, 자동차 가격은
-
12:24 - 12:26도시의 범죄율과도 관련이 있었고,
-
12:27 - 12:31도시구역별 투표 경향과도
관련이 있었습니다. -
12:32 - 12:34잠깐만요. 그런가요?
-
12:34 - 12:39컴퓨터는 이미 인간의 능력을
따라잡거나 추월한 것인가요? -
12:39 - 12:42그렇지는 않습니다.
-
12:42 - 12:46지금까지 우리는 컴퓨터에
사물 인식을 가르쳤을 뿐이에요. -
12:46 - 12:51마치 어린 아이가 명사 몇개를
배운 것과 같죠. -
12:51 - 12:54엄청난 성과이지만
-
12:54 - 12:56그저 첫 걸음에 불과합니다.
-
12:56 - 13:00곧 다음 개발 목표에 이를 것이고,
-
13:00 - 13:03어린 아이는 문장으로
소통을 하기 시작할 겁니다. -
13:03 - 13:08그래서 사진을 보고
'고양이입니다' 하는 대신 -
13:08 - 13:13여러분이 이미 들었듯
'고양이가 침대에 누워 있다'고 합니다. -
13:13 - 13:18컴퓨터가 사진을 보고
문장을 만들게 가르치려면, -
13:18 - 13:22빅 데이터와 기계 학습
알고리즘의 결합이 -
13:22 - 13:25또 한발짝 나아가야 합니다.
-
13:25 - 13:29이제 컴퓨터는 사진 뿐만 아니라
-
13:29 - 13:32사람이 만든 자연 언어 문장도
-
13:32 - 13:35배워야 합니다.
-
13:35 - 13:39뇌가 시각과 언어를 결합하듯이,
-
13:39 - 13:44우리가 개발한 모델은
이미지의 단편과 같은 -
13:44 - 13:46시각적 요소를
-
13:46 - 13:50문장 속 단어나 문구와 연결합니다.
-
13:50 - 13:53약 4달 전
-
13:53 - 13:56우리는 마침내 이 모두를 엮어
-
13:56 - 13:59최초의 컴퓨터 비전 모델
하나를 만들었습니다. -
13:59 - 14:03사진을 처음 보았을때 사람과 같이
-
14:03 - 14:07문장을 만들어내는 모델입니다.
-
14:07 - 14:12이제, 여러분께 컴퓨터가 사진을 보고
-
14:12 - 14:14말하는 것을 보여드리겠습니다.
-
14:14 - 14:17앞서 어린 소녀가 봤던 사진입니다.
-
14:19 - 14:23(컴퓨터) "남자가
코끼리 옆에 서 있습니다." -
14:24 - 14:28"큰 비행기가 공항 활주로 끝에 있습니다."
-
14:29 - 14:33물론, 우리는 여전히 알고리즘을
개량하려고 일하고 있고 -
14:33 - 14:36배워야 할 게 많습니다.
-
14:36 - 14:38(박수)
-
14:40 - 14:43컴퓨터는 여전히 실수를 저지릅니다.
-
14:43 - 14:46(컴퓨터) "고양이가 침대 위
이불 안에 있습니다." -
14:46 - 14:49고양이를 너무 많이 봐서
-
14:49 - 14:52뭐든지 고양이로 보이는지도 모르죠.
-
14:53 - 14:56(컴퓨터) "어린 소년이
야구 방망이를 들고 있습니다." -
14:56 - 14:58(웃음)
-
14:58 - 15:03칫솔을 본 적이 없다면
야구 방망이와 혼동합니다. -
15:03 - 15:07(컴퓨터) "남자가 말을 타고
건물 옆 길을 내려갑니다." -
15:07 - 15:09(웃음)
-
15:09 - 15:12우리는 컴퓨터에게
미술을 가르치지 않았습니다. -
15:14 - 15:17(컴퓨터) "얼룩말이 초원에 서있습니다"
-
15:17 - 15:20컴퓨터는 자연의 경이로운
아름다움에 감상하는 것을 -
15:20 - 15:22배우지도 않았습니다.
-
15:22 - 15:25이는 오랜 여정이었습니다.
-
15:25 - 15:300세에서 3세까지 가는 건
힘들었습니다. -
15:30 - 15:35하지만 진짜 도전은 3세에서 13세,
그 이상으로 나아가는 것입니다. -
15:35 - 15:39이 소년과 케이크의 사진을
다시 보시죠. -
15:39 - 15:44지금까지 우리는 컴퓨터에
사물을 식별하고 -
15:44 - 15:48간단한 말을 하는 것을 가르쳤습니다.
-
15:48 - 15:52(컴퓨터) "한 사람이 케이크가 있는
테이블에 앉아 있습니다." -
15:52 - 15:54그러나 이 사진에는
사람과 케이크 이외에 -
15:54 - 15:56더 많은 것이 들어있죠.
-
15:56 - 16:01컴퓨터가 보지 못하는 것은
이 특별한 이태리 케이크가 -
16:01 - 16:04부활절에만 먹는 것이란 겁니다.
-
16:04 - 16:07소년은 자기가 좋아하는
티셔츠를 입고 있는데 -
16:07 - 16:11아이 아버지가 시드니 여행을
다녀와 선물로 준 것입니다. -
16:11 - 16:15여러분과 저는 이 아이가
얼마나 기뻐하는지, -
16:15 - 16:18저 순간 무슨 생각을 하는지
이야기할 수 있습니다. -
16:19 - 16:22제 아들 레오입니다.
-
16:22 - 16:25시각 지능에 대한 탐구를 하며
-
16:25 - 16:27저는 항상 레오와
-
16:27 - 16:30레오가 살 미래세계를 생각합니다.
-
16:30 - 16:32기계가 인식을 하게 되면,
-
16:32 - 16:37의사와 간호사는
쉬지 않는 기계 눈을 이용해 -
16:37 - 16:41환자를 진단하고 돌볼 수 있겠지요.
-
16:41 - 16:45자동차는 더 똑똑하고 안전하게
도로를 주행할 겁니다. -
16:45 - 16:48인간 뿐 아니라 로봇이
-
16:48 - 16:53재난 지역에서 갇히고 부상당한 사람을
구하는 걸 도울 겁니다. -
16:54 - 16:58우리는 기계의 도움으로
새로운 종, 더 나은 물질을 발견하고 -
16:58 - 17:02보지 못한 개척지를
탐험하게 될 겁니다. -
17:03 - 17:07조금씩 우리는 기계에게
시각을 주고 있습니다. -
17:07 - 17:10처음에 우리는 기계에게
보는 것을 가르쳤습니다. -
17:10 - 17:13다음엔, 기계가 우리를 도와
더 잘 보게 할 겁니다. -
17:13 - 17:17처음으로, 인간의 눈이 아닌 것이
-
17:17 - 17:20세계를 생각하고 탐험하게 되었습니다.
-
17:20 - 17:23우리는 인공지능 때문에
기계를 이용할 뿐만 아니라 -
17:23 - 17:30상상치 못했던 방식으로
기계와 협력하게 될 것입니다. -
17:30 - 17:32이것이 제 탐구입니다.
-
17:32 - 17:34컴퓨터에 시각 지능을 부여하는 것,
-
17:34 - 17:40그리고 레오와 세계를 위해서
더 나은 미래를 만드는 것입니다. -
17:40 - 17:41감사합니다.
-
17:41 - 17:45(박수)
- Title:
- 어떻게 컴퓨터가 사진을 이해하게 되었는가
- Speaker:
- 페이페이 리
- Description:
-
어린이가 사진을 볼 때, '고양이', '책', '의자'와 같이 단순한 것을 식별할 수 있습니다. 이제 컴퓨터도 그런 것을 할 수 있습니다. 그 다음은 뭘까요? 이 흥미로운 발표에서, 컴퓨터 비전 전문가 페이페이 리는 컴퓨터를 가르치는데 사용한 1천5백만장 사진 데이터베이스 이야기와 함께 기술의 현재와 다가올 미래에 대한 통찰을 설명합니다.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 17:58
Jihyeon J. Kim approved Korean subtitles for How we're teaching computers to understand pictures | ||
Jihyeon J. Kim edited Korean subtitles for How we're teaching computers to understand pictures | ||
Jihyeon J. Kim edited Korean subtitles for How we're teaching computers to understand pictures | ||
Jihyeon J. Kim edited Korean subtitles for How we're teaching computers to understand pictures | ||
Jihyeon J. Kim accepted Korean subtitles for How we're teaching computers to understand pictures | ||
Jihyeon J. Kim edited Korean subtitles for How we're teaching computers to understand pictures | ||
Jihyeon J. Kim edited Korean subtitles for How we're teaching computers to understand pictures | ||
Jihyeon J. Kim edited Korean subtitles for How we're teaching computers to understand pictures |