WEBVTT

00:00:00.825 --> 00:00:01.976
십년 전 만해도

00:00:02.000 --> 00:00:04.776
컴퓨터 시각 연구자들은

00:00:04.800 --> 00:00:07.496
개와 고양이를 컴퓨터가 
구별해 내는 것은

00:00:07.520 --> 00:00:09.496
거의 불가능하다 생각했습니다.

00:00:09.520 --> 00:00:13.216
아무리 인공지능이
발전해도 말이지요.

00:00:13.240 --> 00:00:16.800
지금은 99% 이상 정확하게
그 일이 가능한데,

00:00:17.680 --> 00:00:19.536
이것을 '이미지 분류' 라고 합니다.

00:00:19.560 --> 00:00:22.656
이미지 마다 이름표를 붙여주면

00:00:22.680 --> 00:00:25.720
컴퓨터는 수천 개의 다른 
유형까지 알아냅니다.

NOTE Paragraph

00:00:26.680 --> 00:00:29.576
저는 워싱턴 대학교에서
석사과정을 밟고 있고

00:00:29.600 --> 00:00:31.496
'다크넷' 이라 불리는 
프로젝트를 연구하고 있습니다.

00:00:31.520 --> 00:00:33.032
일종의 신경망 체제의 프로그램인데

00:00:34.544 --> 00:00:36.056
컴퓨터 시각 견본을 
교육하고 실험하는데 쓰입니다.

00:00:36.080 --> 00:00:39.056
자 이제, 
'다크넷'이 어떤 식으로 


00:00:39.080 --> 00:00:40.840
이 이미지를 인식하는지 보겠습니다.

00:00:42.520 --> 00:00:44.856
지금 이 이미지에

00:00:44.880 --> 00:00:46.096
저희가 개발한 선별법을 적용하면

00:00:46.120 --> 00:00:48.576
단지 개 또는 고양이의 
예측 뿐만 아니라

00:00:48.600 --> 00:00:50.936
자세한 종까지도 알아 낼 수 있습니다.

00:00:50.960 --> 00:00:53.136
이미 이 정도로 
세밀한 수준에 올라와 있습니다.

00:00:53.160 --> 00:00:54.776
아주 정확하기까지 합니다.

00:00:54.800 --> 00:00:56.640
제 반려견은 말라뮤트 입니다.

NOTE Paragraph

00:00:57.040 --> 00:01:01.376
'이미지 선별법'이 엄청나게 
발전을 해왔는데

00:01:01.400 --> 00:01:03.400
이런 종류의 이미지에 
저희 선별법을 적용시키면

00:01:03.424 --> 00:01:05.384
과연 어떤 결과가 나올까요?

00:01:07.080 --> 00:01:08.280
자...

00:01:12.640 --> 00:01:16.536
대략 비슷한 예측을 
하는 것을 볼 수 있습니다.

00:01:16.560 --> 00:01:19.656
맞습니다, 사진에 말라뮤트가 있죠.

00:01:19.680 --> 00:01:23.376
하지만 이 정도로는 어떤 장면인지

00:01:23.400 --> 00:01:25.067
많은 것을 알 수 없습니다.

00:01:25.091 --> 00:01:26.651
좀 더 효과적인 것이 필요하겠지요.

00:01:27.240 --> 00:01:29.856
저는 지금 '사물감지'라 불리는 
문제에 대해 연구하고 있습니다.

00:01:29.880 --> 00:01:32.816
한 이미지 안에 있는 
모든 사물들을 찾아내서

00:01:32.840 --> 00:01:34.296
테두리 상자를 치고

00:01:34.320 --> 00:01:35.840
그것이 무엇인지 맞추는 것입니다.

00:01:36.400 --> 00:01:39.680
여기에 감지법을 적용하면
어떻게 되는지 보겠습니다.

NOTE Paragraph

00:01:41.240 --> 00:01:43.496
자, 이런 식의 결과라면

00:01:43.520 --> 00:01:46.216
컴퓨터 시각 알고리듬으로
더 많은 것을 해낼 수 있겠군요.

00:01:46.240 --> 00:01:49.216
이제 이미지 안에 고양이와 개가 있고

00:01:49.240 --> 00:01:51.496
대략 그들의 위치

00:01:51.520 --> 00:01:52.736
그리고 크기까지 파악하고 있습니다.

00:01:52.760 --> 00:01:54.696
그외 다른 정보들까지 
알고 있을지도 모르겠네요.

00:01:54.720 --> 00:01:56.680
저 뒤 쪽에 책 한 권이 있네요.

00:01:57.280 --> 00:02:00.536
이 컴퓨터 시각을 이용해서 
어떤 시스템을 개발한다면,

00:02:00.560 --> 00:02:04.016
자율주행 자동차나 로봇 시스템일텐데

00:02:04.040 --> 00:02:06.496
바로 이런 것들이 
여러분들이 원하는 정보일 겁니다.

00:02:06.520 --> 00:02:09.759
물리적 세계와 교감을 
가능하게 하는 것들 말이지요.

00:02:10.759 --> 00:02:13.016
자, 제가 처음으로 
'사물감지' 연구에 들어갔을 때

00:02:13.040 --> 00:02:16.336
이미지 하나를 처리하는데 
20초가 걸렸습니다.

00:02:16.360 --> 00:02:20.240
이 분야에서 왜 속도가 
중요한지 알고 싶다면

00:02:21.120 --> 00:02:23.656
여기 사물감지기능의 한 예가 있습니다.

00:02:23.680 --> 00:02:26.096
이미지 하나를 처리하는데
2초 밖에 걸리지 않습니다.

00:02:26.120 --> 00:02:28.736
20초 짜리 감지기능보다는

00:02:28.760 --> 00:02:32.296
10배나 빠른 속도이지요.

00:02:32.320 --> 00:02:34.976
보시는 것 처럼, 이 기능이 
예측을 하기 시작할 때면

00:02:35.000 --> 00:02:37.040
이미 벌어지고 상황은 
바뀌어 있을 테니까

00:02:37.880 --> 00:02:40.296
응용 프로그램으로는

00:02:40.320 --> 00:02:41.736
별 효용이 없을 겁니다.

NOTE Paragraph

00:02:41.760 --> 00:02:44.256
만일 10배를 더 빠르게 한다면

00:02:44.280 --> 00:02:47.096
초당 다섯 장면을 처리하는
감지기능이 됩니다.

00:02:47.120 --> 00:02:48.656
훨씬 낫죠.

00:02:48.680 --> 00:02:50.656
하지만 만일,

00:02:50.680 --> 00:02:52.976
여기서 더 큰 발전이 없다면

00:02:53.000 --> 00:02:55.560
이 정도의 시스템이 제 차를 
운전하기를 원친 않겠지요.

NOTE Paragraph

00:02:57.120 --> 00:03:00.360
이것이 제 노트북에서 실시간으로 
작동되고 있는 감지 시스템입니다.

00:03:01.000 --> 00:03:04.136
아주 부드럽게 제가 틀안에서 
움직이는 대로 따라오죠.

00:03:04.160 --> 00:03:07.880
아무 문제가 없습니다.
다양한 크기

00:03:09.440 --> 00:03:10.640
자세

00:03:11.280 --> 00:03:13.136
앞뒤 움직임에도

00:03:13.160 --> 00:03:14.376
훌륭하죠.

00:03:14.400 --> 00:03:16.136
이런 것이 바로 
우리에게 필요한 것입니다.

00:03:16.160 --> 00:03:19.056
컴퓨터 시각을 이용한 
시스템을 개발할 때 말이지요.

NOTE Paragraph

00:03:19.080 --> 00:03:23.080
(박수)

NOTE Paragraph

00:03:24.280 --> 00:03:26.456
불과 몇년 만에

00:03:26.480 --> 00:03:29.136
한 이미지를 처리하는 시간이 20초에서

00:03:29.160 --> 00:03:32.696
500분의 1초로, 
천배나 빨라졌습니다.

00:03:32.720 --> 00:03:34.136
어떻게 가능했을까요?

00:03:34.160 --> 00:03:37.176
과거에는, 사물감지 시스템들은

00:03:37.200 --> 00:03:39.136
이런 이미지를 가지고

00:03:39.160 --> 00:03:41.616
여러 영역으로 잘라내서

00:03:41.640 --> 00:03:44.896
각 영역 마다 선별작업을 실행하고

00:03:44.920 --> 00:03:47.456
그 선별작업에서 산출된 
가장 높은 점수들이

00:03:47.480 --> 00:03:50.616
이미지의 감지로 
간주되는 방식이었습니다.

00:03:50.640 --> 00:03:54.696
하지만, 감지를 하기까지 한 이미지에 
수천 번의 분류작업이

00:03:54.720 --> 00:03:57.640
또 수천 번의 신경망 감정을
거쳐야 했습니다.

00:03:59.240 --> 00:04:03.776
대신에, 우리는 단일 네트워크로
모든 탐지가 가능케 했습니다.

00:04:03.800 --> 00:04:08.080
모든 테두리 상자와 분류 개연성을 
동시에 처리해 내는 것이지요.

00:04:08.680 --> 00:04:12.176
저희 시스템에서는 감지를 해내기 위해

00:04:12.200 --> 00:04:13.656
한 이미지를 수천 번이 아니라

00:04:13.680 --> 00:04:14.936
단 한 번 보는 것으로 가능하고

00:04:14.960 --> 00:04:17.880
저희가 이것을 사물감지의 '욜로'법 으로 
부르는 이유입니다.

00:04:19.360 --> 00:04:23.336
이 속도로는, 이미지 뿐만 아니라

00:04:23.360 --> 00:04:25.776
동영상도 실시간으로 
처리할 수 있습니다.

00:04:25.800 --> 00:04:28.896
이제는 단순히 개와 고양이를 
인지하는 것을 넘어서

00:04:28.920 --> 00:04:31.880
그들이 돌아다니는 것도, 
서로 어울리는 것도 볼 수 있습니다.

NOTE Paragraph

00:04:34.560 --> 00:04:36.616
이것이 저희가 개발해낸 
감지기능입니다.

00:04:36.640 --> 00:04:41.016
마이크로소프트의 
코코 데이터 세트 안에서

00:04:41.040 --> 00:04:44.296
80개의 등급에 적용시켜 
얻어낸 것이지요.

00:04:44.320 --> 00:04:47.656
숟가락, 포크, 그릇 같이 
평범한 물건들이

00:04:47.680 --> 00:04:49.480
다양하게 있네요.

00:04:50.360 --> 00:04:53.456
좀 특이한 것들도 보이지요.

00:04:53.480 --> 00:04:56.736
동물, 자동차, 얼룩말, 기린.

00:04:56.760 --> 00:04:58.696
재미난 걸 한번 해볼까요.

00:04:58.720 --> 00:05:00.816
방청석으로 들어가서

00:05:00.840 --> 00:05:02.856
어떤 물건들이 감지되는지 보겠습니다.

00:05:02.880 --> 00:05:04.500
동물인형 갖고 싶으신 분?

00:05:06.000 --> 00:05:07.762
저기 곰인형도 몇개 있네요.

00:05:10.040 --> 00:05:14.576
감지한계치를 조금 낮추면,

00:05:14.600 --> 00:05:18.000
더 많은 분들이 화면에 잡히겠지요.

00:05:19.560 --> 00:05:21.896
이 정지표지판들도 
잡아낼 수 있는지 보겠습니다.

00:05:21.920 --> 00:05:23.800
배낭도 몇개 보이네요.

00:05:25.880 --> 00:05:27.720
조금 가까이 당겨 보지요.

00:05:30.320 --> 00:05:31.576
좋습니다.

00:05:31.600 --> 00:05:34.776
이 모든 것이 컴퓨터에서 실시간으로

00:05:34.800 --> 00:05:36.000
처리되고 있습니다.

NOTE Paragraph

00:05:37.080 --> 00:05:38.536
꼭 알아둘 것은

00:05:38.560 --> 00:05:41.776
이것이 총괄적인 
사물감지 시스템이란 것입니다.

00:05:41.800 --> 00:05:46.800
그래야 어떠한 이미지 종류에도 
적용시킬 수 있겠지요.

00:05:48.320 --> 00:05:50.856
동일한 코드가


00:05:50.880 --> 00:05:53.336
정지표지판 또는 보행자

00:05:53.360 --> 00:05:55.336
자율주행 자동차 안의 자전거들을
찾아내기도 하고

00:05:55.360 --> 00:05:58.216
조직검사를 통해 암세포를

00:05:58.240 --> 00:06:01.256
찾아낼 때도 사용될 수 있습니다.

00:06:01.280 --> 00:06:05.320
이미 세계 곳곳의 연구원들이 이 기술을

00:06:06.240 --> 00:06:09.656
의학과 로봇공학의 발전 등에
쓰고 있습니다.

00:06:09.680 --> 00:06:11.056
오늘 아침 신문에

00:06:11.080 --> 00:06:15.656
나이로비 국립공원의 동물 수 조사에

00:06:15.680 --> 00:06:18.816
욜로가 감지 시스템의 일부로 
사용된다고 나왔더군요.

00:06:18.840 --> 00:06:21.936
다크넷이 오픈소스이기도 하고

00:06:21.960 --> 00:06:24.480
모두가 무료로 사용할 수 
있도록 열려있기 때문입니다.

NOTE Paragraph

00:06:25.600 --> 00:06:31.296
(박수)

NOTE Paragraph

00:06:31.320 --> 00:06:36.256
그런데, 저희는 감지기능의 
접근성과 사용성을 더 높이고 싶었고

00:06:36.280 --> 00:06:40.336
견본 최적화

00:06:40.360 --> 00:06:42.656
네트워크 이진화와 근사치의 
적절한 조화를 통해서

00:06:42.680 --> 00:06:46.600
이제 휴대전화에서도
사물감지가 가능하게 했습니다.

NOTE Paragraph

00:06:52.800 --> 00:06:58.120
(박수)

NOTE Paragraph

00:06:58.960 --> 00:07:04.016
아주 흥분되는데요. 왜냐면 
급이 낮은 컴퓨터 시각 문제점들을

00:07:04.040 --> 00:07:06.336
해결할 아주 효과적인 
방법이 있으니까요.

00:07:06.360 --> 00:07:10.216
누구나 이 기술을 가지고 
원하는 것들을 만들어 낼 수 있습니다.

00:07:10.240 --> 00:07:13.416
이제 나머지는 
여러분들의 몫이고요.

00:07:13.440 --> 00:07:16.376
또 이 소프트웨어를 사용하는 
세상의 모든 분들의 몫입니다.

00:07:16.400 --> 00:07:20.056
이 기술로 사람들이 어떤 것들을 
만들어 낼지 너무 기대됩니다.

NOTE Paragraph

00:07:20.080 --> 00:07:21.058
감사합니다.

00:07:21.058 --> 00:07:23.648
(박수)