WEBVTT 00:00:00.825 --> 00:00:01.976 십년 전 만해도 00:00:02.000 --> 00:00:04.776 컴퓨터 시각 연구자들은 00:00:04.800 --> 00:00:07.496 개와 고양이를 컴퓨터가 구별해 내는 것은 00:00:07.520 --> 00:00:09.496 거의 불가능하다 생각했습니다. 00:00:09.520 --> 00:00:13.216 아무리 인공지능이 발전해도 말이지요. 00:00:13.240 --> 00:00:16.800 지금은 99% 이상 정확하게 그 일이 가능한데, 00:00:17.680 --> 00:00:19.536 이것을 '이미지 분류' 라고 합니다. 00:00:19.560 --> 00:00:22.656 이미지 마다 이름표를 붙여주면 00:00:22.680 --> 00:00:25.720 컴퓨터는 수천 개의 다른 유형까지 알아냅니다. NOTE Paragraph 00:00:26.680 --> 00:00:29.576 저는 워싱턴 대학교에서 석사과정을 밟고 있고 00:00:29.600 --> 00:00:31.496 '다크넷' 이라 불리는 프로젝트를 연구하고 있습니다. 00:00:31.520 --> 00:00:33.032 일종의 신경망 체제의 프로그램인데 00:00:34.544 --> 00:00:36.056 컴퓨터 시각 견본을 교육하고 실험하는데 쓰입니다. 00:00:36.080 --> 00:00:39.056 자 이제, '다크넷'이 어떤 식으로 00:00:39.080 --> 00:00:40.840 이 이미지를 인식하는지 보겠습니다. 00:00:42.520 --> 00:00:44.856 지금 이 이미지에 00:00:44.880 --> 00:00:46.096 저희가 개발한 선별법을 적용하면 00:00:46.120 --> 00:00:48.576 단지 개 또는 고양이의 예측 뿐만 아니라 00:00:48.600 --> 00:00:50.936 자세한 종까지도 알아 낼 수 있습니다. 00:00:50.960 --> 00:00:53.136 이미 이 정도로 세밀한 수준에 올라와 있습니다. 00:00:53.160 --> 00:00:54.776 아주 정확하기까지 합니다. 00:00:54.800 --> 00:00:56.640 제 반려견은 말라뮤트 입니다. NOTE Paragraph 00:00:57.040 --> 00:01:01.376 '이미지 선별법'이 엄청나게 발전을 해왔는데 00:01:01.400 --> 00:01:03.400 이런 종류의 이미지에 저희 선별법을 적용시키면 00:01:03.424 --> 00:01:05.384 과연 어떤 결과가 나올까요? 00:01:07.080 --> 00:01:08.280 자... 00:01:12.640 --> 00:01:16.536 대략 비슷한 예측을 하는 것을 볼 수 있습니다. 00:01:16.560 --> 00:01:19.656 맞습니다, 사진에 말라뮤트가 있죠. 00:01:19.680 --> 00:01:23.376 하지만 이 정도로는 어떤 장면인지 00:01:23.400 --> 00:01:25.067 많은 것을 알 수 없습니다. 00:01:25.091 --> 00:01:26.651 좀 더 효과적인 것이 필요하겠지요. 00:01:27.240 --> 00:01:29.856 저는 지금 '사물감지'라 불리는 문제에 대해 연구하고 있습니다. 00:01:29.880 --> 00:01:32.816 한 이미지 안에 있는 모든 사물들을 찾아내서 00:01:32.840 --> 00:01:34.296 테두리 상자를 치고 00:01:34.320 --> 00:01:35.840 그것이 무엇인지 맞추는 것입니다. 00:01:36.400 --> 00:01:39.680 여기에 감지법을 적용하면 어떻게 되는지 보겠습니다. NOTE Paragraph 00:01:41.240 --> 00:01:43.496 자, 이런 식의 결과라면 00:01:43.520 --> 00:01:46.216 컴퓨터 시각 알고리듬으로 더 많은 것을 해낼 수 있겠군요. 00:01:46.240 --> 00:01:49.216 이제 이미지 안에 고양이와 개가 있고 00:01:49.240 --> 00:01:51.496 대략 그들의 위치 00:01:51.520 --> 00:01:52.736 그리고 크기까지 파악하고 있습니다. 00:01:52.760 --> 00:01:54.696 그외 다른 정보들까지 알고 있을지도 모르겠네요. 00:01:54.720 --> 00:01:56.680 저 뒤 쪽에 책 한 권이 있네요. 00:01:57.280 --> 00:02:00.536 이 컴퓨터 시각을 이용해서 어떤 시스템을 개발한다면, 00:02:00.560 --> 00:02:04.016 자율주행 자동차나 로봇 시스템일텐데 00:02:04.040 --> 00:02:06.496 바로 이런 것들이 여러분들이 원하는 정보일 겁니다. 00:02:06.520 --> 00:02:09.759 물리적 세계와 교감을 가능하게 하는 것들 말이지요. 00:02:10.759 --> 00:02:13.016 자, 제가 처음으로 '사물감지' 연구에 들어갔을 때 00:02:13.040 --> 00:02:16.336 이미지 하나를 처리하는데 20초가 걸렸습니다. 00:02:16.360 --> 00:02:20.240 이 분야에서 왜 속도가 중요한지 알고 싶다면 00:02:21.120 --> 00:02:23.656 여기 사물감지기능의 한 예가 있습니다. 00:02:23.680 --> 00:02:26.096 이미지 하나를 처리하는데 2초 밖에 걸리지 않습니다. 00:02:26.120 --> 00:02:28.736 20초 짜리 감지기능보다는 00:02:28.760 --> 00:02:32.296 10배나 빠른 속도이지요. 00:02:32.320 --> 00:02:34.976 보시는 것 처럼, 이 기능이 예측을 하기 시작할 때면 00:02:35.000 --> 00:02:37.040 이미 벌어지고 상황은 바뀌어 있을 테니까 00:02:37.880 --> 00:02:40.296 응용 프로그램으로는 00:02:40.320 --> 00:02:41.736 별 효용이 없을 겁니다. NOTE Paragraph 00:02:41.760 --> 00:02:44.256 만일 10배를 더 빠르게 한다면 00:02:44.280 --> 00:02:47.096 초당 다섯 장면을 처리하는 감지기능이 됩니다. 00:02:47.120 --> 00:02:48.656 훨씬 낫죠. 00:02:48.680 --> 00:02:50.656 하지만 만일, 00:02:50.680 --> 00:02:52.976 여기서 더 큰 발전이 없다면 00:02:53.000 --> 00:02:55.560 이 정도의 시스템이 제 차를 운전하기를 원친 않겠지요. NOTE Paragraph 00:02:57.120 --> 00:03:00.360 이것이 제 노트북에서 실시간으로 작동되고 있는 감지 시스템입니다. 00:03:01.000 --> 00:03:04.136 아주 부드럽게 제가 틀안에서 움직이는 대로 따라오죠. 00:03:04.160 --> 00:03:07.880 아무 문제가 없습니다. 다양한 크기 00:03:09.440 --> 00:03:10.640 자세 00:03:11.280 --> 00:03:13.136 앞뒤 움직임에도 00:03:13.160 --> 00:03:14.376 훌륭하죠. 00:03:14.400 --> 00:03:16.136 이런 것이 바로 우리에게 필요한 것입니다. 00:03:16.160 --> 00:03:19.056 컴퓨터 시각을 이용한 시스템을 개발할 때 말이지요. NOTE Paragraph 00:03:19.080 --> 00:03:23.080 (박수) NOTE Paragraph 00:03:24.280 --> 00:03:26.456 불과 몇년 만에 00:03:26.480 --> 00:03:29.136 한 이미지를 처리하는 시간이 20초에서 00:03:29.160 --> 00:03:32.696 500분의 1초로, 천배나 빨라졌습니다. 00:03:32.720 --> 00:03:34.136 어떻게 가능했을까요? 00:03:34.160 --> 00:03:37.176 과거에는, 사물감지 시스템들은 00:03:37.200 --> 00:03:39.136 이런 이미지를 가지고 00:03:39.160 --> 00:03:41.616 여러 영역으로 잘라내서 00:03:41.640 --> 00:03:44.896 각 영역 마다 선별작업을 실행하고 00:03:44.920 --> 00:03:47.456 그 선별작업에서 산출된 가장 높은 점수들이 00:03:47.480 --> 00:03:50.616 이미지의 감지로 간주되는 방식이었습니다. 00:03:50.640 --> 00:03:54.696 하지만, 감지를 하기까지 한 이미지에 수천 번의 분류작업이 00:03:54.720 --> 00:03:57.640 또 수천 번의 신경망 감정을 거쳐야 했습니다. 00:03:59.240 --> 00:04:03.776 대신에, 우리는 단일 네트워크로 모든 탐지가 가능케 했습니다. 00:04:03.800 --> 00:04:08.080 모든 테두리 상자와 분류 개연성을 동시에 처리해 내는 것이지요. 00:04:08.680 --> 00:04:12.176 저희 시스템에서는 감지를 해내기 위해 00:04:12.200 --> 00:04:13.656 한 이미지를 수천 번이 아니라 00:04:13.680 --> 00:04:14.936 단 한 번 보는 것으로 가능하고 00:04:14.960 --> 00:04:17.880 저희가 이것을 사물감지의 '욜로'법 으로 부르는 이유입니다. 00:04:19.360 --> 00:04:23.336 이 속도로는, 이미지 뿐만 아니라 00:04:23.360 --> 00:04:25.776 동영상도 실시간으로 처리할 수 있습니다. 00:04:25.800 --> 00:04:28.896 이제는 단순히 개와 고양이를 인지하는 것을 넘어서 00:04:28.920 --> 00:04:31.880 그들이 돌아다니는 것도, 서로 어울리는 것도 볼 수 있습니다. NOTE Paragraph 00:04:34.560 --> 00:04:36.616 이것이 저희가 개발해낸 감지기능입니다. 00:04:36.640 --> 00:04:41.016 마이크로소프트의 코코 데이터 세트 안에서 00:04:41.040 --> 00:04:44.296 80개의 등급에 적용시켜 얻어낸 것이지요. 00:04:44.320 --> 00:04:47.656 숟가락, 포크, 그릇 같이 평범한 물건들이 00:04:47.680 --> 00:04:49.480 다양하게 있네요. 00:04:50.360 --> 00:04:53.456 좀 특이한 것들도 보이지요. 00:04:53.480 --> 00:04:56.736 동물, 자동차, 얼룩말, 기린. 00:04:56.760 --> 00:04:58.696 재미난 걸 한번 해볼까요. 00:04:58.720 --> 00:05:00.816 방청석으로 들어가서 00:05:00.840 --> 00:05:02.856 어떤 물건들이 감지되는지 보겠습니다. 00:05:02.880 --> 00:05:04.500 동물인형 갖고 싶으신 분? 00:05:06.000 --> 00:05:07.762 저기 곰인형도 몇개 있네요. 00:05:10.040 --> 00:05:14.576 감지한계치를 조금 낮추면, 00:05:14.600 --> 00:05:18.000 더 많은 분들이 화면에 잡히겠지요. 00:05:19.560 --> 00:05:21.896 이 정지표지판들도 잡아낼 수 있는지 보겠습니다. 00:05:21.920 --> 00:05:23.800 배낭도 몇개 보이네요. 00:05:25.880 --> 00:05:27.720 조금 가까이 당겨 보지요. 00:05:30.320 --> 00:05:31.576 좋습니다. 00:05:31.600 --> 00:05:34.776 이 모든 것이 컴퓨터에서 실시간으로 00:05:34.800 --> 00:05:36.000 처리되고 있습니다. NOTE Paragraph 00:05:37.080 --> 00:05:38.536 꼭 알아둘 것은 00:05:38.560 --> 00:05:41.776 이것이 총괄적인 사물감지 시스템이란 것입니다. 00:05:41.800 --> 00:05:46.800 그래야 어떠한 이미지 종류에도 적용시킬 수 있겠지요. 00:05:48.320 --> 00:05:50.856 동일한 코드가 00:05:50.880 --> 00:05:53.336 정지표지판 또는 보행자 00:05:53.360 --> 00:05:55.336 자율주행 자동차 안의 자전거들을 찾아내기도 하고 00:05:55.360 --> 00:05:58.216 조직검사를 통해 암세포를 00:05:58.240 --> 00:06:01.256 찾아낼 때도 사용될 수 있습니다. 00:06:01.280 --> 00:06:05.320 이미 세계 곳곳의 연구원들이 이 기술을 00:06:06.240 --> 00:06:09.656 의학과 로봇공학의 발전 등에 쓰고 있습니다. 00:06:09.680 --> 00:06:11.056 오늘 아침 신문에 00:06:11.080 --> 00:06:15.656 나이로비 국립공원의 동물 수 조사에 00:06:15.680 --> 00:06:18.816 욜로가 감지 시스템의 일부로 사용된다고 나왔더군요. 00:06:18.840 --> 00:06:21.936 다크넷이 오픈소스이기도 하고 00:06:21.960 --> 00:06:24.480 모두가 무료로 사용할 수 있도록 열려있기 때문입니다. NOTE Paragraph 00:06:25.600 --> 00:06:31.296 (박수) NOTE Paragraph 00:06:31.320 --> 00:06:36.256 그런데, 저희는 감지기능의 접근성과 사용성을 더 높이고 싶었고 00:06:36.280 --> 00:06:40.336 견본 최적화 00:06:40.360 --> 00:06:42.656 네트워크 이진화와 근사치의 적절한 조화를 통해서 00:06:42.680 --> 00:06:46.600 이제 휴대전화에서도 사물감지가 가능하게 했습니다. NOTE Paragraph 00:06:52.800 --> 00:06:58.120 (박수) NOTE Paragraph 00:06:58.960 --> 00:07:04.016 아주 흥분되는데요. 왜냐면 급이 낮은 컴퓨터 시각 문제점들을 00:07:04.040 --> 00:07:06.336 해결할 아주 효과적인 방법이 있으니까요. 00:07:06.360 --> 00:07:10.216 누구나 이 기술을 가지고 원하는 것들을 만들어 낼 수 있습니다. 00:07:10.240 --> 00:07:13.416 이제 나머지는 여러분들의 몫이고요. 00:07:13.440 --> 00:07:16.376 또 이 소프트웨어를 사용하는 세상의 모든 분들의 몫입니다. 00:07:16.400 --> 00:07:20.056 이 기술로 사람들이 어떤 것들을 만들어 낼지 너무 기대됩니다. NOTE Paragraph 00:07:20.080 --> 00:07:21.058 감사합니다. 00:07:21.058 --> 00:07:23.648 (박수)