1 00:00:00,825 --> 00:00:01,976 십년 전 만해도 2 00:00:02,000 --> 00:00:04,776 컴퓨터 시각 연구자들은 3 00:00:04,800 --> 00:00:07,496 개와 고양이를 컴퓨터가 구별해 내는 것은 4 00:00:07,520 --> 00:00:09,496 거의 불가능하다 생각했습니다. 5 00:00:09,520 --> 00:00:13,216 아무리 인공지능이 발전해도 말이지요. 6 00:00:13,240 --> 00:00:16,800 지금은 99% 이상 정확하게 그 일이 가능한데, 7 00:00:17,680 --> 00:00:19,536 이것을 '이미지 분류' 라고 합니다. 8 00:00:19,560 --> 00:00:22,656 이미지 마다 이름표를 붙여주면 9 00:00:22,680 --> 00:00:25,720 컴퓨터는 수천 개의 다른 유형까지 알아냅니다. 10 00:00:26,680 --> 00:00:29,576 저는 워싱턴 대학교에서 석사과정을 밟고 있고 11 00:00:29,600 --> 00:00:31,496 '다크넷' 이라 불리는 프로젝트를 연구하고 있습니다. 12 00:00:31,520 --> 00:00:33,032 일종의 신경망 체제의 프로그램인데 13 00:00:34,544 --> 00:00:36,056 컴퓨터 시각 견본을 교육하고 실험하는데 쓰입니다. 14 00:00:36,080 --> 00:00:39,056 자 이제, '다크넷'이 어떤 식으로 15 00:00:39,080 --> 00:00:40,840 이 이미지를 인식하는지 보겠습니다. 16 00:00:42,520 --> 00:00:44,856 지금 이 이미지에 17 00:00:44,880 --> 00:00:46,096 저희가 개발한 선별법을 적용하면 18 00:00:46,120 --> 00:00:48,576 단지 개 또는 고양이의 예측 뿐만 아니라 19 00:00:48,600 --> 00:00:50,936 자세한 종까지도 알아 낼 수 있습니다. 20 00:00:50,960 --> 00:00:53,136 이미 이 정도로 세밀한 수준에 올라와 있습니다. 21 00:00:53,160 --> 00:00:54,776 아주 정확하기까지 합니다. 22 00:00:54,800 --> 00:00:56,640 제 반려견은 말라뮤트 입니다. 23 00:00:57,040 --> 00:01:01,376 '이미지 선별법'이 엄청나게 발전을 해왔는데 24 00:01:01,400 --> 00:01:03,400 이런 종류의 이미지에 저희 선별법을 적용시키면 25 00:01:03,424 --> 00:01:05,384 과연 어떤 결과가 나올까요? 26 00:01:07,080 --> 00:01:08,280 자... 27 00:01:12,640 --> 00:01:16,536 대략 비슷한 예측을 하는 것을 볼 수 있습니다. 28 00:01:16,560 --> 00:01:19,656 맞습니다, 사진에 말라뮤트가 있죠. 29 00:01:19,680 --> 00:01:23,376 하지만 이 정도로는 어떤 장면인지 30 00:01:23,400 --> 00:01:25,067 많은 것을 알 수 없습니다. 31 00:01:25,091 --> 00:01:26,651 좀 더 효과적인 것이 필요하겠지요. 32 00:01:27,240 --> 00:01:29,856 저는 지금 '사물감지'라 불리는 문제에 대해 연구하고 있습니다. 33 00:01:29,880 --> 00:01:32,816 한 이미지 안에 있는 모든 사물들을 찾아내서 34 00:01:32,840 --> 00:01:34,296 테두리 상자를 치고 35 00:01:34,320 --> 00:01:35,840 그것이 무엇인지 맞추는 것입니다. 36 00:01:36,400 --> 00:01:39,680 여기에 감지법을 적용하면 어떻게 되는지 보겠습니다. 37 00:01:41,240 --> 00:01:43,496 자, 이런 식의 결과라면 38 00:01:43,520 --> 00:01:46,216 컴퓨터 시각 알고리듬으로 더 많은 것을 해낼 수 있겠군요. 39 00:01:46,240 --> 00:01:49,216 이제 이미지 안에 고양이와 개가 있고 40 00:01:49,240 --> 00:01:51,496 대략 그들의 위치 41 00:01:51,520 --> 00:01:52,736 그리고 크기까지 파악하고 있습니다. 42 00:01:52,760 --> 00:01:54,696 그외 다른 정보들까지 알고 있을지도 모르겠네요. 43 00:01:54,720 --> 00:01:56,680 저 뒤 쪽에 책 한 권이 있네요. 44 00:01:57,280 --> 00:02:00,536 이 컴퓨터 시각을 이용해서 어떤 시스템을 개발한다면, 45 00:02:00,560 --> 00:02:04,016 자율주행 자동차나 로봇 시스템일텐데 46 00:02:04,040 --> 00:02:06,496 바로 이런 것들이 여러분들이 원하는 정보일 겁니다. 47 00:02:06,520 --> 00:02:09,759 물리적 세계와 교감을 가능하게 하는 것들 말이지요. 48 00:02:10,759 --> 00:02:13,016 자, 제가 처음으로 '사물감지' 연구에 들어갔을 때 49 00:02:13,040 --> 00:02:16,336 이미지 하나를 처리하는데 20초가 걸렸습니다. 50 00:02:16,360 --> 00:02:20,240 이 분야에서 왜 속도가 중요한지 알고 싶다면 51 00:02:21,120 --> 00:02:23,656 여기 사물감지기능의 한 예가 있습니다. 52 00:02:23,680 --> 00:02:26,096 이미지 하나를 처리하는데 2초 밖에 걸리지 않습니다. 53 00:02:26,120 --> 00:02:28,736 20초 짜리 감지기능보다는 54 00:02:28,760 --> 00:02:32,296 10배나 빠른 속도이지요. 55 00:02:32,320 --> 00:02:34,976 보시는 것 처럼, 이 기능이 예측을 하기 시작할 때면 56 00:02:35,000 --> 00:02:37,040 이미 벌어지고 상황은 바뀌어 있을 테니까 57 00:02:37,880 --> 00:02:40,296 응용 프로그램으로는 58 00:02:40,320 --> 00:02:41,736 별 효용이 없을 겁니다. 59 00:02:41,760 --> 00:02:44,256 만일 10배를 더 빠르게 한다면 60 00:02:44,280 --> 00:02:47,096 초당 다섯 장면을 처리하는 감지기능이 됩니다. 61 00:02:47,120 --> 00:02:48,656 훨씬 낫죠. 62 00:02:48,680 --> 00:02:50,656 하지만 만일, 63 00:02:50,680 --> 00:02:52,976 여기서 더 큰 발전이 없다면 64 00:02:53,000 --> 00:02:55,560 이 정도의 시스템이 제 차를 운전하기를 원친 않겠지요. 65 00:02:57,120 --> 00:03:00,360 이것이 제 노트북에서 실시간으로 작동되고 있는 감지 시스템입니다. 66 00:03:01,000 --> 00:03:04,136 아주 부드럽게 제가 틀안에서 움직이는 대로 따라오죠. 67 00:03:04,160 --> 00:03:07,880 아무 문제가 없습니다. 다양한 크기 68 00:03:09,440 --> 00:03:10,640 자세 69 00:03:11,280 --> 00:03:13,136 앞뒤 움직임에도 70 00:03:13,160 --> 00:03:14,376 훌륭하죠. 71 00:03:14,400 --> 00:03:16,136 이런 것이 바로 우리에게 필요한 것입니다. 72 00:03:16,160 --> 00:03:19,056 컴퓨터 시각을 이용한 시스템을 개발할 때 말이지요. 73 00:03:19,080 --> 00:03:23,080 (박수) 74 00:03:24,280 --> 00:03:26,456 불과 몇년 만에 75 00:03:26,480 --> 00:03:29,136 한 이미지를 처리하는 시간이 20초에서 76 00:03:29,160 --> 00:03:32,696 500분의 1초로, 천배나 빨라졌습니다. 77 00:03:32,720 --> 00:03:34,136 어떻게 가능했을까요? 78 00:03:34,160 --> 00:03:37,176 과거에는, 사물감지 시스템들은 79 00:03:37,200 --> 00:03:39,136 이런 이미지를 가지고 80 00:03:39,160 --> 00:03:41,616 여러 영역으로 잘라내서 81 00:03:41,640 --> 00:03:44,896 각 영역 마다 선별작업을 실행하고 82 00:03:44,920 --> 00:03:47,456 그 선별작업에서 산출된 가장 높은 점수들이 83 00:03:47,480 --> 00:03:50,616 이미지의 감지로 간주되는 방식이었습니다. 84 00:03:50,640 --> 00:03:54,696 하지만, 감지를 하기까지 한 이미지에 수천 번의 분류작업이 85 00:03:54,720 --> 00:03:57,640 또 수천 번의 신경망 감정을 거쳐야 했습니다. 86 00:03:59,240 --> 00:04:03,776 대신에, 우리는 단일 네트워크로 모든 탐지가 가능케 했습니다. 87 00:04:03,800 --> 00:04:08,080 모든 테두리 상자와 분류 개연성을 동시에 처리해 내는 것이지요. 88 00:04:08,680 --> 00:04:12,176 저희 시스템에서는 감지를 해내기 위해 89 00:04:12,200 --> 00:04:13,656 한 이미지를 수천 번이 아니라 90 00:04:13,680 --> 00:04:14,936 단 한 번 보는 것으로 가능하고 91 00:04:14,960 --> 00:04:17,880 저희가 이것을 사물감지의 '욜로'법 으로 부르는 이유입니다. 92 00:04:19,360 --> 00:04:23,336 이 속도로는, 이미지 뿐만 아니라 93 00:04:23,360 --> 00:04:25,776 동영상도 실시간으로 처리할 수 있습니다. 94 00:04:25,800 --> 00:04:28,896 이제는 단순히 개와 고양이를 인지하는 것을 넘어서 95 00:04:28,920 --> 00:04:31,880 그들이 돌아다니는 것도, 서로 어울리는 것도 볼 수 있습니다. 96 00:04:34,560 --> 00:04:36,616 이것이 저희가 개발해낸 감지기능입니다. 97 00:04:36,640 --> 00:04:41,016 마이크로소프트의 코코 데이터 세트 안에서 98 00:04:41,040 --> 00:04:44,296 80개의 등급에 적용시켜 얻어낸 것이지요. 99 00:04:44,320 --> 00:04:47,656 숟가락, 포크, 그릇 같이 평범한 물건들이 100 00:04:47,680 --> 00:04:49,480 다양하게 있네요. 101 00:04:50,360 --> 00:04:53,456 좀 특이한 것들도 보이지요. 102 00:04:53,480 --> 00:04:56,736 동물, 자동차, 얼룩말, 기린. 103 00:04:56,760 --> 00:04:58,696 재미난 걸 한번 해볼까요. 104 00:04:58,720 --> 00:05:00,816 방청석으로 들어가서 105 00:05:00,840 --> 00:05:02,856 어떤 물건들이 감지되는지 보겠습니다. 106 00:05:02,880 --> 00:05:04,500 동물인형 갖고 싶으신 분? 107 00:05:06,000 --> 00:05:07,762 저기 곰인형도 몇개 있네요. 108 00:05:10,040 --> 00:05:14,576 감지한계치를 조금 낮추면, 109 00:05:14,600 --> 00:05:18,000 더 많은 분들이 화면에 잡히겠지요. 110 00:05:19,560 --> 00:05:21,896 이 정지표지판들도 잡아낼 수 있는지 보겠습니다. 111 00:05:21,920 --> 00:05:23,800 배낭도 몇개 보이네요. 112 00:05:25,880 --> 00:05:27,720 조금 가까이 당겨 보지요. 113 00:05:30,320 --> 00:05:31,576 좋습니다. 114 00:05:31,600 --> 00:05:34,776 이 모든 것이 컴퓨터에서 실시간으로 115 00:05:34,800 --> 00:05:36,000 처리되고 있습니다. 116 00:05:37,080 --> 00:05:38,536 꼭 알아둘 것은 117 00:05:38,560 --> 00:05:41,776 이것이 총괄적인 사물감지 시스템이란 것입니다. 118 00:05:41,800 --> 00:05:46,800 그래야 어떠한 이미지 종류에도 적용시킬 수 있겠지요. 119 00:05:48,320 --> 00:05:50,856 동일한 코드가 120 00:05:50,880 --> 00:05:53,336 정지표지판 또는 보행자 121 00:05:53,360 --> 00:05:55,336 자율주행 자동차 안의 자전거들을 찾아내기도 하고 122 00:05:55,360 --> 00:05:58,216 조직검사를 통해 암세포를 123 00:05:58,240 --> 00:06:01,256 찾아낼 때도 사용될 수 있습니다. 124 00:06:01,280 --> 00:06:05,320 이미 세계 곳곳의 연구원들이 이 기술을 125 00:06:06,240 --> 00:06:09,656 의학과 로봇공학의 발전 등에 쓰고 있습니다. 126 00:06:09,680 --> 00:06:11,056 오늘 아침 신문에 127 00:06:11,080 --> 00:06:15,656 나이로비 국립공원의 동물 수 조사에 128 00:06:15,680 --> 00:06:18,816 욜로가 감지 시스템의 일부로 사용된다고 나왔더군요. 129 00:06:18,840 --> 00:06:21,936 다크넷이 오픈소스이기도 하고 130 00:06:21,960 --> 00:06:24,480 모두가 무료로 사용할 수 있도록 열려있기 때문입니다. 131 00:06:25,600 --> 00:06:31,296 (박수) 132 00:06:31,320 --> 00:06:36,256 그런데, 저희는 감지기능의 접근성과 사용성을 더 높이고 싶었고 133 00:06:36,280 --> 00:06:40,336 견본 최적화 134 00:06:40,360 --> 00:06:42,656 네트워크 이진화와 근사치의 적절한 조화를 통해서 135 00:06:42,680 --> 00:06:46,600 이제 휴대전화에서도 사물감지가 가능하게 했습니다. 136 00:06:52,800 --> 00:06:58,120 (박수) 137 00:06:58,960 --> 00:07:04,016 아주 흥분되는데요. 왜냐면 급이 낮은 컴퓨터 시각 문제점들을 138 00:07:04,040 --> 00:07:06,336 해결할 아주 효과적인 방법이 있으니까요. 139 00:07:06,360 --> 00:07:10,216 누구나 이 기술을 가지고 원하는 것들을 만들어 낼 수 있습니다. 140 00:07:10,240 --> 00:07:13,416 이제 나머지는 여러분들의 몫이고요. 141 00:07:13,440 --> 00:07:16,376 또 이 소프트웨어를 사용하는 세상의 모든 분들의 몫입니다. 142 00:07:16,400 --> 00:07:20,056 이 기술로 사람들이 어떤 것들을 만들어 낼지 너무 기대됩니다. 143 00:07:20,080 --> 00:07:21,058 감사합니다. 144 00:07:21,058 --> 00:07:23,648 (박수)