1
00:00:00,825 --> 00:00:01,976
십년 전 만해도

2
00:00:02,000 --> 00:00:04,776
컴퓨터 시각 연구자들은

3
00:00:04,800 --> 00:00:07,496
개와 고양이를 컴퓨터가 
구별해 내는 것은

4
00:00:07,520 --> 00:00:09,496
거의 불가능하다 생각했습니다.

5
00:00:09,520 --> 00:00:13,216
아무리 인공지능이
발전해도 말이지요.

6
00:00:13,240 --> 00:00:16,800
지금은 99% 이상 정확하게
그 일이 가능한데,

7
00:00:17,680 --> 00:00:19,536
이것을 '이미지 분류' 라고 합니다.

8
00:00:19,560 --> 00:00:22,656
이미지 마다 이름표를 붙여주면

9
00:00:22,680 --> 00:00:25,720
컴퓨터는 수천 개의 다른 
유형까지 알아냅니다.

10
00:00:26,680 --> 00:00:29,576
저는 워싱턴 대학교에서
석사과정을 밟고 있고

11
00:00:29,600 --> 00:00:31,496
'다크넷' 이라 불리는 
프로젝트를 연구하고 있습니다.

12
00:00:31,520 --> 00:00:33,032
일종의 신경망 체제의 프로그램인데

13
00:00:34,544 --> 00:00:36,056
컴퓨터 시각 견본을 
교육하고 실험하는데 쓰입니다.

14
00:00:36,080 --> 00:00:39,056
자 이제, 
'다크넷'이 어떤 식으로 


15
00:00:39,080 --> 00:00:40,840
이 이미지를 인식하는지 보겠습니다.

16
00:00:42,520 --> 00:00:44,856
지금 이 이미지에

17
00:00:44,880 --> 00:00:46,096
저희가 개발한 선별법을 적용하면

18
00:00:46,120 --> 00:00:48,576
단지 개 또는 고양이의 
예측 뿐만 아니라

19
00:00:48,600 --> 00:00:50,936
자세한 종까지도 알아 낼 수 있습니다.

20
00:00:50,960 --> 00:00:53,136
이미 이 정도로 
세밀한 수준에 올라와 있습니다.

21
00:00:53,160 --> 00:00:54,776
아주 정확하기까지 합니다.

22
00:00:54,800 --> 00:00:56,640
제 반려견은 말라뮤트 입니다.

23
00:00:57,040 --> 00:01:01,376
'이미지 선별법'이 엄청나게 
발전을 해왔는데

24
00:01:01,400 --> 00:01:03,400
이런 종류의 이미지에 
저희 선별법을 적용시키면

25
00:01:03,424 --> 00:01:05,384
과연 어떤 결과가 나올까요?

26
00:01:07,080 --> 00:01:08,280
자...

27
00:01:12,640 --> 00:01:16,536
대략 비슷한 예측을 
하는 것을 볼 수 있습니다.

28
00:01:16,560 --> 00:01:19,656
맞습니다, 사진에 말라뮤트가 있죠.

29
00:01:19,680 --> 00:01:23,376
하지만 이 정도로는 어떤 장면인지

30
00:01:23,400 --> 00:01:25,067
많은 것을 알 수 없습니다.

31
00:01:25,091 --> 00:01:26,651
좀 더 효과적인 것이 필요하겠지요.

32
00:01:27,240 --> 00:01:29,856
저는 지금 '사물감지'라 불리는 
문제에 대해 연구하고 있습니다.

33
00:01:29,880 --> 00:01:32,816
한 이미지 안에 있는 
모든 사물들을 찾아내서

34
00:01:32,840 --> 00:01:34,296
테두리 상자를 치고

35
00:01:34,320 --> 00:01:35,840
그것이 무엇인지 맞추는 것입니다.

36
00:01:36,400 --> 00:01:39,680
여기에 감지법을 적용하면
어떻게 되는지 보겠습니다.

37
00:01:41,240 --> 00:01:43,496
자, 이런 식의 결과라면

38
00:01:43,520 --> 00:01:46,216
컴퓨터 시각 알고리듬으로
더 많은 것을 해낼 수 있겠군요.

39
00:01:46,240 --> 00:01:49,216
이제 이미지 안에 고양이와 개가 있고

40
00:01:49,240 --> 00:01:51,496
대략 그들의 위치

41
00:01:51,520 --> 00:01:52,736
그리고 크기까지 파악하고 있습니다.

42
00:01:52,760 --> 00:01:54,696
그외 다른 정보들까지 
알고 있을지도 모르겠네요.

43
00:01:54,720 --> 00:01:56,680
저 뒤 쪽에 책 한 권이 있네요.

44
00:01:57,280 --> 00:02:00,536
이 컴퓨터 시각을 이용해서 
어떤 시스템을 개발한다면,

45
00:02:00,560 --> 00:02:04,016
자율주행 자동차나 로봇 시스템일텐데

46
00:02:04,040 --> 00:02:06,496
바로 이런 것들이 
여러분들이 원하는 정보일 겁니다.

47
00:02:06,520 --> 00:02:09,759
물리적 세계와 교감을 
가능하게 하는 것들 말이지요.

48
00:02:10,759 --> 00:02:13,016
자, 제가 처음으로 
'사물감지' 연구에 들어갔을 때

49
00:02:13,040 --> 00:02:16,336
이미지 하나를 처리하는데 
20초가 걸렸습니다.

50
00:02:16,360 --> 00:02:20,240
이 분야에서 왜 속도가 
중요한지 알고 싶다면

51
00:02:21,120 --> 00:02:23,656
여기 사물감지기능의 한 예가 있습니다.

52
00:02:23,680 --> 00:02:26,096
이미지 하나를 처리하는데
2초 밖에 걸리지 않습니다.

53
00:02:26,120 --> 00:02:28,736
20초 짜리 감지기능보다는

54
00:02:28,760 --> 00:02:32,296
10배나 빠른 속도이지요.

55
00:02:32,320 --> 00:02:34,976
보시는 것 처럼, 이 기능이 
예측을 하기 시작할 때면

56
00:02:35,000 --> 00:02:37,040
이미 벌어지고 상황은 
바뀌어 있을 테니까

57
00:02:37,880 --> 00:02:40,296
응용 프로그램으로는

58
00:02:40,320 --> 00:02:41,736
별 효용이 없을 겁니다.

59
00:02:41,760 --> 00:02:44,256
만일 10배를 더 빠르게 한다면

60
00:02:44,280 --> 00:02:47,096
초당 다섯 장면을 처리하는
감지기능이 됩니다.

61
00:02:47,120 --> 00:02:48,656
훨씬 낫죠.

62
00:02:48,680 --> 00:02:50,656
하지만 만일,

63
00:02:50,680 --> 00:02:52,976
여기서 더 큰 발전이 없다면

64
00:02:53,000 --> 00:02:55,560
이 정도의 시스템이 제 차를 
운전하기를 원친 않겠지요.

65
00:02:57,120 --> 00:03:00,360
이것이 제 노트북에서 실시간으로 
작동되고 있는 감지 시스템입니다.

66
00:03:01,000 --> 00:03:04,136
아주 부드럽게 제가 틀안에서 
움직이는 대로 따라오죠.

67
00:03:04,160 --> 00:03:07,880
아무 문제가 없습니다.
다양한 크기

68
00:03:09,440 --> 00:03:10,640
자세

69
00:03:11,280 --> 00:03:13,136
앞뒤 움직임에도

70
00:03:13,160 --> 00:03:14,376
훌륭하죠.

71
00:03:14,400 --> 00:03:16,136
이런 것이 바로 
우리에게 필요한 것입니다.

72
00:03:16,160 --> 00:03:19,056
컴퓨터 시각을 이용한 
시스템을 개발할 때 말이지요.

73
00:03:19,080 --> 00:03:23,080
(박수)

74
00:03:24,280 --> 00:03:26,456
불과 몇년 만에

75
00:03:26,480 --> 00:03:29,136
한 이미지를 처리하는 시간이 20초에서

76
00:03:29,160 --> 00:03:32,696
500분의 1초로, 
천배나 빨라졌습니다.

77
00:03:32,720 --> 00:03:34,136
어떻게 가능했을까요?

78
00:03:34,160 --> 00:03:37,176
과거에는, 사물감지 시스템들은

79
00:03:37,200 --> 00:03:39,136
이런 이미지를 가지고

80
00:03:39,160 --> 00:03:41,616
여러 영역으로 잘라내서

81
00:03:41,640 --> 00:03:44,896
각 영역 마다 선별작업을 실행하고

82
00:03:44,920 --> 00:03:47,456
그 선별작업에서 산출된 
가장 높은 점수들이

83
00:03:47,480 --> 00:03:50,616
이미지의 감지로 
간주되는 방식이었습니다.

84
00:03:50,640 --> 00:03:54,696
하지만, 감지를 하기까지 한 이미지에 
수천 번의 분류작업이

85
00:03:54,720 --> 00:03:57,640
또 수천 번의 신경망 감정을
거쳐야 했습니다.

86
00:03:59,240 --> 00:04:03,776
대신에, 우리는 단일 네트워크로
모든 탐지가 가능케 했습니다.

87
00:04:03,800 --> 00:04:08,080
모든 테두리 상자와 분류 개연성을 
동시에 처리해 내는 것이지요.

88
00:04:08,680 --> 00:04:12,176
저희 시스템에서는 감지를 해내기 위해

89
00:04:12,200 --> 00:04:13,656
한 이미지를 수천 번이 아니라

90
00:04:13,680 --> 00:04:14,936
단 한 번 보는 것으로 가능하고

91
00:04:14,960 --> 00:04:17,880
저희가 이것을 사물감지의 '욜로'법 으로 
부르는 이유입니다.

92
00:04:19,360 --> 00:04:23,336
이 속도로는, 이미지 뿐만 아니라

93
00:04:23,360 --> 00:04:25,776
동영상도 실시간으로 
처리할 수 있습니다.

94
00:04:25,800 --> 00:04:28,896
이제는 단순히 개와 고양이를 
인지하는 것을 넘어서

95
00:04:28,920 --> 00:04:31,880
그들이 돌아다니는 것도, 
서로 어울리는 것도 볼 수 있습니다.

96
00:04:34,560 --> 00:04:36,616
이것이 저희가 개발해낸 
감지기능입니다.

97
00:04:36,640 --> 00:04:41,016
마이크로소프트의 
코코 데이터 세트 안에서

98
00:04:41,040 --> 00:04:44,296
80개의 등급에 적용시켜 
얻어낸 것이지요.

99
00:04:44,320 --> 00:04:47,656
숟가락, 포크, 그릇 같이 
평범한 물건들이

100
00:04:47,680 --> 00:04:49,480
다양하게 있네요.

101
00:04:50,360 --> 00:04:53,456
좀 특이한 것들도 보이지요.

102
00:04:53,480 --> 00:04:56,736
동물, 자동차, 얼룩말, 기린.

103
00:04:56,760 --> 00:04:58,696
재미난 걸 한번 해볼까요.

104
00:04:58,720 --> 00:05:00,816
방청석으로 들어가서

105
00:05:00,840 --> 00:05:02,856
어떤 물건들이 감지되는지 보겠습니다.

106
00:05:02,880 --> 00:05:04,500
동물인형 갖고 싶으신 분?

107
00:05:06,000 --> 00:05:07,762
저기 곰인형도 몇개 있네요.

108
00:05:10,040 --> 00:05:14,576
감지한계치를 조금 낮추면,

109
00:05:14,600 --> 00:05:18,000
더 많은 분들이 화면에 잡히겠지요.

110
00:05:19,560 --> 00:05:21,896
이 정지표지판들도 
잡아낼 수 있는지 보겠습니다.

111
00:05:21,920 --> 00:05:23,800
배낭도 몇개 보이네요.

112
00:05:25,880 --> 00:05:27,720
조금 가까이 당겨 보지요.

113
00:05:30,320 --> 00:05:31,576
좋습니다.

114
00:05:31,600 --> 00:05:34,776
이 모든 것이 컴퓨터에서 실시간으로

115
00:05:34,800 --> 00:05:36,000
처리되고 있습니다.

116
00:05:37,080 --> 00:05:38,536
꼭 알아둘 것은

117
00:05:38,560 --> 00:05:41,776
이것이 총괄적인 
사물감지 시스템이란 것입니다.

118
00:05:41,800 --> 00:05:46,800
그래야 어떠한 이미지 종류에도 
적용시킬 수 있겠지요.

119
00:05:48,320 --> 00:05:50,856
동일한 코드가


120
00:05:50,880 --> 00:05:53,336
정지표지판 또는 보행자

121
00:05:53,360 --> 00:05:55,336
자율주행 자동차 안의 자전거들을
찾아내기도 하고

122
00:05:55,360 --> 00:05:58,216
조직검사를 통해 암세포를

123
00:05:58,240 --> 00:06:01,256
찾아낼 때도 사용될 수 있습니다.

124
00:06:01,280 --> 00:06:05,320
이미 세계 곳곳의 연구원들이 이 기술을

125
00:06:06,240 --> 00:06:09,656
의학과 로봇공학의 발전 등에
쓰고 있습니다.

126
00:06:09,680 --> 00:06:11,056
오늘 아침 신문에

127
00:06:11,080 --> 00:06:15,656
나이로비 국립공원의 동물 수 조사에

128
00:06:15,680 --> 00:06:18,816
욜로가 감지 시스템의 일부로 
사용된다고 나왔더군요.

129
00:06:18,840 --> 00:06:21,936
다크넷이 오픈소스이기도 하고

130
00:06:21,960 --> 00:06:24,480
모두가 무료로 사용할 수 
있도록 열려있기 때문입니다.

131
00:06:25,600 --> 00:06:31,296
(박수)

132
00:06:31,320 --> 00:06:36,256
그런데, 저희는 감지기능의 
접근성과 사용성을 더 높이고 싶었고

133
00:06:36,280 --> 00:06:40,336
견본 최적화

134
00:06:40,360 --> 00:06:42,656
네트워크 이진화와 근사치의 
적절한 조화를 통해서

135
00:06:42,680 --> 00:06:46,600
이제 휴대전화에서도
사물감지가 가능하게 했습니다.

136
00:06:52,800 --> 00:06:58,120
(박수)

137
00:06:58,960 --> 00:07:04,016
아주 흥분되는데요. 왜냐면 
급이 낮은 컴퓨터 시각 문제점들을

138
00:07:04,040 --> 00:07:06,336
해결할 아주 효과적인 
방법이 있으니까요.

139
00:07:06,360 --> 00:07:10,216
누구나 이 기술을 가지고 
원하는 것들을 만들어 낼 수 있습니다.

140
00:07:10,240 --> 00:07:13,416
이제 나머지는 
여러분들의 몫이고요.

141
00:07:13,440 --> 00:07:16,376
또 이 소프트웨어를 사용하는 
세상의 모든 분들의 몫입니다.

142
00:07:16,400 --> 00:07:20,056
이 기술로 사람들이 어떤 것들을 
만들어 낼지 너무 기대됩니다.

143
00:07:20,080 --> 00:07:21,058
감사합니다.

144
00:07:21,058 --> 00:07:23,648
(박수)