사람들은 보통 움직임을 시각적인 것으로 생각합니다. 만약 제가 지금 말하는 도중 무대를 가로질러 걷거나 손동작을 취하면 여러분은 그 움직임을 볼 수 있습니다. 하지만 중요한 의미를 갖는 움직임들 중 그 크기가 매우 미세해서 우리 눈에 분별하기 어려운 것들도 있습니다. 우리는 지난 몇 년에 걸쳐 인간이 보지 못하는 이 움직임을 카메라로는 식별 할 수 있다는 사실을 알아냈습니다. 어떤 것인지 직접 보여드리죠. 왼쪽 화면은 사람 손목의 동영상입니다. 오른편에는 잠자는 아기 동영상이 있어요. 하지만 이것들이 동영상이라고 말씀드리지 않았다면 여러분들은 두 개의 보통 사진을 보고 있다고 생각하실 수 있습니다. 왜냐하면 두 영상 모두 정지해 있는 것처럼 보이거든요. 하지만 여기에는 아주 미세한 움직임이 일어나고 있습니다. 만약 여러분이 왼쪽 사진의 손목을 만질 수 있다면 맥박을 느낄 수 있을 것입니다. 또 만약 오른쪽의 아이를 안아 본다면 아이가 숨을 쉴 때마다 가슴이 오르락 내리락 하는 것을 느낄 수 있을 것입니다. 보시는 것과 같은 움직임들은 우리에게 중요한 정보를 제공합니다. 하지만 대부분은 육안으로 식별하기에 매우 미세합니다. 그래서 육안으로 관찰하는 대신 촉각을 통해 직접 만져보고 느낍니다. 하지만 몇 년 전 MIT의 제 동료들이 "모션 마이크로 스콥" 이라는 걸 개발했습니다. 이 소프트웨어는 영상의 미세한 움직임을 찾아내 우리가 볼 수 있을 만큼의 크기로 그 움직임을 증폭시켜줍니다. 왼쪽 영상에 이 소프트웨어를 적용해 보면 손목의 맥박을 눈으로 볼 수 있습니다. 우리가 만약 이 맥박을 센다면 이 사람의 심박수를 알아낼 수 있습니다. 같은 소프트웨어를 오른쪽 영상에 사용해 보았습니다. 아이가 숨쉬는 것을 눈으로 볼 수 있게 해주고, 직접 만지지 않고도 아기의 호흡을 관찰할 수 있습니다. 이러한 기술은 그 영향력이 매우 엄청납니다. 보통 우리가 촉각을 통해 느끼는 현상들을 우회적인 방법인 시각적으로 경험하게 해주기 때문입니다. 몇 년전 저는 이 소프트웨어 개발자들과 함께 일하기 시작했습니다. 그리고 미친 것처럼 들리는 일을 시도해 보기로 했습니다. "우리가 생각하기에, 이 소프트웨어를 통해 미동을 시각화하는 것은 매우 멋진 일이며 이는 다시말해 촉각의 역할을 연장한 것이라 할 수 있지 않은가. 그렇다면 이와 같은 기술을 통해 듣는 능력을 확장해보면 어떨까?" 만약 이 영상 증폭 기술을 이용해 소리의 진동을 촬영 할 수 있다면요? 소리의 진동 역시 아주 미세한 움직임이라고 할 수 있잖아요. 그리고 우리가 눈으로 볼 수 있는 것을 소리로 변환해 본다면요? 다소 이상한 생각처럼 보이겠네요. 여러분을 위해 다른 관점으로 설명해 드리겠습니다. 일반적인 마이크의 원리는 내부의 진동판의 움직임을 전기신호로 변환하도록 되어있는데 진동판은 소리에 반응하여 움직이도록 설계되었습니다. 이 움직임은 기록할 수도 있고 소리로 변환되어 읽히기도 합니다. 소리는 사물을 진동시킬 수 있지만, 우리 눈으로는 이 진동이 매우 미묘하고 빨라서 확인하기 어렵죠. 그렇다면 우리가 고속 카메라로 영상을 기록하고 이 소프트웨어를 이용해 카메라로 찍은 아주 작은 미동을 추출해 낸뒤 어떤 소리가 그 진동을 만들었는지 분석하면 어떨까요? 먼거리의 사물을 보는 것 만으로도 소리를 알아낼 수 있도록 해주지 않을까. 그래서 저희가 시도해 보았습니다. 이것이 저희가 한 실험 중 하나인데요, 화면 오른쪽에 화분을 갖다 놓고 근처의 스피커에 음악을 크게 틀어논 뒤 고속카메라로 촬영해 보았습니다. (음악 : 떴다떴다 비행기) -스피커를 통해 음악이 나옴- 이것이 저희가 촬영한 영상입니다. 이 영상은 초당 수천 프레임의 속도로 기록되었지만, 여러분이 아주 가까이서 본다 해도 그냥 가만히 있는 나뭇잎들만 보이실 겁니다. 왜냐하면 이 나뭇잎들의 움직인 거리는 마이크로미터 정도로 1 센티미터의 천분의 일 입니다. 화면의 1 화소를 백분의 일에서 천분의 일로 나눈 정도입니다. 그러니 여러분 마음껏 째려보세요. 그런다해도 이렇게 미세한 움직임은 눈으로 분별하기 어렵습니다. 하지만 이 작은 움직임은 육안으로는 자각하기 어려운 것이지만 숫자적으로는 그 의미가 충분히 있는 것으로 드러났어요. 왜냐하면 제대로 된 알고리듬을 통해 무음의 정지해 있는 듯한 동영상을 찍은 뒤 그 영상으로부터 들으시는 소리를 복원해 낼 수 있었기 때문입니다. (음악: 떴다떴다 비행기) (박수) 이것이 어떻게 가능하냐고요? 이 미세한 움직임을 통해 이렇게나 방대한 정보를 얻을 수 있냐고요? 이 나뭇잎이 1 마이크로미터만큼 움직인다고 합시다. 그리고 그것이 천만분의 1 화소만큼의 이미지가 이동했다고 합시다. 그리 큰 숫자 같지는 않아보입니다. 하지만 단일 프레임의 비디오는 백만개에 가까운 화소로 이루어져있고 전체 영상에 걸쳐 이를 모두 합치면 우리가 볼 수 있는 아주 작은 움직임이 됩니다. 그런후엔 이 천분의 1 화소가 점층적으로 더해져 어떤 의미있는 움직임으로 바뀝니다. 개인적으로는, 우리가 밝혀낸 이 사실에 대해 몹시 흥분했습니다. (웃음) 하지만 제대로 된 알고리듬을 적용했어도 아직까지 이 퍼즐의 매우 중요한 조각이 없었습니다. 보시다 시피 많은 요소들이 언제, 어떻게 이 기술이 잘 작동할 것인가에 대해 영향을 끼칩니다. 측정하려는 사물과 그 거리, 어떤 카메라와 렌즈를 사용 할 지, 얼만큼의 빛을 사물에 노출해야 할 지 음향은 얼마나 커야 하는지 말이죠 그리고 제대로 된 알고리즘을 이용할지라도 초기에 실행된 실험에서는 깊은 주의를 기울여야 했습니다. 만약 이 중 하나라도 잘못된 가정이 있었다면 무엇이 문제인지 알아낼 방법이 없었기 때문입니다. 아마도 그냥 시끄러운 소음만 결과물로 얻었겠죠. 그래서 많은 초기의 실험들은 다음과 같습니다. 여기 제가 있습니다. 화면아래 왼쪽에 초고속 카메라가 언뜻 보이시죠 감자칩 과자봉지를 비추고 있습니다. 이 모든 것을 비추는 것이 밝은 이 램프 빛입니다. 제가 말씀드렸듯이 초기 실험에서는 모든 것에 대해 매우 조심스러웠습니다. 어떻게 진행되었는지 보여드릴게요. 셋, 둘, 하나, 시작 "떴다 떴다 비행기! 날아라, 날아라! " (웃음) 맞아요 이 실험은 정말이지 우스꽝스러워 보입니다. (웃음) 그러니까 저는 과자봉지에다 대고 소리를 지르고 (웃음) 엄청나게 밝은 조명을 쏘아대서 말 그대로 첫번째 실험한 과자봉지를 녹여버릴 정도였습니다. (웃음) 하지만 우스꽝스럽게 보이는 만큼 그것은 매우 중요한 실험이었어요. 왜냐하면 저희는 음향복원에 성공했기 때문입니다. (오디오) 떳다떳다 비행기! 날아라 날아라! (박수) 그리고 이는 정말이지 막대한 중요성을 띕니다. 왜냐하면 이 실험이 최초로 무음의 동영상에서 인간이 말하는 소리를 복원해 낸 사례이기 때문입니다. 이 실험을 기반으로 우리는 점차 실험에 변형을 시도했습니다. 다양한 사물을 이용하거나 촬영 거리를 더 멀리 조정하고 더 적은 양의 빛과 더 작은 소리를 이용하기도 했습니다. 이 다양한 실험결과들을 분석하며 이 기법의 허용 한도를 이해하게 되었습니다. 왜냐하면 우리가 이 한도를 이해한 뒤에는 그 허용 한도를 초월해 볼 수 있기 때문입니다. 그래서 다음과 같은 실험을 하게 되었습니다. 또 다시 저는 과자봉지에다 대고 이야기를 합니다. 하지만 이번에는 카메라를 4.5 미터 정도의 거리로 옮기고 방음이 되는 유리창 뒤에 설치하였습니다. 빛이라고는 자연광이 전부입니다. 자 이것이 저희가 찍은 동영상 입니다. 방음창 안에 있는 과자봉지 옆에서 들리는 소리는 다음과 같습니다. (오디오) 떳다 떳다 비행기 날아라 날아라 높이높이 날아라 우리비행기 그리고 이것이 우리가 방음창 밖에서 찍은 동영상에서 복원해 낸 음향입니다. (음성) 떴다 떴다 비행기 날아라 날아라 높이높이 날아라 우리비행기 (박수) 이 허용 한도를 추월해보고자 여러가지 다른 방법들도 시도했습니다. 다음은 좀 더 작은 소리를 이용한 실험입니다. 노트북 컴퓨터에 연결한 이어폰을 촬영한 것으로 저희의 목표는 이어폰에서 흘러나오는 음악을 복원해 내는 것이었습니다. 물론 플라스틱 이어폰이 찍힌 이 동영상은 무음입니다. 이 실험의 결과는 정확도가 매우 높아 샤잼(Shazam)어플을 통해 음악찾기를 할 수 있을 정도였어요. (웃음) (음악: "언더 프레셔" - 퀸) (박수) 다음은 다른 종류의 장비를 사용해서 허용 한도를 시험해 보기도 했습니다. 지금까지 제가 보여드린 실험결과들은 초고속 카메라를 사용한 것인데 이 카메라는 우리가 가진 핸드폰 카메라보다 100 배나 빠른 녹화가 가능합니다. 하지만 저희는 보통의 카메라를 가지고도 이를 구현할 수 있는 테크닉을 알아냈습니다. 이른바 "롤링셔터"라 불리우는 효과를 이용한 것인데요 많은 카메라들이 영상을 한 번에 한 줄씩 기록합니다. 만약 한 장면 촬영시 사물이 움직이면 각 줄 사이 시간차가 생기게 됩니다. 이 때문에 약간의 인위적 변형이 일어나게 되고 이것이 동영상 각 프레임에 남아 기록됩니다. 우리는 알고리듬을 변형하여 이 인위적 변형을 분석한 결과 이 동영상으로부터 음향을 복원해낼 수 있었습니다. 이것이 저희가 한 실험입니다. 보시는 것은 사탕봉지이고요 주변에 있는 스피커에서 큰 소리로 종전과 같은 "떳다 떳다 비행기" 음악이 흘러나옵니다. 하지만 이번에는 시중에서 구입한 일반 카메라를 사용했습니다. 잠시 후 저희가 복원한 소리를 들려드릴텐데요 이번에는 약간 뒤틀린 듯한 소리를 들으실 것입니다. 하지만 한 번 들어보시고 무슨 음악인지 알 수 있는 지 보세요. (오디오: "떳다떳다 비행기") 소리는 뒤틀린 듯하지만 주목하실 점은 우리가 밖에 나가 하이마트 같은 데서 손쉽게 구할 수 있는 것들로 이러한 기술의 구현이 가능하다는 것입니다. 그럼 이제 많은 사람들이 이 실험결과를 보고는 즉각적으로 "감시카메라"를 떠올립니다. 네 맞아요. 누군가를 감시하기 위해 이 기술을 사용한 다는 것을 상상하기란 그리 어렵지 않습니다. 하지만 현재에도 꽤 수준높은 감시카메라와 장비들이 많이 있다는 것을 염두에 두십시요. 사실, 많은 사람들이 레이저를 이용한 원거리 도청을 수십년간이나 해왔습니다. 하지만 여기서 새로운 점 정말로 다른 점은 우리는 이제 사물의 진동을 시각화 할 수 있는 방법이 생겼고 그 기술이 세상을 다른 눈으로 볼 수 있게 해준다는 겁니다. 또한 소리를 제어하여 진동을 일으키는 요소가 무엇인지 뿐 아니라 사물 그 자체의 성질에 대해서도 알 수 있게 해줍니다. 그래서 저는 한발짝 물러나 우리가 동영상을 이용하는 용도가 어떻게 달라질 수 있는지에 대해 생각해 보고 싶어요. 왜냐하면 우리는 주로 어떤 것들을 보기 위해 동영상을 이용하는데 제가 보여드린 것 처럼 영상을 통해 그것이 내는 소리를 들을 수도 있기 때문입니다. 하지만 사물의 성질에 대해 알 수 있는 다른 방법이 있습니다. 바로 직접 작동해 보는 것입니다. 우리는 사물을 밀기도 붙잡기고 하고 찌르거나 당겨보기도 합니다. 흔들어보고 어떻게 반응하는지 살피기도 합니다. 이것은 아직까지도 우리가 동영상으로 할 수 없는 것입니다. 적어도 지금까지 알 던 바로는 말이죠. 자 그럼 새로운 프로젝트를 보여드리겠습니다. 이는 몇달전에 나온 아이디어를 기반으로 한 것인데, 실제로 오늘 처음으로 대중에게 공개하는 것입니다. 동영상의 미동을 이용한 기본이론을 전제로 사물이 우리와 상호 작용 하는 방식을 포착한 것인데요, 이들이 우리에게 어떻게 반응 하는지 알 수 있습니다. 이것이 사물입니다. 이 실험의 경우 사람모양의 철사로 만든 인형입니다. 일반 카메라로 이 사물을 촬영합니다. 카메라 자체는 별로 특이할 것이 없습니다. 사실 이전에 제 핸드폰 카메라로 실험하기도 했습니다. 우리는 사물의 진동을 관찰해 보고자 하는데 그러기 위해서 사물이 놓여진 표면을 세게 두들겨 봅니다. 촬영하는 동안 말입니다. 그렇습니다. 우리가 표면을 두들기는 동안 찍은 5초 길이의 일반적인 동영상 입니다. 진동이 포착된 이 영상을 이용해 이 사물의 구조와 물질적 특징이 어떤 것인지 그 정보를 이용하여 직접 사물을 조작해 볼 수 있습니다. 자 이것이 우리가 만든 것입니다. 보시기에는 평범한 사진 같습니다. 하지만 이것은 사진도 동영상도 아닙니다. 왜냐하면 지금 제가 마우스를 갖다대서 이 사물을 움직여 볼 수 있기 때문입니다. 보시는 것은 이전에는 보지 못했던 힘을 가할때 이 사물이 어떻게 반응하는 지를 보여주는 시뮬레이션입니다. 오직 5초짜리 일반 동영상을 가지고 만들어낸 것 입니다. (박수) 이것은 엄청난 영향력을 지닌 세상을 보는 방법입니다. 왜냐하면 이로써 사물이 새로운 상황에 대해 어떻게 반응할지 예측할 수 있게 해주기 때문입니다. 예를들어 보죠. 여러분이 낡은 다리를 보고 자동차로 그 다리를 건널 때에 그 다리가 잘 버틸지를 궁금해 할 수 있습니다. 이러한 질문은 누구라도 그 답을 알고 싶어 하는 것입니다. 실제로 운전해서 다리를 건너기 전에 말입니다. 물론 앞서 소개해드린 음원복원 기술처럼 이 기술에도 한계점이 있겠지만 우리가 예상치 못한 많은 상황에서도 이 기술이 작동한다는 것을 확인하였습니다. 특히 더 긴 길이의 동영상을 이용하면 말입니다. 보시는 동영상은 제 아파트 앞 화단을 촬영한 것입니다. 이 나뭇가지에 그 어떤 것도 하지 않았습니다. 1 분정도 길이의 촬영만으로도 약한 바람에 의한 진동이 포착되었고 이 화단에 대해 충분한 정보를 얻어 시뮬레이션을 만들어 볼 수 있었습니다. (박수) 영화감독에게 이 이미지를 준다고 상상해 보세요. 이 장면이 찍히고 난 후에 바람의 강도와 방향을 조정할 수 있겠죠. 보시는 것은 걸려 있는 커튼을 촬영한 것 입니다. 동영상에는 눈으로 볼 수 있는 큰 움직임이 없습니다. 하지만 2분짜리 영상을 촬영함으로써 방안의 자연풍이 만들어내는 아주 미세한 움직임과 진동을 통해 다음과 같은 시뮬레이션을 만들 수 있습니다. 아이러니하게도 우리는 이미 가상현실 그래픽을 통해 이런식으로 직접 조작해 보는 것에 대해 익숙해져있습니다. 비디오 게임이나 3D 모델 같은것이요. 하지만 현실세계의 실제 사물을 단순한 동영상을 통해 이러한 정보를 얻어내느 것은 이전에는 없었던 것으로 매우 큰 잠재력을 지니고 있습니다. 자, 여기 이분들은 이 프로젝트에 애써주신 훌륭한 분들입니다. (박수) 제가 오늘 보여드린 것은 단지 시작에 불과합니다. 이러한 영상으로 할 수 있는 일 중 극히 일부분에 근접했을 뿐입니다. 이 기술을 통해 우리 주변의 것들을 새롭게 모색할 수 있는 좀 더 보편적인 방법을 개발할 것입니다. 미래에는 이 기술이 가능케 할 신나는 모험이 기다리고 있습니다. 감사합니다. (박수)