1 00:00:01,373 --> 00:00:04,722 พวกเราส่วนใหญ่คิดถึงการเคลื่อนไหว ว่าคือสิ่งที่มองเห็นได้ 2 00:00:05,889 --> 00:00:10,977 ถ้าผมเดินบนเวทีหรือยกมือยกไม้เวลาพูด 3 00:00:10,977 --> 00:00:13,238 การเคลื่อนไหวนั้นก็จะเป็นสิ่งที่คุณมองเห็นได้ 4 00:00:14,255 --> 00:00:19,737 แต่ยังมีการเคลื่อนไหวสำคัญ ๆ อีกมากมาย ที่ละเอียดซับซ้อนเกินว่าคนเราจะมองเห็น 5 00:00:19,737 --> 00:00:21,778 แต่ในช่วงไม่กี่ปีที่ผ่านมา 6 00:00:21,778 --> 00:00:23,775 เราค้นพบว่ากล้องวิดีโอ 7 00:00:23,775 --> 00:00:27,185 สามารถบันทึกการเคลื่อนไหวนี้ได้ แม้ว่าคนเราจะไม่สามารถรับรู้ 8 00:00:28,305 --> 00:00:29,856 เอาล่ะ ผมจะแสดงให้คุณเห็นว่าผมหมายถึงอะไร 9 00:00:30,717 --> 00:00:34,339 ทางซ้ายนี้ คุณจะเห็นวิดีโอ ข้อมือคนคนหนึ่ง 10 00:00:34,339 --> 00:00:37,486 และทางขวา คุณจะเห็นวิดีโดของเด็กทารกที่หลับอยู่ 11 00:00:37,486 --> 00:00:40,632 แต่ถ้าผมไม่บอกคุณว่านี่คือวิดีโอ 12 00:00:40,632 --> 00:00:44,393 คุณอาจคิดว่าคุณกำลังมองภาพนิ่งธรรมดา ๆ 13 00:00:44,393 --> 00:00:46,065 เพราะทั้งสองกรณีนั้น 14 00:00:46,065 --> 00:00:49,112 วิดีโอเหล่านี้ก็ดูแทบจะไม่ไหวติง 15 00:00:50,175 --> 00:00:54,060 ทั้งที่จริง ๆ แล้วมีการเคลื่อนไหว ที่ละเอียดอ่อนเกิดขึ้นมากมาย 16 00:00:54,060 --> 00:00:56,452 ถ้าคุณได้สัมผัสข้อมือทางด้านซ้าย 17 00:00:56,452 --> 00:00:58,448 คุณจะรับรู้ถึงชีพจร 18 00:00:58,448 --> 00:01:00,933 และถ้าคุณได้อุ้มทารกในวิดีโอฝั่งขวา 19 00:01:00,933 --> 00:01:03,324 คุณจะรู้สึกถึงการเคลื่อนที่ขึ้นลงของหน้าอก 20 00:01:03,324 --> 00:01:04,714 ขณะที่เธอหายใจในแต่ละครั้ง 21 00:01:05,762 --> 00:01:09,338 และการเคลื่อนไหวเหล่านี้ก็มีความสำคัญมาก 22 00:01:09,338 --> 00:01:12,681 เพียงแต่ว่ามันละเอียดอ่อน เกินกว่าที่เราจะมองเห็น 23 00:01:12,681 --> 00:01:14,957 เพราะอย่างนั้นเราจึงสังเกตมัน 24 00:01:14,957 --> 00:01:17,857 ผ่านการสัมผัสโดยตรงแทน 25 00:01:18,997 --> 00:01:20,262 แต่เมื่อไม่กี่ปีที่ผ่านมา 26 00:01:20,262 --> 00:01:24,667 เหล่าเพื่อนร่วมงานผมที่เอ็มไอทีได้พัฒนาสิ่งที่ เรียกว่ากล้องจุลทรรศน์แห่งการเคลื่อนไหว 27 00:01:24,667 --> 00:01:29,051 ซึ่งเป็นซอฟท์แวร์ที่จับการเคลื่อนไหว อันละเอียดอ่อนนี้ในวิดีโอ 28 00:01:29,051 --> 00:01:32,613 และขยายการเคลื่อนไหวนั้น ให้ใหญ่มากพอจนเรามองเห็นได้ 29 00:01:33,416 --> 00:01:36,899 ดังนั้น ถ้าหากเราใช้ซอฟท์แวร์นี้ กับวิดีโอทางด้านซ้าย 30 00:01:36,899 --> 00:01:40,149 มันจะทำให้เราเห็นชีพจรบนข้อมือ 31 00:01:40,149 --> 00:01:41,844 และถ้าเรานับจำนวนครั้งของชีพจรนั้น 32 00:01:41,844 --> 00:01:44,199 เราก็จะรู้อัตราการเต้นของหัวใจของคน ๆ นั้นด้วย 33 00:01:45,095 --> 00:01:48,160 และถ้าเราใช้ซอฟท์แวร์แบบเดียวกัน กับวิดีโอทางด้านขวา 34 00:01:48,160 --> 00:01:51,387 มันจะทำให้เราเห็นการหายใจแต่ละครั้งของทารกนี้ 35 00:01:51,387 --> 00:01:55,524 และเราสามารถใช้วิธีที่ไม่ต้องสัมผัสตัวเธอ ในการติดตามการหายใจของเธอ 36 00:01:56,884 --> 00:02:02,232 เทคโนโลยีนี้ทรงพลังมาก เพราะมันนำเอาปรากฏการณ์เช่นนี้ 37 00:02:02,232 --> 00:02:04,599 ซึ่งปกติแล้วเราจะต้องรับรู้ด้วยการสัมผัส 38 00:02:04,599 --> 00:02:07,556 และทำให้เราตรวจจับมันได้ผ่านทางภาพ โดยไม่มีการสัมผัส ๆ 39 00:02:09,104 --> 00:02:13,515 เมื่อสองปีที่แล้ว ผมร่วมงาน กับเหล่าผู้สร้างซอฟท์แวร์นี้ 40 00:02:13,515 --> 00:02:16,882 และเราตัดสินใจจะทำตามแนวคิดหนึ่ง ที่ดูออกจะเพี้ยน ๆ ให้เป็นจริง 41 00:02:16,882 --> 00:02:19,575 เราคิดว่ามันดูเจ๋ง ที่จะใช้ซอฟท์แวร์ 42 00:02:19,575 --> 00:02:22,710 เพื่อทำให้การเคลื่อนไหวเล็กนี้ ๆ มองเห็นได้ 43 00:02:22,710 --> 00:02:27,168 คุณอาจมองว่ามันเป็นการขยาย ประสาทด้านสัมผัสวิธีหนึ่งก็ได้ 44 00:02:27,168 --> 00:02:31,227 แต่ถ้าเราสามารถทำสิ่งเดียวกันนี้ กับประสาทด้านการได้ยินล่ะ 45 00:02:32,508 --> 00:02:37,173 ถ้าเราสามารถใช้วิดีโอ เพื่อจับการสั่นไหวของคลื่นเสียง 46 00:02:37,173 --> 00:02:40,000 ซึ่งก็นับเป็นการเคลื่อนไหวแบบหนึ่ง 47 00:02:40,000 --> 00:02:43,346 และเปลี่ยนทุกอย่างที่เราเห็นเห็นเป็นไมโครโฟน 48 00:02:44,236 --> 00:02:46,207 นี่อาจจะฟังดูเป็นแนวคิด ที่แปลก 49 00:02:46,207 --> 00:02:48,793 งั้นลองให้ผมอธิบายให้พวกคุณเข้าใจง่ายขึ้น 50 00:02:49,523 --> 00:02:53,011 ไมโครโฟนทั่ว ๆ ไป ทำงานโดยการเปลี่ยนการเคลื่อนไหว 51 00:02:53,011 --> 00:02:56,610 ของแผ่นไดอะแฟรมที่อยู่ข้างใน ให้เป็นสัญญาณไฟฟ้า 52 00:02:56,610 --> 00:03:00,928 และแผ่นไดอะแฟรมนั้นถูกออกแบบมา เพื่อให้สั่นไหวไปพร้อมกับคลื่นเสียง 53 00:03:00,928 --> 00:03:05,735 ดั้งนั้นการเคลื่อนไหวของมันจะถูกบันทึก และแปลงออกมาเป็นสัญญาณเสียง 54 00:03:05,735 --> 00:03:09,403 แต่คลื่นเสียงนั้นทำให้วัตถุทุกอย่างสั่นไหว 55 00:03:09,403 --> 00:03:14,883 การสั่นไหวนี้ โดยปกติจะเล็ก และเร็วมากจนเราสังเกตไม่เห็น 56 00:03:14,883 --> 00:03:18,621 แล้วถ้าเราบันทึกมันด้วยกล้องวิดีโอความเร็วสูง 57 00:03:18,621 --> 00:03:22,197 จากนั้นใช้ซอฟท์แวร์ เพื่อดึงการเคลื่อนไหวเล็ก ๆ นั้นออกมาก 58 00:03:22,197 --> 00:03:24,287 จากวิดีโอความเร็วสูงที่เราบันทึกไว้ 59 00:03:24,287 --> 00:03:28,561 แล้ววิเคราะห์หาเสียงซึ่งเป็นต้นกำเนิด ของการเคลื่อนไหวเหล่านั้น 60 00:03:29,859 --> 00:03:35,308 ด้วยวิธีนี้ เราจึงสามารถแปลงวัตถุที่มองเห็น ให้กลายเป็นไมโครโฟนระยะไกล 61 00:03:37,080 --> 00:03:39,263 เราได้ทำการทดสอบ 62 00:03:39,263 --> 00:03:41,190 และนี่คือหนึ่งในการทดลองของเรา 63 00:03:41,190 --> 00:03:44,139 โดยเรานำเอาต้นไม้ในกระถางที่คุณเห็นในทางขวา 64 00:03:44,139 --> 00:03:46,577 บันทึกด้วยกล้องวีดิโอความเร็วสูง 65 00:03:46,577 --> 00:03:50,106 ในขณะที่ลำโพงที่อยู่ใกล้ ๆ กำลังเล่นเสียงนี้ 66 00:03:50,275 --> 00:03:58,465 (เสียงเพลง: "Marry Had a Little Lamb") 67 00:03:59,820 --> 00:04:02,644 และนี่คือวิดีโอที่เราบันทึกไว้ 68 00:04:02,644 --> 00:04:06,568 เราบันทึกด้วยความเร็วหลายพันเฟรมต่อวินาที 69 00:04:06,568 --> 00:04:08,890 แต่แม้ว่าคุณจะมองมันใกล้ ๆ 70 00:04:08,890 --> 00:04:10,841 คุณก็จะเห็นเพียงแค่ใบไม้ 71 00:04:10,841 --> 00:04:13,906 ที่อยู่นิ่ง ๆ ไม่เคลื่อนไหวอะไร 72 00:04:13,906 --> 00:04:18,712 นั่นเป็นเพราะเสียงเคลื่อนที่ใบไม้เหล่านั้น ไปเพียงหนึ่งไมโครเมตร 73 00:04:19,103 --> 00:04:23,379 หรือ หนึ่งในหมื่นของเซนติเมตร 74 00:04:23,379 --> 00:04:27,535 ซึ่งคิดเป็นระยะทางในช่วง หนึ่งในร้อย หรือหนึ่งในพัน 75 00:04:27,535 --> 00:04:29,834 ของหนึ่งพิกเซลในภาพนี้ 76 00:04:29,881 --> 00:04:32,768 ดังนั้น คุณจะเพ่งมองเท่าไหร่ก็คงมองไม่เห็น 77 00:04:32,768 --> 00:04:36,103 การเคลื่อนไหวเพียงเล็กน้อยนี้ ไม่สามารถสังเกตได้ด้วยตาเปล่า 78 00:04:37,667 --> 00:04:41,824 แต่ปรากฏว่า สิ่งที่ไม่สามารถ สังเกตได้ด้วยตาเปล่านี้ 79 00:04:41,824 --> 00:04:44,633 สามารถสร้างความแตกต่าง ในเชิงเลขได้อย่างมีนัยสำคัญ 80 00:04:44,633 --> 00:04:46,635 เพราะด้วยระเบียบวิธีที่ถูกต้อง 81 00:04:46,635 --> 00:04:50,322 เราสามารถแปลงวิดีโอเงียบ ๆ ดูราวกับไร้การเคลื่อนไหวนี้ 82 00:04:50,322 --> 00:04:51,849 แล้วกู้เอาเสียงนี้กลับมาได้ 83 00:04:52,690 --> 00:05:00,074 (เสียงเพลง: "Marry Had a Little Lamb") 84 00:05:00,074 --> 00:05:05,902 (เสียงปรบมือ) 85 00:05:10,058 --> 00:05:11,997 มันเป็นไปได้อย่างไร 86 00:05:11,997 --> 00:05:16,341 ทำไมเราจึงได้ข้อมูลมหาศาล จากการเคลื่อนไหวเพียงเล็กน้อย 87 00:05:16,341 --> 00:05:21,702 สมมุติว่า ใบไม้เหล่านั้นเคลื่อนที่ ไปเพียงหนึ่งไมโครเมตร 88 00:05:21,702 --> 00:05:26,010 และสมมุติว่านั่นทำให้ภาพ เคลื่อนที่ไปหนึ่งในพันของพิกเซล 89 00:05:27,269 --> 00:05:29,841 ซึ่งฟังดูแล้วอาจจะไม่มาก 90 00:05:29,841 --> 00:05:31,837 แต่ภายในวิดีโอหนึ่งเฟรม 91 00:05:31,837 --> 00:05:35,094 นั้นมีหลายล้านพิกเซล 92 00:05:35,094 --> 00:05:38,548 ถ้าเรารวมเอาการเคลื่อนไหวเล็ก ๆ เหล่านั้นที่เราเห็น 93 00:05:38,548 --> 00:05:40,846 จากภาพทั้งภาพ 94 00:05:40,846 --> 00:05:43,469 หนึ่งในพันของพิกเซล 95 00:05:43,469 --> 00:05:46,244 ก็จะสะสมรวมกัน เป็นบางสิ่งที่มีนัยสำคัญ 96 00:05:46,870 --> 00:05:50,505 ผมจะบอกให้ว่า พวกเราแทบกระโดดตัวลอย เมื่อคิดเรื่องนี้ออก 97 00:05:50,505 --> 00:05:52,825 (เสียงหัวเราะ) 98 00:05:52,825 --> 00:05:56,078 แต่แม้กระทั่งด้วยระเบียบวิธีที่เหมาะสม 99 00:05:56,078 --> 00:05:59,695 เราก็ยังขาดชิ้นส่วนสำคัญของปัญหานี้ 100 00:05:59,695 --> 00:06:03,299 มันมีองค์ประกอบหลายอย่างที่จะส่งผลกระทบ ว่าเทคนิคนี้จะใช้ได้ผล 101 00:06:03,299 --> 00:06:05,296 เมื่อไร และดีแค่ไหน 102 00:06:05,296 --> 00:06:08,500 วัตถุนั้นคืออะไร และมันอยู่ไกลแค่ไหน 103 00:06:08,500 --> 00:06:10,894 กล้องเป็นอย่างไร และใช้เลนส์แบบไหน 104 00:06:10,894 --> 00:06:14,985 มีแสงตกกระทบบนวัตถุมากน้อยแค่ไหน และเสียงดังแค่ไหน 105 00:06:15,945 --> 00:06:19,320 และแม้ว่าด้วยระเบียบวิธีที่เหมาะสม 106 00:06:19,320 --> 00:06:22,710 เราจะต้องใช้ความระมัดระวังมาก ในการทดลองขั้นต้นของเรา 107 00:06:22,710 --> 00:06:25,102 เพราะถ้าองค์ประกอบเหล่านี้ ผิดเพี้ยนไปสักอย่างหนึ่ง 108 00:06:25,102 --> 00:06:27,470 จะไม่มีวิธีค้นพบว่า เกิดความผิดพลาดตรงไหน 109 00:06:27,470 --> 00:06:30,117 เราจะได้ยินแค่เสียงซ่า 110 00:06:30,117 --> 00:06:33,437 ดังนั้น การทดลองหลาย ๆ ครั้ง ในขั้นต้นจึงเป็นแบบนี้ 111 00:06:33,437 --> 00:06:35,643 นั่นคือผม 112 00:06:35,643 --> 00:06:39,683 และทางด้านซ้ายล่าง คุณจะพอมองเห็นกล้องวิดีโอความเร็วสูง 113 00:06:39,683 --> 00:06:41,866 ซึ่งจะจับไปยังถุงมันฝรั่ง 114 00:06:41,866 --> 00:06:44,815 ซึ่งถูกฉายด้วยไฟสว่างจ้า 115 00:06:44,815 --> 00:06:49,180 และอย่างที่บอก เราต้องระมัดระวังในการทดลอง ขั้นต้นเหล่านี้มาก ๆ 116 00:06:49,180 --> 00:06:51,688 มันจึงออกมาเป็นแบบนี้ 117 00:06:51,688 --> 00:06:55,449 (วิดีโอ) เอบ เดวิส: สาม, สอง, หนึ่ง, เริ่ม 118 00:06:55,449 --> 00:07:00,836 แมรี มีลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง! 119 00:07:00,836 --> 00:07:05,336 (เสียงหัวเราะ) 120 00:07:05,336 --> 00:07:08,150 เอบ: การทดลองนี้มันออกจะดูน่าขันไปหน่อย 121 00:07:08,150 --> 00:07:09,938 (เสียงหัวเราะ) 122 00:07:09,938 --> 00:07:12,283 ผมกำลังตะคอกใส่ถุงมันฝรั่ง 123 00:07:12,283 --> 00:07:13,834 (เสียงหัวเราะ) -- 124 00:07:13,834 --> 00:07:15,951 และเราก็ส่องมันด้วยไฟสว่างจ้า 125 00:07:15,951 --> 00:07:20,430 เสียจนกระทั่งเราทำถุงมันฝรั่งละลายไปถุงหนึ่ง เมื่อตอนเริ่มทดลอง (เสียงหัวเราะ) 126 00:07:20,525 --> 00:07:23,799 แต่ แม้ว่าการทดลองนี้มันจะดูน่าขัน 127 00:07:23,799 --> 00:07:25,587 แต่มันก็เป็นการทดลองสำคัญ 128 00:07:25,587 --> 00:07:28,513 เพราะเราสามารถกู้เอาเสียงนี้ออกมาได้ 129 00:07:28,513 --> 00:07:33,225 (เสียงบันทึก) แมรี่ มีลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง! 130 00:07:33,225 --> 00:07:37,313 (เสียงปรบมือ) 131 00:07:37,313 --> 00:07:39,194 เอบ: และนี่คือสิ่งที่สำคัญมาก 132 00:07:39,194 --> 00:07:43,313 เพราะว่านั่นคือครั้งแรกที่เราสามารถ กู้เสียงพูดมนุษย์ที่ฟังรู้เรื่อง 133 00:07:43,424 --> 00:07:45,765 จากวิดีโอของวัตถุซึ่งไม่มีเสียง 134 00:07:45,765 --> 00:07:48,156 และมันเป็นจุดอ้างอิงแก่เรา 135 00:07:48,156 --> 00:07:52,027 และเราก็ค่อย ๆ เริ่มที่จะปรับปรุงการทดลอง 136 00:07:52,106 --> 00:07:55,911 โดยใช้วัตถุต่าง ๆ หรือเคลื่อนที่วัตถุนั้นให้ห่างออกไป 137 00:07:55,911 --> 00:07:58,681 โดยใช้แสงน้อยลง หรือเสียงที่เบาลง 138 00:07:59,887 --> 00:08:02,761 แล้วเราก็วิเคราะห์การทดลองทั้งหมดนี้ 139 00:08:02,761 --> 00:08:06,383 จนกระทั่งเราเข้าใจถ่องแท้ถึง ข้อจำกัดของเทคนิคนี้ 140 00:08:06,383 --> 00:08:08,333 เพราะเมื่อเราเข้าใจข้อจำกัดเหล่านั้น 141 00:08:08,333 --> 00:08:10,679 เราก็สามารถหาทางที่จะผลักดันมันออกไป 142 00:08:10,679 --> 00:08:13,860 และนำไปสู่การทดลองเช่นนี้ 143 00:08:13,860 --> 00:08:16,599 ซึ่งก็เหมือนเคย คือผมก็จะพูดกับถุงมันฝรั่ง 144 00:08:16,599 --> 00:08:21,429 และครั้งนี้เราย้ายกล้องให้ห่างออกไป 15 ฟุต 145 00:08:21,429 --> 00:08:24,262 อยู่หลังหน้าต่างกันเสียง 146 00:08:24,262 --> 00:08:27,065 และทุกอย่างนั้นถูกให้แสงโดยแสงธรรมชาติ 147 00:08:28,529 --> 00:08:30,684 และนี่คือวิดีโอที่เราบันทึกไว้ 148 00:08:32,450 --> 00:08:37,009 และนี่คือเสียงจากด้านใน ข้าง ๆ ถุงมันฝรั่ง 149 00:08:37,009 --> 00:08:42,047 (เสียงบันทึก) แมรี่มีลูกแกะตัวหนึ่ง ขนมันขาวราวหิมะ 150 00:08:42,047 --> 00:08:47,666 และไม่ว่าแมรี่จะไปไหน ลูกแกะก็จะตามไป 151 00:08:47,666 --> 00:08:51,683 เอป: และนี่คือสิ่งที่เราสามารถกู้ กลับมาได้จากวีดิโอซึ่งไร้เสียง 152 00:08:51,683 --> 00:08:54,028 ที่บันทึกจากนอกหน้าต่าง 153 00:08:54,028 --> 00:08:58,463 (เสียงบันทึก) แมรี่มีลูกแกะตัวหนึ่ง ขนมันขาวราวหิมะ 154 00:08:58,463 --> 00:09:03,920 และไม่ว่าแมรี่จะไปไหน ลูกแกะก็จะตามไป 155 00:09:03,920 --> 00:09:10,421 (เสียงปรบมือ) 156 00:09:10,421 --> 00:09:13,963 เอบ: ยังมีอีกหลายวิธีที่เรา จะผลักดันขีดจำกัดเหล่านั้นออกไปอีก 157 00:09:13,963 --> 00:09:15,761 นี่คือการทดลองที่เงียบขึ้น 158 00:09:15,761 --> 00:09:19,871 ซึ่งเราถ่ายวิดีโอหูฟังซึ่งเสียบอยู่กับแล็ปท็อป 159 00:09:19,871 --> 00:09:23,981 และในกรณีนี้ เป้าหมายของเรา คือการกู้เสียงเพลงซึ่งกำลังเล่นจากแล็ปท็อป 160 00:09:23,981 --> 00:09:26,280 จากวิดีโอเงียบๆ 161 00:09:26,280 --> 00:09:28,787 ของหูฟังพลาสติกสองชิ้นนี้ 162 00:09:28,787 --> 00:09:30,970 และเราก็ทำได้ดีมาก 163 00:09:30,970 --> 00:09:33,431 เสียจนผมสามารถใช้เอาเสียงนี้ ไปใช้ค้นหาชื่อเพลงบน Shazam ได้ 164 00:09:33,431 --> 00:09:35,842 (เสียงหัวเราะ) 165 00:09:37,191 --> 00:09:47,225 (เสียงเพลง: "Under Pressure" โดยวง Queen) 166 00:09:49,615 --> 00:09:54,584 (เสียงปรบมือ) 167 00:09:54,584 --> 00:09:59,135 เรายังสามารถผลักดันขีดจำกัด โดยเปลี่ยนอุปกรณ์ที่เราใช้ 168 00:09:59,135 --> 00:10:01,596 เนื่องจากในการทดลอง ที่ผมแสดงให้คุณดูมาตั้งแต่ต้นนั้น 169 00:10:01,596 --> 00:10:03,918 ล้วนใช้กล้องวิดีโอความเร็วสูง 170 00:10:03,918 --> 00:10:06,797 ซึ่งสามารถบันทึกวิดีโอได้เร็วเป็น 100 เท่า 171 00:10:06,797 --> 00:10:08,724 ของกล้องบนโทรศัพท์มือถือ 172 00:10:08,724 --> 00:10:11,533 แต่กระนั้นเราก็ยังพบวิธีที่จะใช้เทคนิคนี้ 173 00:10:11,533 --> 00:10:13,763 กับกล้องทั่ว ๆ ไปได้ 174 00:10:13,763 --> 00:10:17,832 และเราทำได้โดยใช้ประโยชน์ จากสิ่งที่เรียกว่า โรลลิ่ง ชัตเตอร์ (rolling shutter) 175 00:10:17,832 --> 00:10:22,630 กล้องทั่วไปบันทึกภาพทีละแถว 176 00:10:22,630 --> 00:10:28,332 และถ้าวัตถุเคลื่อนที่ในขณะที่มีการบันทึกภาพหนึ่ง ๆ 177 00:10:28,344 --> 00:10:31,061 จะเกิดการหน่วงเวลาขึ้นเล็กน้อยในแต่ละแถว 178 00:10:31,061 --> 00:10:34,218 และก่อให้เกิดสัญญาณปลอมปนนี้ขึ้นมา 179 00:10:34,218 --> 00:10:37,701 ซึ่งจะถูกบันทึกลงในแต่ละเฟรมของวิดีโอ 180 00:10:37,701 --> 00:10:41,507 สิ่งที่เราพบก็คือ เมื่อเราวิเคราะห์สัญญาณปลอมปน 181 00:10:41,507 --> 00:10:46,122 เราก็จะสามารถกู้เอาเสียงกลับคืนมาได้ โดยใช้ระเบียบวิธีที่ดัดแปลง 182 00:10:46,122 --> 00:10:48,034 และนี่คือการทดลองที่เราทำ 183 00:10:48,034 --> 00:10:49,729 โดยเราถ่ายวิดีโอถุงลูกกวาด 184 00:10:49,729 --> 00:10:51,470 ขณะที่ลำโพงที่อยู่ใกล้ ๆ กำลังส่งเสียง 185 00:10:51,470 --> 00:10:54,442 เพลง "Mary Had a Little Lamb" 186 00:10:54,442 --> 00:10:58,645 แต่ครั้งนี้เราใช้กล้องที่หาซื้อได้ทั่ว ๆ ไป 187 00:10:58,645 --> 00:11:01,819 และในอีกสักครู่ ผมจะเล่นเสียงที่เรากู้คืนมาได้ 188 00:11:01,819 --> 00:11:03,869 และมันจะฟังดูเพี้ยนหน่อยในครั้งนี้ 189 00:11:03,869 --> 00:11:06,705 แต่ลองฟังดูว่าคุณยังพอฟังออก ว่ามันเป็นเพลงอะไรหรือเปล่า 190 00:11:07,723 --> 00:11:13,946 (เสียงเพลง: "Mary Had a Little Lamb") 191 00:11:25,527 --> 00:11:28,992 แม้เสียงจะฟังดูผิดเพี้ยนไป 192 00:11:28,992 --> 00:11:33,378 แต่สิ่งที่น่าทึ่งก็คือ เราสามารถทำสิ่งนี้ได้ 193 00:11:33,378 --> 00:11:36,004 ด้วยของที่คุณสามารถเดินออกไปหาซื้อได้ 194 00:11:36,004 --> 00:11:37,448 จากร้านขายสินค้าอิเล็คทรอนิคส์ทั่วไป 195 00:11:39,122 --> 00:11:40,485 ณ จุดนี้ 196 00:11:40,485 --> 00:11:42,459 หลาย ๆ คนที่เห็นงานวิจัยนี้ 197 00:11:42,459 --> 00:11:45,872 จะนึกถึงงานด้านการสอดแนมในทันที 198 00:11:45,872 --> 00:11:48,287 ซึ่งพูดตรง ๆ แล้ว 199 00:11:48,287 --> 00:11:52,420 มันก็ไม่ยากนักที่จะคิดว่าจะนำเทคโนโลยีนี้ ไปใช้เพื่อสอดแนมใครบางคนได้อย่างไร 200 00:11:52,420 --> 00:11:56,367 แต่ต้องอย่าลืมว่า มีเทคโนโลยีอีกมากมาย ที่ได้ถูกวิจัยพัฒนาสมบูรณ์แล้ว 201 00:11:56,367 --> 00:11:57,946 ที่ถูกออกแบบมาเพื่อการสอดแนม 202 00:11:57,946 --> 00:12:00,036 อันที่จริงแล้ว ผู้คนได้ใช้แสงเลเซอร์ 203 00:12:00,036 --> 00:12:02,835 เพื่อตรวจจับการสั่นไหวของวัตถุ จากระยะไกลมานับสิบปีแล้ว 204 00:12:03,978 --> 00:12:06,003 แต่สิ่งที่แปลกใหม่สำหรับเทคโนโลยีนี้ 205 00:12:06,003 --> 00:12:07,443 สิ่งที่แตกต่างจริง ๆ 206 00:12:07,443 --> 00:12:11,738 ก็คือเรามีวิธีใหม่ที่จะบันทึกการสั่นไหวของวัตถุ 207 00:12:11,738 --> 00:12:15,151 ซึ่งให้มุมมองใหม่สู่โลกกว้างกับเรา 208 00:12:15,151 --> 00:12:16,661 และเราสามารถใช้มุมมองนี้ 209 00:12:16,661 --> 00:12:21,560 ไม่เพียงแค่เรียนรู้ถึงแรงเช่นคลื่นเสียง ที่ทำให้วัตถุสั่นไหว 210 00:12:21,560 --> 00:12:23,848 แต่ยังเรียนรู้ถึงตัววัตถุนั้น ๆ 211 00:12:24,975 --> 00:12:26,668 ดังนั้นผมจึงอยากพาท่านถอยมาก้าวหนึ่ง 212 00:12:26,668 --> 00:12:30,917 และลองคิดว่ามันจะเปลี่ยนวิธี ที่เราใช้วิดีโอได้อย่างไร 213 00:12:30,917 --> 00:12:34,470 เพราะปกติแล้วเราใช้วิดีโอเพื่อดูสิ่งต่าง ๆ 214 00:12:34,470 --> 00:12:36,792 และผมก็เพิ่งแสดงให้คุณดูว่าเรา ใช้มัน 215 00:12:36,792 --> 00:12:38,649 เพื่อฟังเสียงต่าง ๆ ได้อย่างไร 216 00:12:38,649 --> 00:12:42,620 แต่ยังมีอีกวิธีหนึ่งที่เรา สามารถเรียนรู้เกี่ยวกับโลกได้ 217 00:12:42,620 --> 00:12:44,895 นั่นก็คือการมีปฏิสัมพันธ์กับมัน 218 00:12:44,895 --> 00:12:48,006 เราดัน และดึง และจิ้ม สิ่งต่าง ๆ 219 00:12:48,006 --> 00:12:51,187 เราเขย่ามันแล้วดูว่าจะเกิดอะไรขึ้น 220 00:12:51,187 --> 00:12:55,460 แต่นั่นเป็นอะไรที่วิดีโอไม่ยอมให้เราทำ 221 00:12:55,460 --> 00:12:57,596 อย่างน้อยก็วิดีโอทั่ว ๆ ไป 222 00:12:57,596 --> 00:12:59,546 ผมจึงอยากแสดงให้คุณเห็นถึงงานวิจัยใหม่ 223 00:12:59,546 --> 00:13:02,213 ซึ่งเกิดขึ้นมาจากแนวคิดของผม เมื่อไม่กี่เดือนก่อนหน้านี้ 224 00:13:02,213 --> 00:13:05,514 นี่จึงเป็นครั้งแรกที่ผมแสดงมันต่อสาธารณะชน 225 00:13:05,514 --> 00:13:10,877 แนวคิดพื้นฐานก็คือ เราจะใช้การสั่นไหวในวิดีโอนี้ 226 00:13:10,877 --> 00:13:15,358 เพื่อตรวจจับวัตถุในแบบที่เราสามารถโต้ตอบกับมันได้ 227 00:13:15,358 --> 00:13:17,332 และดูว่ามันจะมีปฏิกิริยาอย่างไร 228 00:13:19,120 --> 00:13:20,884 นี่คือวัตถุชิ้นหนึ่ง 229 00:13:20,884 --> 00:13:24,716 และในกรณีนี้ มันคือลวดดัดเป็นรูปคน 230 00:13:24,716 --> 00:13:27,804 และเราก็จะถ่ายวิดีโอวัตถุนี้โดยใช้กล้องธรรมดา 231 00:13:27,804 --> 00:13:29,928 ไม่มีอะไรพิเศษเกี่ยวกับกล้องนี้ 232 00:13:29,928 --> 00:13:32,889 อันที่จริงแล้ว ผมก็เคยทำการทดลองนี้ ด้วยกล้องมือถือของผมเอง 233 00:13:32,889 --> 00:13:35,141 แต่เราก็อยากเห็นวัตถุนี้สั่นไหว 234 00:13:35,141 --> 00:13:36,274 เพื่อให้เป็นเช่นนั้น 235 00:13:36,274 --> 00:13:39,620 เราจะเคาะเบา ๆ บนพื้นที่มันตั้งอยู่ 236 00:13:39,620 --> 00:13:41,758 ในขณะที่เราบันทึกวิดีโอ 237 00:13:47,398 --> 00:13:51,069 แค่นั้นเอง เพียงแค่วิดีโอยาว 5 วินาที 238 00:13:51,069 --> 00:13:53,205 ขณะที่เราเคาะพื้น 239 00:13:53,205 --> 00:13:56,718 และเราก็จะใช้การสั่นไหวในวิดีโอ 240 00:13:56,718 --> 00:14:01,262 เพื่อศึกษาเกี่ยวกับโครงสร้าง และคุณสมบัติเชิงวัสดุของวัตถุชิ้นนั้น 241 00:14:01,262 --> 00:14:06,096 และเราก็จะใช้ข้อมูลนั้น เพื่อสร้างบางสิ่งใหม่ ๆ ที่สามารถโต้ตอบได้ 242 00:14:12,866 --> 00:14:15,519 นี่คือสิ่งที่เราสร้างขึ้นมา 243 00:14:15,519 --> 00:14:17,748 มันดูเหมือนภาพธรรมดา 244 00:14:17,748 --> 00:14:20,859 แต่นี่ไม่ใช่รูปภาพ และมันก็ไม่ใช่วิดีโอ 245 00:14:20,859 --> 00:14:23,227 เพราะตอนนี้ผมสามารถเอาเมาส์ 246 00:14:23,227 --> 00:14:26,086 ไปโต้ตอบกับวัตถุชิ้นนี้ได้ 247 00:14:32,936 --> 00:14:35,293 และสิ่งที่คุณเห็นอยู่ตอนนี้ 248 00:14:35,389 --> 00:14:37,615 คือการจำลองว่าวัตถุนี้ 249 00:14:37,615 --> 00:14:42,073 จะตอบสนองต่อแรงใหม่ ๆ ที่เราไม่เคยเห็นมาก่อน 250 00:14:42,073 --> 00:14:45,706 และเราก็สร้างมันขึ้นจาก วิดีโอธรรมดาความยาวแค่ 5 วินาที 251 00:14:47,249 --> 00:14:51,964 (เสียงปรบมือ) 252 00:14:57,421 --> 00:15:00,648 นี่เป็นวิธีที่ทรงพลังมาก ในการศึกษาโลกใบนี้ 253 00:15:00,648 --> 00:15:03,620 เพราะมันทำให้เราทำนายได้ ว่าวัตถุจะตอบสนองอย่างไร 254 00:15:03,620 --> 00:15:05,443 กับสถานการณ์ใหม่ ๆ 255 00:15:05,443 --> 00:15:08,916 และสมมุติว่าคุณมองดูสะพานเก่า ๆ แห่งหนึ่ง 256 00:15:08,916 --> 00:15:12,443 และเกิดสงสัยว่าจะเกิดอะไรขึ้น สะพานจะรับน้ำหนักได้หรือไม่ 257 00:15:12,443 --> 00:15:15,276 ถ้าคุณขับรถข้ามสะพานนั้น 258 00:15:15,276 --> 00:15:18,050 และนั่นเป็นคำถามที่คุณต้องการคำตอบ 259 00:15:18,050 --> 00:15:20,610 ก่อนที่จะขับข้ามสะพานนั้น 260 00:15:21,988 --> 00:15:25,260 และแน่นอน มันก็จะต้องมีขีดจำกัดกับเทคนิคนี้ 261 00:15:25,260 --> 00:15:27,722 เช่นเดียวกับโมโครโฟนภาพ 262 00:15:27,722 --> 00:15:30,903 แต่เราก็พบว่ามันใช้ได้ในหลาย ๆ สถานการณ์ 263 00:15:30,903 --> 00:15:32,778 ที่คุณอาจคาดไม่ถึง 264 00:15:32,778 --> 00:15:35,546 โดยเฉพาะเมื่อคุณป้อนวิดีโอที่ยาวขึ้นให้มัน 265 00:15:35,546 --> 00:15:38,054 ยกตัวอย่างเช่น นี่คือวิดีโอที่ผมถ่าย 266 00:15:38,054 --> 00:15:40,353 ไม้พุ่มหนึ่งนอกอพาร์ทเมนต์ของผม 267 00:15:40,353 --> 00:15:43,441 ผมไม่ได้ทำอะไรกับพุ่มไม้นี้ 268 00:15:43,441 --> 00:15:46,146 แต่ด้วยการถ่ายวิดีโอยาวหนึ่งนาที 269 00:15:46,146 --> 00:15:49,524 ลมที่พัดเบา ๆ ก็สร้างการสั่นไหวที่มากพอ 270 00:15:49,524 --> 00:15:53,111 ที่เราจะเรียนรู้เกี่ยวกับพุ่มไม้นี้ เพื่อที่จะสร้างแบบจำลอง 271 00:15:55,270 --> 00:16:01,412 (เสียงปรบมือ) 272 00:16:01,412 --> 00:16:04,384 และคุณคงพอนึกออกว่า หากผู้กำกับภาพยนต์ได้ใช้มัน 273 00:16:04,384 --> 00:16:06,103 และช่วยให้เขาควบคุม 274 00:16:06,103 --> 00:16:11,025 ความแรง หรือทิศทางลม ในฉากหลังจากที่มันได้ถูกถ่ายไปแล้ว 275 00:16:12,810 --> 00:16:17,345 หรือในกรณีนี้ เราตั้งกล้องไปยังผ้าม่านที่แขวนอยู่ 276 00:16:17,345 --> 00:16:21,474 คุณอาจมองไม่เห็น การเคลื่อนไหวใด ๆ ในวิดีโอนี้ 277 00:16:21,474 --> 00:16:24,399 แต่โดยการบันทึกวิดีโอยาว 2 นาที 278 00:16:24,399 --> 00:16:26,837 กระแสลมตามธรรมชาติในห้องนี้ 279 00:16:26,837 --> 00:16:31,249 สร้างการเคลื่อนไหว ที่แทบมองไม่เห็นขึ้น 280 00:16:31,249 --> 00:16:33,814 และเราสามารถเรียนรู้จากมันได้มากพอ ที่จะสร้างแบบจำลอง 281 00:16:36,243 --> 00:16:38,609 ซึ่งก็น่าตลก 282 00:16:38,609 --> 00:16:41,697 ที่เราคุ้นชินกับการโต้ตอบลักษณะนี้ 283 00:16:41,697 --> 00:16:44,344 หากมันเป็นวัตถุเสมือน 284 00:16:44,344 --> 00:16:47,641 หรือวิดีโอเกมส์ และแบบจำลองสามมิติ 285 00:16:47,641 --> 00:16:52,045 แต่การที่เราสามารถดึงข้อมูลเหล่านี้ จากวัตถุจริง ๆ ในโลกจริง ๆ ได้ 286 00:16:52,045 --> 00:16:54,862 โดยใช้วิดีโอธรรมดา ๆ นั้น 287 00:16:54,862 --> 00:16:57,045 เป็นบางสิ่งที่ใหม่และมีศักยภาพมาก 288 00:16:58,410 --> 00:17:03,314 และนี่คือกลุ่มคนที่น่าทึ่ง ผู้ซึ่งร่วมงานกับผมในงานวิจัยเหล่านี้ 289 00:17:04,057 --> 00:17:09,653 (เสียงปรบมือ) 290 00:17:12,819 --> 00:17:15,876 สิ่งทีผมแสดงให้คุณดูในวันนี้ เป็นเพียงแค่การเริ่มต้น 291 00:17:15,876 --> 00:17:17,989 เราเพียงแค่เริ่มเปิดประตู 292 00:17:17,989 --> 00:17:20,961 เข้าสู่โลกของหลากหลายสิ่ง ที่คุณสามารถทำได้ด้วยเทคนิคนี้ 293 00:17:20,961 --> 00:17:23,247 เพราะมันให้วิธีใหม่แก่เรา 294 00:17:23,342 --> 00:17:28,066 ในการดึงข้อมูลจากสิ่งแวดล้อมรอบ ๆ ตัว ด้วยเทคโนโลยีที่เข้าถึงได้ทั่ว ๆ ไป 295 00:17:28,066 --> 00:17:29,995 เมื่อมองไปในอนาคต 296 00:17:29,995 --> 00:17:32,032 มันคงน่าตื่นเต้นที่จะได้ค้นพบว่า 297 00:17:32,032 --> 00:17:33,888 สิ่งนี้จะช่วยบอกอะไรเราได้เกี่ยวกับโลกใบนี้ 298 00:17:34,381 --> 00:17:35,585 ขอบคุณครับ 299 00:17:35,610 --> 00:17:41,717 (เสียงปรบมือ)