WEBVTT 00:00:01.373 --> 00:00:04.722 พวกเราส่วนใหญ่คิดถึงการเคลื่อนไหว ว่าคือสิ่งที่มองเห็นได้ 00:00:05.889 --> 00:00:10.977 ถ้าผมเดินบนเวทีหรือยกมือยกไม้เวลาพูด 00:00:10.977 --> 00:00:13.238 การเคลื่อนไหวนั้นก็จะเป็นสิ่งที่คุณมองเห็นได้ 00:00:14.255 --> 00:00:19.737 แต่ยังมีการเคลื่อนไหวสำคัญ ๆ อีกมากมาย ที่ละเอียดซับซ้อนเกินว่าคนเราจะมองเห็น 00:00:19.737 --> 00:00:21.778 แต่ในช่วงไม่กี่ปีที่ผ่านมา 00:00:21.778 --> 00:00:23.775 เราค้นพบว่ากล้องวิดีโอ 00:00:23.775 --> 00:00:27.185 สามารถบันทึกการเคลื่อนไหวนี้ได้ แม้ว่าคนเราจะไม่สามารถรับรู้ NOTE Paragraph 00:00:28.305 --> 00:00:29.856 เอาล่ะ ผมจะแสดงให้คุณเห็นว่าผมหมายถึงอะไร 00:00:30.717 --> 00:00:34.339 ทางซ้ายนี้ คุณจะเห็นวิดีโอ ข้อมือคนคนหนึ่ง 00:00:34.339 --> 00:00:37.486 และทางขวา คุณจะเห็นวิดีโดของเด็กทารกที่หลับอยู่ 00:00:37.486 --> 00:00:40.632 แต่ถ้าผมไม่บอกคุณว่านี่คือวิดีโอ 00:00:40.632 --> 00:00:44.393 คุณอาจคิดว่าคุณกำลังมองภาพนิ่งธรรมดา ๆ 00:00:44.393 --> 00:00:46.065 เพราะทั้งสองกรณีนั้น 00:00:46.065 --> 00:00:49.112 วิดีโอเหล่านี้ก็ดูแทบจะไม่ไหวติง 00:00:50.175 --> 00:00:54.060 ทั้งที่จริง ๆ แล้วมีการเคลื่อนไหว ที่ละเอียดอ่อนเกิดขึ้นมากมาย 00:00:54.060 --> 00:00:56.452 ถ้าคุณได้สัมผัสข้อมือทางด้านซ้าย 00:00:56.452 --> 00:00:58.448 คุณจะรับรู้ถึงชีพจร 00:00:58.448 --> 00:01:00.933 และถ้าคุณได้อุ้มทารกในวิดีโอฝั่งขวา 00:01:00.933 --> 00:01:03.324 คุณจะรู้สึกถึงการเคลื่อนที่ขึ้นลงของหน้าอก 00:01:03.324 --> 00:01:04.714 ขณะที่เธอหายใจในแต่ละครั้ง 00:01:05.762 --> 00:01:09.338 และการเคลื่อนไหวเหล่านี้ก็มีความสำคัญมาก 00:01:09.338 --> 00:01:12.681 เพียงแต่ว่ามันละเอียดอ่อน เกินกว่าที่เราจะมองเห็น 00:01:12.681 --> 00:01:14.957 เพราะอย่างนั้นเราจึงสังเกตมัน 00:01:14.957 --> 00:01:17.857 ผ่านการสัมผัสโดยตรงแทน NOTE Paragraph 00:01:18.997 --> 00:01:20.262 แต่เมื่อไม่กี่ปีที่ผ่านมา 00:01:20.262 --> 00:01:24.667 เหล่าเพื่อนร่วมงานผมที่เอ็มไอทีได้พัฒนาสิ่งที่ เรียกว่ากล้องจุลทรรศน์แห่งการเคลื่อนไหว 00:01:24.667 --> 00:01:29.051 ซึ่งเป็นซอฟท์แวร์ที่จับการเคลื่อนไหว อันละเอียดอ่อนนี้ในวิดีโอ 00:01:29.051 --> 00:01:32.613 และขยายการเคลื่อนไหวนั้น ให้ใหญ่มากพอจนเรามองเห็นได้ 00:01:33.416 --> 00:01:36.899 ดังนั้น ถ้าหากเราใช้ซอฟท์แวร์นี้ กับวิดีโอทางด้านซ้าย 00:01:36.899 --> 00:01:40.149 มันจะทำให้เราเห็นชีพจรบนข้อมือ 00:01:40.149 --> 00:01:41.844 และถ้าเรานับจำนวนครั้งของชีพจรนั้น 00:01:41.844 --> 00:01:44.199 เราก็จะรู้อัตราการเต้นของหัวใจของคน ๆ นั้นด้วย 00:01:45.095 --> 00:01:48.160 และถ้าเราใช้ซอฟท์แวร์แบบเดียวกัน กับวิดีโอทางด้านขวา 00:01:48.160 --> 00:01:51.387 มันจะทำให้เราเห็นการหายใจแต่ละครั้งของทารกนี้ 00:01:51.387 --> 00:01:55.524 และเราสามารถใช้วิธีที่ไม่ต้องสัมผัสตัวเธอ ในการติดตามการหายใจของเธอ NOTE Paragraph 00:01:56.884 --> 00:02:02.232 เทคโนโลยีนี้ทรงพลังมาก เพราะมันนำเอาปรากฏการณ์เช่นนี้ 00:02:02.232 --> 00:02:04.599 ซึ่งปกติแล้วเราจะต้องรับรู้ด้วยการสัมผัส 00:02:04.599 --> 00:02:07.556 และทำให้เราตรวจจับมันได้ผ่านทางภาพ โดยไม่มีการสัมผัส ๆ NOTE Paragraph 00:02:09.104 --> 00:02:13.515 เมื่อสองปีที่แล้ว ผมร่วมงาน กับเหล่าผู้สร้างซอฟท์แวร์นี้ 00:02:13.515 --> 00:02:16.882 และเราตัดสินใจจะทำตามแนวคิดหนึ่ง ที่ดูออกจะเพี้ยน ๆ ให้เป็นจริง 00:02:16.882 --> 00:02:19.575 เราคิดว่ามันดูเจ๋ง ที่จะใช้ซอฟท์แวร์ 00:02:19.575 --> 00:02:22.710 เพื่อทำให้การเคลื่อนไหวเล็กนี้ ๆ มองเห็นได้ 00:02:22.710 --> 00:02:27.168 คุณอาจมองว่ามันเป็นการขยาย ประสาทด้านสัมผัสวิธีหนึ่งก็ได้ 00:02:27.168 --> 00:02:31.227 แต่ถ้าเราสามารถทำสิ่งเดียวกันนี้ กับประสาทด้านการได้ยินล่ะ 00:02:32.508 --> 00:02:37.173 ถ้าเราสามารถใช้วิดีโอ เพื่อจับการสั่นไหวของคลื่นเสียง 00:02:37.173 --> 00:02:40.000 ซึ่งก็นับเป็นการเคลื่อนไหวแบบหนึ่ง 00:02:40.000 --> 00:02:43.346 และเปลี่ยนทุกอย่างที่เราเห็นเห็นเป็นไมโครโฟน NOTE Paragraph 00:02:44.236 --> 00:02:46.207 นี่อาจจะฟังดูเป็นแนวคิด ที่แปลก 00:02:46.207 --> 00:02:48.793 งั้นลองให้ผมอธิบายให้พวกคุณเข้าใจง่ายขึ้น 00:02:49.523 --> 00:02:53.011 ไมโครโฟนทั่ว ๆ ไป ทำงานโดยการเปลี่ยนการเคลื่อนไหว 00:02:53.011 --> 00:02:56.610 ของแผ่นไดอะแฟรมที่อยู่ข้างใน ให้เป็นสัญญาณไฟฟ้า 00:02:56.610 --> 00:03:00.928 และแผ่นไดอะแฟรมนั้นถูกออกแบบมา เพื่อให้สั่นไหวไปพร้อมกับคลื่นเสียง 00:03:00.928 --> 00:03:05.735 ดั้งนั้นการเคลื่อนไหวของมันจะถูกบันทึก และแปลงออกมาเป็นสัญญาณเสียง 00:03:05.735 --> 00:03:09.403 แต่คลื่นเสียงนั้นทำให้วัตถุทุกอย่างสั่นไหว 00:03:09.403 --> 00:03:14.883 การสั่นไหวนี้ โดยปกติจะเล็ก และเร็วมากจนเราสังเกตไม่เห็น NOTE Paragraph 00:03:14.883 --> 00:03:18.621 แล้วถ้าเราบันทึกมันด้วยกล้องวิดีโอความเร็วสูง 00:03:18.621 --> 00:03:22.197 จากนั้นใช้ซอฟท์แวร์ เพื่อดึงการเคลื่อนไหวเล็ก ๆ นั้นออกมาก 00:03:22.197 --> 00:03:24.287 จากวิดีโอความเร็วสูงที่เราบันทึกไว้ 00:03:24.287 --> 00:03:28.561 แล้ววิเคราะห์หาเสียงซึ่งเป็นต้นกำเนิด ของการเคลื่อนไหวเหล่านั้น 00:03:29.859 --> 00:03:35.308 ด้วยวิธีนี้ เราจึงสามารถแปลงวัตถุที่มองเห็น ให้กลายเป็นไมโครโฟนระยะไกล 00:03:37.080 --> 00:03:39.263 เราได้ทำการทดสอบ 00:03:39.263 --> 00:03:41.190 และนี่คือหนึ่งในการทดลองของเรา 00:03:41.190 --> 00:03:44.139 โดยเรานำเอาต้นไม้ในกระถางที่คุณเห็นในทางขวา 00:03:44.139 --> 00:03:46.577 บันทึกด้วยกล้องวีดิโอความเร็วสูง 00:03:46.577 --> 00:03:50.106 ในขณะที่ลำโพงที่อยู่ใกล้ ๆ กำลังเล่นเสียงนี้ NOTE Paragraph 00:03:50.275 --> 00:03:58.465 (เสียงเพลง: "Marry Had a Little Lamb") NOTE Paragraph 00:03:59.820 --> 00:04:02.644 และนี่คือวิดีโอที่เราบันทึกไว้ 00:04:02.644 --> 00:04:06.568 เราบันทึกด้วยความเร็วหลายพันเฟรมต่อวินาที 00:04:06.568 --> 00:04:08.890 แต่แม้ว่าคุณจะมองมันใกล้ ๆ 00:04:08.890 --> 00:04:10.841 คุณก็จะเห็นเพียงแค่ใบไม้ 00:04:10.841 --> 00:04:13.906 ที่อยู่นิ่ง ๆ ไม่เคลื่อนไหวอะไร 00:04:13.906 --> 00:04:18.712 นั่นเป็นเพราะเสียงเคลื่อนที่ใบไม้เหล่านั้น ไปเพียงหนึ่งไมโครเมตร 00:04:19.103 --> 00:04:23.379 หรือ หนึ่งในหมื่นของเซนติเมตร 00:04:23.379 --> 00:04:27.535 ซึ่งคิดเป็นระยะทางในช่วง หนึ่งในร้อย หรือหนึ่งในพัน 00:04:27.535 --> 00:04:29.834 ของหนึ่งพิกเซลในภาพนี้ 00:04:29.881 --> 00:04:32.768 ดังนั้น คุณจะเพ่งมองเท่าไหร่ก็คงมองไม่เห็น 00:04:32.768 --> 00:04:36.103 การเคลื่อนไหวเพียงเล็กน้อยนี้ ไม่สามารถสังเกตได้ด้วยตาเปล่า 00:04:37.667 --> 00:04:41.824 แต่ปรากฏว่า สิ่งที่ไม่สามารถ สังเกตได้ด้วยตาเปล่านี้ 00:04:41.824 --> 00:04:44.633 สามารถสร้างความแตกต่าง ในเชิงเลขได้อย่างมีนัยสำคัญ 00:04:44.633 --> 00:04:46.635 เพราะด้วยระเบียบวิธีที่ถูกต้อง 00:04:46.635 --> 00:04:50.322 เราสามารถแปลงวิดีโอเงียบ ๆ ดูราวกับไร้การเคลื่อนไหวนี้ 00:04:50.322 --> 00:04:51.849 แล้วกู้เอาเสียงนี้กลับมาได้ NOTE Paragraph 00:04:52.690 --> 00:05:00.074 (เสียงเพลง: "Marry Had a Little Lamb") NOTE Paragraph 00:05:00.074 --> 00:05:05.902 (เสียงปรบมือ) NOTE Paragraph 00:05:10.058 --> 00:05:11.997 มันเป็นไปได้อย่างไร 00:05:11.997 --> 00:05:16.341 ทำไมเราจึงได้ข้อมูลมหาศาล จากการเคลื่อนไหวเพียงเล็กน้อย 00:05:16.341 --> 00:05:21.702 สมมุติว่า ใบไม้เหล่านั้นเคลื่อนที่ ไปเพียงหนึ่งไมโครเมตร 00:05:21.702 --> 00:05:26.010 และสมมุติว่านั่นทำให้ภาพ เคลื่อนที่ไปหนึ่งในพันของพิกเซล 00:05:27.269 --> 00:05:29.841 ซึ่งฟังดูแล้วอาจจะไม่มาก 00:05:29.841 --> 00:05:31.837 แต่ภายในวิดีโอหนึ่งเฟรม 00:05:31.837 --> 00:05:35.094 นั้นมีหลายล้านพิกเซล 00:05:35.094 --> 00:05:38.548 ถ้าเรารวมเอาการเคลื่อนไหวเล็ก ๆ เหล่านั้นที่เราเห็น 00:05:38.548 --> 00:05:40.846 จากภาพทั้งภาพ 00:05:40.846 --> 00:05:43.469 หนึ่งในพันของพิกเซล 00:05:43.469 --> 00:05:46.244 ก็จะสะสมรวมกัน เป็นบางสิ่งที่มีนัยสำคัญ NOTE Paragraph 00:05:46.870 --> 00:05:50.505 ผมจะบอกให้ว่า พวกเราแทบกระโดดตัวลอย เมื่อคิดเรื่องนี้ออก 00:05:50.505 --> 00:05:52.825 (เสียงหัวเราะ) 00:05:52.825 --> 00:05:56.078 แต่แม้กระทั่งด้วยระเบียบวิธีที่เหมาะสม 00:05:56.078 --> 00:05:59.695 เราก็ยังขาดชิ้นส่วนสำคัญของปัญหานี้ 00:05:59.695 --> 00:06:03.299 มันมีองค์ประกอบหลายอย่างที่จะส่งผลกระทบ ว่าเทคนิคนี้จะใช้ได้ผล 00:06:03.299 --> 00:06:05.296 เมื่อไร และดีแค่ไหน 00:06:05.296 --> 00:06:08.500 วัตถุนั้นคืออะไร และมันอยู่ไกลแค่ไหน 00:06:08.500 --> 00:06:10.894 กล้องเป็นอย่างไร และใช้เลนส์แบบไหน 00:06:10.894 --> 00:06:14.985 มีแสงตกกระทบบนวัตถุมากน้อยแค่ไหน และเสียงดังแค่ไหน 00:06:15.945 --> 00:06:19.320 และแม้ว่าด้วยระเบียบวิธีที่เหมาะสม 00:06:19.320 --> 00:06:22.710 เราจะต้องใช้ความระมัดระวังมาก ในการทดลองขั้นต้นของเรา 00:06:22.710 --> 00:06:25.102 เพราะถ้าองค์ประกอบเหล่านี้ ผิดเพี้ยนไปสักอย่างหนึ่ง 00:06:25.102 --> 00:06:27.470 จะไม่มีวิธีค้นพบว่า เกิดความผิดพลาดตรงไหน 00:06:27.470 --> 00:06:30.117 เราจะได้ยินแค่เสียงซ่า 00:06:30.117 --> 00:06:33.437 ดังนั้น การทดลองหลาย ๆ ครั้ง ในขั้นต้นจึงเป็นแบบนี้ 00:06:33.437 --> 00:06:35.643 นั่นคือผม 00:06:35.643 --> 00:06:39.683 และทางด้านซ้ายล่าง คุณจะพอมองเห็นกล้องวิดีโอความเร็วสูง 00:06:39.683 --> 00:06:41.866 ซึ่งจะจับไปยังถุงมันฝรั่ง 00:06:41.866 --> 00:06:44.815 ซึ่งถูกฉายด้วยไฟสว่างจ้า 00:06:44.815 --> 00:06:49.180 และอย่างที่บอก เราต้องระมัดระวังในการทดลอง ขั้นต้นเหล่านี้มาก ๆ 00:06:49.180 --> 00:06:51.688 มันจึงออกมาเป็นแบบนี้ NOTE Paragraph 00:06:51.688 --> 00:06:55.449 (วิดีโอ) เอบ เดวิส: สาม, สอง, หนึ่ง, เริ่ม 00:06:55.449 --> 00:07:00.836 แมรี มีลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง! NOTE Paragraph 00:07:00.836 --> 00:07:05.336 (เสียงหัวเราะ) NOTE Paragraph 00:07:05.336 --> 00:07:08.150 เอบ: การทดลองนี้มันออกจะดูน่าขันไปหน่อย 00:07:08.150 --> 00:07:09.938 (เสียงหัวเราะ) 00:07:09.938 --> 00:07:12.283 ผมกำลังตะคอกใส่ถุงมันฝรั่ง 00:07:12.283 --> 00:07:13.834 (เสียงหัวเราะ) -- 00:07:13.834 --> 00:07:15.951 และเราก็ส่องมันด้วยไฟสว่างจ้า 00:07:15.951 --> 00:07:20.430 เสียจนกระทั่งเราทำถุงมันฝรั่งละลายไปถุงหนึ่ง เมื่อตอนเริ่มทดลอง (เสียงหัวเราะ) 00:07:20.525 --> 00:07:23.799 แต่ แม้ว่าการทดลองนี้มันจะดูน่าขัน 00:07:23.799 --> 00:07:25.587 แต่มันก็เป็นการทดลองสำคัญ 00:07:25.587 --> 00:07:28.513 เพราะเราสามารถกู้เอาเสียงนี้ออกมาได้ NOTE Paragraph 00:07:28.513 --> 00:07:33.225 (เสียงบันทึก) แมรี่ มีลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง! NOTE Paragraph 00:07:33.225 --> 00:07:37.313 (เสียงปรบมือ) NOTE Paragraph 00:07:37.313 --> 00:07:39.194 เอบ: และนี่คือสิ่งที่สำคัญมาก 00:07:39.194 --> 00:07:43.313 เพราะว่านั่นคือครั้งแรกที่เราสามารถ กู้เสียงพูดมนุษย์ที่ฟังรู้เรื่อง 00:07:43.424 --> 00:07:45.765 จากวิดีโอของวัตถุซึ่งไม่มีเสียง 00:07:45.765 --> 00:07:48.156 และมันเป็นจุดอ้างอิงแก่เรา 00:07:48.156 --> 00:07:52.027 และเราก็ค่อย ๆ เริ่มที่จะปรับปรุงการทดลอง 00:07:52.106 --> 00:07:55.911 โดยใช้วัตถุต่าง ๆ หรือเคลื่อนที่วัตถุนั้นให้ห่างออกไป 00:07:55.911 --> 00:07:58.681 โดยใช้แสงน้อยลง หรือเสียงที่เบาลง 00:07:59.887 --> 00:08:02.761 แล้วเราก็วิเคราะห์การทดลองทั้งหมดนี้ 00:08:02.761 --> 00:08:06.383 จนกระทั่งเราเข้าใจถ่องแท้ถึง ข้อจำกัดของเทคนิคนี้ 00:08:06.383 --> 00:08:08.333 เพราะเมื่อเราเข้าใจข้อจำกัดเหล่านั้น 00:08:08.333 --> 00:08:10.679 เราก็สามารถหาทางที่จะผลักดันมันออกไป NOTE Paragraph 00:08:10.679 --> 00:08:13.860 และนำไปสู่การทดลองเช่นนี้ 00:08:13.860 --> 00:08:16.599 ซึ่งก็เหมือนเคย คือผมก็จะพูดกับถุงมันฝรั่ง 00:08:16.599 --> 00:08:21.429 และครั้งนี้เราย้ายกล้องให้ห่างออกไป 15 ฟุต 00:08:21.429 --> 00:08:24.262 อยู่หลังหน้าต่างกันเสียง 00:08:24.262 --> 00:08:27.065 และทุกอย่างนั้นถูกให้แสงโดยแสงธรรมชาติ 00:08:28.529 --> 00:08:30.684 และนี่คือวิดีโอที่เราบันทึกไว้ 00:08:32.450 --> 00:08:37.009 และนี่คือเสียงจากด้านใน ข้าง ๆ ถุงมันฝรั่ง NOTE Paragraph 00:08:37.009 --> 00:08:42.047 (เสียงบันทึก) แมรี่มีลูกแกะตัวหนึ่ง ขนมันขาวราวหิมะ 00:08:42.047 --> 00:08:47.666 และไม่ว่าแมรี่จะไปไหน ลูกแกะก็จะตามไป NOTE Paragraph 00:08:47.666 --> 00:08:51.683 เอป: และนี่คือสิ่งที่เราสามารถกู้ กลับมาได้จากวีดิโอซึ่งไร้เสียง 00:08:51.683 --> 00:08:54.028 ที่บันทึกจากนอกหน้าต่าง NOTE Paragraph 00:08:54.028 --> 00:08:58.463 (เสียงบันทึก) แมรี่มีลูกแกะตัวหนึ่ง ขนมันขาวราวหิมะ 00:08:58.463 --> 00:09:03.920 และไม่ว่าแมรี่จะไปไหน ลูกแกะก็จะตามไป NOTE Paragraph 00:09:03.920 --> 00:09:10.421 (เสียงปรบมือ) NOTE Paragraph 00:09:10.421 --> 00:09:13.963 เอบ: ยังมีอีกหลายวิธีที่เรา จะผลักดันขีดจำกัดเหล่านั้นออกไปอีก 00:09:13.963 --> 00:09:15.761 นี่คือการทดลองที่เงียบขึ้น 00:09:15.761 --> 00:09:19.871 ซึ่งเราถ่ายวิดีโอหูฟังซึ่งเสียบอยู่กับแล็ปท็อป 00:09:19.871 --> 00:09:23.981 และในกรณีนี้ เป้าหมายของเรา คือการกู้เสียงเพลงซึ่งกำลังเล่นจากแล็ปท็อป 00:09:23.981 --> 00:09:26.280 จากวิดีโอเงียบๆ 00:09:26.280 --> 00:09:28.787 ของหูฟังพลาสติกสองชิ้นนี้ 00:09:28.787 --> 00:09:30.970 และเราก็ทำได้ดีมาก 00:09:30.970 --> 00:09:33.431 เสียจนผมสามารถใช้เอาเสียงนี้ ไปใช้ค้นหาชื่อเพลงบน Shazam ได้ 00:09:33.431 --> 00:09:35.842 (เสียงหัวเราะ) NOTE Paragraph 00:09:37.191 --> 00:09:47.225 (เสียงเพลง: "Under Pressure" โดยวง Queen) NOTE Paragraph 00:09:49.615 --> 00:09:54.584 (เสียงปรบมือ) NOTE Paragraph 00:09:54.584 --> 00:09:59.135 เรายังสามารถผลักดันขีดจำกัด โดยเปลี่ยนอุปกรณ์ที่เราใช้ 00:09:59.135 --> 00:10:01.596 เนื่องจากในการทดลอง ที่ผมแสดงให้คุณดูมาตั้งแต่ต้นนั้น 00:10:01.596 --> 00:10:03.918 ล้วนใช้กล้องวิดีโอความเร็วสูง 00:10:03.918 --> 00:10:06.797 ซึ่งสามารถบันทึกวิดีโอได้เร็วเป็น 100 เท่า 00:10:06.797 --> 00:10:08.724 ของกล้องบนโทรศัพท์มือถือ 00:10:08.724 --> 00:10:11.533 แต่กระนั้นเราก็ยังพบวิธีที่จะใช้เทคนิคนี้ 00:10:11.533 --> 00:10:13.763 กับกล้องทั่ว ๆ ไปได้ 00:10:13.763 --> 00:10:17.832 และเราทำได้โดยใช้ประโยชน์ จากสิ่งที่เรียกว่า โรลลิ่ง ชัตเตอร์ (rolling shutter) 00:10:17.832 --> 00:10:22.630 กล้องทั่วไปบันทึกภาพทีละแถว 00:10:22.630 --> 00:10:28.332 และถ้าวัตถุเคลื่อนที่ในขณะที่มีการบันทึกภาพหนึ่ง ๆ 00:10:28.344 --> 00:10:31.061 จะเกิดการหน่วงเวลาขึ้นเล็กน้อยในแต่ละแถว 00:10:31.061 --> 00:10:34.218 และก่อให้เกิดสัญญาณปลอมปนนี้ขึ้นมา 00:10:34.218 --> 00:10:37.701 ซึ่งจะถูกบันทึกลงในแต่ละเฟรมของวิดีโอ 00:10:37.701 --> 00:10:41.507 สิ่งที่เราพบก็คือ เมื่อเราวิเคราะห์สัญญาณปลอมปน 00:10:41.507 --> 00:10:46.122 เราก็จะสามารถกู้เอาเสียงกลับคืนมาได้ โดยใช้ระเบียบวิธีที่ดัดแปลง 00:10:46.122 --> 00:10:48.034 และนี่คือการทดลองที่เราทำ 00:10:48.034 --> 00:10:49.729 โดยเราถ่ายวิดีโอถุงลูกกวาด 00:10:49.729 --> 00:10:51.470 ขณะที่ลำโพงที่อยู่ใกล้ ๆ กำลังส่งเสียง 00:10:51.470 --> 00:10:54.442 เพลง "Mary Had a Little Lamb" 00:10:54.442 --> 00:10:58.645 แต่ครั้งนี้เราใช้กล้องที่หาซื้อได้ทั่ว ๆ ไป 00:10:58.645 --> 00:11:01.819 และในอีกสักครู่ ผมจะเล่นเสียงที่เรากู้คืนมาได้ 00:11:01.819 --> 00:11:03.869 และมันจะฟังดูเพี้ยนหน่อยในครั้งนี้ 00:11:03.869 --> 00:11:06.705 แต่ลองฟังดูว่าคุณยังพอฟังออก ว่ามันเป็นเพลงอะไรหรือเปล่า NOTE Paragraph 00:11:07.723 --> 00:11:13.946 (เสียงเพลง: "Mary Had a Little Lamb") NOTE Paragraph 00:11:25.527 --> 00:11:28.992 แม้เสียงจะฟังดูผิดเพี้ยนไป 00:11:28.992 --> 00:11:33.378 แต่สิ่งที่น่าทึ่งก็คือ เราสามารถทำสิ่งนี้ได้ 00:11:33.378 --> 00:11:36.004 ด้วยของที่คุณสามารถเดินออกไปหาซื้อได้ 00:11:36.004 --> 00:11:37.448 จากร้านขายสินค้าอิเล็คทรอนิคส์ทั่วไป NOTE Paragraph 00:11:39.122 --> 00:11:40.485 ณ จุดนี้ 00:11:40.485 --> 00:11:42.459 หลาย ๆ คนที่เห็นงานวิจัยนี้ 00:11:42.459 --> 00:11:45.872 จะนึกถึงงานด้านการสอดแนมในทันที 00:11:45.872 --> 00:11:48.287 ซึ่งพูดตรง ๆ แล้ว 00:11:48.287 --> 00:11:52.420 มันก็ไม่ยากนักที่จะคิดว่าจะนำเทคโนโลยีนี้ ไปใช้เพื่อสอดแนมใครบางคนได้อย่างไร 00:11:52.420 --> 00:11:56.367 แต่ต้องอย่าลืมว่า มีเทคโนโลยีอีกมากมาย ที่ได้ถูกวิจัยพัฒนาสมบูรณ์แล้ว 00:11:56.367 --> 00:11:57.946 ที่ถูกออกแบบมาเพื่อการสอดแนม 00:11:57.946 --> 00:12:00.036 อันที่จริงแล้ว ผู้คนได้ใช้แสงเลเซอร์ 00:12:00.036 --> 00:12:02.835 เพื่อตรวจจับการสั่นไหวของวัตถุ จากระยะไกลมานับสิบปีแล้ว 00:12:03.978 --> 00:12:06.003 แต่สิ่งที่แปลกใหม่สำหรับเทคโนโลยีนี้ 00:12:06.003 --> 00:12:07.443 สิ่งที่แตกต่างจริง ๆ 00:12:07.443 --> 00:12:11.738 ก็คือเรามีวิธีใหม่ที่จะบันทึกการสั่นไหวของวัตถุ 00:12:11.738 --> 00:12:15.151 ซึ่งให้มุมมองใหม่สู่โลกกว้างกับเรา 00:12:15.151 --> 00:12:16.661 และเราสามารถใช้มุมมองนี้ 00:12:16.661 --> 00:12:21.560 ไม่เพียงแค่เรียนรู้ถึงแรงเช่นคลื่นเสียง ที่ทำให้วัตถุสั่นไหว 00:12:21.560 --> 00:12:23.848 แต่ยังเรียนรู้ถึงตัววัตถุนั้น ๆ NOTE Paragraph 00:12:24.975 --> 00:12:26.668 ดังนั้นผมจึงอยากพาท่านถอยมาก้าวหนึ่ง 00:12:26.668 --> 00:12:30.917 และลองคิดว่ามันจะเปลี่ยนวิธี ที่เราใช้วิดีโอได้อย่างไร 00:12:30.917 --> 00:12:34.470 เพราะปกติแล้วเราใช้วิดีโอเพื่อดูสิ่งต่าง ๆ 00:12:34.470 --> 00:12:36.792 และผมก็เพิ่งแสดงให้คุณดูว่าเรา ใช้มัน 00:12:36.792 --> 00:12:38.649 เพื่อฟังเสียงต่าง ๆ ได้อย่างไร 00:12:38.649 --> 00:12:42.620 แต่ยังมีอีกวิธีหนึ่งที่เรา สามารถเรียนรู้เกี่ยวกับโลกได้ 00:12:42.620 --> 00:12:44.895 นั่นก็คือการมีปฏิสัมพันธ์กับมัน 00:12:44.895 --> 00:12:48.006 เราดัน และดึง และจิ้ม สิ่งต่าง ๆ 00:12:48.006 --> 00:12:51.187 เราเขย่ามันแล้วดูว่าจะเกิดอะไรขึ้น 00:12:51.187 --> 00:12:55.460 แต่นั่นเป็นอะไรที่วิดีโอไม่ยอมให้เราทำ 00:12:55.460 --> 00:12:57.596 อย่างน้อยก็วิดีโอทั่ว ๆ ไป 00:12:57.596 --> 00:12:59.546 ผมจึงอยากแสดงให้คุณเห็นถึงงานวิจัยใหม่ 00:12:59.546 --> 00:13:02.213 ซึ่งเกิดขึ้นมาจากแนวคิดของผม เมื่อไม่กี่เดือนก่อนหน้านี้ 00:13:02.213 --> 00:13:05.514 นี่จึงเป็นครั้งแรกที่ผมแสดงมันต่อสาธารณะชน 00:13:05.514 --> 00:13:10.877 แนวคิดพื้นฐานก็คือ เราจะใช้การสั่นไหวในวิดีโอนี้ 00:13:10.877 --> 00:13:15.358 เพื่อตรวจจับวัตถุในแบบที่เราสามารถโต้ตอบกับมันได้ 00:13:15.358 --> 00:13:17.332 และดูว่ามันจะมีปฏิกิริยาอย่างไร NOTE Paragraph 00:13:19.120 --> 00:13:20.884 นี่คือวัตถุชิ้นหนึ่ง 00:13:20.884 --> 00:13:24.716 และในกรณีนี้ มันคือลวดดัดเป็นรูปคน 00:13:24.716 --> 00:13:27.804 และเราก็จะถ่ายวิดีโอวัตถุนี้โดยใช้กล้องธรรมดา 00:13:27.804 --> 00:13:29.928 ไม่มีอะไรพิเศษเกี่ยวกับกล้องนี้ 00:13:29.928 --> 00:13:32.889 อันที่จริงแล้ว ผมก็เคยทำการทดลองนี้ ด้วยกล้องมือถือของผมเอง 00:13:32.889 --> 00:13:35.141 แต่เราก็อยากเห็นวัตถุนี้สั่นไหว 00:13:35.141 --> 00:13:36.274 เพื่อให้เป็นเช่นนั้น 00:13:36.274 --> 00:13:39.620 เราจะเคาะเบา ๆ บนพื้นที่มันตั้งอยู่ 00:13:39.620 --> 00:13:41.758 ในขณะที่เราบันทึกวิดีโอ NOTE Paragraph 00:13:47.398 --> 00:13:51.069 แค่นั้นเอง เพียงแค่วิดีโอยาว 5 วินาที 00:13:51.069 --> 00:13:53.205 ขณะที่เราเคาะพื้น 00:13:53.205 --> 00:13:56.718 และเราก็จะใช้การสั่นไหวในวิดีโอ 00:13:56.718 --> 00:14:01.262 เพื่อศึกษาเกี่ยวกับโครงสร้าง และคุณสมบัติเชิงวัสดุของวัตถุชิ้นนั้น 00:14:01.262 --> 00:14:06.096 และเราก็จะใช้ข้อมูลนั้น เพื่อสร้างบางสิ่งใหม่ ๆ ที่สามารถโต้ตอบได้ 00:14:12.866 --> 00:14:15.519 นี่คือสิ่งที่เราสร้างขึ้นมา 00:14:15.519 --> 00:14:17.748 มันดูเหมือนภาพธรรมดา 00:14:17.748 --> 00:14:20.859 แต่นี่ไม่ใช่รูปภาพ และมันก็ไม่ใช่วิดีโอ 00:14:20.859 --> 00:14:23.227 เพราะตอนนี้ผมสามารถเอาเมาส์ 00:14:23.227 --> 00:14:26.086 ไปโต้ตอบกับวัตถุชิ้นนี้ได้ 00:14:32.936 --> 00:14:35.293 และสิ่งที่คุณเห็นอยู่ตอนนี้ 00:14:35.389 --> 00:14:37.615 คือการจำลองว่าวัตถุนี้ 00:14:37.615 --> 00:14:42.073 จะตอบสนองต่อแรงใหม่ ๆ ที่เราไม่เคยเห็นมาก่อน 00:14:42.073 --> 00:14:45.706 และเราก็สร้างมันขึ้นจาก วิดีโอธรรมดาความยาวแค่ 5 วินาที NOTE Paragraph 00:14:47.249 --> 00:14:51.964 (เสียงปรบมือ) NOTE Paragraph 00:14:57.421 --> 00:15:00.648 นี่เป็นวิธีที่ทรงพลังมาก ในการศึกษาโลกใบนี้ 00:15:00.648 --> 00:15:03.620 เพราะมันทำให้เราทำนายได้ ว่าวัตถุจะตอบสนองอย่างไร 00:15:03.620 --> 00:15:05.443 กับสถานการณ์ใหม่ ๆ 00:15:05.443 --> 00:15:08.916 และสมมุติว่าคุณมองดูสะพานเก่า ๆ แห่งหนึ่ง 00:15:08.916 --> 00:15:12.443 และเกิดสงสัยว่าจะเกิดอะไรขึ้น สะพานจะรับน้ำหนักได้หรือไม่ 00:15:12.443 --> 00:15:15.276 ถ้าคุณขับรถข้ามสะพานนั้น 00:15:15.276 --> 00:15:18.050 และนั่นเป็นคำถามที่คุณต้องการคำตอบ 00:15:18.050 --> 00:15:20.610 ก่อนที่จะขับข้ามสะพานนั้น 00:15:21.988 --> 00:15:25.260 และแน่นอน มันก็จะต้องมีขีดจำกัดกับเทคนิคนี้ 00:15:25.260 --> 00:15:27.722 เช่นเดียวกับโมโครโฟนภาพ 00:15:27.722 --> 00:15:30.903 แต่เราก็พบว่ามันใช้ได้ในหลาย ๆ สถานการณ์ 00:15:30.903 --> 00:15:32.778 ที่คุณอาจคาดไม่ถึง 00:15:32.778 --> 00:15:35.546 โดยเฉพาะเมื่อคุณป้อนวิดีโอที่ยาวขึ้นให้มัน NOTE Paragraph 00:15:35.546 --> 00:15:38.054 ยกตัวอย่างเช่น นี่คือวิดีโอที่ผมถ่าย 00:15:38.054 --> 00:15:40.353 ไม้พุ่มหนึ่งนอกอพาร์ทเมนต์ของผม 00:15:40.353 --> 00:15:43.441 ผมไม่ได้ทำอะไรกับพุ่มไม้นี้ 00:15:43.441 --> 00:15:46.146 แต่ด้วยการถ่ายวิดีโอยาวหนึ่งนาที 00:15:46.146 --> 00:15:49.524 ลมที่พัดเบา ๆ ก็สร้างการสั่นไหวที่มากพอ 00:15:49.524 --> 00:15:53.111 ที่เราจะเรียนรู้เกี่ยวกับพุ่มไม้นี้ เพื่อที่จะสร้างแบบจำลอง 00:15:55.270 --> 00:16:01.412 (เสียงปรบมือ) 00:16:01.412 --> 00:16:04.384 และคุณคงพอนึกออกว่า หากผู้กำกับภาพยนต์ได้ใช้มัน 00:16:04.384 --> 00:16:06.103 และช่วยให้เขาควบคุม 00:16:06.103 --> 00:16:11.025 ความแรง หรือทิศทางลม ในฉากหลังจากที่มันได้ถูกถ่ายไปแล้ว 00:16:12.810 --> 00:16:17.345 หรือในกรณีนี้ เราตั้งกล้องไปยังผ้าม่านที่แขวนอยู่ 00:16:17.345 --> 00:16:21.474 คุณอาจมองไม่เห็น การเคลื่อนไหวใด ๆ ในวิดีโอนี้ 00:16:21.474 --> 00:16:24.399 แต่โดยการบันทึกวิดีโอยาว 2 นาที 00:16:24.399 --> 00:16:26.837 กระแสลมตามธรรมชาติในห้องนี้ 00:16:26.837 --> 00:16:31.249 สร้างการเคลื่อนไหว ที่แทบมองไม่เห็นขึ้น 00:16:31.249 --> 00:16:33.814 และเราสามารถเรียนรู้จากมันได้มากพอ ที่จะสร้างแบบจำลอง NOTE Paragraph 00:16:36.243 --> 00:16:38.609 ซึ่งก็น่าตลก 00:16:38.609 --> 00:16:41.697 ที่เราคุ้นชินกับการโต้ตอบลักษณะนี้ 00:16:41.697 --> 00:16:44.344 หากมันเป็นวัตถุเสมือน 00:16:44.344 --> 00:16:47.641 หรือวิดีโอเกมส์ และแบบจำลองสามมิติ 00:16:47.641 --> 00:16:52.045 แต่การที่เราสามารถดึงข้อมูลเหล่านี้ จากวัตถุจริง ๆ ในโลกจริง ๆ ได้ 00:16:52.045 --> 00:16:54.862 โดยใช้วิดีโอธรรมดา ๆ นั้น 00:16:54.862 --> 00:16:57.045 เป็นบางสิ่งที่ใหม่และมีศักยภาพมาก NOTE Paragraph 00:16:58.410 --> 00:17:03.314 และนี่คือกลุ่มคนที่น่าทึ่ง ผู้ซึ่งร่วมงานกับผมในงานวิจัยเหล่านี้ 00:17:04.057 --> 00:17:09.653 (เสียงปรบมือ) NOTE Paragraph 00:17:12.819 --> 00:17:15.876 สิ่งทีผมแสดงให้คุณดูในวันนี้ เป็นเพียงแค่การเริ่มต้น 00:17:15.876 --> 00:17:17.989 เราเพียงแค่เริ่มเปิดประตู 00:17:17.989 --> 00:17:20.961 เข้าสู่โลกของหลากหลายสิ่ง ที่คุณสามารถทำได้ด้วยเทคนิคนี้ 00:17:20.961 --> 00:17:23.247 เพราะมันให้วิธีใหม่แก่เรา 00:17:23.342 --> 00:17:28.066 ในการดึงข้อมูลจากสิ่งแวดล้อมรอบ ๆ ตัว ด้วยเทคโนโลยีที่เข้าถึงได้ทั่ว ๆ ไป 00:17:28.066 --> 00:17:29.995 เมื่อมองไปในอนาคต 00:17:29.995 --> 00:17:32.032 มันคงน่าตื่นเต้นที่จะได้ค้นพบว่า 00:17:32.032 --> 00:17:33.888 สิ่งนี้จะช่วยบอกอะไรเราได้เกี่ยวกับโลกใบนี้ NOTE Paragraph 00:17:34.381 --> 00:17:35.585 ขอบคุณครับ NOTE Paragraph 00:17:35.610 --> 00:17:41.717 (เสียงปรบมือ)