WEBVTT

00:00:01.373 --> 00:00:04.722
พวกเราส่วนใหญ่คิดถึงการเคลื่อนไหว
ว่าคือสิ่งที่มองเห็นได้

00:00:05.889 --> 00:00:10.977
ถ้าผมเดินบนเวทีหรือยกมือยกไม้เวลาพูด

00:00:10.977 --> 00:00:13.238
การเคลื่อนไหวนั้นก็จะเป็นสิ่งที่คุณมองเห็นได้

00:00:14.255 --> 00:00:19.737
แต่ยังมีการเคลื่อนไหวสำคัญ ๆ อีกมากมาย
ที่ละเอียดซับซ้อนเกินว่าคนเราจะมองเห็น

00:00:19.737 --> 00:00:21.778
แต่ในช่วงไม่กี่ปีที่ผ่านมา

00:00:21.778 --> 00:00:23.775
เราค้นพบว่ากล้องวิดีโอ

00:00:23.775 --> 00:00:27.185
สามารถบันทึกการเคลื่อนไหวนี้ได้
แม้ว่าคนเราจะไม่สามารถรับรู้

NOTE Paragraph

00:00:28.305 --> 00:00:29.856
เอาล่ะ ผมจะแสดงให้คุณเห็นว่าผมหมายถึงอะไร

00:00:30.717 --> 00:00:34.339
ทางซ้ายนี้ คุณจะเห็นวิดีโอ
ข้อมือคนคนหนึ่ง

00:00:34.339 --> 00:00:37.486
และทางขวา คุณจะเห็นวิดีโดของเด็กทารกที่หลับอยู่

00:00:37.486 --> 00:00:40.632
แต่ถ้าผมไม่บอกคุณว่านี่คือวิดีโอ

00:00:40.632 --> 00:00:44.393
คุณอาจคิดว่าคุณกำลังมองภาพนิ่งธรรมดา ๆ

00:00:44.393 --> 00:00:46.065
เพราะทั้งสองกรณีนั้น

00:00:46.065 --> 00:00:49.112
วิดีโอเหล่านี้ก็ดูแทบจะไม่ไหวติง

00:00:50.175 --> 00:00:54.060
ทั้งที่จริง ๆ แล้วมีการเคลื่อนไหว
ที่ละเอียดอ่อนเกิดขึ้นมากมาย

00:00:54.060 --> 00:00:56.452
ถ้าคุณได้สัมผัสข้อมือทางด้านซ้าย

00:00:56.452 --> 00:00:58.448
คุณจะรับรู้ถึงชีพจร

00:00:58.448 --> 00:01:00.933
และถ้าคุณได้อุ้มทารกในวิดีโอฝั่งขวา

00:01:00.933 --> 00:01:03.324
คุณจะรู้สึกถึงการเคลื่อนที่ขึ้นลงของหน้าอก

00:01:03.324 --> 00:01:04.714
ขณะที่เธอหายใจในแต่ละครั้ง

00:01:05.762 --> 00:01:09.338
และการเคลื่อนไหวเหล่านี้ก็มีความสำคัญมาก

00:01:09.338 --> 00:01:12.681
เพียงแต่ว่ามันละเอียดอ่อน
เกินกว่าที่เราจะมองเห็น

00:01:12.681 --> 00:01:14.957
เพราะอย่างนั้นเราจึงสังเกตมัน

00:01:14.957 --> 00:01:17.857
ผ่านการสัมผัสโดยตรงแทน

NOTE Paragraph

00:01:18.997 --> 00:01:20.262
แต่เมื่อไม่กี่ปีที่ผ่านมา

00:01:20.262 --> 00:01:24.667
เหล่าเพื่อนร่วมงานผมที่เอ็มไอทีได้พัฒนาสิ่งที่
เรียกว่ากล้องจุลทรรศน์แห่งการเคลื่อนไหว

00:01:24.667 --> 00:01:29.051
ซึ่งเป็นซอฟท์แวร์ที่จับการเคลื่อนไหว
อันละเอียดอ่อนนี้ในวิดีโอ

00:01:29.051 --> 00:01:32.613
และขยายการเคลื่อนไหวนั้น 
ให้ใหญ่มากพอจนเรามองเห็นได้

00:01:33.416 --> 00:01:36.899
ดังนั้น ถ้าหากเราใช้ซอฟท์แวร์นี้
กับวิดีโอทางด้านซ้าย

00:01:36.899 --> 00:01:40.149
มันจะทำให้เราเห็นชีพจรบนข้อมือ

00:01:40.149 --> 00:01:41.844
และถ้าเรานับจำนวนครั้งของชีพจรนั้น

00:01:41.844 --> 00:01:44.199
เราก็จะรู้อัตราการเต้นของหัวใจของคน ๆ นั้นด้วย

00:01:45.095 --> 00:01:48.160
และถ้าเราใช้ซอฟท์แวร์แบบเดียวกัน
กับวิดีโอทางด้านขวา

00:01:48.160 --> 00:01:51.387
มันจะทำให้เราเห็นการหายใจแต่ละครั้งของทารกนี้

00:01:51.387 --> 00:01:55.524
และเราสามารถใช้วิธีที่ไม่ต้องสัมผัสตัวเธอ
ในการติดตามการหายใจของเธอ

NOTE Paragraph

00:01:56.884 --> 00:02:02.232
เทคโนโลยีนี้ทรงพลังมาก
เพราะมันนำเอาปรากฏการณ์เช่นนี้

00:02:02.232 --> 00:02:04.599
ซึ่งปกติแล้วเราจะต้องรับรู้ด้วยการสัมผัส

00:02:04.599 --> 00:02:07.556
และทำให้เราตรวจจับมันได้ผ่านทางภาพ
โดยไม่มีการสัมผัส ๆ

NOTE Paragraph

00:02:09.104 --> 00:02:13.515
เมื่อสองปีที่แล้ว ผมร่วมงาน
กับเหล่าผู้สร้างซอฟท์แวร์นี้

00:02:13.515 --> 00:02:16.882
และเราตัดสินใจจะทำตามแนวคิดหนึ่ง
ที่ดูออกจะเพี้ยน ๆ ให้เป็นจริง

00:02:16.882 --> 00:02:19.575
เราคิดว่ามันดูเจ๋ง ที่จะใช้ซอฟท์แวร์

00:02:19.575 --> 00:02:22.710
เพื่อทำให้การเคลื่อนไหวเล็กนี้ ๆ มองเห็นได้

00:02:22.710 --> 00:02:27.168
คุณอาจมองว่ามันเป็นการขยาย
ประสาทด้านสัมผัสวิธีหนึ่งก็ได้

00:02:27.168 --> 00:02:31.227
แต่ถ้าเราสามารถทำสิ่งเดียวกันนี้
กับประสาทด้านการได้ยินล่ะ

00:02:32.508 --> 00:02:37.173
ถ้าเราสามารถใช้วิดีโอ
เพื่อจับการสั่นไหวของคลื่นเสียง

00:02:37.173 --> 00:02:40.000
ซึ่งก็นับเป็นการเคลื่อนไหวแบบหนึ่ง

00:02:40.000 --> 00:02:43.346
และเปลี่ยนทุกอย่างที่เราเห็นเห็นเป็นไมโครโฟน

NOTE Paragraph

00:02:44.236 --> 00:02:46.207
นี่อาจจะฟังดูเป็นแนวคิด ที่แปลก

00:02:46.207 --> 00:02:48.793
งั้นลองให้ผมอธิบายให้พวกคุณเข้าใจง่ายขึ้น

00:02:49.523 --> 00:02:53.011
ไมโครโฟนทั่ว ๆ ไป
ทำงานโดยการเปลี่ยนการเคลื่อนไหว

00:02:53.011 --> 00:02:56.610
ของแผ่นไดอะแฟรมที่อยู่ข้างใน
ให้เป็นสัญญาณไฟฟ้า

00:02:56.610 --> 00:03:00.928
และแผ่นไดอะแฟรมนั้นถูกออกแบบมา
เพื่อให้สั่นไหวไปพร้อมกับคลื่นเสียง

00:03:00.928 --> 00:03:05.735
ดั้งนั้นการเคลื่อนไหวของมันจะถูกบันทึก
และแปลงออกมาเป็นสัญญาณเสียง

00:03:05.735 --> 00:03:09.403
แต่คลื่นเสียงนั้นทำให้วัตถุทุกอย่างสั่นไหว

00:03:09.403 --> 00:03:14.883
การสั่นไหวนี้ โดยปกติจะเล็ก
และเร็วมากจนเราสังเกตไม่เห็น

NOTE Paragraph

00:03:14.883 --> 00:03:18.621
แล้วถ้าเราบันทึกมันด้วยกล้องวิดีโอความเร็วสูง

00:03:18.621 --> 00:03:22.197
จากนั้นใช้ซอฟท์แวร์
เพื่อดึงการเคลื่อนไหวเล็ก ๆ นั้นออกมาก

00:03:22.197 --> 00:03:24.287
จากวิดีโอความเร็วสูงที่เราบันทึกไว้

00:03:24.287 --> 00:03:28.561
แล้ววิเคราะห์หาเสียงซึ่งเป็นต้นกำเนิด
ของการเคลื่อนไหวเหล่านั้น

00:03:29.859 --> 00:03:35.308
ด้วยวิธีนี้ เราจึงสามารถแปลงวัตถุที่มองเห็น
ให้กลายเป็นไมโครโฟนระยะไกล

00:03:37.080 --> 00:03:39.263
เราได้ทำการทดสอบ

00:03:39.263 --> 00:03:41.190
และนี่คือหนึ่งในการทดลองของเรา

00:03:41.190 --> 00:03:44.139
โดยเรานำเอาต้นไม้ในกระถางที่คุณเห็นในทางขวา

00:03:44.139 --> 00:03:46.577
บันทึกด้วยกล้องวีดิโอความเร็วสูง

00:03:46.577 --> 00:03:50.106
ในขณะที่ลำโพงที่อยู่ใกล้ ๆ กำลังเล่นเสียงนี้

NOTE Paragraph

00:03:50.275 --> 00:03:58.465
(เสียงเพลง: "Marry Had a Little Lamb")

NOTE Paragraph

00:03:59.820 --> 00:04:02.644
และนี่คือวิดีโอที่เราบันทึกไว้

00:04:02.644 --> 00:04:06.568
เราบันทึกด้วยความเร็วหลายพันเฟรมต่อวินาที

00:04:06.568 --> 00:04:08.890
แต่แม้ว่าคุณจะมองมันใกล้ ๆ

00:04:08.890 --> 00:04:10.841
คุณก็จะเห็นเพียงแค่ใบไม้

00:04:10.841 --> 00:04:13.906
ที่อยู่นิ่ง ๆ ไม่เคลื่อนไหวอะไร

00:04:13.906 --> 00:04:18.712
นั่นเป็นเพราะเสียงเคลื่อนที่ใบไม้เหล่านั้น
ไปเพียงหนึ่งไมโครเมตร

00:04:19.103 --> 00:04:23.379
หรือ หนึ่งในหมื่นของเซนติเมตร

00:04:23.379 --> 00:04:27.535
ซึ่งคิดเป็นระยะทางในช่วง
หนึ่งในร้อย หรือหนึ่งในพัน

00:04:27.535 --> 00:04:29.834
ของหนึ่งพิกเซลในภาพนี้

00:04:29.881 --> 00:04:32.768
ดังนั้น คุณจะเพ่งมองเท่าไหร่ก็คงมองไม่เห็น

00:04:32.768 --> 00:04:36.103
การเคลื่อนไหวเพียงเล็กน้อยนี้
ไม่สามารถสังเกตได้ด้วยตาเปล่า

00:04:37.667 --> 00:04:41.824
แต่ปรากฏว่า สิ่งที่ไม่สามารถ
สังเกตได้ด้วยตาเปล่านี้

00:04:41.824 --> 00:04:44.633
สามารถสร้างความแตกต่าง
ในเชิงเลขได้อย่างมีนัยสำคัญ

00:04:44.633 --> 00:04:46.635
เพราะด้วยระเบียบวิธีที่ถูกต้อง

00:04:46.635 --> 00:04:50.322
เราสามารถแปลงวิดีโอเงียบ ๆ
ดูราวกับไร้การเคลื่อนไหวนี้

00:04:50.322 --> 00:04:51.849
แล้วกู้เอาเสียงนี้กลับมาได้

NOTE Paragraph

00:04:52.690 --> 00:05:00.074
(เสียงเพลง: "Marry Had a Little Lamb")

NOTE Paragraph

00:05:00.074 --> 00:05:05.902
(เสียงปรบมือ)

NOTE Paragraph

00:05:10.058 --> 00:05:11.997
มันเป็นไปได้อย่างไร

00:05:11.997 --> 00:05:16.341
ทำไมเราจึงได้ข้อมูลมหาศาล
จากการเคลื่อนไหวเพียงเล็กน้อย

00:05:16.341 --> 00:05:21.702
สมมุติว่า ใบไม้เหล่านั้นเคลื่อนที่
ไปเพียงหนึ่งไมโครเมตร

00:05:21.702 --> 00:05:26.010
และสมมุติว่านั่นทำให้ภาพ
เคลื่อนที่ไปหนึ่งในพันของพิกเซล

00:05:27.269 --> 00:05:29.841
ซึ่งฟังดูแล้วอาจจะไม่มาก

00:05:29.841 --> 00:05:31.837
แต่ภายในวิดีโอหนึ่งเฟรม

00:05:31.837 --> 00:05:35.094
นั้นมีหลายล้านพิกเซล

00:05:35.094 --> 00:05:38.548
ถ้าเรารวมเอาการเคลื่อนไหวเล็ก ๆ
เหล่านั้นที่เราเห็น

00:05:38.548 --> 00:05:40.846
จากภาพทั้งภาพ

00:05:40.846 --> 00:05:43.469
หนึ่งในพันของพิกเซล

00:05:43.469 --> 00:05:46.244
ก็จะสะสมรวมกัน
เป็นบางสิ่งที่มีนัยสำคัญ

NOTE Paragraph

00:05:46.870 --> 00:05:50.505
ผมจะบอกให้ว่า พวกเราแทบกระโดดตัวลอย
เมื่อคิดเรื่องนี้ออก

00:05:50.505 --> 00:05:52.825
(เสียงหัวเราะ)

00:05:52.825 --> 00:05:56.078
แต่แม้กระทั่งด้วยระเบียบวิธีที่เหมาะสม

00:05:56.078 --> 00:05:59.695
เราก็ยังขาดชิ้นส่วนสำคัญของปัญหานี้

00:05:59.695 --> 00:06:03.299
มันมีองค์ประกอบหลายอย่างที่จะส่งผลกระทบ
ว่าเทคนิคนี้จะใช้ได้ผล

00:06:03.299 --> 00:06:05.296
เมื่อไร และดีแค่ไหน

00:06:05.296 --> 00:06:08.500
วัตถุนั้นคืออะไร และมันอยู่ไกลแค่ไหน

00:06:08.500 --> 00:06:10.894
กล้องเป็นอย่างไร และใช้เลนส์แบบไหน

00:06:10.894 --> 00:06:14.985
มีแสงตกกระทบบนวัตถุมากน้อยแค่ไหน
และเสียงดังแค่ไหน

00:06:15.945 --> 00:06:19.320
และแม้ว่าด้วยระเบียบวิธีที่เหมาะสม

00:06:19.320 --> 00:06:22.710
เราจะต้องใช้ความระมัดระวังมาก
ในการทดลองขั้นต้นของเรา

00:06:22.710 --> 00:06:25.102
เพราะถ้าองค์ประกอบเหล่านี้
ผิดเพี้ยนไปสักอย่างหนึ่ง

00:06:25.102 --> 00:06:27.470
จะไม่มีวิธีค้นพบว่า
เกิดความผิดพลาดตรงไหน

00:06:27.470 --> 00:06:30.117
เราจะได้ยินแค่เสียงซ่า

00:06:30.117 --> 00:06:33.437
ดังนั้น การทดลองหลาย ๆ ครั้ง
ในขั้นต้นจึงเป็นแบบนี้

00:06:33.437 --> 00:06:35.643
นั่นคือผม

00:06:35.643 --> 00:06:39.683
และทางด้านซ้ายล่าง 
คุณจะพอมองเห็นกล้องวิดีโอความเร็วสูง

00:06:39.683 --> 00:06:41.866
ซึ่งจะจับไปยังถุงมันฝรั่ง

00:06:41.866 --> 00:06:44.815
ซึ่งถูกฉายด้วยไฟสว่างจ้า

00:06:44.815 --> 00:06:49.180
และอย่างที่บอก เราต้องระมัดระวังในการทดลอง
ขั้นต้นเหล่านี้มาก ๆ

00:06:49.180 --> 00:06:51.688
มันจึงออกมาเป็นแบบนี้

NOTE Paragraph

00:06:51.688 --> 00:06:55.449
(วิดีโอ) เอบ เดวิส: สาม, สอง, หนึ่ง, เริ่ม

00:06:55.449 --> 00:07:00.836
แมรี มีลูกแกะตัวหนึ่ง!
ลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง!

NOTE Paragraph

00:07:00.836 --> 00:07:05.336
(เสียงหัวเราะ)

NOTE Paragraph

00:07:05.336 --> 00:07:08.150
เอบ: การทดลองนี้มันออกจะดูน่าขันไปหน่อย

00:07:08.150 --> 00:07:09.938
(เสียงหัวเราะ)

00:07:09.938 --> 00:07:12.283
ผมกำลังตะคอกใส่ถุงมันฝรั่ง

00:07:12.283 --> 00:07:13.834
(เสียงหัวเราะ) --

00:07:13.834 --> 00:07:15.951
และเราก็ส่องมันด้วยไฟสว่างจ้า

00:07:15.951 --> 00:07:20.430
เสียจนกระทั่งเราทำถุงมันฝรั่งละลายไปถุงหนึ่ง
เมื่อตอนเริ่มทดลอง (เสียงหัวเราะ)

00:07:20.525 --> 00:07:23.799
แต่ แม้ว่าการทดลองนี้มันจะดูน่าขัน

00:07:23.799 --> 00:07:25.587
แต่มันก็เป็นการทดลองสำคัญ

00:07:25.587 --> 00:07:28.513
เพราะเราสามารถกู้เอาเสียงนี้ออกมาได้

NOTE Paragraph

00:07:28.513 --> 00:07:33.225
(เสียงบันทึก) แมรี่ มีลูกแกะตัวหนึ่ง!
ลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง!

NOTE Paragraph

00:07:33.225 --> 00:07:37.313
(เสียงปรบมือ)

NOTE Paragraph

00:07:37.313 --> 00:07:39.194
เอบ: และนี่คือสิ่งที่สำคัญมาก

00:07:39.194 --> 00:07:43.313
เพราะว่านั่นคือครั้งแรกที่เราสามารถ
กู้เสียงพูดมนุษย์ที่ฟังรู้เรื่อง

00:07:43.424 --> 00:07:45.765
จากวิดีโอของวัตถุซึ่งไม่มีเสียง

00:07:45.765 --> 00:07:48.156
และมันเป็นจุดอ้างอิงแก่เรา

00:07:48.156 --> 00:07:52.027
และเราก็ค่อย ๆ เริ่มที่จะปรับปรุงการทดลอง

00:07:52.106 --> 00:07:55.911
โดยใช้วัตถุต่าง ๆ
หรือเคลื่อนที่วัตถุนั้นให้ห่างออกไป

00:07:55.911 --> 00:07:58.681
โดยใช้แสงน้อยลง หรือเสียงที่เบาลง

00:07:59.887 --> 00:08:02.761
แล้วเราก็วิเคราะห์การทดลองทั้งหมดนี้

00:08:02.761 --> 00:08:06.383
จนกระทั่งเราเข้าใจถ่องแท้ถึง
ข้อจำกัดของเทคนิคนี้

00:08:06.383 --> 00:08:08.333
เพราะเมื่อเราเข้าใจข้อจำกัดเหล่านั้น

00:08:08.333 --> 00:08:10.679
เราก็สามารถหาทางที่จะผลักดันมันออกไป

NOTE Paragraph

00:08:10.679 --> 00:08:13.860
และนำไปสู่การทดลองเช่นนี้

00:08:13.860 --> 00:08:16.599
ซึ่งก็เหมือนเคย คือผมก็จะพูดกับถุงมันฝรั่ง

00:08:16.599 --> 00:08:21.429
และครั้งนี้เราย้ายกล้องให้ห่างออกไป 15 ฟุต

00:08:21.429 --> 00:08:24.262
อยู่หลังหน้าต่างกันเสียง

00:08:24.262 --> 00:08:27.065
และทุกอย่างนั้นถูกให้แสงโดยแสงธรรมชาติ

00:08:28.529 --> 00:08:30.684
และนี่คือวิดีโอที่เราบันทึกไว้

00:08:32.450 --> 00:08:37.009
และนี่คือเสียงจากด้านใน
ข้าง ๆ ถุงมันฝรั่ง

NOTE Paragraph

00:08:37.009 --> 00:08:42.047
(เสียงบันทึก) แมรี่มีลูกแกะตัวหนึ่ง
ขนมันขาวราวหิมะ

00:08:42.047 --> 00:08:47.666
และไม่ว่าแมรี่จะไปไหน
ลูกแกะก็จะตามไป

NOTE Paragraph

00:08:47.666 --> 00:08:51.683
เอป: และนี่คือสิ่งที่เราสามารถกู้
กลับมาได้จากวีดิโอซึ่งไร้เสียง

00:08:51.683 --> 00:08:54.028
ที่บันทึกจากนอกหน้าต่าง

NOTE Paragraph

00:08:54.028 --> 00:08:58.463
(เสียงบันทึก) แมรี่มีลูกแกะตัวหนึ่ง
ขนมันขาวราวหิมะ

00:08:58.463 --> 00:09:03.920
และไม่ว่าแมรี่จะไปไหน
ลูกแกะก็จะตามไป

NOTE Paragraph

00:09:03.920 --> 00:09:10.421
(เสียงปรบมือ)

NOTE Paragraph

00:09:10.421 --> 00:09:13.963
เอบ: ยังมีอีกหลายวิธีที่เรา
จะผลักดันขีดจำกัดเหล่านั้นออกไปอีก

00:09:13.963 --> 00:09:15.761
นี่คือการทดลองที่เงียบขึ้น

00:09:15.761 --> 00:09:19.871
ซึ่งเราถ่ายวิดีโอหูฟังซึ่งเสียบอยู่กับแล็ปท็อป

00:09:19.871 --> 00:09:23.981
และในกรณีนี้ เป้าหมายของเรา
คือการกู้เสียงเพลงซึ่งกำลังเล่นจากแล็ปท็อป

00:09:23.981 --> 00:09:26.280
จากวิดีโอเงียบๆ

00:09:26.280 --> 00:09:28.787
ของหูฟังพลาสติกสองชิ้นนี้

00:09:28.787 --> 00:09:30.970
และเราก็ทำได้ดีมาก

00:09:30.970 --> 00:09:33.431
เสียจนผมสามารถใช้เอาเสียงนี้
ไปใช้ค้นหาชื่อเพลงบน Shazam ได้

00:09:33.431 --> 00:09:35.842
(เสียงหัวเราะ)

NOTE Paragraph

00:09:37.191 --> 00:09:47.225
(เสียงเพลง: "Under Pressure" โดยวง Queen)

NOTE Paragraph

00:09:49.615 --> 00:09:54.584
(เสียงปรบมือ)

NOTE Paragraph

00:09:54.584 --> 00:09:59.135
เรายังสามารถผลักดันขีดจำกัด
โดยเปลี่ยนอุปกรณ์ที่เราใช้

00:09:59.135 --> 00:10:01.596
เนื่องจากในการทดลอง
ที่ผมแสดงให้คุณดูมาตั้งแต่ต้นนั้น

00:10:01.596 --> 00:10:03.918
ล้วนใช้กล้องวิดีโอความเร็วสูง

00:10:03.918 --> 00:10:06.797
ซึ่งสามารถบันทึกวิดีโอได้เร็วเป็น 100 เท่า

00:10:06.797 --> 00:10:08.724
ของกล้องบนโทรศัพท์มือถือ

00:10:08.724 --> 00:10:11.533
แต่กระนั้นเราก็ยังพบวิธีที่จะใช้เทคนิคนี้

00:10:11.533 --> 00:10:13.763
กับกล้องทั่ว ๆ ไปได้

00:10:13.763 --> 00:10:17.832
และเราทำได้โดยใช้ประโยชน์
จากสิ่งที่เรียกว่า โรลลิ่ง ชัตเตอร์ (rolling shutter)

00:10:17.832 --> 00:10:22.630
กล้องทั่วไปบันทึกภาพทีละแถว

00:10:22.630 --> 00:10:28.332
และถ้าวัตถุเคลื่อนที่ในขณะที่มีการบันทึกภาพหนึ่ง ๆ

00:10:28.344 --> 00:10:31.061
จะเกิดการหน่วงเวลาขึ้นเล็กน้อยในแต่ละแถว

00:10:31.061 --> 00:10:34.218
และก่อให้เกิดสัญญาณปลอมปนนี้ขึ้นมา

00:10:34.218 --> 00:10:37.701
ซึ่งจะถูกบันทึกลงในแต่ละเฟรมของวิดีโอ

00:10:37.701 --> 00:10:41.507
สิ่งที่เราพบก็คือ
เมื่อเราวิเคราะห์สัญญาณปลอมปน

00:10:41.507 --> 00:10:46.122
เราก็จะสามารถกู้เอาเสียงกลับคืนมาได้
โดยใช้ระเบียบวิธีที่ดัดแปลง

00:10:46.122 --> 00:10:48.034
และนี่คือการทดลองที่เราทำ

00:10:48.034 --> 00:10:49.729
โดยเราถ่ายวิดีโอถุงลูกกวาด

00:10:49.729 --> 00:10:51.470
ขณะที่ลำโพงที่อยู่ใกล้ ๆ กำลังส่งเสียง

00:10:51.470 --> 00:10:54.442
เพลง "Mary Had a Little Lamb"

00:10:54.442 --> 00:10:58.645
แต่ครั้งนี้เราใช้กล้องที่หาซื้อได้ทั่ว ๆ ไป

00:10:58.645 --> 00:11:01.819
และในอีกสักครู่ ผมจะเล่นเสียงที่เรากู้คืนมาได้

00:11:01.819 --> 00:11:03.869
และมันจะฟังดูเพี้ยนหน่อยในครั้งนี้

00:11:03.869 --> 00:11:06.705
แต่ลองฟังดูว่าคุณยังพอฟังออก
ว่ามันเป็นเพลงอะไรหรือเปล่า

NOTE Paragraph

00:11:07.723 --> 00:11:13.946
(เสียงเพลง: "Mary Had a Little Lamb")

NOTE Paragraph

00:11:25.527 --> 00:11:28.992
แม้เสียงจะฟังดูผิดเพี้ยนไป

00:11:28.992 --> 00:11:33.378
แต่สิ่งที่น่าทึ่งก็คือ เราสามารถทำสิ่งนี้ได้

00:11:33.378 --> 00:11:36.004
ด้วยของที่คุณสามารถเดินออกไปหาซื้อได้

00:11:36.004 --> 00:11:37.448
จากร้านขายสินค้าอิเล็คทรอนิคส์ทั่วไป

NOTE Paragraph

00:11:39.122 --> 00:11:40.485
ณ จุดนี้

00:11:40.485 --> 00:11:42.459
หลาย ๆ คนที่เห็นงานวิจัยนี้

00:11:42.459 --> 00:11:45.872
จะนึกถึงงานด้านการสอดแนมในทันที

00:11:45.872 --> 00:11:48.287
ซึ่งพูดตรง ๆ แล้ว

00:11:48.287 --> 00:11:52.420
มันก็ไม่ยากนักที่จะคิดว่าจะนำเทคโนโลยีนี้
ไปใช้เพื่อสอดแนมใครบางคนได้อย่างไร

00:11:52.420 --> 00:11:56.367
แต่ต้องอย่าลืมว่า มีเทคโนโลยีอีกมากมาย
ที่ได้ถูกวิจัยพัฒนาสมบูรณ์แล้ว

00:11:56.367 --> 00:11:57.946
ที่ถูกออกแบบมาเพื่อการสอดแนม

00:11:57.946 --> 00:12:00.036
อันที่จริงแล้ว ผู้คนได้ใช้แสงเลเซอร์

00:12:00.036 --> 00:12:02.835
เพื่อตรวจจับการสั่นไหวของวัตถุ
จากระยะไกลมานับสิบปีแล้ว

00:12:03.978 --> 00:12:06.003
แต่สิ่งที่แปลกใหม่สำหรับเทคโนโลยีนี้

00:12:06.003 --> 00:12:07.443
สิ่งที่แตกต่างจริง ๆ

00:12:07.443 --> 00:12:11.738
ก็คือเรามีวิธีใหม่ที่จะบันทึกการสั่นไหวของวัตถุ

00:12:11.738 --> 00:12:15.151
ซึ่งให้มุมมองใหม่สู่โลกกว้างกับเรา

00:12:15.151 --> 00:12:16.661
และเราสามารถใช้มุมมองนี้

00:12:16.661 --> 00:12:21.560
ไม่เพียงแค่เรียนรู้ถึงแรงเช่นคลื่นเสียง
ที่ทำให้วัตถุสั่นไหว

00:12:21.560 --> 00:12:23.848
แต่ยังเรียนรู้ถึงตัววัตถุนั้น ๆ

NOTE Paragraph

00:12:24.975 --> 00:12:26.668
ดังนั้นผมจึงอยากพาท่านถอยมาก้าวหนึ่ง

00:12:26.668 --> 00:12:30.917
และลองคิดว่ามันจะเปลี่ยนวิธี
ที่เราใช้วิดีโอได้อย่างไร

00:12:30.917 --> 00:12:34.470
เพราะปกติแล้วเราใช้วิดีโอเพื่อดูสิ่งต่าง ๆ

00:12:34.470 --> 00:12:36.792
และผมก็เพิ่งแสดงให้คุณดูว่าเรา ใช้มัน

00:12:36.792 --> 00:12:38.649
เพื่อฟังเสียงต่าง ๆ ได้อย่างไร

00:12:38.649 --> 00:12:42.620
แต่ยังมีอีกวิธีหนึ่งที่เรา
สามารถเรียนรู้เกี่ยวกับโลกได้

00:12:42.620 --> 00:12:44.895
นั่นก็คือการมีปฏิสัมพันธ์กับมัน

00:12:44.895 --> 00:12:48.006
เราดัน และดึง และจิ้ม สิ่งต่าง ๆ

00:12:48.006 --> 00:12:51.187
เราเขย่ามันแล้วดูว่าจะเกิดอะไรขึ้น

00:12:51.187 --> 00:12:55.460
แต่นั่นเป็นอะไรที่วิดีโอไม่ยอมให้เราทำ

00:12:55.460 --> 00:12:57.596
อย่างน้อยก็วิดีโอทั่ว ๆ ไป

00:12:57.596 --> 00:12:59.546
ผมจึงอยากแสดงให้คุณเห็นถึงงานวิจัยใหม่

00:12:59.546 --> 00:13:02.213
ซึ่งเกิดขึ้นมาจากแนวคิดของผม
เมื่อไม่กี่เดือนก่อนหน้านี้

00:13:02.213 --> 00:13:05.514
นี่จึงเป็นครั้งแรกที่ผมแสดงมันต่อสาธารณะชน

00:13:05.514 --> 00:13:10.877
แนวคิดพื้นฐานก็คือ
เราจะใช้การสั่นไหวในวิดีโอนี้

00:13:10.877 --> 00:13:15.358
เพื่อตรวจจับวัตถุในแบบที่เราสามารถโต้ตอบกับมันได้

00:13:15.358 --> 00:13:17.332
และดูว่ามันจะมีปฏิกิริยาอย่างไร

NOTE Paragraph

00:13:19.120 --> 00:13:20.884
นี่คือวัตถุชิ้นหนึ่ง

00:13:20.884 --> 00:13:24.716
และในกรณีนี้ มันคือลวดดัดเป็นรูปคน

00:13:24.716 --> 00:13:27.804
และเราก็จะถ่ายวิดีโอวัตถุนี้โดยใช้กล้องธรรมดา

00:13:27.804 --> 00:13:29.928
ไม่มีอะไรพิเศษเกี่ยวกับกล้องนี้

00:13:29.928 --> 00:13:32.889
อันที่จริงแล้ว ผมก็เคยทำการทดลองนี้
ด้วยกล้องมือถือของผมเอง

00:13:32.889 --> 00:13:35.141
แต่เราก็อยากเห็นวัตถุนี้สั่นไหว

00:13:35.141 --> 00:13:36.274
เพื่อให้เป็นเช่นนั้น

00:13:36.274 --> 00:13:39.620
เราจะเคาะเบา ๆ บนพื้นที่มันตั้งอยู่

00:13:39.620 --> 00:13:41.758
ในขณะที่เราบันทึกวิดีโอ

NOTE Paragraph

00:13:47.398 --> 00:13:51.069
แค่นั้นเอง เพียงแค่วิดีโอยาว 5 วินาที

00:13:51.069 --> 00:13:53.205
ขณะที่เราเคาะพื้น

00:13:53.205 --> 00:13:56.718
และเราก็จะใช้การสั่นไหวในวิดีโอ

00:13:56.718 --> 00:14:01.262
เพื่อศึกษาเกี่ยวกับโครงสร้าง
และคุณสมบัติเชิงวัสดุของวัตถุชิ้นนั้น

00:14:01.262 --> 00:14:06.096
และเราก็จะใช้ข้อมูลนั้น
เพื่อสร้างบางสิ่งใหม่ ๆ ที่สามารถโต้ตอบได้

00:14:12.866 --> 00:14:15.519
นี่คือสิ่งที่เราสร้างขึ้นมา

00:14:15.519 --> 00:14:17.748
มันดูเหมือนภาพธรรมดา

00:14:17.748 --> 00:14:20.859
แต่นี่ไม่ใช่รูปภาพ และมันก็ไม่ใช่วิดีโอ

00:14:20.859 --> 00:14:23.227
เพราะตอนนี้ผมสามารถเอาเมาส์

00:14:23.227 --> 00:14:26.086
ไปโต้ตอบกับวัตถุชิ้นนี้ได้

00:14:32.936 --> 00:14:35.293
และสิ่งที่คุณเห็นอยู่ตอนนี้

00:14:35.389 --> 00:14:37.615
คือการจำลองว่าวัตถุนี้

00:14:37.615 --> 00:14:42.073
จะตอบสนองต่อแรงใหม่ ๆ
ที่เราไม่เคยเห็นมาก่อน

00:14:42.073 --> 00:14:45.706
และเราก็สร้างมันขึ้นจาก
วิดีโอธรรมดาความยาวแค่ 5 วินาที

NOTE Paragraph

00:14:47.249 --> 00:14:51.964
(เสียงปรบมือ)

NOTE Paragraph

00:14:57.421 --> 00:15:00.648
นี่เป็นวิธีที่ทรงพลังมาก
ในการศึกษาโลกใบนี้

00:15:00.648 --> 00:15:03.620
เพราะมันทำให้เราทำนายได้
ว่าวัตถุจะตอบสนองอย่างไร

00:15:03.620 --> 00:15:05.443
กับสถานการณ์ใหม่ ๆ

00:15:05.443 --> 00:15:08.916
และสมมุติว่าคุณมองดูสะพานเก่า ๆ แห่งหนึ่ง

00:15:08.916 --> 00:15:12.443
และเกิดสงสัยว่าจะเกิดอะไรขึ้น
สะพานจะรับน้ำหนักได้หรือไม่

00:15:12.443 --> 00:15:15.276
ถ้าคุณขับรถข้ามสะพานนั้น

00:15:15.276 --> 00:15:18.050
และนั่นเป็นคำถามที่คุณต้องการคำตอบ

00:15:18.050 --> 00:15:20.610
ก่อนที่จะขับข้ามสะพานนั้น

00:15:21.988 --> 00:15:25.260
และแน่นอน มันก็จะต้องมีขีดจำกัดกับเทคนิคนี้

00:15:25.260 --> 00:15:27.722
เช่นเดียวกับโมโครโฟนภาพ

00:15:27.722 --> 00:15:30.903
แต่เราก็พบว่ามันใช้ได้ในหลาย ๆ สถานการณ์

00:15:30.903 --> 00:15:32.778
ที่คุณอาจคาดไม่ถึง

00:15:32.778 --> 00:15:35.546
โดยเฉพาะเมื่อคุณป้อนวิดีโอที่ยาวขึ้นให้มัน

NOTE Paragraph

00:15:35.546 --> 00:15:38.054
ยกตัวอย่างเช่น
นี่คือวิดีโอที่ผมถ่าย

00:15:38.054 --> 00:15:40.353
ไม้พุ่มหนึ่งนอกอพาร์ทเมนต์ของผม

00:15:40.353 --> 00:15:43.441
ผมไม่ได้ทำอะไรกับพุ่มไม้นี้

00:15:43.441 --> 00:15:46.146
แต่ด้วยการถ่ายวิดีโอยาวหนึ่งนาที

00:15:46.146 --> 00:15:49.524
ลมที่พัดเบา ๆ ก็สร้างการสั่นไหวที่มากพอ

00:15:49.524 --> 00:15:53.111
ที่เราจะเรียนรู้เกี่ยวกับพุ่มไม้นี้
เพื่อที่จะสร้างแบบจำลอง

00:15:55.270 --> 00:16:01.412
(เสียงปรบมือ)

00:16:01.412 --> 00:16:04.384
และคุณคงพอนึกออกว่า
หากผู้กำกับภาพยนต์ได้ใช้มัน

00:16:04.384 --> 00:16:06.103
และช่วยให้เขาควบคุม

00:16:06.103 --> 00:16:11.025
ความแรง หรือทิศทางลม
ในฉากหลังจากที่มันได้ถูกถ่ายไปแล้ว

00:16:12.810 --> 00:16:17.345
หรือในกรณีนี้
เราตั้งกล้องไปยังผ้าม่านที่แขวนอยู่

00:16:17.345 --> 00:16:21.474
คุณอาจมองไม่เห็น
การเคลื่อนไหวใด ๆ ในวิดีโอนี้

00:16:21.474 --> 00:16:24.399
แต่โดยการบันทึกวิดีโอยาว 2 นาที

00:16:24.399 --> 00:16:26.837
กระแสลมตามธรรมชาติในห้องนี้

00:16:26.837 --> 00:16:31.249
สร้างการเคลื่อนไหว
ที่แทบมองไม่เห็นขึ้น

00:16:31.249 --> 00:16:33.814
และเราสามารถเรียนรู้จากมันได้มากพอ
ที่จะสร้างแบบจำลอง

NOTE Paragraph

00:16:36.243 --> 00:16:38.609
ซึ่งก็น่าตลก

00:16:38.609 --> 00:16:41.697
ที่เราคุ้นชินกับการโต้ตอบลักษณะนี้

00:16:41.697 --> 00:16:44.344
หากมันเป็นวัตถุเสมือน

00:16:44.344 --> 00:16:47.641
หรือวิดีโอเกมส์ และแบบจำลองสามมิติ

00:16:47.641 --> 00:16:52.045
แต่การที่เราสามารถดึงข้อมูลเหล่านี้
จากวัตถุจริง ๆ ในโลกจริง ๆ ได้

00:16:52.045 --> 00:16:54.862
โดยใช้วิดีโอธรรมดา ๆ นั้น

00:16:54.862 --> 00:16:57.045
เป็นบางสิ่งที่ใหม่และมีศักยภาพมาก

NOTE Paragraph

00:16:58.410 --> 00:17:03.314
และนี่คือกลุ่มคนที่น่าทึ่ง
ผู้ซึ่งร่วมงานกับผมในงานวิจัยเหล่านี้

00:17:04.057 --> 00:17:09.653
(เสียงปรบมือ)

NOTE Paragraph

00:17:12.819 --> 00:17:15.876
สิ่งทีผมแสดงให้คุณดูในวันนี้
เป็นเพียงแค่การเริ่มต้น

00:17:15.876 --> 00:17:17.989
เราเพียงแค่เริ่มเปิดประตู

00:17:17.989 --> 00:17:20.961
เข้าสู่โลกของหลากหลายสิ่ง
ที่คุณสามารถทำได้ด้วยเทคนิคนี้

00:17:20.961 --> 00:17:23.247
เพราะมันให้วิธีใหม่แก่เรา

00:17:23.342 --> 00:17:28.066
ในการดึงข้อมูลจากสิ่งแวดล้อมรอบ ๆ ตัว
ด้วยเทคโนโลยีที่เข้าถึงได้ทั่ว ๆ ไป

00:17:28.066 --> 00:17:29.995
เมื่อมองไปในอนาคต

00:17:29.995 --> 00:17:32.032
มันคงน่าตื่นเต้นที่จะได้ค้นพบว่า

00:17:32.032 --> 00:17:33.888
สิ่งนี้จะช่วยบอกอะไรเราได้เกี่ยวกับโลกใบนี้

NOTE Paragraph

00:17:34.381 --> 00:17:35.585
ขอบคุณครับ

NOTE Paragraph

00:17:35.610 --> 00:17:41.717
(เสียงปรบมือ)