1
00:00:01,373 --> 00:00:04,722
พวกเราส่วนใหญ่คิดถึงการเคลื่อนไหว
ว่าคือสิ่งที่มองเห็นได้

2
00:00:05,889 --> 00:00:10,977
ถ้าผมเดินบนเวทีหรือยกมือยกไม้เวลาพูด

3
00:00:10,977 --> 00:00:13,238
การเคลื่อนไหวนั้นก็จะเป็นสิ่งที่คุณมองเห็นได้

4
00:00:14,255 --> 00:00:19,737
แต่ยังมีการเคลื่อนไหวสำคัญ ๆ อีกมากมาย
ที่ละเอียดซับซ้อนเกินว่าคนเราจะมองเห็น

5
00:00:19,737 --> 00:00:21,778
แต่ในช่วงไม่กี่ปีที่ผ่านมา

6
00:00:21,778 --> 00:00:23,775
เราค้นพบว่ากล้องวิดีโอ

7
00:00:23,775 --> 00:00:27,185
สามารถบันทึกการเคลื่อนไหวนี้ได้
แม้ว่าคนเราจะไม่สามารถรับรู้

8
00:00:28,305 --> 00:00:29,856
เอาล่ะ ผมจะแสดงให้คุณเห็นว่าผมหมายถึงอะไร

9
00:00:30,717 --> 00:00:34,339
ทางซ้ายนี้ คุณจะเห็นวิดีโอ
ข้อมือคนคนหนึ่ง

10
00:00:34,339 --> 00:00:37,486
และทางขวา คุณจะเห็นวิดีโดของเด็กทารกที่หลับอยู่

11
00:00:37,486 --> 00:00:40,632
แต่ถ้าผมไม่บอกคุณว่านี่คือวิดีโอ

12
00:00:40,632 --> 00:00:44,393
คุณอาจคิดว่าคุณกำลังมองภาพนิ่งธรรมดา ๆ

13
00:00:44,393 --> 00:00:46,065
เพราะทั้งสองกรณีนั้น

14
00:00:46,065 --> 00:00:49,112
วิดีโอเหล่านี้ก็ดูแทบจะไม่ไหวติง

15
00:00:50,175 --> 00:00:54,060
ทั้งที่จริง ๆ แล้วมีการเคลื่อนไหว
ที่ละเอียดอ่อนเกิดขึ้นมากมาย

16
00:00:54,060 --> 00:00:56,452
ถ้าคุณได้สัมผัสข้อมือทางด้านซ้าย

17
00:00:56,452 --> 00:00:58,448
คุณจะรับรู้ถึงชีพจร

18
00:00:58,448 --> 00:01:00,933
และถ้าคุณได้อุ้มทารกในวิดีโอฝั่งขวา

19
00:01:00,933 --> 00:01:03,324
คุณจะรู้สึกถึงการเคลื่อนที่ขึ้นลงของหน้าอก

20
00:01:03,324 --> 00:01:04,714
ขณะที่เธอหายใจในแต่ละครั้ง

21
00:01:05,762 --> 00:01:09,338
และการเคลื่อนไหวเหล่านี้ก็มีความสำคัญมาก

22
00:01:09,338 --> 00:01:12,681
เพียงแต่ว่ามันละเอียดอ่อน
เกินกว่าที่เราจะมองเห็น

23
00:01:12,681 --> 00:01:14,957
เพราะอย่างนั้นเราจึงสังเกตมัน

24
00:01:14,957 --> 00:01:17,857
ผ่านการสัมผัสโดยตรงแทน

25
00:01:18,997 --> 00:01:20,262
แต่เมื่อไม่กี่ปีที่ผ่านมา

26
00:01:20,262 --> 00:01:24,667
เหล่าเพื่อนร่วมงานผมที่เอ็มไอทีได้พัฒนาสิ่งที่
เรียกว่ากล้องจุลทรรศน์แห่งการเคลื่อนไหว

27
00:01:24,667 --> 00:01:29,051
ซึ่งเป็นซอฟท์แวร์ที่จับการเคลื่อนไหว
อันละเอียดอ่อนนี้ในวิดีโอ

28
00:01:29,051 --> 00:01:32,613
และขยายการเคลื่อนไหวนั้น 
ให้ใหญ่มากพอจนเรามองเห็นได้

29
00:01:33,416 --> 00:01:36,899
ดังนั้น ถ้าหากเราใช้ซอฟท์แวร์นี้
กับวิดีโอทางด้านซ้าย

30
00:01:36,899 --> 00:01:40,149
มันจะทำให้เราเห็นชีพจรบนข้อมือ

31
00:01:40,149 --> 00:01:41,844
และถ้าเรานับจำนวนครั้งของชีพจรนั้น

32
00:01:41,844 --> 00:01:44,199
เราก็จะรู้อัตราการเต้นของหัวใจของคน ๆ นั้นด้วย

33
00:01:45,095 --> 00:01:48,160
และถ้าเราใช้ซอฟท์แวร์แบบเดียวกัน
กับวิดีโอทางด้านขวา

34
00:01:48,160 --> 00:01:51,387
มันจะทำให้เราเห็นการหายใจแต่ละครั้งของทารกนี้

35
00:01:51,387 --> 00:01:55,524
และเราสามารถใช้วิธีที่ไม่ต้องสัมผัสตัวเธอ
ในการติดตามการหายใจของเธอ

36
00:01:56,884 --> 00:02:02,232
เทคโนโลยีนี้ทรงพลังมาก
เพราะมันนำเอาปรากฏการณ์เช่นนี้

37
00:02:02,232 --> 00:02:04,599
ซึ่งปกติแล้วเราจะต้องรับรู้ด้วยการสัมผัส

38
00:02:04,599 --> 00:02:07,556
และทำให้เราตรวจจับมันได้ผ่านทางภาพ
โดยไม่มีการสัมผัส ๆ

39
00:02:09,104 --> 00:02:13,515
เมื่อสองปีที่แล้ว ผมร่วมงาน
กับเหล่าผู้สร้างซอฟท์แวร์นี้

40
00:02:13,515 --> 00:02:16,882
และเราตัดสินใจจะทำตามแนวคิดหนึ่ง
ที่ดูออกจะเพี้ยน ๆ ให้เป็นจริง

41
00:02:16,882 --> 00:02:19,575
เราคิดว่ามันดูเจ๋ง ที่จะใช้ซอฟท์แวร์

42
00:02:19,575 --> 00:02:22,710
เพื่อทำให้การเคลื่อนไหวเล็กนี้ ๆ มองเห็นได้

43
00:02:22,710 --> 00:02:27,168
คุณอาจมองว่ามันเป็นการขยาย
ประสาทด้านสัมผัสวิธีหนึ่งก็ได้

44
00:02:27,168 --> 00:02:31,227
แต่ถ้าเราสามารถทำสิ่งเดียวกันนี้
กับประสาทด้านการได้ยินล่ะ

45
00:02:32,508 --> 00:02:37,173
ถ้าเราสามารถใช้วิดีโอ
เพื่อจับการสั่นไหวของคลื่นเสียง

46
00:02:37,173 --> 00:02:40,000
ซึ่งก็นับเป็นการเคลื่อนไหวแบบหนึ่ง

47
00:02:40,000 --> 00:02:43,346
และเปลี่ยนทุกอย่างที่เราเห็นเห็นเป็นไมโครโฟน

48
00:02:44,236 --> 00:02:46,207
นี่อาจจะฟังดูเป็นแนวคิด ที่แปลก

49
00:02:46,207 --> 00:02:48,793
งั้นลองให้ผมอธิบายให้พวกคุณเข้าใจง่ายขึ้น

50
00:02:49,523 --> 00:02:53,011
ไมโครโฟนทั่ว ๆ ไป
ทำงานโดยการเปลี่ยนการเคลื่อนไหว

51
00:02:53,011 --> 00:02:56,610
ของแผ่นไดอะแฟรมที่อยู่ข้างใน
ให้เป็นสัญญาณไฟฟ้า

52
00:02:56,610 --> 00:03:00,928
และแผ่นไดอะแฟรมนั้นถูกออกแบบมา
เพื่อให้สั่นไหวไปพร้อมกับคลื่นเสียง

53
00:03:00,928 --> 00:03:05,735
ดั้งนั้นการเคลื่อนไหวของมันจะถูกบันทึก
และแปลงออกมาเป็นสัญญาณเสียง

54
00:03:05,735 --> 00:03:09,403
แต่คลื่นเสียงนั้นทำให้วัตถุทุกอย่างสั่นไหว

55
00:03:09,403 --> 00:03:14,883
การสั่นไหวนี้ โดยปกติจะเล็ก
และเร็วมากจนเราสังเกตไม่เห็น

56
00:03:14,883 --> 00:03:18,621
แล้วถ้าเราบันทึกมันด้วยกล้องวิดีโอความเร็วสูง

57
00:03:18,621 --> 00:03:22,197
จากนั้นใช้ซอฟท์แวร์
เพื่อดึงการเคลื่อนไหวเล็ก ๆ นั้นออกมาก

58
00:03:22,197 --> 00:03:24,287
จากวิดีโอความเร็วสูงที่เราบันทึกไว้

59
00:03:24,287 --> 00:03:28,561
แล้ววิเคราะห์หาเสียงซึ่งเป็นต้นกำเนิด
ของการเคลื่อนไหวเหล่านั้น

60
00:03:29,859 --> 00:03:35,308
ด้วยวิธีนี้ เราจึงสามารถแปลงวัตถุที่มองเห็น
ให้กลายเป็นไมโครโฟนระยะไกล

61
00:03:37,080 --> 00:03:39,263
เราได้ทำการทดสอบ

62
00:03:39,263 --> 00:03:41,190
และนี่คือหนึ่งในการทดลองของเรา

63
00:03:41,190 --> 00:03:44,139
โดยเรานำเอาต้นไม้ในกระถางที่คุณเห็นในทางขวา

64
00:03:44,139 --> 00:03:46,577
บันทึกด้วยกล้องวีดิโอความเร็วสูง

65
00:03:46,577 --> 00:03:50,106
ในขณะที่ลำโพงที่อยู่ใกล้ ๆ กำลังเล่นเสียงนี้

66
00:03:50,275 --> 00:03:58,465
(เสียงเพลง: "Marry Had a Little Lamb")

67
00:03:59,820 --> 00:04:02,644
และนี่คือวิดีโอที่เราบันทึกไว้

68
00:04:02,644 --> 00:04:06,568
เราบันทึกด้วยความเร็วหลายพันเฟรมต่อวินาที

69
00:04:06,568 --> 00:04:08,890
แต่แม้ว่าคุณจะมองมันใกล้ ๆ

70
00:04:08,890 --> 00:04:10,841
คุณก็จะเห็นเพียงแค่ใบไม้

71
00:04:10,841 --> 00:04:13,906
ที่อยู่นิ่ง ๆ ไม่เคลื่อนไหวอะไร

72
00:04:13,906 --> 00:04:18,712
นั่นเป็นเพราะเสียงเคลื่อนที่ใบไม้เหล่านั้น
ไปเพียงหนึ่งไมโครเมตร

73
00:04:19,103 --> 00:04:23,379
หรือ หนึ่งในหมื่นของเซนติเมตร

74
00:04:23,379 --> 00:04:27,535
ซึ่งคิดเป็นระยะทางในช่วง
หนึ่งในร้อย หรือหนึ่งในพัน

75
00:04:27,535 --> 00:04:29,834
ของหนึ่งพิกเซลในภาพนี้

76
00:04:29,881 --> 00:04:32,768
ดังนั้น คุณจะเพ่งมองเท่าไหร่ก็คงมองไม่เห็น

77
00:04:32,768 --> 00:04:36,103
การเคลื่อนไหวเพียงเล็กน้อยนี้
ไม่สามารถสังเกตได้ด้วยตาเปล่า

78
00:04:37,667 --> 00:04:41,824
แต่ปรากฏว่า สิ่งที่ไม่สามารถ
สังเกตได้ด้วยตาเปล่านี้

79
00:04:41,824 --> 00:04:44,633
สามารถสร้างความแตกต่าง
ในเชิงเลขได้อย่างมีนัยสำคัญ

80
00:04:44,633 --> 00:04:46,635
เพราะด้วยระเบียบวิธีที่ถูกต้อง

81
00:04:46,635 --> 00:04:50,322
เราสามารถแปลงวิดีโอเงียบ ๆ
ดูราวกับไร้การเคลื่อนไหวนี้

82
00:04:50,322 --> 00:04:51,849
แล้วกู้เอาเสียงนี้กลับมาได้

83
00:04:52,690 --> 00:05:00,074
(เสียงเพลง: "Marry Had a Little Lamb")

84
00:05:00,074 --> 00:05:05,902
(เสียงปรบมือ)

85
00:05:10,058 --> 00:05:11,997
มันเป็นไปได้อย่างไร

86
00:05:11,997 --> 00:05:16,341
ทำไมเราจึงได้ข้อมูลมหาศาล
จากการเคลื่อนไหวเพียงเล็กน้อย

87
00:05:16,341 --> 00:05:21,702
สมมุติว่า ใบไม้เหล่านั้นเคลื่อนที่
ไปเพียงหนึ่งไมโครเมตร

88
00:05:21,702 --> 00:05:26,010
และสมมุติว่านั่นทำให้ภาพ
เคลื่อนที่ไปหนึ่งในพันของพิกเซล

89
00:05:27,269 --> 00:05:29,841
ซึ่งฟังดูแล้วอาจจะไม่มาก

90
00:05:29,841 --> 00:05:31,837
แต่ภายในวิดีโอหนึ่งเฟรม

91
00:05:31,837 --> 00:05:35,094
นั้นมีหลายล้านพิกเซล

92
00:05:35,094 --> 00:05:38,548
ถ้าเรารวมเอาการเคลื่อนไหวเล็ก ๆ
เหล่านั้นที่เราเห็น

93
00:05:38,548 --> 00:05:40,846
จากภาพทั้งภาพ

94
00:05:40,846 --> 00:05:43,469
หนึ่งในพันของพิกเซล

95
00:05:43,469 --> 00:05:46,244
ก็จะสะสมรวมกัน
เป็นบางสิ่งที่มีนัยสำคัญ

96
00:05:46,870 --> 00:05:50,505
ผมจะบอกให้ว่า พวกเราแทบกระโดดตัวลอย
เมื่อคิดเรื่องนี้ออก

97
00:05:50,505 --> 00:05:52,825
(เสียงหัวเราะ)

98
00:05:52,825 --> 00:05:56,078
แต่แม้กระทั่งด้วยระเบียบวิธีที่เหมาะสม

99
00:05:56,078 --> 00:05:59,695
เราก็ยังขาดชิ้นส่วนสำคัญของปัญหานี้

100
00:05:59,695 --> 00:06:03,299
มันมีองค์ประกอบหลายอย่างที่จะส่งผลกระทบ
ว่าเทคนิคนี้จะใช้ได้ผล

101
00:06:03,299 --> 00:06:05,296
เมื่อไร และดีแค่ไหน

102
00:06:05,296 --> 00:06:08,500
วัตถุนั้นคืออะไร และมันอยู่ไกลแค่ไหน

103
00:06:08,500 --> 00:06:10,894
กล้องเป็นอย่างไร และใช้เลนส์แบบไหน

104
00:06:10,894 --> 00:06:14,985
มีแสงตกกระทบบนวัตถุมากน้อยแค่ไหน
และเสียงดังแค่ไหน

105
00:06:15,945 --> 00:06:19,320
และแม้ว่าด้วยระเบียบวิธีที่เหมาะสม

106
00:06:19,320 --> 00:06:22,710
เราจะต้องใช้ความระมัดระวังมาก
ในการทดลองขั้นต้นของเรา

107
00:06:22,710 --> 00:06:25,102
เพราะถ้าองค์ประกอบเหล่านี้
ผิดเพี้ยนไปสักอย่างหนึ่ง

108
00:06:25,102 --> 00:06:27,470
จะไม่มีวิธีค้นพบว่า
เกิดความผิดพลาดตรงไหน

109
00:06:27,470 --> 00:06:30,117
เราจะได้ยินแค่เสียงซ่า

110
00:06:30,117 --> 00:06:33,437
ดังนั้น การทดลองหลาย ๆ ครั้ง
ในขั้นต้นจึงเป็นแบบนี้

111
00:06:33,437 --> 00:06:35,643
นั่นคือผม

112
00:06:35,643 --> 00:06:39,683
และทางด้านซ้ายล่าง 
คุณจะพอมองเห็นกล้องวิดีโอความเร็วสูง

113
00:06:39,683 --> 00:06:41,866
ซึ่งจะจับไปยังถุงมันฝรั่ง

114
00:06:41,866 --> 00:06:44,815
ซึ่งถูกฉายด้วยไฟสว่างจ้า

115
00:06:44,815 --> 00:06:49,180
และอย่างที่บอก เราต้องระมัดระวังในการทดลอง
ขั้นต้นเหล่านี้มาก ๆ

116
00:06:49,180 --> 00:06:51,688
มันจึงออกมาเป็นแบบนี้

117
00:06:51,688 --> 00:06:55,449
(วิดีโอ) เอบ เดวิส: สาม, สอง, หนึ่ง, เริ่ม

118
00:06:55,449 --> 00:07:00,836
แมรี มีลูกแกะตัวหนึ่ง!
ลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง!

119
00:07:00,836 --> 00:07:05,336
(เสียงหัวเราะ)

120
00:07:05,336 --> 00:07:08,150
เอบ: การทดลองนี้มันออกจะดูน่าขันไปหน่อย

121
00:07:08,150 --> 00:07:09,938
(เสียงหัวเราะ)

122
00:07:09,938 --> 00:07:12,283
ผมกำลังตะคอกใส่ถุงมันฝรั่ง

123
00:07:12,283 --> 00:07:13,834
(เสียงหัวเราะ) --

124
00:07:13,834 --> 00:07:15,951
และเราก็ส่องมันด้วยไฟสว่างจ้า

125
00:07:15,951 --> 00:07:20,430
เสียจนกระทั่งเราทำถุงมันฝรั่งละลายไปถุงหนึ่ง
เมื่อตอนเริ่มทดลอง (เสียงหัวเราะ)

126
00:07:20,525 --> 00:07:23,799
แต่ แม้ว่าการทดลองนี้มันจะดูน่าขัน

127
00:07:23,799 --> 00:07:25,587
แต่มันก็เป็นการทดลองสำคัญ

128
00:07:25,587 --> 00:07:28,513
เพราะเราสามารถกู้เอาเสียงนี้ออกมาได้

129
00:07:28,513 --> 00:07:33,225
(เสียงบันทึก) แมรี่ มีลูกแกะตัวหนึ่ง!
ลูกแกะตัวหนึ่ง! ลูกแกะตัวหนึ่ง!

130
00:07:33,225 --> 00:07:37,313
(เสียงปรบมือ)

131
00:07:37,313 --> 00:07:39,194
เอบ: และนี่คือสิ่งที่สำคัญมาก

132
00:07:39,194 --> 00:07:43,313
เพราะว่านั่นคือครั้งแรกที่เราสามารถ
กู้เสียงพูดมนุษย์ที่ฟังรู้เรื่อง

133
00:07:43,424 --> 00:07:45,765
จากวิดีโอของวัตถุซึ่งไม่มีเสียง

134
00:07:45,765 --> 00:07:48,156
และมันเป็นจุดอ้างอิงแก่เรา

135
00:07:48,156 --> 00:07:52,027
และเราก็ค่อย ๆ เริ่มที่จะปรับปรุงการทดลอง

136
00:07:52,106 --> 00:07:55,911
โดยใช้วัตถุต่าง ๆ
หรือเคลื่อนที่วัตถุนั้นให้ห่างออกไป

137
00:07:55,911 --> 00:07:58,681
โดยใช้แสงน้อยลง หรือเสียงที่เบาลง

138
00:07:59,887 --> 00:08:02,761
แล้วเราก็วิเคราะห์การทดลองทั้งหมดนี้

139
00:08:02,761 --> 00:08:06,383
จนกระทั่งเราเข้าใจถ่องแท้ถึง
ข้อจำกัดของเทคนิคนี้

140
00:08:06,383 --> 00:08:08,333
เพราะเมื่อเราเข้าใจข้อจำกัดเหล่านั้น

141
00:08:08,333 --> 00:08:10,679
เราก็สามารถหาทางที่จะผลักดันมันออกไป

142
00:08:10,679 --> 00:08:13,860
และนำไปสู่การทดลองเช่นนี้

143
00:08:13,860 --> 00:08:16,599
ซึ่งก็เหมือนเคย คือผมก็จะพูดกับถุงมันฝรั่ง

144
00:08:16,599 --> 00:08:21,429
และครั้งนี้เราย้ายกล้องให้ห่างออกไป 15 ฟุต

145
00:08:21,429 --> 00:08:24,262
อยู่หลังหน้าต่างกันเสียง

146
00:08:24,262 --> 00:08:27,065
และทุกอย่างนั้นถูกให้แสงโดยแสงธรรมชาติ

147
00:08:28,529 --> 00:08:30,684
และนี่คือวิดีโอที่เราบันทึกไว้

148
00:08:32,450 --> 00:08:37,009
และนี่คือเสียงจากด้านใน
ข้าง ๆ ถุงมันฝรั่ง

149
00:08:37,009 --> 00:08:42,047
(เสียงบันทึก) แมรี่มีลูกแกะตัวหนึ่ง
ขนมันขาวราวหิมะ

150
00:08:42,047 --> 00:08:47,666
และไม่ว่าแมรี่จะไปไหน
ลูกแกะก็จะตามไป

151
00:08:47,666 --> 00:08:51,683
เอป: และนี่คือสิ่งที่เราสามารถกู้
กลับมาได้จากวีดิโอซึ่งไร้เสียง

152
00:08:51,683 --> 00:08:54,028
ที่บันทึกจากนอกหน้าต่าง

153
00:08:54,028 --> 00:08:58,463
(เสียงบันทึก) แมรี่มีลูกแกะตัวหนึ่ง
ขนมันขาวราวหิมะ

154
00:08:58,463 --> 00:09:03,920
และไม่ว่าแมรี่จะไปไหน
ลูกแกะก็จะตามไป

155
00:09:03,920 --> 00:09:10,421
(เสียงปรบมือ)

156
00:09:10,421 --> 00:09:13,963
เอบ: ยังมีอีกหลายวิธีที่เรา
จะผลักดันขีดจำกัดเหล่านั้นออกไปอีก

157
00:09:13,963 --> 00:09:15,761
นี่คือการทดลองที่เงียบขึ้น

158
00:09:15,761 --> 00:09:19,871
ซึ่งเราถ่ายวิดีโอหูฟังซึ่งเสียบอยู่กับแล็ปท็อป

159
00:09:19,871 --> 00:09:23,981
และในกรณีนี้ เป้าหมายของเรา
คือการกู้เสียงเพลงซึ่งกำลังเล่นจากแล็ปท็อป

160
00:09:23,981 --> 00:09:26,280
จากวิดีโอเงียบๆ

161
00:09:26,280 --> 00:09:28,787
ของหูฟังพลาสติกสองชิ้นนี้

162
00:09:28,787 --> 00:09:30,970
และเราก็ทำได้ดีมาก

163
00:09:30,970 --> 00:09:33,431
เสียจนผมสามารถใช้เอาเสียงนี้
ไปใช้ค้นหาชื่อเพลงบน Shazam ได้

164
00:09:33,431 --> 00:09:35,842
(เสียงหัวเราะ)

165
00:09:37,191 --> 00:09:47,225
(เสียงเพลง: "Under Pressure" โดยวง Queen)

166
00:09:49,615 --> 00:09:54,584
(เสียงปรบมือ)

167
00:09:54,584 --> 00:09:59,135
เรายังสามารถผลักดันขีดจำกัด
โดยเปลี่ยนอุปกรณ์ที่เราใช้

168
00:09:59,135 --> 00:10:01,596
เนื่องจากในการทดลอง
ที่ผมแสดงให้คุณดูมาตั้งแต่ต้นนั้น

169
00:10:01,596 --> 00:10:03,918
ล้วนใช้กล้องวิดีโอความเร็วสูง

170
00:10:03,918 --> 00:10:06,797
ซึ่งสามารถบันทึกวิดีโอได้เร็วเป็น 100 เท่า

171
00:10:06,797 --> 00:10:08,724
ของกล้องบนโทรศัพท์มือถือ

172
00:10:08,724 --> 00:10:11,533
แต่กระนั้นเราก็ยังพบวิธีที่จะใช้เทคนิคนี้

173
00:10:11,533 --> 00:10:13,763
กับกล้องทั่ว ๆ ไปได้

174
00:10:13,763 --> 00:10:17,832
และเราทำได้โดยใช้ประโยชน์
จากสิ่งที่เรียกว่า โรลลิ่ง ชัตเตอร์ (rolling shutter)

175
00:10:17,832 --> 00:10:22,630
กล้องทั่วไปบันทึกภาพทีละแถว

176
00:10:22,630 --> 00:10:28,332
และถ้าวัตถุเคลื่อนที่ในขณะที่มีการบันทึกภาพหนึ่ง ๆ

177
00:10:28,344 --> 00:10:31,061
จะเกิดการหน่วงเวลาขึ้นเล็กน้อยในแต่ละแถว

178
00:10:31,061 --> 00:10:34,218
และก่อให้เกิดสัญญาณปลอมปนนี้ขึ้นมา

179
00:10:34,218 --> 00:10:37,701
ซึ่งจะถูกบันทึกลงในแต่ละเฟรมของวิดีโอ

180
00:10:37,701 --> 00:10:41,507
สิ่งที่เราพบก็คือ
เมื่อเราวิเคราะห์สัญญาณปลอมปน

181
00:10:41,507 --> 00:10:46,122
เราก็จะสามารถกู้เอาเสียงกลับคืนมาได้
โดยใช้ระเบียบวิธีที่ดัดแปลง

182
00:10:46,122 --> 00:10:48,034
และนี่คือการทดลองที่เราทำ

183
00:10:48,034 --> 00:10:49,729
โดยเราถ่ายวิดีโอถุงลูกกวาด

184
00:10:49,729 --> 00:10:51,470
ขณะที่ลำโพงที่อยู่ใกล้ ๆ กำลังส่งเสียง

185
00:10:51,470 --> 00:10:54,442
เพลง "Mary Had a Little Lamb"

186
00:10:54,442 --> 00:10:58,645
แต่ครั้งนี้เราใช้กล้องที่หาซื้อได้ทั่ว ๆ ไป

187
00:10:58,645 --> 00:11:01,819
และในอีกสักครู่ ผมจะเล่นเสียงที่เรากู้คืนมาได้

188
00:11:01,819 --> 00:11:03,869
และมันจะฟังดูเพี้ยนหน่อยในครั้งนี้

189
00:11:03,869 --> 00:11:06,705
แต่ลองฟังดูว่าคุณยังพอฟังออก
ว่ามันเป็นเพลงอะไรหรือเปล่า

190
00:11:07,723 --> 00:11:13,946
(เสียงเพลง: "Mary Had a Little Lamb")

191
00:11:25,527 --> 00:11:28,992
แม้เสียงจะฟังดูผิดเพี้ยนไป

192
00:11:28,992 --> 00:11:33,378
แต่สิ่งที่น่าทึ่งก็คือ เราสามารถทำสิ่งนี้ได้

193
00:11:33,378 --> 00:11:36,004
ด้วยของที่คุณสามารถเดินออกไปหาซื้อได้

194
00:11:36,004 --> 00:11:37,448
จากร้านขายสินค้าอิเล็คทรอนิคส์ทั่วไป

195
00:11:39,122 --> 00:11:40,485
ณ จุดนี้

196
00:11:40,485 --> 00:11:42,459
หลาย ๆ คนที่เห็นงานวิจัยนี้

197
00:11:42,459 --> 00:11:45,872
จะนึกถึงงานด้านการสอดแนมในทันที

198
00:11:45,872 --> 00:11:48,287
ซึ่งพูดตรง ๆ แล้ว

199
00:11:48,287 --> 00:11:52,420
มันก็ไม่ยากนักที่จะคิดว่าจะนำเทคโนโลยีนี้
ไปใช้เพื่อสอดแนมใครบางคนได้อย่างไร

200
00:11:52,420 --> 00:11:56,367
แต่ต้องอย่าลืมว่า มีเทคโนโลยีอีกมากมาย
ที่ได้ถูกวิจัยพัฒนาสมบูรณ์แล้ว

201
00:11:56,367 --> 00:11:57,946
ที่ถูกออกแบบมาเพื่อการสอดแนม

202
00:11:57,946 --> 00:12:00,036
อันที่จริงแล้ว ผู้คนได้ใช้แสงเลเซอร์

203
00:12:00,036 --> 00:12:02,835
เพื่อตรวจจับการสั่นไหวของวัตถุ
จากระยะไกลมานับสิบปีแล้ว

204
00:12:03,978 --> 00:12:06,003
แต่สิ่งที่แปลกใหม่สำหรับเทคโนโลยีนี้

205
00:12:06,003 --> 00:12:07,443
สิ่งที่แตกต่างจริง ๆ

206
00:12:07,443 --> 00:12:11,738
ก็คือเรามีวิธีใหม่ที่จะบันทึกการสั่นไหวของวัตถุ

207
00:12:11,738 --> 00:12:15,151
ซึ่งให้มุมมองใหม่สู่โลกกว้างกับเรา

208
00:12:15,151 --> 00:12:16,661
และเราสามารถใช้มุมมองนี้

209
00:12:16,661 --> 00:12:21,560
ไม่เพียงแค่เรียนรู้ถึงแรงเช่นคลื่นเสียง
ที่ทำให้วัตถุสั่นไหว

210
00:12:21,560 --> 00:12:23,848
แต่ยังเรียนรู้ถึงตัววัตถุนั้น ๆ

211
00:12:24,975 --> 00:12:26,668
ดังนั้นผมจึงอยากพาท่านถอยมาก้าวหนึ่ง

212
00:12:26,668 --> 00:12:30,917
และลองคิดว่ามันจะเปลี่ยนวิธี
ที่เราใช้วิดีโอได้อย่างไร

213
00:12:30,917 --> 00:12:34,470
เพราะปกติแล้วเราใช้วิดีโอเพื่อดูสิ่งต่าง ๆ

214
00:12:34,470 --> 00:12:36,792
และผมก็เพิ่งแสดงให้คุณดูว่าเรา ใช้มัน

215
00:12:36,792 --> 00:12:38,649
เพื่อฟังเสียงต่าง ๆ ได้อย่างไร

216
00:12:38,649 --> 00:12:42,620
แต่ยังมีอีกวิธีหนึ่งที่เรา
สามารถเรียนรู้เกี่ยวกับโลกได้

217
00:12:42,620 --> 00:12:44,895
นั่นก็คือการมีปฏิสัมพันธ์กับมัน

218
00:12:44,895 --> 00:12:48,006
เราดัน และดึง และจิ้ม สิ่งต่าง ๆ

219
00:12:48,006 --> 00:12:51,187
เราเขย่ามันแล้วดูว่าจะเกิดอะไรขึ้น

220
00:12:51,187 --> 00:12:55,460
แต่นั่นเป็นอะไรที่วิดีโอไม่ยอมให้เราทำ

221
00:12:55,460 --> 00:12:57,596
อย่างน้อยก็วิดีโอทั่ว ๆ ไป

222
00:12:57,596 --> 00:12:59,546
ผมจึงอยากแสดงให้คุณเห็นถึงงานวิจัยใหม่

223
00:12:59,546 --> 00:13:02,213
ซึ่งเกิดขึ้นมาจากแนวคิดของผม
เมื่อไม่กี่เดือนก่อนหน้านี้

224
00:13:02,213 --> 00:13:05,514
นี่จึงเป็นครั้งแรกที่ผมแสดงมันต่อสาธารณะชน

225
00:13:05,514 --> 00:13:10,877
แนวคิดพื้นฐานก็คือ
เราจะใช้การสั่นไหวในวิดีโอนี้

226
00:13:10,877 --> 00:13:15,358
เพื่อตรวจจับวัตถุในแบบที่เราสามารถโต้ตอบกับมันได้

227
00:13:15,358 --> 00:13:17,332
และดูว่ามันจะมีปฏิกิริยาอย่างไร

228
00:13:19,120 --> 00:13:20,884
นี่คือวัตถุชิ้นหนึ่ง

229
00:13:20,884 --> 00:13:24,716
และในกรณีนี้ มันคือลวดดัดเป็นรูปคน

230
00:13:24,716 --> 00:13:27,804
และเราก็จะถ่ายวิดีโอวัตถุนี้โดยใช้กล้องธรรมดา

231
00:13:27,804 --> 00:13:29,928
ไม่มีอะไรพิเศษเกี่ยวกับกล้องนี้

232
00:13:29,928 --> 00:13:32,889
อันที่จริงแล้ว ผมก็เคยทำการทดลองนี้
ด้วยกล้องมือถือของผมเอง

233
00:13:32,889 --> 00:13:35,141
แต่เราก็อยากเห็นวัตถุนี้สั่นไหว

234
00:13:35,141 --> 00:13:36,274
เพื่อให้เป็นเช่นนั้น

235
00:13:36,274 --> 00:13:39,620
เราจะเคาะเบา ๆ บนพื้นที่มันตั้งอยู่

236
00:13:39,620 --> 00:13:41,758
ในขณะที่เราบันทึกวิดีโอ

237
00:13:47,398 --> 00:13:51,069
แค่นั้นเอง เพียงแค่วิดีโอยาว 5 วินาที

238
00:13:51,069 --> 00:13:53,205
ขณะที่เราเคาะพื้น

239
00:13:53,205 --> 00:13:56,718
และเราก็จะใช้การสั่นไหวในวิดีโอ

240
00:13:56,718 --> 00:14:01,262
เพื่อศึกษาเกี่ยวกับโครงสร้าง
และคุณสมบัติเชิงวัสดุของวัตถุชิ้นนั้น

241
00:14:01,262 --> 00:14:06,096
และเราก็จะใช้ข้อมูลนั้น
เพื่อสร้างบางสิ่งใหม่ ๆ ที่สามารถโต้ตอบได้

242
00:14:12,866 --> 00:14:15,519
นี่คือสิ่งที่เราสร้างขึ้นมา

243
00:14:15,519 --> 00:14:17,748
มันดูเหมือนภาพธรรมดา

244
00:14:17,748 --> 00:14:20,859
แต่นี่ไม่ใช่รูปภาพ และมันก็ไม่ใช่วิดีโอ

245
00:14:20,859 --> 00:14:23,227
เพราะตอนนี้ผมสามารถเอาเมาส์

246
00:14:23,227 --> 00:14:26,086
ไปโต้ตอบกับวัตถุชิ้นนี้ได้

247
00:14:32,936 --> 00:14:35,293
และสิ่งที่คุณเห็นอยู่ตอนนี้

248
00:14:35,389 --> 00:14:37,615
คือการจำลองว่าวัตถุนี้

249
00:14:37,615 --> 00:14:42,073
จะตอบสนองต่อแรงใหม่ ๆ
ที่เราไม่เคยเห็นมาก่อน

250
00:14:42,073 --> 00:14:45,706
และเราก็สร้างมันขึ้นจาก
วิดีโอธรรมดาความยาวแค่ 5 วินาที

251
00:14:47,249 --> 00:14:51,964
(เสียงปรบมือ)

252
00:14:57,421 --> 00:15:00,648
นี่เป็นวิธีที่ทรงพลังมาก
ในการศึกษาโลกใบนี้

253
00:15:00,648 --> 00:15:03,620
เพราะมันทำให้เราทำนายได้
ว่าวัตถุจะตอบสนองอย่างไร

254
00:15:03,620 --> 00:15:05,443
กับสถานการณ์ใหม่ ๆ

255
00:15:05,443 --> 00:15:08,916
และสมมุติว่าคุณมองดูสะพานเก่า ๆ แห่งหนึ่ง

256
00:15:08,916 --> 00:15:12,443
และเกิดสงสัยว่าจะเกิดอะไรขึ้น
สะพานจะรับน้ำหนักได้หรือไม่

257
00:15:12,443 --> 00:15:15,276
ถ้าคุณขับรถข้ามสะพานนั้น

258
00:15:15,276 --> 00:15:18,050
และนั่นเป็นคำถามที่คุณต้องการคำตอบ

259
00:15:18,050 --> 00:15:20,610
ก่อนที่จะขับข้ามสะพานนั้น

260
00:15:21,988 --> 00:15:25,260
และแน่นอน มันก็จะต้องมีขีดจำกัดกับเทคนิคนี้

261
00:15:25,260 --> 00:15:27,722
เช่นเดียวกับโมโครโฟนภาพ

262
00:15:27,722 --> 00:15:30,903
แต่เราก็พบว่ามันใช้ได้ในหลาย ๆ สถานการณ์

263
00:15:30,903 --> 00:15:32,778
ที่คุณอาจคาดไม่ถึง

264
00:15:32,778 --> 00:15:35,546
โดยเฉพาะเมื่อคุณป้อนวิดีโอที่ยาวขึ้นให้มัน

265
00:15:35,546 --> 00:15:38,054
ยกตัวอย่างเช่น
นี่คือวิดีโอที่ผมถ่าย

266
00:15:38,054 --> 00:15:40,353
ไม้พุ่มหนึ่งนอกอพาร์ทเมนต์ของผม

267
00:15:40,353 --> 00:15:43,441
ผมไม่ได้ทำอะไรกับพุ่มไม้นี้

268
00:15:43,441 --> 00:15:46,146
แต่ด้วยการถ่ายวิดีโอยาวหนึ่งนาที

269
00:15:46,146 --> 00:15:49,524
ลมที่พัดเบา ๆ ก็สร้างการสั่นไหวที่มากพอ

270
00:15:49,524 --> 00:15:53,111
ที่เราจะเรียนรู้เกี่ยวกับพุ่มไม้นี้
เพื่อที่จะสร้างแบบจำลอง

271
00:15:55,270 --> 00:16:01,412
(เสียงปรบมือ)

272
00:16:01,412 --> 00:16:04,384
และคุณคงพอนึกออกว่า
หากผู้กำกับภาพยนต์ได้ใช้มัน

273
00:16:04,384 --> 00:16:06,103
และช่วยให้เขาควบคุม

274
00:16:06,103 --> 00:16:11,025
ความแรง หรือทิศทางลม
ในฉากหลังจากที่มันได้ถูกถ่ายไปแล้ว

275
00:16:12,810 --> 00:16:17,345
หรือในกรณีนี้
เราตั้งกล้องไปยังผ้าม่านที่แขวนอยู่

276
00:16:17,345 --> 00:16:21,474
คุณอาจมองไม่เห็น
การเคลื่อนไหวใด ๆ ในวิดีโอนี้

277
00:16:21,474 --> 00:16:24,399
แต่โดยการบันทึกวิดีโอยาว 2 นาที

278
00:16:24,399 --> 00:16:26,837
กระแสลมตามธรรมชาติในห้องนี้

279
00:16:26,837 --> 00:16:31,249
สร้างการเคลื่อนไหว
ที่แทบมองไม่เห็นขึ้น

280
00:16:31,249 --> 00:16:33,814
และเราสามารถเรียนรู้จากมันได้มากพอ
ที่จะสร้างแบบจำลอง

281
00:16:36,243 --> 00:16:38,609
ซึ่งก็น่าตลก

282
00:16:38,609 --> 00:16:41,697
ที่เราคุ้นชินกับการโต้ตอบลักษณะนี้

283
00:16:41,697 --> 00:16:44,344
หากมันเป็นวัตถุเสมือน

284
00:16:44,344 --> 00:16:47,641
หรือวิดีโอเกมส์ และแบบจำลองสามมิติ

285
00:16:47,641 --> 00:16:52,045
แต่การที่เราสามารถดึงข้อมูลเหล่านี้
จากวัตถุจริง ๆ ในโลกจริง ๆ ได้

286
00:16:52,045 --> 00:16:54,862
โดยใช้วิดีโอธรรมดา ๆ นั้น

287
00:16:54,862 --> 00:16:57,045
เป็นบางสิ่งที่ใหม่และมีศักยภาพมาก

288
00:16:58,410 --> 00:17:03,314
และนี่คือกลุ่มคนที่น่าทึ่ง
ผู้ซึ่งร่วมงานกับผมในงานวิจัยเหล่านี้

289
00:17:04,057 --> 00:17:09,653
(เสียงปรบมือ)

290
00:17:12,819 --> 00:17:15,876
สิ่งทีผมแสดงให้คุณดูในวันนี้
เป็นเพียงแค่การเริ่มต้น

291
00:17:15,876 --> 00:17:17,989
เราเพียงแค่เริ่มเปิดประตู

292
00:17:17,989 --> 00:17:20,961
เข้าสู่โลกของหลากหลายสิ่ง
ที่คุณสามารถทำได้ด้วยเทคนิคนี้

293
00:17:20,961 --> 00:17:23,247
เพราะมันให้วิธีใหม่แก่เรา

294
00:17:23,342 --> 00:17:28,066
ในการดึงข้อมูลจากสิ่งแวดล้อมรอบ ๆ ตัว
ด้วยเทคโนโลยีที่เข้าถึงได้ทั่ว ๆ ไป

295
00:17:28,066 --> 00:17:29,995
เมื่อมองไปในอนาคต

296
00:17:29,995 --> 00:17:32,032
มันคงน่าตื่นเต้นที่จะได้ค้นพบว่า

297
00:17:32,032 --> 00:17:33,888
สิ่งนี้จะช่วยบอกอะไรเราได้เกี่ยวกับโลกใบนี้

298
00:17:34,381 --> 00:17:35,585
ขอบคุณครับ

299
00:17:35,610 --> 00:17:41,717
(เสียงปรบมือ)