เราสอนคอมพิวเตอร์ให้เข้าใจภาพได้อย่างไร

0:02 - 0:06

ฉันขอแสดงอะไรบางอย่าง
0:06 - 0:10

(วิดีโอ) เด็กหญิง: เอาล่ะ นี่คือแมวนั่งอยู่บนเตียง
0:10 - 0:14

เด็กชายกำลังลูบคลำช้าง
0:14 - 0:19

นั่นคือคนที่กำลังเดินทางในเครื่องบิน
0:19 - 0:21

นั่นคือเครื่องบินขนาดใหญ่
0:21 - 0:24

Fei-Fei Li: นี่เป็นเด็กอายุสามขวบ
0:24 - 0:27

กำลังอธิบายสิ่งที่เธอเห็นในชุดรูปภาพ
0:27 - 0:30

เธออาจจะมีสิ่งของจำนวนมากที่จะ
เรียนรู้เกี่ยวกับโลกนี้
0:30 - 0:35

แต่เธอก็เป็นผู้เชี่ยวชาญในงานที่สำคัญมาก
0:35 - 0:38

ที่จะทำความเข้าใจกับสิ่งที่เธอเห็น
0:38 - 0:42

สังคมของเราก้าวหน้ามากขึ้นกว่าเดิม
0:42 - 0:46

เราส่งคนไปยังดวงจันทร์ เราทำโทรศัพท์
ที่พูดคุยกับเรา
0:46 - 0:51

หรือปรับแต่งสถานีวิทยุที่สามารถเล่น
เฉพาะเพลงที่เราชอบเท่านั้น
0:51 - 0:55

แต่เครื่องที่ทันสมัยที่สุดและคอมพิวเตอร์
ของเรา
0:55 - 0:58

ยังคงต่อสู้กับงานนี้
0:58 - 1:01

วันนี้ ฉันมาที่นี่เพื่อรายงานความคืบหน้า
1:01 - 1:05

เกี่ยวกับความก้าวหน้าล่าสุดในการวิจัย
ของเรา คอมพิวเตอร์ที่มองเห็น
1:05 - 1:10

หนึ่งในแนวพรมแดนและการปฏิวัติส่วนใหญ่
1:10 - 1:13

เทคโนโลยีในวิทยาการคอมพิวเตอร์
1:13 - 1:17

ใช่ เรามีรถยนต์ต้นแบบที่สามารถขับขี่
ด้วยตัวเอง
1:17 - 1:21

แต่ไม่มีวิสัยทัศน์ที่ฉลาด พวกนั้น
ไม่สามารถบอกความแตกต่าง
1:21 - 1:25

ระหว่างถุงกระดาษยู่ยี่บนถนนซึ่ง
สามารถเรียกวิ่งทับได้
1:25 - 1:29

กับหินในขนาดที่ควรหลีกเลี่ยง
1:29 - 1:33

เราได้ทำกล้องล้านพิกเซลที่ยอดเยี่ยม
1:33 - 1:36

แต่เราไม่ได้ให้การมองเห็นแก่คนตาบอด
1:36 - 1:40

โดรนสามารถบินผ่านพื้นดินขนาดใหญ่
1:40 - 1:42

แต่ไม่ได้มีเทคโนโลยีการมองเห็นเพียงพอ
1:42 - 1:45

เพื่อช่วยในการติดตามการเปลี่ยนแปลง
ของป่าฝน
1:45 - 1:48

กล้องรักษาความปลอดภัยมีอยู่ทั่วไป
1:48 - 1:53

แต่กล้องไม่แจ้งเตือนเราเมื่อเด็กกำลัง
จมน้ำในสระว่ายน้ำ
1:54 - 2:00

ภาพถ่ายและวิดีโอกลายเป็นส่วนสำคัญ
ของชีวิตในโลก
2:00 - 2:04

กล้องถูกสร้างขึ้นด้วยความเร็วที่ไกล
เกินกว่าสิ่งที่มนุษย์
2:04 - 2:07

หรือทีมงานของมนุษย์สามารถหวังว่าจะเห็น
2:07 - 2:11

และคุณและฉันมีส่วนร่วมในกรณีนี้ที่ TED นี้
2:11 - 2:16

แต่ซอฟต์แวร์ขั้นสูงที่สุดของเรา
ยังคงต้องดิ้นรนเพื่อให้เข้าใจ
2:16 - 2:20

และจัดการกับเนื้อหาขนาดใหญ่นี้
2:20 - 2:25

ดังนั้นในคำอื่นๆ เรียกรวมกันว่าเป็นสังคม
2:25 - 2:27

เราเป็นคนตาบอดมาก
2:27 - 2:30

เพราะเครื่องที่ชาญฉลาดของเรา
ยังคงตาบอด
2:32 - 2:34

"ทำไมถึงยากมาก" คุณอาจถาม
2:34 - 2:37

กล้องสามารถถ่ายรูปได้เช่นนี้
2:37 - 2:41

โดยการแปลงแสงเป็นแถวสองมิติ
ของตัวเลข
2:41 - 2:43

เรียกว่าพิกเซล
2:43 - 2:45

แต่สิ่งเหล่านี้เป็นเพียงตัวเลขที่ตาย
2:45 - 2:48

พิกเซลไม่มีความหมายในตัวเอง
2:48 - 2:52

เช่นเดียวกับที่ได้ยินไม่เหมือนกับการฟัง
2:52 - 2:57

การถ่ายภาพไม่ได้เหมือนกับการดู
2:57 - 3:00

และโดยการเห็น เราหมายถึง
ความเข้าใจจริงๆ
3:01 - 3:07

ในความเป็นจริงแล้ว ธรรมชาติต้อง
ใช้เวลา 540 ล้านปีในการทำงานหนัก
3:07 - 3:09

เพื่อทำภารกิจนี้
3:09 - 3:11

และความพยายามส่วนมาก
3:11 - 3:17

เข้าไปในการพัฒนาอุปกรณ์การประมวลผล
ภาพของสมองของเรา
3:17 - 3:19

ไม่ใช่ตาเอง
3:19 - 3:22

ดังนั้นการมองเห็นเริ่มต้นด้วยดวงตา
3:22 - 3:26

แต่เกิดขึ้นอย่างแท้จริงในสมอง
3:26 - 3:31

ดังนั้น เวลา 15 ปีตอนนี้ เริ่มต้นจาก
ฉันทำปริญญา Ph.D. ที่ Caltech
3:31 - 3:34

และจากนั้นก็บริหารห้องแล็บ
การมองเห็นของ Stanford
3:34 - 3:39

ฉันได้ทำงานร่วมกับพี่เลี้ยง ผู้ทำงาน
ร่วมกันและนักเรียนของฉัน
3:39 - 3:42

สอนคอมพิวเตอร์ให้ดู
3:43 - 3:46

สาขาการวิจัยของเราเรียกว่า computer
vision และ machine learning
3:46 - 3:50

เป็นส่วนหนึ่งของสาขาวิชาปัญญาประดิษฐ์
3:51 - 3:56

ดังนั้น ในที่สุดเราต้องการสอนเครื่อง
ให้เห็นเช่นเดียวกับที่เราเห็น
3:56 - 4:02

การตั้งชื่อวัตถุ ระบุบุคคล คาดคะเน
รูปทรงเรขาคณิต 3D ของสิ่งของ
4:02 - 4:08

เข้าใจความสัมพันธ์ อารมณ์ การกระทำและเจตนา
4:08 - 4:14

คุณและฉันสานเรื่องราวทั้งหมดของ
ผู้คน สถานที่ และสิ่งต่างๆ
4:14 - 4:16

ขณะที่เราจ้องสายตาของเราไว้
4:17 - 4:23

ขั้นตอนแรกสู่เป้าหมายนี้คือ การสอน
คอมพิวเตอร์ให้ดูวัตถุ
4:23 - 4:26

โคงสร้างของโลกของภาพ
4:26 - 4:30

ในแง่ที่ง่ายที่สุด ลองจินตนาการ
กระบวนการเรียนการสอนนี้
4:30 - 4:33

แสดงคอมพิวเตอร์ภาพการฝึกซ้อม
บางอย่าง
4:33 - 4:37

ของวัตถุเฉพาะ สมมติว่าเป็นแมว
4:37 - 4:41

และการออกแบบรูปแบบที่เรียนรู้จาก
ภาพการฝึกซ้อมเหล่านี้
4:41 - 4:43

มันยากขนาดไหน
4:43 - 4:47

ท้ายที่สุด แมวเป็นเพียงชุดของ
รูปทรงและสี
4:47 - 4:52

และนี่คือสิ่งที่เราทำในวันแรกๆ
ของการสร้างโมเดลวัตถุ
4:52 - 4:55

เราจะบอกอัลกอริธีมของคอมพิวเตอร์
ด้วยภาษาทางคณิตศาสตร์
4:55 - 4:59

ว่าแมวมีใบหน้ากลม ลำตัวอ้วน
4:59 - 5:01

มีสองหูแหลม และหางยาว
5:01 - 5:02

และดูดีทั้งหมด
5:03 - 5:05

แต่อะไรเกี่ยวกับแมวตัวนี้ล่ะ
5:05 - 5:06

(เสียงหัวเราะ)
5:06 - 5:08

มันขดตัว
5:08 - 5:12

ตอนนี้ ต้องเพิ่มรูปร่าง -
มุมมองอื่นในโมเดลวัตถุ
5:12 - 5:14

แต่ถ้าแมวถูกซ่อนไว้
5:15 - 5:17

แล้วแมวโง่เหล่านี้ล่ะ
5:19 - 5:22

ตอนนี้คุณเข้าใจแล้ว
5:22 - 5:25

แม้บางอย่างง่ายๆ เป็นแบบ
สัตว์เลี้ยงในครัวเรือน
5:25 - 5:29

สามารถนำเสนอรูปแบบรูปแบบ
ของวัตถุที่ไม่มีที่สิ้นสุด
5:29 - 5:32

และนั่นเป็นเพียงวัตถุเดียว
5:33 - 5:35

ดังนั้นประมาณแปดปีที่ผ่านมา
5:35 - 5:40

การสังเกตที่ง่ายและลึกซึ้ง
ได้เปลี่ยนความคิดของฉัน
5:41 - 5:44

ไม่มีใครบอกเด็กว่าจะดูอย่างไร
5:44 - 5:46

โดยเฉพาะอย่างยิ่งในช่วงปีแรกๆ
5:46 - 5:51

เด็กเรียนรู้ผ่านประสบการณ์
และตัวอย่างแห่งความเป็นจริง
5:51 - 5:54

ถ้าคุณพิจารณาดวงตาของเด็ก
5:54 - 5:57

เป็นกล้องชีวภาพหนึ่งคู่
5:57 - 6:01

กล้องถ่ายภาพทุกๆ 200 มิลลิวินาที
6:01 - 6:04

เวลาเฉลี่ยที่เกิดจากการเคลื่อนไหว
ของตา
6:04 - 6:10

ดังนั้นเมื่ออายุสามขวบ เด็กๆ
จะได้เห็นภาพหลายร้อยภาพ
6:10 - 6:11

ในโลกแห่งความจริง
6:11 - 6:14

นี่เป็นตัวอย่างการฝึกมากมาย
6:14 - 6:20

ดังนั้น แทนที่จะเน้นเฉพาะ
อัลกอริธึมที่ดีและดีขึ้น
6:20 - 6:26

ข้อมูลเชิงลึกของฉันคือ การให้
อัลกอริทึมเป็นแบบข้อมูลการฝึกซ้อม
6:26 - 6:29

ว่าเด็กได้ผ่านประสบการณ์
6:29 - 6:33

ทั้งในด้านปริมาณและคุณภาพ
6:33 - 6:35

เมื่อเรารู้เรื่องนี้แล้ว
6:35 - 6:38

เรารู้ว่า เราจำเป็นต้องรวบรวมชุดข้อมูล
6:38 - 6:42

ที่มีภาพไกลเกินกว่าที่เราเคยมีมาก่อน
6:42 - 6:45

บางที อีกหลายพันครั้ง
6:45 - 6:49

และร่วมกับศาสตราจารย์ Kai Li
ที่ Princeton University
6:49 - 6:54

เราได้เปิดตัว ImageNet
6:54 - 6:57

โชคดีที่เราไม่ต้องติดกล้อง
บนศีรษะของเรา
6:57 - 6:59

และรอเป็นเวลาหลายปี
6:59 - 7:01

เราไปที่อินเทอร์เน็ต
7:01 - 7:05

เป็นขุมสมบัติที่ยิ่งใหญ่ที่สุด
ของภาพที่มนุษย์สร้างขึ้น
7:05 - 7:08

เราดาวน์โหลดภาพมาแล้ว
เกือบพันล้านภาพ
7:08 - 7:14

และใช้เทคโนโลยีกระจายไปยังกลุ่มเพื่อค้นหา
คำตอบ เช่นแพลตฟอร์ม Amazon Mechanical Turk
7:14 - 7:16

เพื่อช่วยให้เราติดป้ายกำกับรูปภาพเหล่านี้
7:16 - 7:21

ในตอนท้าย ImageNet เป็นหนึ่งใน
นายจ้างที่ใหญ่ที่สุด
7:21 - 7:24

ของแรงงาน Amazon Mechanical Turk:
7:24 - 7:28

ร่วมกันเกือบ 50,000 คน
7:28 - 7:32

จาก 167 ประเทศทั่วโลก
7:32 - 7:36

ช่วยให้เราสามารถทำความสะอาด
จัดเรียงและติดฉลากได้
7:36 - 7:40

เกือบหนึ่งพันล้านภาพที่ใช้
7:41 - 7:43

นั่นเป็นความพยายามอย่างมาก
7:43 - 7:47

เพื่อจับภาพแม้แต่เศษเสี้ยว
7:47 - 7:51

จิตใจของเด็กใช้เวลาในการพัฒนา
ระยะต้นหลายปี
7:52 - 7:56

ในการมองย้อนกลับความคิดใน
การใช้ข้อมูลขนาดใหญ่นี้
7:56 - 8:01

การฝึกซ้อมอัลกอริธึมของคอมพิวเตอร์
อาจดูเหมือนชัดเจนในตอนนี้
8:01 - 8:05

แต่กลับไปในปี 2007 ยังไม่ชัดเจนดังนั้น
8:05 - 8:09

เราค่อนข้างโดดเดี่ยวในการเดินทาง
ครั้งนี้มานานแล้ว
8:09 - 8:14

เพื่อนร่วมงานแนะนำให้ทำสิ่ง
ที่เป็นประโยชน์มากขึ้นต่อตำแหน่ง
8:14 - 8:18

และเราก็พยายามดิ้นรนเพื่อหาเงินทุนวิจัย
8:18 - 8:20

ครั้งหนึ่งฉันก็พูดเล่นกับนักศึกษา
ระดับบัณฑิตศึกษาของฉัน
8:20 - 8:24

ว่าฉันเพิ่งจะเปิดร้านขายของชำของฉัน
อีกครั้งเพื่อลงทุนใน ImageNet
8:24 - 8:29

เพราะนั่นเป็นเหตุผลที่ฉันให้เงินทุน
แก่วิทยาลัยของฉันเป็นเวลาหลายปี
8:29 - 8:31

ดังนั้น เราจึงดำเนินการต่อ
8:31 - 8:35

ในปี 2552 โครงการ ImageNet ได้จัดส่ง
8:35 - 8:39

ฐานข้อมูลขนาด 15 ล้านภาพ
8:39 - 8:44

ผ่านชั้นเรียนและวัตถุต่างๆ 22,000 ชั้น
8:44 - 8:47

จัดตามคำภาษาอังกฤษในชีวิตประจำวัน
8:47 - 8:50

ทั้งในด้านปริมาณและคุณภาพ
8:50 - 8:53

นี่เป็นระดับที่ไม่เคยปรากฏมาก่อน
8:53 - 8:56

ตัวอย่างเช่น ในกรณีของแมว
8:56 - 8:59

เรามีแมวมากกว่า 62,000 ตัว
8:59 - 9:03

รูปลักษณ์และโพสท่าทุกชนิด
9:03 - 9:08

และแมวในประเทศและป่าทั่วทุกชนิด
9:08 - 9:12

เราตื่นเต้นที่ได้ใส่ใน ImageNet
9:12 - 9:16

และเราต้องการให้โลกการวิจัย
ทั้งหมดได้รับประโยชน์
9:16 - 9:20

ดังนั้น ในรูปแบบ TED เราจึง
เปิดชุดข้อมูลทั้งหมด
9:20 - 9:23

ไปยังชุมชนการวิจัยทั่วโลกแบบฟรีๆ
9:25 - 9:29

(เสียงปรบมือ)
9:29 - 9:34

ตอนนี้ เรามีข้อมูลที่จะช่วยบำรุง
สมองคอมพิวเตอร์ของเรา
9:34 - 9:38

เราพร้อมที่จะกลับมาที่อัลกอริทึม
ด้วยตัวเองแล้ว
9:38 - 9:43

เมื่อเปิดความมั่งคั่งของข้อมูล
ที่ได้จาก ImageNet
9:43 - 9:48

เป็นการจับคู่ที่สมบูรณ์แบบกับชั้นเรียน
ของกลไกการเรียนรู้ของเครื่อง
9:48 - 9:50

เรียกว่าเครือข่ายประสาทแบบม้วนขด
9:50 - 9:55

ผู้บุกเบิกคือ Kunihiko Fukushima,
Geoff Hinton และ Yann LeCun
9:55 - 9:59

ย้อนกลับไปในทศวรรษ 1970 และยุค 1980
9:59 - 10:05

มีเซลล์ประสาทที่เชื่อมต่อกัน
อย่างมากถึงพันล้าน เหมือนสมอง
10:05 - 10:08

หน่วยปฏิบัติการพื้นฐานใน
เครือข่ายประสาทเทียม
10:08 - 10:11

เป็นโหนดแบบเซลล์ประสาท
10:11 - 10:13

ใช้อินพุตจากโหนดอื่น
10:13 - 10:16

และส่งข้อมูลไปยังโหนดอื่น
10:16 - 10:21

นอกจากนี้ นับร้อยนับพันหรือนับล้านๆ โหนด
10:21 - 10:24

ถูกจัดอยู่ในชั้นลำดับชั้น
10:24 - 10:27

ยังคล้ายกับสมอง
10:27 - 10:31

ในเครือข่ายประสาททั่วไป เราการฝึกซ้อม
รูปแบบการจดจำวัตถุของเรา
10:31 - 10:35

มี 24 ล้านโหนด
10:35 - 10:38

140 ล้านพารามิเตอร์
10:38 - 10:41

และการเชื่อมต่อ 15 พันล้าน
10:41 - 10:43

นั่นเป็นรูปแบบที่ยิ่งใหญ่
10:43 - 10:47

ขับเคลื่อนด้วยข้อมูลขนาดใหญ่จาก ImageNet
10:47 - 10:52

และซีพียูและ GPU ที่ทันสมัยใน
การฝึกซ้อมแบบจำลองที่ใหญ่มาก
10:52 - 10:55

เครือข่ายประสาทแบบม้วนขด
10:55 - 10:58

เบ่งบานในแบบที่ไม่มีใครเคยคาดหวัง
10:58 - 11:01

กลายเป็นสถาปัตยกรรมที่ชนะ
11:01 - 11:06

เพื่อสร้างผลลัพธ์ใหม่ที่น่าตื่นเต้น
ในการจดจำวัตถุ
11:06 - 11:09

นี่คือคอมพิวเตอร์ที่บอกเรา
11:09 - 11:11

ว่าภาพนี้มีแมว
11:11 - 11:13

และแมวอยู่ที่ไหน
11:13 - 11:15

แน่นอนว่า มีอะไรมากกว่าแมว
11:15 - 11:18

ดังนั้น นี่คืออัลกอริทึมของ
คอมพิวเตอร์ที่บอกเรา
11:18 - 11:21

ภาพมีเด็กผู้ชายและตุ๊กตาหมี
11:21 - 11:25

สุนัข บุคคล และว่าวขนาดเล็กในพื้นหลัง
11:25 - 11:28

หรือภาพของสิ่งที่ยุ่งมากๆ
11:28 - 11:33

เหมือนชายคนหนึ่ง สเก็ตบอร์ด
ราว เสาไฟ และสิ่งอื่นๆ
11:33 - 11:38

บางครั้ง เมื่อคอมพิวเตอร์
ไม่ค่อยมั่นใจในสิ่งที่มองเห็น
11:39 - 11:42

เราได้สอนให้ฉลาดพอ
11:42 - 11:46

เพื่อให้เราคำตอบที่ปลอดภัยแทน
การกระทำที่มั่นใจมากเกินไป
11:46 - 11:48

เช่นเดียวกับที่เราจะทำ
11:48 - 11:53

แต่บางครั้ง อัลกอริทึมคอมพิวเตอร์
ของเราก็น่าทึ่งที่บอกเรา
11:53 - 11:55

ว่าวัตถุที่มีเป็นอะไรจริงๆ
11:55 - 11:59

เช่นยี่ห้อ แบบ รุ่นปีของรถยนต์
11:59 - 12:04

เราใช้อัลกอริทึมนี้กับภาพ Google
Street View นับล้านภาพ
12:04 - 12:07

ข้ามร้อยเมืองของอเมริกัน
12:07 - 12:10

และเราได้เรียนรู้สิ่งที่น่าสนใจจริงๆ
12:10 - 12:14

ประการแรก ยืนยันภูมิปัญญาทั่วไปของเรา
12:14 - 12:17

ว่าราคารถยนต์มีความสัมพันธ์กันเป็นอย่างดี
12:17 - 12:19

กับรายได้ครัวเรือน
12:19 - 12:24

แต่น่าเสียดายที่ราคารถยนต์ยังมี
ความสัมพันธ์กันดี
12:24 - 12:26

กับอัตราการเกิดอาชญากรรมในเมือง
12:27 - 12:31

หรือรูปแบบการลงคะแนนโดย
ใช้รหัสไปรษณีย์
12:32 - 12:34

รอสักครู่ นี่ใช่ไหม
12:34 - 12:39

คอมพิวเตอร์มีการจับคู่หรือแม้กระทั่งมี
มากกว่าความสามารถของมนุษย์หรือไม่
12:39 - 12:42

ไม่เร็วนัก
12:42 - 12:46

จนถึงปัจจุบัน เราได้สอนคอมพิวเตอร์
ให้ดูวัตถุเท่านั้น
12:46 - 12:51

นี่เหมือนกับเด็กเล็กๆ ที่เรียนรู้ที่
จะพูดคำนามไม่กี่คำ
12:51 - 12:54

เป็นความสำเร็จที่น่าทึ่ง
12:54 - 12:56

แต่นี่เป็นเพียงขั้นตอนแรกเท่านั้น
12:56 - 13:00

ในไม่ช้า การพัฒนาอีกก้าวจะฮิต
13:00 - 13:03

และเด็กเริ่มสื่อสารเป็นประโยค
13:03 - 13:08

ดังนั้นแทนที่จะบอกว่านี่เป็นแมวในภาพ
13:08 - 13:13

คุณได้ยินแล้วสาวน้อยบอกกับ
เราว่า นี่คือแมวนอนอยู่บนเตียง
13:13 - 13:18

ดังนั้น เพื่อสอนคอมพิวเตอร์
ให้ดูภาพและสร้างประโยค
13:18 - 13:22

การจับคู่ระหว่างข้อมูลขนาดใหญ่
และกลไกการเรียนรู้ด้วยเครื่อง
13:22 - 13:25

ต้องใช้ขั้นตอนอื่น
13:25 - 13:29

ขณะนี้คอมพิวเตอร์ต้องเรียนรู้จากทั้งสองรูป
13:29 - 13:32

เช่นเดียวกับประโยคภาษาธรรมชาติ
13:32 - 13:35

ที่สร้างขึ้นโดยมนุษย์
13:35 - 13:39

เช่นเดียวกับสมองที่รวมวิสัยทัศน์และภาษา
13:39 - 13:44

เราพัฒนารูปแบบที่เชื่อมโยงสิ่ง
ที่มองเห็นบางส่วน
13:44 - 13:46

เช่นตัวอย่างข้อมูลภาพ
13:46 - 13:50

มีคำและวลีในประโยค
13:50 - 13:53

ประมาณสี่เดือนที่ผ่านมา
13:53 - 13:56

เราโยงไว้ด้วยกันทั้งหมด
13:56 - 13:59

และผลิตโมเดลวิสัยทัศน์ทาง
คอมพิวเตอร์เครื่องแรก
13:59 - 14:03

ที่มีความสามารถในการสร้าง
ประโยคเหมือนมนุษย์
14:03 - 14:07

เมื่อเห็นภาพเป็นครั้งแรก
14:07 - 14:12

ตอนนี้ฉันพร้อมที่จะแสดง
สิ่งที่คอมพิวเตอร์พูด
14:12 - 14:14

เมื่อเห็นภาพ
14:14 - 14:17

ที่สาวน้อยเห็นในตอนต้นของการพูดคุยนี้
14:20 - 14:23

(วิดีโอ) คอมพิวเตอร์: มีชายคนหนึ่งกำลังยืนอยู่ข้างช้าง
14:24 - 14:28

เครื่องบินขนาดใหญ่จอดอยู่
ในรันเวย์ของสนามบิน
14:29 - 14:33

FFL: แน่นอน เรายังคงทำงานอย่างหนัก
เพื่อปรับปรุงอัลกอริทึม
14:33 - 14:36

และยังคงมีสิ่งที่จะเรียนรู้อยู่มากมาย
14:36 - 14:38

(เสียงปรบมือ)
14:40 - 14:43

และคอมพิวเตอร์ยังทำผิดพลาด
14:43 - 14:46

(วิดีโอ) คอมพิวเตอร์: แมวนอนบนเตียงในผ้าห่ม
14:46 - 14:49

FFL:ดังนั้น แน่นอนเมื่อเห็นแมวมากเกินไป
14:49 - 14:52

เครื่องคิดว่าทุกอย่างอาจดูเหมือนแมว
14:53 - 14:56

(วิดีโอ) คอมพิวเตอร์: เด็กหนุ่มคนหนึ่งกำลังถือไม้เบสบอล
14:56 - 14:58

(เสียงหัวเราะ)
14:58 - 15:03

FFL: หรือถ้ายังไม่เคยเห็นแปรงสีฟัน
ก็จะสับสนกับไม้ตีเบสบอล
15:03 - 15:07

(วิดีโอ) คอมพิวเตอร์: คนขี่ม้าไปตาม
ถนนข้างตึก
15:07 - 15:09

(เสียงหัวเราะ)
15:09 - 15:12

FFL: เราไม่ได้สอนวิชา Art 101 ให้แก่คอมพิวเตอร์
15:14 - 15:17

(วิดีโอ) คอมพิวเตอร์: ม้าลายยืนอยู่ในทุ่งหญ้า
15:17 - 15:20

FFL: และยังไม่ได้เรียนรู้ที่จะชื่นชมความงาม
อันน่าทึ่งของธรรมชาติ
15:20 - 15:22

เช่นคุณและฉัน
15:22 - 15:25

ดังนั้น จึงเป็นการเดินทางที่ยาวนาน
15:25 - 15:30

เพื่อให้ได้มาตั้งแต่อายุศูนย์
ถึงสามปี ยังเป็นเรื่องยาก
15:30 - 15:35

ความท้าทายที่แท้จริงคือ การไป
จากสามปีถึง 13 ปีและไกลเกินกว่านั้น
15:35 - 15:39

ฉันขอเตือนคุณด้วยภาพของ
เด็กชายและเค้กนี้อีกครั้ง
15:39 - 15:44

จนถึงปัจจุบัน เราได้สอน
คอมพิวเตอร์ให้ดูวัตถุ
15:44 - 15:48

หรือแม้กระทั่งบอกเล่าเรื่องราว
ที่เรียบง่ายเมื่อได้เห็นภาพ
15:48 - 15:52

(วิดีโอ) คอมพิวเตอร์: คนนั่งอยู่ที่โต๊ะกับเค้ก
15:52 - 15:54

FFL: แต่มีอะไรมากขึ้นในภาพนี้
15:54 - 15:56

ไม่ใช่แค่คนและเค้ก
15:56 - 16:01

สิ่งที่คอมพิวเตอร์ไม่เห็นคือ
นี่เป็นเค้กอิตาเลียนพิเศษ
16:01 - 16:04

ที่ให้บริการเฉพาะในช่วงเทศกาลอีสเตอร์
16:04 - 16:07

เด็กชายกำลังใส่เสื้อยืดที่ชอบ
16:07 - 16:11

พ่อให้เขาเป็นของขวัญหลังจาก
เดินทางไปซิดนีย์
16:11 - 16:15

และคุณและฉันทั้งหมดสามารถ
บอกได้ว่า เด็กมีความสุขแค่ไหน
16:15 - 16:18

และสิ่งที่อยู่ในใจของเขาในขณะนั้น
16:19 - 16:22

นี่คือลีโอลูกชายของฉัน
16:22 - 16:25

ในการสืบเสาะของฉันต่อปัญญาจากภาพ
16:25 - 16:27

ฉันคิดถึงเลโออย่างต่อเนื่อง
16:27 - 16:30

และโลกอนาคตที่ลูกจะมีชีวิตอยู่
16:30 - 16:32

เมื่อเครื่องสามารถมองเห็น
16:32 - 16:37

แพทย์และพยาบาลจะมีสายตา
ที่ไม่รู้จักเหน็ดเหนื่อย
16:37 - 16:41

เพื่อช่วยในการวินิจฉัยและดูแลผู้ป่วย
16:41 - 16:45

รถยนต์จะทำงานได้อย่างชาญฉลาด
และปลอดภัยยิ่งขึ้นบนท้องถนน
16:45 - 16:48

หุ่นยนต์ไม่ใช่แค่มนุษย์
16:48 - 16:53

จะช่วยให้เรากล้าได้กล้าเสียในเขตภัยพิบัติ
เพื่อช่วยผู้ที่ติดกับและได้รับบาดเจ็บ
16:54 - 16:58

เราจะค้นพบสายพันธุ์ใหม่ วัสดุที่ดีขึ้น
16:58 - 17:02

และสำรวจแนวที่มองไม่เห็นด้วย
ความช่วยเหลือของเครื่อง
17:03 - 17:07

เรากำลังให้เครื่องมองเห็นทีละเล็กทีละน้อย
17:07 - 17:10

อันดับแรก เราสอนให้เครื่องเห็น
17:10 - 17:13

จากนั้น ก็ช่วยให้เราดูดีขึ้น
17:13 - 17:17

เป็นครั้งแรก ดวงตาของมนุษย์จะไม่
ขบคิดและ
17:17 - 17:20

สำรวจโลกของเราอย่างโดดเดี่ยว
17:20 - 17:23

เราจะไม่เพียงแต่ใช้เครื่องเพื่อสติปัญญา
ของเครื่อง
17:23 - 17:30

เราจะร่วมมือกับเครื่องด้วยวิธีที่
เราไม่สามารถจินตนาการได้
17:30 - 17:32

นี่คือภารกิจของฉัน
17:32 - 17:34

ทำให้คอมพิวเตอร์ฉลาด
17:34 - 17:40

และเพื่อสร้างอนาคตที่ดีขึ้นสำหรับ
ลีโอและสำหรับโลก
17:40 - 17:41

ขอขอบคุณ
17:41 - 17:45

(เสียงปรบมือ)

Title:: เราสอนคอมพิวเตอร์ให้เข้าใจภาพได้อย่างไร
Speaker:: เฟย์-เฟย์ ลี (Fei-Fei Li)
Description:: เมื่อเด็กเล็กๆ มองภาพ คุณสามารถระบุองค์ประกอบที่เรียบง่ายได้เช่น "แมว" "หนังสือ" "เก้าอี้" ขณะนี้คอมพิวเตอร์กำลังฉลาดพอที่จะทำเช่นนั้นด้วย ต่อไปคืออะไร ผู้เชี่ยวชาญด้านวิสัยทัศน์ด้านคอมพิวเตอร์ Fei-Fei Li ได้บรรยายเกี่ยวกับสถานะของศิลปะ รวมถึงฐานข้อมูลจำนวน 15 ล้านรูปที่ทีมงานของเธอสร้างไว้เพื่อ "สอน" คอมพิวเตอร์ให้ทำความเข้าใจกับภาพและข้อมูลเชิงลึกที่สำคัญที่จะมาถึง

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 17:58

	Unnawut Leepaisalsuwanna approved Thai subtitles for How we're teaching computers to understand pictures
	Unnawut Leepaisalsuwanna edited Thai subtitles for How we're teaching computers to understand pictures
	Rawee Ma edited Thai subtitles for How we're teaching computers to understand pictures
	Retired user edited Thai subtitles for How we're teaching computers to understand pictures
	Retired user edited Thai subtitles for How we're teaching computers to understand pictures
	Retired user edited Thai subtitles for How we're teaching computers to understand pictures
	Retired user edited Thai subtitles for How we're teaching computers to understand pictures
	Retired user edited Thai subtitles for How we're teaching computers to understand pictures

Show all

Thai subtitles

Revisions

Revision 24 Edited

Unnawut Leepaisalsuwanna

เราสอนคอมพิวเตอร์ให้เข้าใจภาพได้อย่างไร

Revisions

Our website uses cookies

Operating cookies (Required)