เราสอนคอมพิวเตอร์ให้เข้าใจภาพได้อย่างไร
-
0:02 - 0:06ฉันขอแสดงอะไรบางอย่าง
-
0:06 - 0:10(วิดีโอ) เด็กหญิง: เอาล่ะ นี่คือแมวนั่งอยู่บนเตียง
-
0:10 - 0:14เด็กชายกำลังลูบคลำช้าง
-
0:14 - 0:19นั่นคือคนที่กำลังเดินทางในเครื่องบิน
-
0:19 - 0:21นั่นคือเครื่องบินขนาดใหญ่
-
0:21 - 0:24Fei-Fei Li: นี่เป็นเด็กอายุสามขวบ
-
0:24 - 0:27กำลังอธิบายสิ่งที่เธอเห็นในชุดรูปภาพ
-
0:27 - 0:30เธออาจจะมีสิ่งของจำนวนมากที่จะ
เรียนรู้เกี่ยวกับโลกนี้ -
0:30 - 0:35แต่เธอก็เป็นผู้เชี่ยวชาญในงานที่สำคัญมาก
-
0:35 - 0:38ที่จะทำความเข้าใจกับสิ่งที่เธอเห็น
-
0:38 - 0:42สังคมของเราก้าวหน้ามากขึ้นกว่าเดิม
-
0:42 - 0:46เราส่งคนไปยังดวงจันทร์ เราทำโทรศัพท์
ที่พูดคุยกับเรา -
0:46 - 0:51หรือปรับแต่งสถานีวิทยุที่สามารถเล่น
เฉพาะเพลงที่เราชอบเท่านั้น -
0:51 - 0:55แต่เครื่องที่ทันสมัยที่สุดและคอมพิวเตอร์
ของเรา -
0:55 - 0:58ยังคงต่อสู้กับงานนี้
-
0:58 - 1:01วันนี้ ฉันมาที่นี่เพื่อรายงานความคืบหน้า
-
1:01 - 1:05เกี่ยวกับความก้าวหน้าล่าสุดในการวิจัย
ของเรา คอมพิวเตอร์ที่มองเห็น -
1:05 - 1:10หนึ่งในแนวพรมแดนและการปฏิวัติส่วนใหญ่
-
1:10 - 1:13เทคโนโลยีในวิทยาการคอมพิวเตอร์
-
1:13 - 1:17ใช่ เรามีรถยนต์ต้นแบบที่สามารถขับขี่
ด้วยตัวเอง -
1:17 - 1:21แต่ไม่มีวิสัยทัศน์ที่ฉลาด พวกนั้น
ไม่สามารถบอกความแตกต่าง -
1:21 - 1:25ระหว่างถุงกระดาษยู่ยี่บนถนนซึ่ง
สามารถเรียกวิ่งทับได้ -
1:25 - 1:29กับหินในขนาดที่ควรหลีกเลี่ยง
-
1:29 - 1:33เราได้ทำกล้องล้านพิกเซลที่ยอดเยี่ยม
-
1:33 - 1:36แต่เราไม่ได้ให้การมองเห็นแก่คนตาบอด
-
1:36 - 1:40โดรนสามารถบินผ่านพื้นดินขนาดใหญ่
-
1:40 - 1:42แต่ไม่ได้มีเทคโนโลยีการมองเห็นเพียงพอ
-
1:42 - 1:45เพื่อช่วยในการติดตามการเปลี่ยนแปลง
ของป่าฝน -
1:45 - 1:48กล้องรักษาความปลอดภัยมีอยู่ทั่วไป
-
1:48 - 1:53แต่กล้องไม่แจ้งเตือนเราเมื่อเด็กกำลัง
จมน้ำในสระว่ายน้ำ -
1:54 - 2:00ภาพถ่ายและวิดีโอกลายเป็นส่วนสำคัญ
ของชีวิตในโลก -
2:00 - 2:04กล้องถูกสร้างขึ้นด้วยความเร็วที่ไกล
เกินกว่าสิ่งที่มนุษย์ -
2:04 - 2:07หรือทีมงานของมนุษย์สามารถหวังว่าจะเห็น
-
2:07 - 2:11และคุณและฉันมีส่วนร่วมในกรณีนี้ที่ TED นี้
-
2:11 - 2:16แต่ซอฟต์แวร์ขั้นสูงที่สุดของเรา
ยังคงต้องดิ้นรนเพื่อให้เข้าใจ -
2:16 - 2:20และจัดการกับเนื้อหาขนาดใหญ่นี้
-
2:20 - 2:25ดังนั้นในคำอื่นๆ เรียกรวมกันว่าเป็นสังคม
-
2:25 - 2:27เราเป็นคนตาบอดมาก
-
2:27 - 2:30เพราะเครื่องที่ชาญฉลาดของเรา
ยังคงตาบอด -
2:32 - 2:34"ทำไมถึงยากมาก" คุณอาจถาม
-
2:34 - 2:37กล้องสามารถถ่ายรูปได้เช่นนี้
-
2:37 - 2:41โดยการแปลงแสงเป็นแถวสองมิติ
ของตัวเลข -
2:41 - 2:43เรียกว่าพิกเซล
-
2:43 - 2:45แต่สิ่งเหล่านี้เป็นเพียงตัวเลขที่ตาย
-
2:45 - 2:48พิกเซลไม่มีความหมายในตัวเอง
-
2:48 - 2:52เช่นเดียวกับที่ได้ยินไม่เหมือนกับการฟัง
-
2:52 - 2:57การถ่ายภาพไม่ได้เหมือนกับการดู
-
2:57 - 3:00และโดยการเห็น เราหมายถึง
ความเข้าใจจริงๆ -
3:01 - 3:07ในความเป็นจริงแล้ว ธรรมชาติต้อง
ใช้เวลา 540 ล้านปีในการทำงานหนัก -
3:07 - 3:09เพื่อทำภารกิจนี้
-
3:09 - 3:11และความพยายามส่วนมาก
-
3:11 - 3:17เข้าไปในการพัฒนาอุปกรณ์การประมวลผล
ภาพของสมองของเรา -
3:17 - 3:19ไม่ใช่ตาเอง
-
3:19 - 3:22ดังนั้นการมองเห็นเริ่มต้นด้วยดวงตา
-
3:22 - 3:26แต่เกิดขึ้นอย่างแท้จริงในสมอง
-
3:26 - 3:31ดังนั้น เวลา 15 ปีตอนนี้ เริ่มต้นจาก
ฉันทำปริญญา Ph.D. ที่ Caltech -
3:31 - 3:34และจากนั้นก็บริหารห้องแล็บ
การมองเห็นของ Stanford -
3:34 - 3:39ฉันได้ทำงานร่วมกับพี่เลี้ยง ผู้ทำงาน
ร่วมกันและนักเรียนของฉัน -
3:39 - 3:42สอนคอมพิวเตอร์ให้ดู
-
3:43 - 3:46สาขาการวิจัยของเราเรียกว่า computer
vision และ machine learning -
3:46 - 3:50เป็นส่วนหนึ่งของสาขาวิชาปัญญาประดิษฐ์
-
3:51 - 3:56ดังนั้น ในที่สุดเราต้องการสอนเครื่อง
ให้เห็นเช่นเดียวกับที่เราเห็น -
3:56 - 4:02การตั้งชื่อวัตถุ ระบุบุคคล คาดคะเน
รูปทรงเรขาคณิต 3D ของสิ่งของ -
4:02 - 4:08เข้าใจความสัมพันธ์ อารมณ์ การกระทำและเจตนา
-
4:08 - 4:14คุณและฉันสานเรื่องราวทั้งหมดของ
ผู้คน สถานที่ และสิ่งต่างๆ -
4:14 - 4:16ขณะที่เราจ้องสายตาของเราไว้
-
4:17 - 4:23ขั้นตอนแรกสู่เป้าหมายนี้คือ การสอน
คอมพิวเตอร์ให้ดูวัตถุ -
4:23 - 4:26โคงสร้างของโลกของภาพ
-
4:26 - 4:30ในแง่ที่ง่ายที่สุด ลองจินตนาการ
กระบวนการเรียนการสอนนี้ -
4:30 - 4:33แสดงคอมพิวเตอร์ภาพการฝึกซ้อม
บางอย่าง -
4:33 - 4:37ของวัตถุเฉพาะ สมมติว่าเป็นแมว
-
4:37 - 4:41และการออกแบบรูปแบบที่เรียนรู้จาก
ภาพการฝึกซ้อมเหล่านี้ -
4:41 - 4:43มันยากขนาดไหน
-
4:43 - 4:47ท้ายที่สุด แมวเป็นเพียงชุดของ
รูปทรงและสี -
4:47 - 4:52และนี่คือสิ่งที่เราทำในวันแรกๆ
ของการสร้างโมเดลวัตถุ -
4:52 - 4:55เราจะบอกอัลกอริธีมของคอมพิวเตอร์
ด้วยภาษาทางคณิตศาสตร์ -
4:55 - 4:59ว่าแมวมีใบหน้ากลม ลำตัวอ้วน
-
4:59 - 5:01มีสองหูแหลม และหางยาว
-
5:01 - 5:02และดูดีทั้งหมด
-
5:03 - 5:05แต่อะไรเกี่ยวกับแมวตัวนี้ล่ะ
-
5:05 - 5:06(เสียงหัวเราะ)
-
5:06 - 5:08มันขดตัว
-
5:08 - 5:12ตอนนี้ ต้องเพิ่มรูปร่าง -
มุมมองอื่นในโมเดลวัตถุ -
5:12 - 5:14แต่ถ้าแมวถูกซ่อนไว้
-
5:15 - 5:17แล้วแมวโง่เหล่านี้ล่ะ
-
5:19 - 5:22ตอนนี้คุณเข้าใจแล้ว
-
5:22 - 5:25แม้บางอย่างง่ายๆ เป็นแบบ
สัตว์เลี้ยงในครัวเรือน -
5:25 - 5:29สามารถนำเสนอรูปแบบรูปแบบ
ของวัตถุที่ไม่มีที่สิ้นสุด -
5:29 - 5:32และนั่นเป็นเพียงวัตถุเดียว
-
5:33 - 5:35ดังนั้นประมาณแปดปีที่ผ่านมา
-
5:35 - 5:40การสังเกตที่ง่ายและลึกซึ้ง
ได้เปลี่ยนความคิดของฉัน -
5:41 - 5:44ไม่มีใครบอกเด็กว่าจะดูอย่างไร
-
5:44 - 5:46โดยเฉพาะอย่างยิ่งในช่วงปีแรกๆ
-
5:46 - 5:51เด็กเรียนรู้ผ่านประสบการณ์
และตัวอย่างแห่งความเป็นจริง -
5:51 - 5:54ถ้าคุณพิจารณาดวงตาของเด็ก
-
5:54 - 5:57เป็นกล้องชีวภาพหนึ่งคู่
-
5:57 - 6:01กล้องถ่ายภาพทุกๆ 200 มิลลิวินาที
-
6:01 - 6:04เวลาเฉลี่ยที่เกิดจากการเคลื่อนไหว
ของตา -
6:04 - 6:10ดังนั้นเมื่ออายุสามขวบ เด็กๆ
จะได้เห็นภาพหลายร้อยภาพ -
6:10 - 6:11ในโลกแห่งความจริง
-
6:11 - 6:14นี่เป็นตัวอย่างการฝึกมากมาย
-
6:14 - 6:20ดังนั้น แทนที่จะเน้นเฉพาะ
อัลกอริธึมที่ดีและดีขึ้น -
6:20 - 6:26ข้อมูลเชิงลึกของฉันคือ การให้
อัลกอริทึมเป็นแบบข้อมูลการฝึกซ้อม -
6:26 - 6:29ว่าเด็กได้ผ่านประสบการณ์
-
6:29 - 6:33ทั้งในด้านปริมาณและคุณภาพ
-
6:33 - 6:35เมื่อเรารู้เรื่องนี้แล้ว
-
6:35 - 6:38เรารู้ว่า เราจำเป็นต้องรวบรวมชุดข้อมูล
-
6:38 - 6:42ที่มีภาพไกลเกินกว่าที่เราเคยมีมาก่อน
-
6:42 - 6:45บางที อีกหลายพันครั้ง
-
6:45 - 6:49และร่วมกับศาสตราจารย์ Kai Li
ที่ Princeton University -
6:49 - 6:54เราได้เปิดตัว ImageNet
-
6:54 - 6:57โชคดีที่เราไม่ต้องติดกล้อง
บนศีรษะของเรา -
6:57 - 6:59และรอเป็นเวลาหลายปี
-
6:59 - 7:01เราไปที่อินเทอร์เน็ต
-
7:01 - 7:05เป็นขุมสมบัติที่ยิ่งใหญ่ที่สุด
ของภาพที่มนุษย์สร้างขึ้น -
7:05 - 7:08เราดาวน์โหลดภาพมาแล้ว
เกือบพันล้านภาพ -
7:08 - 7:14และใช้เทคโนโลยีกระจายไปยังกลุ่มเพื่อค้นหา
คำตอบ เช่นแพลตฟอร์ม Amazon Mechanical Turk -
7:14 - 7:16เพื่อช่วยให้เราติดป้ายกำกับรูปภาพเหล่านี้
-
7:16 - 7:21ในตอนท้าย ImageNet เป็นหนึ่งใน
นายจ้างที่ใหญ่ที่สุด -
7:21 - 7:24ของแรงงาน Amazon Mechanical Turk:
-
7:24 - 7:28ร่วมกันเกือบ 50,000 คน
-
7:28 - 7:32จาก 167 ประเทศทั่วโลก
-
7:32 - 7:36ช่วยให้เราสามารถทำความสะอาด
จัดเรียงและติดฉลากได้ -
7:36 - 7:40เกือบหนึ่งพันล้านภาพที่ใช้
-
7:41 - 7:43นั่นเป็นความพยายามอย่างมาก
-
7:43 - 7:47เพื่อจับภาพแม้แต่เศษเสี้ยว
-
7:47 - 7:51จิตใจของเด็กใช้เวลาในการพัฒนา
ระยะต้นหลายปี -
7:52 - 7:56ในการมองย้อนกลับความคิดใน
การใช้ข้อมูลขนาดใหญ่นี้ -
7:56 - 8:01การฝึกซ้อมอัลกอริธึมของคอมพิวเตอร์
อาจดูเหมือนชัดเจนในตอนนี้ -
8:01 - 8:05แต่กลับไปในปี 2007 ยังไม่ชัดเจนดังนั้น
-
8:05 - 8:09เราค่อนข้างโดดเดี่ยวในการเดินทาง
ครั้งนี้มานานแล้ว -
8:09 - 8:14เพื่อนร่วมงานแนะนำให้ทำสิ่ง
ที่เป็นประโยชน์มากขึ้นต่อตำแหน่ง -
8:14 - 8:18และเราก็พยายามดิ้นรนเพื่อหาเงินทุนวิจัย
-
8:18 - 8:20ครั้งหนึ่งฉันก็พูดเล่นกับนักศึกษา
ระดับบัณฑิตศึกษาของฉัน -
8:20 - 8:24ว่าฉันเพิ่งจะเปิดร้านขายของชำของฉัน
อีกครั้งเพื่อลงทุนใน ImageNet -
8:24 - 8:29เพราะนั่นเป็นเหตุผลที่ฉันให้เงินทุน
แก่วิทยาลัยของฉันเป็นเวลาหลายปี -
8:29 - 8:31ดังนั้น เราจึงดำเนินการต่อ
-
8:31 - 8:35ในปี 2552 โครงการ ImageNet ได้จัดส่ง
-
8:35 - 8:39ฐานข้อมูลขนาด 15 ล้านภาพ
-
8:39 - 8:44ผ่านชั้นเรียนและวัตถุต่างๆ 22,000 ชั้น
-
8:44 - 8:47จัดตามคำภาษาอังกฤษในชีวิตประจำวัน
-
8:47 - 8:50ทั้งในด้านปริมาณและคุณภาพ
-
8:50 - 8:53นี่เป็นระดับที่ไม่เคยปรากฏมาก่อน
-
8:53 - 8:56ตัวอย่างเช่น ในกรณีของแมว
-
8:56 - 8:59เรามีแมวมากกว่า 62,000 ตัว
-
8:59 - 9:03รูปลักษณ์และโพสท่าทุกชนิด
-
9:03 - 9:08และแมวในประเทศและป่าทั่วทุกชนิด
-
9:08 - 9:12เราตื่นเต้นที่ได้ใส่ใน ImageNet
-
9:12 - 9:16และเราต้องการให้โลกการวิจัย
ทั้งหมดได้รับประโยชน์ -
9:16 - 9:20ดังนั้น ในรูปแบบ TED เราจึง
เปิดชุดข้อมูลทั้งหมด -
9:20 - 9:23ไปยังชุมชนการวิจัยทั่วโลกแบบฟรีๆ
-
9:25 - 9:29(เสียงปรบมือ)
-
9:29 - 9:34ตอนนี้ เรามีข้อมูลที่จะช่วยบำรุง
สมองคอมพิวเตอร์ของเรา -
9:34 - 9:38เราพร้อมที่จะกลับมาที่อัลกอริทึม
ด้วยตัวเองแล้ว -
9:38 - 9:43เมื่อเปิดความมั่งคั่งของข้อมูล
ที่ได้จาก ImageNet -
9:43 - 9:48เป็นการจับคู่ที่สมบูรณ์แบบกับชั้นเรียน
ของกลไกการเรียนรู้ของเครื่อง -
9:48 - 9:50เรียกว่าเครือข่ายประสาทแบบม้วนขด
-
9:50 - 9:55ผู้บุกเบิกคือ Kunihiko Fukushima,
Geoff Hinton และ Yann LeCun -
9:55 - 9:59ย้อนกลับไปในทศวรรษ 1970 และยุค 1980
-
9:59 - 10:05มีเซลล์ประสาทที่เชื่อมต่อกัน
อย่างมากถึงพันล้าน เหมือนสมอง -
10:05 - 10:08หน่วยปฏิบัติการพื้นฐานใน
เครือข่ายประสาทเทียม -
10:08 - 10:11เป็นโหนดแบบเซลล์ประสาท
-
10:11 - 10:13ใช้อินพุตจากโหนดอื่น
-
10:13 - 10:16และส่งข้อมูลไปยังโหนดอื่น
-
10:16 - 10:21นอกจากนี้ นับร้อยนับพันหรือนับล้านๆ โหนด
-
10:21 - 10:24ถูกจัดอยู่ในชั้นลำดับชั้น
-
10:24 - 10:27ยังคล้ายกับสมอง
-
10:27 - 10:31ในเครือข่ายประสาททั่วไป เราการฝึกซ้อม
รูปแบบการจดจำวัตถุของเรา -
10:31 - 10:35มี 24 ล้านโหนด
-
10:35 - 10:38140 ล้านพารามิเตอร์
-
10:38 - 10:41และการเชื่อมต่อ 15 พันล้าน
-
10:41 - 10:43นั่นเป็นรูปแบบที่ยิ่งใหญ่
-
10:43 - 10:47ขับเคลื่อนด้วยข้อมูลขนาดใหญ่จาก ImageNet
-
10:47 - 10:52และซีพียูและ GPU ที่ทันสมัยใน
การฝึกซ้อมแบบจำลองที่ใหญ่มาก -
10:52 - 10:55เครือข่ายประสาทแบบม้วนขด
-
10:55 - 10:58เบ่งบานในแบบที่ไม่มีใครเคยคาดหวัง
-
10:58 - 11:01กลายเป็นสถาปัตยกรรมที่ชนะ
-
11:01 - 11:06เพื่อสร้างผลลัพธ์ใหม่ที่น่าตื่นเต้น
ในการจดจำวัตถุ -
11:06 - 11:09นี่คือคอมพิวเตอร์ที่บอกเรา
-
11:09 - 11:11ว่าภาพนี้มีแมว
-
11:11 - 11:13และแมวอยู่ที่ไหน
-
11:13 - 11:15แน่นอนว่า มีอะไรมากกว่าแมว
-
11:15 - 11:18ดังนั้น นี่คืออัลกอริทึมของ
คอมพิวเตอร์ที่บอกเรา -
11:18 - 11:21ภาพมีเด็กผู้ชายและตุ๊กตาหมี
-
11:21 - 11:25สุนัข บุคคล และว่าวขนาดเล็กในพื้นหลัง
-
11:25 - 11:28หรือภาพของสิ่งที่ยุ่งมากๆ
-
11:28 - 11:33เหมือนชายคนหนึ่ง สเก็ตบอร์ด
ราว เสาไฟ และสิ่งอื่นๆ -
11:33 - 11:38บางครั้ง เมื่อคอมพิวเตอร์
ไม่ค่อยมั่นใจในสิ่งที่มองเห็น -
11:39 - 11:42เราได้สอนให้ฉลาดพอ
-
11:42 - 11:46เพื่อให้เราคำตอบที่ปลอดภัยแทน
การกระทำที่มั่นใจมากเกินไป -
11:46 - 11:48เช่นเดียวกับที่เราจะทำ
-
11:48 - 11:53แต่บางครั้ง อัลกอริทึมคอมพิวเตอร์
ของเราก็น่าทึ่งที่บอกเรา -
11:53 - 11:55ว่าวัตถุที่มีเป็นอะไรจริงๆ
-
11:55 - 11:59เช่นยี่ห้อ แบบ รุ่นปีของรถยนต์
-
11:59 - 12:04เราใช้อัลกอริทึมนี้กับภาพ Google
Street View นับล้านภาพ -
12:04 - 12:07ข้ามร้อยเมืองของอเมริกัน
-
12:07 - 12:10และเราได้เรียนรู้สิ่งที่น่าสนใจจริงๆ
-
12:10 - 12:14ประการแรก ยืนยันภูมิปัญญาทั่วไปของเรา
-
12:14 - 12:17ว่าราคารถยนต์มีความสัมพันธ์กันเป็นอย่างดี
-
12:17 - 12:19กับรายได้ครัวเรือน
-
12:19 - 12:24แต่น่าเสียดายที่ราคารถยนต์ยังมี
ความสัมพันธ์กันดี -
12:24 - 12:26กับอัตราการเกิดอาชญากรรมในเมือง
-
12:27 - 12:31หรือรูปแบบการลงคะแนนโดย
ใช้รหัสไปรษณีย์ -
12:32 - 12:34รอสักครู่ นี่ใช่ไหม
-
12:34 - 12:39คอมพิวเตอร์มีการจับคู่หรือแม้กระทั่งมี
มากกว่าความสามารถของมนุษย์หรือไม่ -
12:39 - 12:42ไม่เร็วนัก
-
12:42 - 12:46จนถึงปัจจุบัน เราได้สอนคอมพิวเตอร์
ให้ดูวัตถุเท่านั้น -
12:46 - 12:51นี่เหมือนกับเด็กเล็กๆ ที่เรียนรู้ที่
จะพูดคำนามไม่กี่คำ -
12:51 - 12:54เป็นความสำเร็จที่น่าทึ่ง
-
12:54 - 12:56แต่นี่เป็นเพียงขั้นตอนแรกเท่านั้น
-
12:56 - 13:00ในไม่ช้า การพัฒนาอีกก้าวจะฮิต
-
13:00 - 13:03และเด็กเริ่มสื่อสารเป็นประโยค
-
13:03 - 13:08ดังนั้นแทนที่จะบอกว่านี่เป็นแมวในภาพ
-
13:08 - 13:13คุณได้ยินแล้วสาวน้อยบอกกับ
เราว่า นี่คือแมวนอนอยู่บนเตียง -
13:13 - 13:18ดังนั้น เพื่อสอนคอมพิวเตอร์
ให้ดูภาพและสร้างประโยค -
13:18 - 13:22การจับคู่ระหว่างข้อมูลขนาดใหญ่
และกลไกการเรียนรู้ด้วยเครื่อง -
13:22 - 13:25ต้องใช้ขั้นตอนอื่น
-
13:25 - 13:29ขณะนี้คอมพิวเตอร์ต้องเรียนรู้จากทั้งสองรูป
-
13:29 - 13:32เช่นเดียวกับประโยคภาษาธรรมชาติ
-
13:32 - 13:35ที่สร้างขึ้นโดยมนุษย์
-
13:35 - 13:39เช่นเดียวกับสมองที่รวมวิสัยทัศน์และภาษา
-
13:39 - 13:44เราพัฒนารูปแบบที่เชื่อมโยงสิ่ง
ที่มองเห็นบางส่วน -
13:44 - 13:46เช่นตัวอย่างข้อมูลภาพ
-
13:46 - 13:50มีคำและวลีในประโยค
-
13:50 - 13:53ประมาณสี่เดือนที่ผ่านมา
-
13:53 - 13:56เราโยงไว้ด้วยกันทั้งหมด
-
13:56 - 13:59และผลิตโมเดลวิสัยทัศน์ทาง
คอมพิวเตอร์เครื่องแรก -
13:59 - 14:03ที่มีความสามารถในการสร้าง
ประโยคเหมือนมนุษย์ -
14:03 - 14:07เมื่อเห็นภาพเป็นครั้งแรก
-
14:07 - 14:12ตอนนี้ฉันพร้อมที่จะแสดง
สิ่งที่คอมพิวเตอร์พูด -
14:12 - 14:14เมื่อเห็นภาพ
-
14:14 - 14:17ที่สาวน้อยเห็นในตอนต้นของการพูดคุยนี้
-
14:20 - 14:23(วิดีโอ) คอมพิวเตอร์: มีชายคนหนึ่งกำลังยืนอยู่ข้างช้าง
-
14:24 - 14:28เครื่องบินขนาดใหญ่จอดอยู่
ในรันเวย์ของสนามบิน -
14:29 - 14:33FFL: แน่นอน เรายังคงทำงานอย่างหนัก
เพื่อปรับปรุงอัลกอริทึม -
14:33 - 14:36และยังคงมีสิ่งที่จะเรียนรู้อยู่มากมาย
-
14:36 - 14:38(เสียงปรบมือ)
-
14:40 - 14:43และคอมพิวเตอร์ยังทำผิดพลาด
-
14:43 - 14:46(วิดีโอ) คอมพิวเตอร์: แมวนอนบนเตียงในผ้าห่ม
-
14:46 - 14:49FFL:ดังนั้น แน่นอนเมื่อเห็นแมวมากเกินไป
-
14:49 - 14:52เครื่องคิดว่าทุกอย่างอาจดูเหมือนแมว
-
14:53 - 14:56(วิดีโอ) คอมพิวเตอร์: เด็กหนุ่มคนหนึ่งกำลังถือไม้เบสบอล
-
14:56 - 14:58(เสียงหัวเราะ)
-
14:58 - 15:03FFL: หรือถ้ายังไม่เคยเห็นแปรงสีฟัน
ก็จะสับสนกับไม้ตีเบสบอล -
15:03 - 15:07(วิดีโอ) คอมพิวเตอร์: คนขี่ม้าไปตาม
ถนนข้างตึก -
15:07 - 15:09(เสียงหัวเราะ)
-
15:09 - 15:12FFL: เราไม่ได้สอนวิชา Art 101 ให้แก่คอมพิวเตอร์
-
15:14 - 15:17(วิดีโอ) คอมพิวเตอร์: ม้าลายยืนอยู่ในทุ่งหญ้า
-
15:17 - 15:20FFL: และยังไม่ได้เรียนรู้ที่จะชื่นชมความงาม
อันน่าทึ่งของธรรมชาติ -
15:20 - 15:22เช่นคุณและฉัน
-
15:22 - 15:25ดังนั้น จึงเป็นการเดินทางที่ยาวนาน
-
15:25 - 15:30เพื่อให้ได้มาตั้งแต่อายุศูนย์
ถึงสามปี ยังเป็นเรื่องยาก -
15:30 - 15:35ความท้าทายที่แท้จริงคือ การไป
จากสามปีถึง 13 ปีและไกลเกินกว่านั้น -
15:35 - 15:39ฉันขอเตือนคุณด้วยภาพของ
เด็กชายและเค้กนี้อีกครั้ง -
15:39 - 15:44จนถึงปัจจุบัน เราได้สอน
คอมพิวเตอร์ให้ดูวัตถุ -
15:44 - 15:48หรือแม้กระทั่งบอกเล่าเรื่องราว
ที่เรียบง่ายเมื่อได้เห็นภาพ -
15:48 - 15:52(วิดีโอ) คอมพิวเตอร์: คนนั่งอยู่ที่โต๊ะกับเค้ก
-
15:52 - 15:54FFL: แต่มีอะไรมากขึ้นในภาพนี้
-
15:54 - 15:56ไม่ใช่แค่คนและเค้ก
-
15:56 - 16:01สิ่งที่คอมพิวเตอร์ไม่เห็นคือ
นี่เป็นเค้กอิตาเลียนพิเศษ -
16:01 - 16:04ที่ให้บริการเฉพาะในช่วงเทศกาลอีสเตอร์
-
16:04 - 16:07เด็กชายกำลังใส่เสื้อยืดที่ชอบ
-
16:07 - 16:11พ่อให้เขาเป็นของขวัญหลังจาก
เดินทางไปซิดนีย์ -
16:11 - 16:15และคุณและฉันทั้งหมดสามารถ
บอกได้ว่า เด็กมีความสุขแค่ไหน -
16:15 - 16:18และสิ่งที่อยู่ในใจของเขาในขณะนั้น
-
16:19 - 16:22นี่คือลีโอลูกชายของฉัน
-
16:22 - 16:25ในการสืบเสาะของฉันต่อปัญญาจากภาพ
-
16:25 - 16:27ฉันคิดถึงเลโออย่างต่อเนื่อง
-
16:27 - 16:30และโลกอนาคตที่ลูกจะมีชีวิตอยู่
-
16:30 - 16:32เมื่อเครื่องสามารถมองเห็น
-
16:32 - 16:37แพทย์และพยาบาลจะมีสายตา
ที่ไม่รู้จักเหน็ดเหนื่อย -
16:37 - 16:41เพื่อช่วยในการวินิจฉัยและดูแลผู้ป่วย
-
16:41 - 16:45รถยนต์จะทำงานได้อย่างชาญฉลาด
และปลอดภัยยิ่งขึ้นบนท้องถนน -
16:45 - 16:48หุ่นยนต์ไม่ใช่แค่มนุษย์
-
16:48 - 16:53จะช่วยให้เรากล้าได้กล้าเสียในเขตภัยพิบัติ
เพื่อช่วยผู้ที่ติดกับและได้รับบาดเจ็บ -
16:54 - 16:58เราจะค้นพบสายพันธุ์ใหม่ วัสดุที่ดีขึ้น
-
16:58 - 17:02และสำรวจแนวที่มองไม่เห็นด้วย
ความช่วยเหลือของเครื่อง -
17:03 - 17:07เรากำลังให้เครื่องมองเห็นทีละเล็กทีละน้อย
-
17:07 - 17:10อันดับแรก เราสอนให้เครื่องเห็น
-
17:10 - 17:13จากนั้น ก็ช่วยให้เราดูดีขึ้น
-
17:13 - 17:17เป็นครั้งแรก ดวงตาของมนุษย์จะไม่
ขบคิดและ -
17:17 - 17:20สำรวจโลกของเราอย่างโดดเดี่ยว
-
17:20 - 17:23เราจะไม่เพียงแต่ใช้เครื่องเพื่อสติปัญญา
ของเครื่อง -
17:23 - 17:30เราจะร่วมมือกับเครื่องด้วยวิธีที่
เราไม่สามารถจินตนาการได้ -
17:30 - 17:32นี่คือภารกิจของฉัน
-
17:32 - 17:34ทำให้คอมพิวเตอร์ฉลาด
-
17:34 - 17:40และเพื่อสร้างอนาคตที่ดีขึ้นสำหรับ
ลีโอและสำหรับโลก -
17:40 - 17:41ขอขอบคุณ
-
17:41 - 17:45(เสียงปรบมือ)
- Title:
- เราสอนคอมพิวเตอร์ให้เข้าใจภาพได้อย่างไร
- Speaker:
- เฟย์-เฟย์ ลี (Fei-Fei Li)
- Description:
-
เมื่อเด็กเล็กๆ มองภาพ คุณสามารถระบุองค์ประกอบที่เรียบง่ายได้เช่น "แมว" "หนังสือ" "เก้าอี้" ขณะนี้คอมพิวเตอร์กำลังฉลาดพอที่จะทำเช่นนั้นด้วย ต่อไปคืออะไร ผู้เชี่ยวชาญด้านวิสัยทัศน์ด้านคอมพิวเตอร์ Fei-Fei Li ได้บรรยายเกี่ยวกับสถานะของศิลปะ รวมถึงฐานข้อมูลจำนวน 15 ล้านรูปที่ทีมงานของเธอสร้างไว้เพื่อ "สอน" คอมพิวเตอร์ให้ทำความเข้าใจกับภาพและข้อมูลเชิงลึกที่สำคัญที่จะมาถึง
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 17:58
Unnawut Leepaisalsuwanna approved Thai subtitles for How we're teaching computers to understand pictures | ||
Unnawut Leepaisalsuwanna edited Thai subtitles for How we're teaching computers to understand pictures | ||
Rawee Ma edited Thai subtitles for How we're teaching computers to understand pictures | ||
Retired user edited Thai subtitles for How we're teaching computers to understand pictures | ||
Retired user edited Thai subtitles for How we're teaching computers to understand pictures | ||
Retired user edited Thai subtitles for How we're teaching computers to understand pictures | ||
Retired user edited Thai subtitles for How we're teaching computers to understand pictures | ||
Retired user edited Thai subtitles for How we're teaching computers to understand pictures |