Return to Video

เราสอนคอมพิวเตอร์ให้เข้าใจภาพได้อย่างไร

  • 0:02 - 0:06
    ฉันขอแสดงอะไรบางอย่าง
  • 0:06 - 0:10
    (วิดีโอ) เด็กหญิง: เอาล่ะ นี่คือแมวนั่งอยู่บนเตียง
  • 0:10 - 0:14
    เด็กชายกำลังลูบคลำช้าง
  • 0:14 - 0:19
    นั่นคือคนที่กำลังเดินทางในเครื่องบิน
  • 0:19 - 0:21
    นั่นคือเครื่องบินขนาดใหญ่
  • 0:21 - 0:24
    Fei-Fei Li: นี่เป็นเด็กอายุสามขวบ
  • 0:24 - 0:27
    กำลังอธิบายสิ่งที่เธอเห็นในชุดรูปภาพ
  • 0:27 - 0:30
    เธออาจจะมีสิ่งของจำนวนมากที่จะ
    เรียนรู้เกี่ยวกับโลกนี้
  • 0:30 - 0:35
    แต่เธอก็เป็นผู้เชี่ยวชาญในงานที่สำคัญมาก
  • 0:35 - 0:38
    ที่จะทำความเข้าใจกับสิ่งที่เธอเห็น
  • 0:38 - 0:42
    สังคมของเราก้าวหน้ามากขึ้นกว่าเดิม
  • 0:42 - 0:46
    เราส่งคนไปยังดวงจันทร์ เราทำโทรศัพท์
    ที่พูดคุยกับเรา
  • 0:46 - 0:51
    หรือปรับแต่งสถานีวิทยุที่สามารถเล่น
    เฉพาะเพลงที่เราชอบเท่านั้น
  • 0:51 - 0:55
    แต่เครื่องที่ทันสมัยที่สุดและคอมพิวเตอร์
    ของเรา
  • 0:55 - 0:58
    ยังคงต่อสู้กับงานนี้
  • 0:58 - 1:01
    วันนี้ ฉันมาที่นี่เพื่อรายงานความคืบหน้า
  • 1:01 - 1:05
    เกี่ยวกับความก้าวหน้าล่าสุดในการวิจัย
    ของเรา คอมพิวเตอร์ที่มองเห็น
  • 1:05 - 1:10
    หนึ่งในแนวพรมแดนและการปฏิวัติส่วนใหญ่
  • 1:10 - 1:13
    เทคโนโลยีในวิทยาการคอมพิวเตอร์
  • 1:13 - 1:17
    ใช่ เรามีรถยนต์ต้นแบบที่สามารถขับขี่
    ด้วยตัวเอง
  • 1:17 - 1:21
    แต่ไม่มีวิสัยทัศน์ที่ฉลาด พวกนั้น
    ไม่สามารถบอกความแตกต่าง
  • 1:21 - 1:25
    ระหว่างถุงกระดาษยู่ยี่บนถนนซึ่ง
    สามารถเรียกวิ่งทับได้
  • 1:25 - 1:29
    กับหินในขนาดที่ควรหลีกเลี่ยง
  • 1:29 - 1:33
    เราได้ทำกล้องล้านพิกเซลที่ยอดเยี่ยม
  • 1:33 - 1:36
    แต่เราไม่ได้ให้การมองเห็นแก่คนตาบอด
  • 1:36 - 1:40
    โดรนสามารถบินผ่านพื้นดินขนาดใหญ่
  • 1:40 - 1:42
    แต่ไม่ได้มีเทคโนโลยีการมองเห็นเพียงพอ
  • 1:42 - 1:45
    เพื่อช่วยในการติดตามการเปลี่ยนแปลง
    ของป่าฝน
  • 1:45 - 1:48
    กล้องรักษาความปลอดภัยมีอยู่ทั่วไป
  • 1:48 - 1:53
    แต่กล้องไม่แจ้งเตือนเราเมื่อเด็กกำลัง
    จมน้ำในสระว่ายน้ำ
  • 1:54 - 2:00
    ภาพถ่ายและวิดีโอกลายเป็นส่วนสำคัญ
    ของชีวิตในโลก
  • 2:00 - 2:04
    กล้องถูกสร้างขึ้นด้วยความเร็วที่ไกล
    เกินกว่าสิ่งที่มนุษย์
  • 2:04 - 2:07
    หรือทีมงานของมนุษย์สามารถหวังว่าจะเห็น
  • 2:07 - 2:11
    และคุณและฉันมีส่วนร่วมในกรณีนี้ที่ TED นี้
  • 2:11 - 2:16
    แต่ซอฟต์แวร์ขั้นสูงที่สุดของเรา
    ยังคงต้องดิ้นรนเพื่อให้เข้าใจ
  • 2:16 - 2:20
    และจัดการกับเนื้อหาขนาดใหญ่นี้
  • 2:20 - 2:25
    ดังนั้นในคำอื่นๆ เรียกรวมกันว่าเป็นสังคม
  • 2:25 - 2:27
    เราเป็นคนตาบอดมาก
  • 2:27 - 2:30
    เพราะเครื่องที่ชาญฉลาดของเรา
    ยังคงตาบอด
  • 2:32 - 2:34
    "ทำไมถึงยากมาก" คุณอาจถาม
  • 2:34 - 2:37
    กล้องสามารถถ่ายรูปได้เช่นนี้
  • 2:37 - 2:41
    โดยการแปลงแสงเป็นแถวสองมิติ
    ของตัวเลข
  • 2:41 - 2:43
    เรียกว่าพิกเซล
  • 2:43 - 2:45
    แต่สิ่งเหล่านี้เป็นเพียงตัวเลขที่ตาย
  • 2:45 - 2:48
    พิกเซลไม่มีความหมายในตัวเอง
  • 2:48 - 2:52
    เช่นเดียวกับที่ได้ยินไม่เหมือนกับการฟัง
  • 2:52 - 2:57
    การถ่ายภาพไม่ได้เหมือนกับการดู
  • 2:57 - 3:00
    และโดยการเห็น เราหมายถึง
    ความเข้าใจจริงๆ
  • 3:01 - 3:07
    ในความเป็นจริงแล้ว ธรรมชาติต้อง
    ใช้เวลา 540 ล้านปีในการทำงานหนัก
  • 3:07 - 3:09
    เพื่อทำภารกิจนี้
  • 3:09 - 3:11
    และความพยายามส่วนมาก
  • 3:11 - 3:17
    เข้าไปในการพัฒนาอุปกรณ์การประมวลผล
    ภาพของสมองของเรา
  • 3:17 - 3:19
    ไม่ใช่ตาเอง
  • 3:19 - 3:22
    ดังนั้นการมองเห็นเริ่มต้นด้วยดวงตา
  • 3:22 - 3:26
    แต่เกิดขึ้นอย่างแท้จริงในสมอง
  • 3:26 - 3:31
    ดังนั้น เวลา 15 ปีตอนนี้ เริ่มต้นจาก
    ฉันทำปริญญา Ph.D. ที่ Caltech
  • 3:31 - 3:34
    และจากนั้นก็บริหารห้องแล็บ
    การมองเห็นของ Stanford
  • 3:34 - 3:39
    ฉันได้ทำงานร่วมกับพี่เลี้ยง ผู้ทำงาน
    ร่วมกันและนักเรียนของฉัน
  • 3:39 - 3:42
    สอนคอมพิวเตอร์ให้ดู
  • 3:43 - 3:46
    สาขาการวิจัยของเราเรียกว่า computer
    vision และ machine learning
  • 3:46 - 3:50
    เป็นส่วนหนึ่งของสาขาวิชาปัญญาประดิษฐ์
  • 3:51 - 3:56
    ดังนั้น ในที่สุดเราต้องการสอนเครื่อง
    ให้เห็นเช่นเดียวกับที่เราเห็น
  • 3:56 - 4:02
    การตั้งชื่อวัตถุ ระบุบุคคล คาดคะเน
    รูปทรงเรขาคณิต 3D ของสิ่งของ
  • 4:02 - 4:08
    เข้าใจความสัมพันธ์ อารมณ์ การกระทำและเจตนา
  • 4:08 - 4:14
    คุณและฉันสานเรื่องราวทั้งหมดของ
    ผู้คน สถานที่ และสิ่งต่างๆ
  • 4:14 - 4:16
    ขณะที่เราจ้องสายตาของเราไว้
  • 4:17 - 4:23
    ขั้นตอนแรกสู่เป้าหมายนี้คือ การสอน
    คอมพิวเตอร์ให้ดูวัตถุ
  • 4:23 - 4:26
    โคงสร้างของโลกของภาพ
  • 4:26 - 4:30
    ในแง่ที่ง่ายที่สุด ลองจินตนาการ
    กระบวนการเรียนการสอนนี้
  • 4:30 - 4:33
    แสดงคอมพิวเตอร์ภาพการฝึกซ้อม
    บางอย่าง
  • 4:33 - 4:37
    ของวัตถุเฉพาะ สมมติว่าเป็นแมว
  • 4:37 - 4:41
    และการออกแบบรูปแบบที่เรียนรู้จาก
    ภาพการฝึกซ้อมเหล่านี้
  • 4:41 - 4:43
    มันยากขนาดไหน
  • 4:43 - 4:47
    ท้ายที่สุด แมวเป็นเพียงชุดของ
    รูปทรงและสี
  • 4:47 - 4:52
    และนี่คือสิ่งที่เราทำในวันแรกๆ
    ของการสร้างโมเดลวัตถุ
  • 4:52 - 4:55
    เราจะบอกอัลกอริธีมของคอมพิวเตอร์
    ด้วยภาษาทางคณิตศาสตร์
  • 4:55 - 4:59
    ว่าแมวมีใบหน้ากลม ลำตัวอ้วน
  • 4:59 - 5:01
    มีสองหูแหลม และหางยาว
  • 5:01 - 5:02
    และดูดีทั้งหมด
  • 5:03 - 5:05
    แต่อะไรเกี่ยวกับแมวตัวนี้ล่ะ
  • 5:05 - 5:06
    (เสียงหัวเราะ)
  • 5:06 - 5:08
    มันขดตัว
  • 5:08 - 5:12
    ตอนนี้ ต้องเพิ่มรูปร่าง -
    มุมมองอื่นในโมเดลวัตถุ
  • 5:12 - 5:14
    แต่ถ้าแมวถูกซ่อนไว้
  • 5:15 - 5:17
    แล้วแมวโง่เหล่านี้ล่ะ
  • 5:19 - 5:22
    ตอนนี้คุณเข้าใจแล้ว
  • 5:22 - 5:25
    แม้บางอย่างง่ายๆ เป็นแบบ
    สัตว์เลี้ยงในครัวเรือน
  • 5:25 - 5:29
    สามารถนำเสนอรูปแบบรูปแบบ
    ของวัตถุที่ไม่มีที่สิ้นสุด
  • 5:29 - 5:32
    และนั่นเป็นเพียงวัตถุเดียว
  • 5:33 - 5:35
    ดังนั้นประมาณแปดปีที่ผ่านมา
  • 5:35 - 5:40
    การสังเกตที่ง่ายและลึกซึ้ง
    ได้เปลี่ยนความคิดของฉัน
  • 5:41 - 5:44
    ไม่มีใครบอกเด็กว่าจะดูอย่างไร
  • 5:44 - 5:46
    โดยเฉพาะอย่างยิ่งในช่วงปีแรกๆ
  • 5:46 - 5:51
    เด็กเรียนรู้ผ่านประสบการณ์
    และตัวอย่างแห่งความเป็นจริง
  • 5:51 - 5:54
    ถ้าคุณพิจารณาดวงตาของเด็ก
  • 5:54 - 5:57
    เป็นกล้องชีวภาพหนึ่งคู่
  • 5:57 - 6:01
    กล้องถ่ายภาพทุกๆ 200 มิลลิวินาที
  • 6:01 - 6:04
    เวลาเฉลี่ยที่เกิดจากการเคลื่อนไหว
    ของตา
  • 6:04 - 6:10
    ดังนั้นเมื่ออายุสามขวบ เด็กๆ
    จะได้เห็นภาพหลายร้อยภาพ
  • 6:10 - 6:11
    ในโลกแห่งความจริง
  • 6:11 - 6:14
    นี่เป็นตัวอย่างการฝึกมากมาย
  • 6:14 - 6:20
    ดังนั้น แทนที่จะเน้นเฉพาะ
    อัลกอริธึมที่ดีและดีขึ้น
  • 6:20 - 6:26
    ข้อมูลเชิงลึกของฉันคือ การให้
    อัลกอริทึมเป็นแบบข้อมูลการฝึกซ้อม
  • 6:26 - 6:29
    ว่าเด็กได้ผ่านประสบการณ์
  • 6:29 - 6:33
    ทั้งในด้านปริมาณและคุณภาพ
  • 6:33 - 6:35
    เมื่อเรารู้เรื่องนี้แล้ว
  • 6:35 - 6:38
    เรารู้ว่า เราจำเป็นต้องรวบรวมชุดข้อมูล
  • 6:38 - 6:42
    ที่มีภาพไกลเกินกว่าที่เราเคยมีมาก่อน
  • 6:42 - 6:45
    บางที อีกหลายพันครั้ง
  • 6:45 - 6:49
    และร่วมกับศาสตราจารย์ Kai Li
    ที่ Princeton University
  • 6:49 - 6:54
    เราได้เปิดตัว ImageNet
  • 6:54 - 6:57
    โชคดีที่เราไม่ต้องติดกล้อง
    บนศีรษะของเรา
  • 6:57 - 6:59
    และรอเป็นเวลาหลายปี
  • 6:59 - 7:01
    เราไปที่อินเทอร์เน็ต
  • 7:01 - 7:05
    เป็นขุมสมบัติที่ยิ่งใหญ่ที่สุด
    ของภาพที่มนุษย์สร้างขึ้น
  • 7:05 - 7:08
    เราดาวน์โหลดภาพมาแล้ว
    เกือบพันล้านภาพ
  • 7:08 - 7:14
    และใช้เทคโนโลยีกระจายไปยังกลุ่มเพื่อค้นหา
    คำตอบ เช่นแพลตฟอร์ม Amazon Mechanical Turk
  • 7:14 - 7:16
    เพื่อช่วยให้เราติดป้ายกำกับรูปภาพเหล่านี้
  • 7:16 - 7:21
    ในตอนท้าย ImageNet เป็นหนึ่งใน
    นายจ้างที่ใหญ่ที่สุด
  • 7:21 - 7:24
    ของแรงงาน Amazon Mechanical Turk:
  • 7:24 - 7:28
    ร่วมกันเกือบ 50,000 คน
  • 7:28 - 7:32
    จาก 167 ประเทศทั่วโลก
  • 7:32 - 7:36
    ช่วยให้เราสามารถทำความสะอาด
    จัดเรียงและติดฉลากได้
  • 7:36 - 7:40
    เกือบหนึ่งพันล้านภาพที่ใช้
  • 7:41 - 7:43
    นั่นเป็นความพยายามอย่างมาก
  • 7:43 - 7:47
    เพื่อจับภาพแม้แต่เศษเสี้ยว
  • 7:47 - 7:51
    จิตใจของเด็กใช้เวลาในการพัฒนา
    ระยะต้นหลายปี
  • 7:52 - 7:56
    ในการมองย้อนกลับความคิดใน
    การใช้ข้อมูลขนาดใหญ่นี้
  • 7:56 - 8:01
    การฝึกซ้อมอัลกอริธึมของคอมพิวเตอร์
    อาจดูเหมือนชัดเจนในตอนนี้
  • 8:01 - 8:05
    แต่กลับไปในปี 2007 ยังไม่ชัดเจนดังนั้น
  • 8:05 - 8:09
    เราค่อนข้างโดดเดี่ยวในการเดินทาง
    ครั้งนี้มานานแล้ว
  • 8:09 - 8:14
    เพื่อนร่วมงานแนะนำให้ทำสิ่ง
    ที่เป็นประโยชน์มากขึ้นต่อตำแหน่ง
  • 8:14 - 8:18
    และเราก็พยายามดิ้นรนเพื่อหาเงินทุนวิจัย
  • 8:18 - 8:20
    ครั้งหนึ่งฉันก็พูดเล่นกับนักศึกษา
    ระดับบัณฑิตศึกษาของฉัน
  • 8:20 - 8:24
    ว่าฉันเพิ่งจะเปิดร้านขายของชำของฉัน
    อีกครั้งเพื่อลงทุนใน ImageNet
  • 8:24 - 8:29
    เพราะนั่นเป็นเหตุผลที่ฉันให้เงินทุน
    แก่วิทยาลัยของฉันเป็นเวลาหลายปี
  • 8:29 - 8:31
    ดังนั้น เราจึงดำเนินการต่อ
  • 8:31 - 8:35
    ในปี 2552 โครงการ ImageNet ได้จัดส่ง
  • 8:35 - 8:39
    ฐานข้อมูลขนาด 15 ล้านภาพ
  • 8:39 - 8:44
    ผ่านชั้นเรียนและวัตถุต่างๆ 22,000 ชั้น
  • 8:44 - 8:47
    จัดตามคำภาษาอังกฤษในชีวิตประจำวัน
  • 8:47 - 8:50
    ทั้งในด้านปริมาณและคุณภาพ
  • 8:50 - 8:53
    นี่เป็นระดับที่ไม่เคยปรากฏมาก่อน
  • 8:53 - 8:56
    ตัวอย่างเช่น ในกรณีของแมว
  • 8:56 - 8:59
    เรามีแมวมากกว่า 62,000 ตัว
  • 8:59 - 9:03
    รูปลักษณ์และโพสท่าทุกชนิด
  • 9:03 - 9:08
    และแมวในประเทศและป่าทั่วทุกชนิด
  • 9:08 - 9:12
    เราตื่นเต้นที่ได้ใส่ใน ImageNet
  • 9:12 - 9:16
    และเราต้องการให้โลกการวิจัย
    ทั้งหมดได้รับประโยชน์
  • 9:16 - 9:20
    ดังนั้น ในรูปแบบ TED เราจึง
    เปิดชุดข้อมูลทั้งหมด
  • 9:20 - 9:23
    ไปยังชุมชนการวิจัยทั่วโลกแบบฟรีๆ
  • 9:25 - 9:29
    (เสียงปรบมือ)
  • 9:29 - 9:34
    ตอนนี้ เรามีข้อมูลที่จะช่วยบำรุง
    สมองคอมพิวเตอร์ของเรา
  • 9:34 - 9:38
    เราพร้อมที่จะกลับมาที่อัลกอริทึม
    ด้วยตัวเองแล้ว
  • 9:38 - 9:43
    เมื่อเปิดความมั่งคั่งของข้อมูล
    ที่ได้จาก ImageNet
  • 9:43 - 9:48
    เป็นการจับคู่ที่สมบูรณ์แบบกับชั้นเรียน
    ของกลไกการเรียนรู้ของเครื่อง
  • 9:48 - 9:50
    เรียกว่าเครือข่ายประสาทแบบม้วนขด
  • 9:50 - 9:55
    ผู้บุกเบิกคือ Kunihiko Fukushima,
    Geoff Hinton และ Yann LeCun
  • 9:55 - 9:59
    ย้อนกลับไปในทศวรรษ 1970 และยุค 1980
  • 9:59 - 10:05
    มีเซลล์ประสาทที่เชื่อมต่อกัน
    อย่างมากถึงพันล้าน เหมือนสมอง
  • 10:05 - 10:08
    หน่วยปฏิบัติการพื้นฐานใน
    เครือข่ายประสาทเทียม
  • 10:08 - 10:11
    เป็นโหนดแบบเซลล์ประสาท
  • 10:11 - 10:13
    ใช้อินพุตจากโหนดอื่น
  • 10:13 - 10:16
    และส่งข้อมูลไปยังโหนดอื่น
  • 10:16 - 10:21
    นอกจากนี้ นับร้อยนับพันหรือนับล้านๆ โหนด
  • 10:21 - 10:24
    ถูกจัดอยู่ในชั้นลำดับชั้น
  • 10:24 - 10:27
    ยังคล้ายกับสมอง
  • 10:27 - 10:31
    ในเครือข่ายประสาททั่วไป เราการฝึกซ้อม
    รูปแบบการจดจำวัตถุของเรา
  • 10:31 - 10:35
    มี 24 ล้านโหนด
  • 10:35 - 10:38
    140 ล้านพารามิเตอร์
  • 10:38 - 10:41
    และการเชื่อมต่อ 15 พันล้าน
  • 10:41 - 10:43
    นั่นเป็นรูปแบบที่ยิ่งใหญ่
  • 10:43 - 10:47
    ขับเคลื่อนด้วยข้อมูลขนาดใหญ่จาก ImageNet
  • 10:47 - 10:52
    และซีพียูและ GPU ที่ทันสมัยใน
    การฝึกซ้อมแบบจำลองที่ใหญ่มาก
  • 10:52 - 10:55
    เครือข่ายประสาทแบบม้วนขด
  • 10:55 - 10:58
    เบ่งบานในแบบที่ไม่มีใครเคยคาดหวัง
  • 10:58 - 11:01
    กลายเป็นสถาปัตยกรรมที่ชนะ
  • 11:01 - 11:06
    เพื่อสร้างผลลัพธ์ใหม่ที่น่าตื่นเต้น
    ในการจดจำวัตถุ
  • 11:06 - 11:09
    นี่คือคอมพิวเตอร์ที่บอกเรา
  • 11:09 - 11:11
    ว่าภาพนี้มีแมว
  • 11:11 - 11:13
    และแมวอยู่ที่ไหน
  • 11:13 - 11:15
    แน่นอนว่า มีอะไรมากกว่าแมว
  • 11:15 - 11:18
    ดังนั้น นี่คืออัลกอริทึมของ
    คอมพิวเตอร์ที่บอกเรา
  • 11:18 - 11:21
    ภาพมีเด็กผู้ชายและตุ๊กตาหมี
  • 11:21 - 11:25
    สุนัข บุคคล และว่าวขนาดเล็กในพื้นหลัง
  • 11:25 - 11:28
    หรือภาพของสิ่งที่ยุ่งมากๆ
  • 11:28 - 11:33
    เหมือนชายคนหนึ่ง สเก็ตบอร์ด
    ราว เสาไฟ และสิ่งอื่นๆ
  • 11:33 - 11:38
    บางครั้ง เมื่อคอมพิวเตอร์
    ไม่ค่อยมั่นใจในสิ่งที่มองเห็น
  • 11:39 - 11:42
    เราได้สอนให้ฉลาดพอ
  • 11:42 - 11:46
    เพื่อให้เราคำตอบที่ปลอดภัยแทน
    การกระทำที่มั่นใจมากเกินไป
  • 11:46 - 11:48
    เช่นเดียวกับที่เราจะทำ
  • 11:48 - 11:53
    แต่บางครั้ง อัลกอริทึมคอมพิวเตอร์
    ของเราก็น่าทึ่งที่บอกเรา
  • 11:53 - 11:55
    ว่าวัตถุที่มีเป็นอะไรจริงๆ
  • 11:55 - 11:59
    เช่นยี่ห้อ แบบ รุ่นปีของรถยนต์
  • 11:59 - 12:04
    เราใช้อัลกอริทึมนี้กับภาพ Google
    Street View นับล้านภาพ
  • 12:04 - 12:07
    ข้ามร้อยเมืองของอเมริกัน
  • 12:07 - 12:10
    และเราได้เรียนรู้สิ่งที่น่าสนใจจริงๆ
  • 12:10 - 12:14
    ประการแรก ยืนยันภูมิปัญญาทั่วไปของเรา
  • 12:14 - 12:17
    ว่าราคารถยนต์มีความสัมพันธ์กันเป็นอย่างดี
  • 12:17 - 12:19
    กับรายได้ครัวเรือน
  • 12:19 - 12:24
    แต่น่าเสียดายที่ราคารถยนต์ยังมี
    ความสัมพันธ์กันดี
  • 12:24 - 12:26
    กับอัตราการเกิดอาชญากรรมในเมือง
  • 12:27 - 12:31
    หรือรูปแบบการลงคะแนนโดย
    ใช้รหัสไปรษณีย์
  • 12:32 - 12:34
    รอสักครู่ นี่ใช่ไหม
  • 12:34 - 12:39
    คอมพิวเตอร์มีการจับคู่หรือแม้กระทั่งมี
    มากกว่าความสามารถของมนุษย์หรือไม่
  • 12:39 - 12:42
    ไม่เร็วนัก
  • 12:42 - 12:46
    จนถึงปัจจุบัน เราได้สอนคอมพิวเตอร์
    ให้ดูวัตถุเท่านั้น
  • 12:46 - 12:51
    นี่เหมือนกับเด็กเล็กๆ ที่เรียนรู้ที่
    จะพูดคำนามไม่กี่คำ
  • 12:51 - 12:54
    เป็นความสำเร็จที่น่าทึ่ง
  • 12:54 - 12:56
    แต่นี่เป็นเพียงขั้นตอนแรกเท่านั้น
  • 12:56 - 13:00
    ในไม่ช้า การพัฒนาอีกก้าวจะฮิต
  • 13:00 - 13:03
    และเด็กเริ่มสื่อสารเป็นประโยค
  • 13:03 - 13:08
    ดังนั้นแทนที่จะบอกว่านี่เป็นแมวในภาพ
  • 13:08 - 13:13
    คุณได้ยินแล้วสาวน้อยบอกกับ
    เราว่า นี่คือแมวนอนอยู่บนเตียง
  • 13:13 - 13:18
    ดังนั้น เพื่อสอนคอมพิวเตอร์
    ให้ดูภาพและสร้างประโยค
  • 13:18 - 13:22
    การจับคู่ระหว่างข้อมูลขนาดใหญ่
    และกลไกการเรียนรู้ด้วยเครื่อง
  • 13:22 - 13:25
    ต้องใช้ขั้นตอนอื่น
  • 13:25 - 13:29
    ขณะนี้คอมพิวเตอร์ต้องเรียนรู้จากทั้งสองรูป
  • 13:29 - 13:32
    เช่นเดียวกับประโยคภาษาธรรมชาติ
  • 13:32 - 13:35
    ที่สร้างขึ้นโดยมนุษย์
  • 13:35 - 13:39
    เช่นเดียวกับสมองที่รวมวิสัยทัศน์และภาษา
  • 13:39 - 13:44
    เราพัฒนารูปแบบที่เชื่อมโยงสิ่ง
    ที่มองเห็นบางส่วน
  • 13:44 - 13:46
    เช่นตัวอย่างข้อมูลภาพ
  • 13:46 - 13:50
    มีคำและวลีในประโยค
  • 13:50 - 13:53
    ประมาณสี่เดือนที่ผ่านมา
  • 13:53 - 13:56
    เราโยงไว้ด้วยกันทั้งหมด
  • 13:56 - 13:59
    และผลิตโมเดลวิสัยทัศน์ทาง
    คอมพิวเตอร์เครื่องแรก
  • 13:59 - 14:03
    ที่มีความสามารถในการสร้าง
    ประโยคเหมือนมนุษย์
  • 14:03 - 14:07
    เมื่อเห็นภาพเป็นครั้งแรก
  • 14:07 - 14:12
    ตอนนี้ฉันพร้อมที่จะแสดง
    สิ่งที่คอมพิวเตอร์พูด
  • 14:12 - 14:14
    เมื่อเห็นภาพ
  • 14:14 - 14:17
    ที่สาวน้อยเห็นในตอนต้นของการพูดคุยนี้
  • 14:20 - 14:23
    (วิดีโอ) คอมพิวเตอร์: มีชายคนหนึ่งกำลังยืนอยู่ข้างช้าง
  • 14:24 - 14:28
    เครื่องบินขนาดใหญ่จอดอยู่
    ในรันเวย์ของสนามบิน
  • 14:29 - 14:33
    FFL: แน่นอน เรายังคงทำงานอย่างหนัก
    เพื่อปรับปรุงอัลกอริทึม
  • 14:33 - 14:36
    และยังคงมีสิ่งที่จะเรียนรู้อยู่มากมาย
  • 14:36 - 14:38
    (เสียงปรบมือ)
  • 14:40 - 14:43
    และคอมพิวเตอร์ยังทำผิดพลาด
  • 14:43 - 14:46
    (วิดีโอ) คอมพิวเตอร์: แมวนอนบนเตียงในผ้าห่ม
  • 14:46 - 14:49
    FFL:ดังนั้น แน่นอนเมื่อเห็นแมวมากเกินไป
  • 14:49 - 14:52
    เครื่องคิดว่าทุกอย่างอาจดูเหมือนแมว
  • 14:53 - 14:56
    (วิดีโอ) คอมพิวเตอร์: เด็กหนุ่มคนหนึ่งกำลังถือไม้เบสบอล
  • 14:56 - 14:58
    (เสียงหัวเราะ)
  • 14:58 - 15:03
    FFL: หรือถ้ายังไม่เคยเห็นแปรงสีฟัน
    ก็จะสับสนกับไม้ตีเบสบอล
  • 15:03 - 15:07
    (วิดีโอ) คอมพิวเตอร์: คนขี่ม้าไปตาม
    ถนนข้างตึก
  • 15:07 - 15:09
    (เสียงหัวเราะ)
  • 15:09 - 15:12
    FFL: เราไม่ได้สอนวิชา Art 101 ให้แก่คอมพิวเตอร์
  • 15:14 - 15:17
    (วิดีโอ) คอมพิวเตอร์: ม้าลายยืนอยู่ในทุ่งหญ้า
  • 15:17 - 15:20
    FFL: และยังไม่ได้เรียนรู้ที่จะชื่นชมความงาม
    อันน่าทึ่งของธรรมชาติ
  • 15:20 - 15:22
    เช่นคุณและฉัน
  • 15:22 - 15:25
    ดังนั้น จึงเป็นการเดินทางที่ยาวนาน
  • 15:25 - 15:30
    เพื่อให้ได้มาตั้งแต่อายุศูนย์
    ถึงสามปี ยังเป็นเรื่องยาก
  • 15:30 - 15:35
    ความท้าทายที่แท้จริงคือ การไป
    จากสามปีถึง 13 ปีและไกลเกินกว่านั้น
  • 15:35 - 15:39
    ฉันขอเตือนคุณด้วยภาพของ
    เด็กชายและเค้กนี้อีกครั้ง
  • 15:39 - 15:44
    จนถึงปัจจุบัน เราได้สอน
    คอมพิวเตอร์ให้ดูวัตถุ
  • 15:44 - 15:48
    หรือแม้กระทั่งบอกเล่าเรื่องราว
    ที่เรียบง่ายเมื่อได้เห็นภาพ
  • 15:48 - 15:52
    (วิดีโอ) คอมพิวเตอร์: คนนั่งอยู่ที่โต๊ะกับเค้ก
  • 15:52 - 15:54
    FFL: แต่มีอะไรมากขึ้นในภาพนี้
  • 15:54 - 15:56
    ไม่ใช่แค่คนและเค้ก
  • 15:56 - 16:01
    สิ่งที่คอมพิวเตอร์ไม่เห็นคือ
    นี่เป็นเค้กอิตาเลียนพิเศษ
  • 16:01 - 16:04
    ที่ให้บริการเฉพาะในช่วงเทศกาลอีสเตอร์
  • 16:04 - 16:07
    เด็กชายกำลังใส่เสื้อยืดที่ชอบ
  • 16:07 - 16:11
    พ่อให้เขาเป็นของขวัญหลังจาก
    เดินทางไปซิดนีย์
  • 16:11 - 16:15
    และคุณและฉันทั้งหมดสามารถ
    บอกได้ว่า เด็กมีความสุขแค่ไหน
  • 16:15 - 16:18
    และสิ่งที่อยู่ในใจของเขาในขณะนั้น
  • 16:19 - 16:22
    นี่คือลีโอลูกชายของฉัน
  • 16:22 - 16:25
    ในการสืบเสาะของฉันต่อปัญญาจากภาพ
  • 16:25 - 16:27
    ฉันคิดถึงเลโออย่างต่อเนื่อง
  • 16:27 - 16:30
    และโลกอนาคตที่ลูกจะมีชีวิตอยู่
  • 16:30 - 16:32
    เมื่อเครื่องสามารถมองเห็น
  • 16:32 - 16:37
    แพทย์และพยาบาลจะมีสายตา
    ที่ไม่รู้จักเหน็ดเหนื่อย
  • 16:37 - 16:41
    เพื่อช่วยในการวินิจฉัยและดูแลผู้ป่วย
  • 16:41 - 16:45
    รถยนต์จะทำงานได้อย่างชาญฉลาด
    และปลอดภัยยิ่งขึ้นบนท้องถนน
  • 16:45 - 16:48
    หุ่นยนต์ไม่ใช่แค่มนุษย์
  • 16:48 - 16:53
    จะช่วยให้เรากล้าได้กล้าเสียในเขตภัยพิบัติ
    เพื่อช่วยผู้ที่ติดกับและได้รับบาดเจ็บ
  • 16:54 - 16:58
    เราจะค้นพบสายพันธุ์ใหม่ วัสดุที่ดีขึ้น
  • 16:58 - 17:02
    และสำรวจแนวที่มองไม่เห็นด้วย
    ความช่วยเหลือของเครื่อง
  • 17:03 - 17:07
    เรากำลังให้เครื่องมองเห็นทีละเล็กทีละน้อย
  • 17:07 - 17:10
    อันดับแรก เราสอนให้เครื่องเห็น
  • 17:10 - 17:13
    จากนั้น ก็ช่วยให้เราดูดีขึ้น
  • 17:13 - 17:17
    เป็นครั้งแรก ดวงตาของมนุษย์จะไม่
    ขบคิดและ
  • 17:17 - 17:20
    สำรวจโลกของเราอย่างโดดเดี่ยว
  • 17:20 - 17:23
    เราจะไม่เพียงแต่ใช้เครื่องเพื่อสติปัญญา
    ของเครื่อง
  • 17:23 - 17:30
    เราจะร่วมมือกับเครื่องด้วยวิธีที่
    เราไม่สามารถจินตนาการได้
  • 17:30 - 17:32
    นี่คือภารกิจของฉัน
  • 17:32 - 17:34
    ทำให้คอมพิวเตอร์ฉลาด
  • 17:34 - 17:40
    และเพื่อสร้างอนาคตที่ดีขึ้นสำหรับ
    ลีโอและสำหรับโลก
  • 17:40 - 17:41
    ขอขอบคุณ
  • 17:41 - 17:45
    (เสียงปรบมือ)
Title:
เราสอนคอมพิวเตอร์ให้เข้าใจภาพได้อย่างไร
Speaker:
เฟย์-เฟย์ ลี (Fei-Fei Li)
Description:

เมื่อเด็กเล็กๆ มองภาพ คุณสามารถระบุองค์ประกอบที่เรียบง่ายได้เช่น "แมว" "หนังสือ" "เก้าอี้" ขณะนี้คอมพิวเตอร์กำลังฉลาดพอที่จะทำเช่นนั้นด้วย ต่อไปคืออะไร ผู้เชี่ยวชาญด้านวิสัยทัศน์ด้านคอมพิวเตอร์ Fei-Fei Li ได้บรรยายเกี่ยวกับสถานะของศิลปะ รวมถึงฐานข้อมูลจำนวน 15 ล้านรูปที่ทีมงานของเธอสร้างไว้เพื่อ "สอน" คอมพิวเตอร์ให้ทำความเข้าใจกับภาพและข้อมูลเชิงลึกที่สำคัญที่จะมาถึง

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
17:58

Thai subtitles

Revisions