Return to Video

כיצד מחשב לומד לזהות אובייקטים באופן מיידי

  • 0:01 - 0:02
    לפני עשר שנים,
  • 0:02 - 0:05
    מדעני ראייה ממוחשבת חשבו שלגרום למחשב
  • 0:05 - 0:07
    להבדיל בין חתול לכלב
  • 0:08 - 0:09
    יהיה כמעט בלתי אפשרי,
  • 0:10 - 0:13
    אפילו עם התקדמות משמעותית
    במצב של הבינה המלאכותית.
  • 0:13 - 0:17
    עכשיו אנחנו יכולים לעשות זאת
    ברמת דיוק של למעלה מ 99 אחוז.
  • 0:18 - 0:20
    זה נקרא סיווג תמונה --
  • 0:20 - 0:23
    מעלים תמונה ושמים עליה תווית --
  • 0:23 - 0:26
    ומחשבים מכירים אלפי קטגוריות אחרות גם כן.
  • 0:27 - 0:30
    אני סטודנט לתואר שני
    באוניברסיטת וושינגטון,
  • 0:30 - 0:31
    ואני עובד על פרויקט שנקרא "דארקנט",
  • 0:32 - 0:33
    שהוא מסגרת של רשת עצבית
  • 0:33 - 0:36
    להכשרה ובדיקת מודלים של ראייה ממוחשבת.
  • 0:36 - 0:39
    אז בואו ונראה מה "דארקנט" חושבת
  • 0:39 - 0:41
    על תמונה זו שיש לנו.
  • 0:43 - 0:45
    כאשר אנו מפעילים את המסווג שלנו
  • 0:45 - 0:46
    על התמונה הזו,
  • 0:46 - 0:49
    רואים שלא רק מקבלים חיזוי של כלב או חתול,
  • 0:49 - 0:51
    אנחנו למעשה מקבלים תחזיות של גזע ספציפי.
  • 0:51 - 0:53
    זוהי רמת הפירוט שיש לנו עכשיו.
  • 0:53 - 0:55
    והיא נכונה.
  • 0:55 - 0:57
    הכלב שלי למעשה הוא מלמוט.
  • 0:57 - 1:01
    אז עשינו צעדים מדהימים בסיווג תמונות,
  • 1:01 - 1:03
    אבל מה קורה כשאנו מפעילים את המסווג
  • 1:03 - 1:05
    על תמונה שנראית כמו זו?
  • 1:07 - 1:08
    טוב ...
  • 1:13 - 1:17
    אנו רואים שהמסווג נותן תחזית די דומה.
  • 1:17 - 1:20
    וזה נכון. יש מלמוט בתמונה.
  • 1:20 - 1:23
    אבל רק בהתחשב בתווית זו,
    איננו ממש יודעים כל כך הרבה
  • 1:23 - 1:25
    על מה שקורה בתמונה.
  • 1:25 - 1:27
    אנחנו צריכים משהו חזק יותר.
  • 1:27 - 1:30
    אני עובד על בעיה שנקראת זיהוי אובייקט,
  • 1:30 - 1:33
    שבה אנו מסתכלים על תמונה
    ומנסים למצוא את כל האובייקטים,
  • 1:33 - 1:34
    שמים קופסאות תוחמות סביבם
  • 1:34 - 1:36
    ואומרים מה הם אובייקטים אלה:
  • 1:36 - 1:40
    אז זה מה שקורה כשאנו מפעילים
    גלאי על התמונה הזאת.
  • 1:41 - 1:43
    עכשיו, עם סוג זה של תוצאה,
  • 1:44 - 1:46
    נוכל לעשות הרבה יותר עם
    האלגוריתמים של הראייה הממוחשבת.
  • 1:46 - 1:49
    אנחנו רואים שהוא מזהה שיש חתול וכלב.
  • 1:49 - 1:51
    הוא יודע את המקומות היחסיים שלהם,
  • 1:52 - 1:53
    את גודלם.
  • 1:53 - 1:55
    הוא אולי אפילו יודע עוד מידע נוסף כלשהו.
  • 1:55 - 1:57
    יש ספר שמונח ברקע.
  • 1:57 - 2:01
    ואם רוצים לבנות שיטה על גבי ראייה ממוחשבת,
  • 2:01 - 2:04
    למשל, רכב נהיגה עצמית או מערכת רובוטית,
  • 2:04 - 2:06
    זה סוג המידע שמעונינים בו.
  • 2:07 - 2:10
    רוצים משהו שיאפשר לתקשר עם העולם הפיזי.
  • 2:11 - 2:13
    עכשיו, כשהתחלתי לעבוד על זיהוי אובייקט,
  • 2:13 - 2:16
    לקח 20 שניות כדי לעבד תמונה בודדת.
  • 2:16 - 2:20
    וכדי לקבל תחושה לסיבה שמהירות
    כה חשובה בתחום זה,
  • 2:21 - 2:24
    הנה דוגמה של גלאי אובייקט
  • 2:24 - 2:26
    שלוקח לו שתי שניות לעבד תמונה.
  • 2:26 - 2:29
    אז זה פי 10 מהר יותר
  • 2:29 - 2:32
    מה20 שניות לתמונה של גלאי תמונה,
  • 2:32 - 2:35
    ואתם יכולים לראות שעד שזה עושה תחזיות,
  • 2:35 - 2:37
    המצב כולו של העולם השתנה,
  • 2:38 - 2:40
    וזה לא יהיה מאוד שימושי
  • 2:40 - 2:42
    עבור יישום.
  • 2:42 - 2:44
    אם נאיץ את זה
    לפי מקדם נוסף של 10,
  • 2:44 - 2:47
    זה יהיה גלאי שרץ בחמש מסגרות לשנייה.
  • 2:47 - 2:49
    זה הרבה יותר טוב,
  • 2:49 - 2:51
    אבל לדוגמה,
  • 2:51 - 2:53
    אם יש תנועה משמעותית,
  • 2:53 - 2:56
    לא הייתי רוצה שמערכת כזו תנהג במכונית שלי.
  • 2:57 - 3:00
    זוהי מערכת האיתור שלנו שרצה
    בזמן אמת על המחשב הנייד שלי.
  • 3:01 - 3:04
    כך היא עוקבת אחרי בצורה חלקה
    כשאני זז סביב המסגרת,
  • 3:04 - 3:08
    והיא חסינה למגוון רחב של שינויים בגודל,
  • 3:09 - 3:11
    העמדה,
  • 3:11 - 3:13
    קדימה, אחורה.
  • 3:13 - 3:14
    זה נהדר.
  • 3:14 - 3:16
    זה מה שאנחנו באמת צריכים
  • 3:16 - 3:19
    אם אנחנו הולכים לבנות מערכות
    על גבי ראייה ממוחשבת.
  • 3:19 - 3:23
    (מחיאות כפיים)
  • 3:24 - 3:26
    אז תוך שנים אחדות,
  • 3:26 - 3:29
    עברנו מ -20 שניות לתמונה
  • 3:29 - 3:33
    ל 20 אלפיות השנייה, פי אלף יותר מהר.
  • 3:33 - 3:34
    איך הגענו לזה?
  • 3:34 - 3:37
    בעבר, מערכות לאיתור אובייקטים

  • 3:37 - 3:39
    היו לוקחות תמונה כמו זו
  • 3:39 - 3:42
    ומפצלות אותה לקבוצה של אזורים
  • 3:42 - 3:45
    ולאחר מכן מפעילות מסווג
    על כל אחד מאזורים אלה,
  • 3:45 - 3:47
    וציונים גבוהים עבור מסווג זה
  • 3:47 - 3:51
    ייחשבו זיהויים בתמונה.
  • 3:51 - 3:55
    אבל זה כרוך בהפעלת מסווג
    אלפי פעמים על תמונה,
  • 3:55 - 3:58
    אלפי הערכות של רשת עצבית
    כדי לייצר זיהוי.
  • 3:59 - 4:04
    במקום זה, הכשרנו רשת אחת
    לעשות את כל הזיהוי עבורנו.
  • 4:04 - 4:08
    היא מייצרת את כל תיבות התחימה
    ואת סוג ההסתברויות בו זמנית.
  • 4:09 - 4:12
    עם המערכת שלנו, במקום להסתכל
    על תמונה אלפי פעמים
  • 4:12 - 4:14
    כדי לייצר זיהוי,
  • 4:14 - 4:15
    מסתכלים רק פעם אחת,
  • 4:15 - 4:18
    ולכן אנחנו קוראים לזה
    שיטת YOLO לזיהוי אובייקט.
  • 4:19 - 4:23
    אז עם מהירות זו, איננו מוגבלים רק לתמונות;
  • 4:23 - 4:26
    אנו יכולים לעבד וידאו בזמן אמת.
  • 4:26 - 4:29
    ועכשיו, במקום לראות רק
    את החתול והכלב האלה,
  • 4:29 - 4:32
    אנחנו יכולים לראות אותם נעים סביב
    ומתקשרים אחד עם השני.
  • 4:35 - 4:37
    זהו גלאי שאימנו
  • 4:37 - 4:41
    על 80 סוגים שונים
  • 4:41 - 4:44
    במערך הנתונים COCO של מיקרוסופט.
  • 4:44 - 4:48
    יש בו כל מיני דברים כמו כף ומזלג, קערה,
  • 4:48 - 4:49
    חפצים רגילים כאלה.
  • 4:50 - 4:53
    יש לו מגוון של דברים אקזוטיים יותר:
  • 4:53 - 4:57
    חיות, מכוניות, זברות, ג'ירפות.
  • 4:57 - 4:59
    ועכשיו אנחנו הולכים לעשות משהו מהנה.
  • 4:59 - 5:01
    אנחנו פשוט יוצאים אל הקהל
  • 5:01 - 5:03
    כדי לראות איזה סוג של דברים
    נוכל לזהות.
  • 5:03 - 5:04
    האם מישהו רוצה בובת חיה?
  • 5:06 - 5:08
    יש כמה בובות דובי שם.
  • 5:10 - 5:15
    ואנחנו יכול להנמיך מעט את סף הזיהוי שלנו,
  • 5:15 - 5:18
    כדי שנוכל למצוא יותר אנשים מביניכם, בקהל.
  • 5:20 - 5:22
    בואו ונראה אם נוכל לתפוס תמרורי עצור אלה.
  • 5:22 - 5:24
    אנחנו מוצאים כמה תרמילי גב.
  • 5:26 - 5:28
    בואו פשוט נגדיל קצת.
  • 5:30 - 5:32
    וזה נהדר.
  • 5:32 - 5:35
    וכל העיבוד קורה בזמן אמת
  • 5:35 - 5:36
    על המחשב הנייד.
  • 5:37 - 5:39
    וחשוב לזכור
  • 5:39 - 5:42
    שזוהי מערכת זיהוי אובייקט למטרה כללית,
  • 5:42 - 5:47
    כך שנוכל להכשיר אותה עבור תמונה מכל תחום.
  • 5:48 - 5:51
    אותו קוד שבו אנו משתמשים
  • 5:51 - 5:53
    כדי למצוא שלטי עצור או הולכי רגל,
  • 5:53 - 5:55
    אופניים ברכב לנהיגה עצמית,
  • 5:55 - 5:58
    יכול לשמש כדי למצוא תאים סרטניים
  • 5:58 - 6:01
    בביופסיה של רקמה.
  • 6:01 - 6:05
    ויש חוקרים ברחבי העולם
    שכבר משתמשים בטכנולוגיה זו
  • 6:06 - 6:10
    לקדם תחומים כמו רפואה, ורובוטיקה.
  • 6:10 - 6:11
    הבוקר קראתי עיתון
  • 6:11 - 6:16
    שבו ערכו מפקד של בעלי חיים
    בפארק הלאומי של ניירובי
  • 6:16 - 6:19
    עם YOLO כחלק של מערכת זיהוי זו.
  • 6:19 - 6:22
    וזה בגלל ש "דארקנט" הוא קוד פתוח
  • 6:22 - 6:24
    עבור רשות הרבים, וללא תשלום,
    לכל מי שרוצה להשתמש,
  • 6:26 - 6:31
    (מחיאות כפיים)
  • 6:31 - 6:36
    אבל רצינו לעשות את הזיהוי
    לאפילו יותר נגיש ושמיש,
  • 6:36 - 6:40
    כך שבאמצעות שילוב
    של אופטימיזציה של המודל,
  • 6:40 - 6:43
    בינאריזציה ואומדנות של רשת,
  • 6:43 - 6:47
    יש לנו למעשה זיהוי אובייקט שרץ בטלפון.
  • 6:53 - 6:58
    (מחיאות כפיים)
  • 6:59 - 7:04
    ואני באמת מתרגש כי
    עכשיו יש לנו פתרון די חזק
  • 7:04 - 7:06
    לבעיית ראייה ממוחשבת ברמה נמוכה זו.
  • 7:06 - 7:10
    וכל אחד יכול לקחת את זה ולבנות עם זה משהו.
  • 7:10 - 7:13
    אז עכשיו כל השאר תלוי בכם
  • 7:13 - 7:16
    ובאנשים ברחבי העולם עם גישה לתוכנה זו,
  • 7:16 - 7:20
    ואני לא יכול לחכות לראות מה אנשים
    יבנו עם טכנולוגיה זו.
  • 7:20 - 7:21
    תודה רבה.
  • 7:21 - 7:25
    (מחיאות כפיים)
Title:
כיצד מחשב לומד לזהות אובייקטים באופן מיידי
Speaker:
ג'וזף רדמון
Description:

לפני עשר שנים, חוקרים חשבו שלגרום למחשב להבדיל בין חתול לכלב יהיה כמעט בלתי אפשרי. כיום, מערכות ראייה ממוחשבת עושות זאת עם למעלה מ 99 אחוזי דיוק. כיצד? ג'וזף רדמון עובד על מערכת YOLO (אתה רק רואה פעם אחת), שיטת קוד פתוח לזיהוי אובייקטים, שיכולה לזהות אובייקטים בתמונות ובווידאו - מזברות ועד סימני עצור - במהירות הבזק. בהדגמה חיה להפליא, רדמון מראה את הצעד החשוב הזה קדימה עבור יישומים כמו מכוניות בנהיגה עצמית, רובוטיקה, ואפילו גילוי סרטן.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
07:37

Hebrew subtitles

Revisions