כיצד מחשב לומד לזהות אובייקטים באופן מיידי

0:01 - 0:02

לפני עשר שנים,
0:02 - 0:05

מדעני ראייה ממוחשבת חשבו שלגרום למחשב
0:05 - 0:07

להבדיל בין חתול לכלב
0:08 - 0:09

יהיה כמעט בלתי אפשרי,
0:10 - 0:13

אפילו עם התקדמות משמעותית
במצב של הבינה המלאכותית.
0:13 - 0:17

עכשיו אנחנו יכולים לעשות זאת
ברמת דיוק של למעלה מ 99 אחוז.
0:18 - 0:20

זה נקרא סיווג תמונה --
0:20 - 0:23

מעלים תמונה ושמים עליה תווית --
0:23 - 0:26

ומחשבים מכירים אלפי קטגוריות אחרות גם כן.
0:27 - 0:30

אני סטודנט לתואר שני
באוניברסיטת וושינגטון,
0:30 - 0:31

ואני עובד על פרויקט שנקרא "דארקנט",
0:32 - 0:33

שהוא מסגרת של רשת עצבית
0:33 - 0:36

להכשרה ובדיקת מודלים של ראייה ממוחשבת.
0:36 - 0:39

אז בואו ונראה מה "דארקנט" חושבת
0:39 - 0:41

על תמונה זו שיש לנו.
0:43 - 0:45

כאשר אנו מפעילים את המסווג שלנו
0:45 - 0:46

על התמונה הזו,
0:46 - 0:49

רואים שלא רק מקבלים חיזוי של כלב או חתול,
0:49 - 0:51

אנחנו למעשה מקבלים תחזיות של גזע ספציפי.
0:51 - 0:53

זוהי רמת הפירוט שיש לנו עכשיו.
0:53 - 0:55

והיא נכונה.
0:55 - 0:57

הכלב שלי למעשה הוא מלמוט.
0:57 - 1:01

אז עשינו צעדים מדהימים בסיווג תמונות,
1:01 - 1:03

אבל מה קורה כשאנו מפעילים את המסווג
1:03 - 1:05

על תמונה שנראית כמו זו?
1:07 - 1:08

טוב ...
1:13 - 1:17

אנו רואים שהמסווג נותן תחזית די דומה.
1:17 - 1:20

וזה נכון. יש מלמוט בתמונה.
1:20 - 1:23

אבל רק בהתחשב בתווית זו,
איננו ממש יודעים כל כך הרבה
1:23 - 1:25

על מה שקורה בתמונה.
1:25 - 1:27

אנחנו צריכים משהו חזק יותר.
1:27 - 1:30

אני עובד על בעיה שנקראת זיהוי אובייקט,
1:30 - 1:33

שבה אנו מסתכלים על תמונה
ומנסים למצוא את כל האובייקטים,
1:33 - 1:34

שמים קופסאות תוחמות סביבם
1:34 - 1:36

ואומרים מה הם אובייקטים אלה:
1:36 - 1:40

אז זה מה שקורה כשאנו מפעילים
גלאי על התמונה הזאת.
1:41 - 1:43

עכשיו, עם סוג זה של תוצאה,
1:44 - 1:46

נוכל לעשות הרבה יותר עם
האלגוריתמים של הראייה הממוחשבת.
1:46 - 1:49

אנחנו רואים שהוא מזהה שיש חתול וכלב.
1:49 - 1:51

הוא יודע את המקומות היחסיים שלהם,
1:52 - 1:53

את גודלם.
1:53 - 1:55

הוא אולי אפילו יודע עוד מידע נוסף כלשהו.
1:55 - 1:57

יש ספר שמונח ברקע.
1:57 - 2:01

ואם רוצים לבנות שיטה על גבי ראייה ממוחשבת,
2:01 - 2:04

למשל, רכב נהיגה עצמית או מערכת רובוטית,
2:04 - 2:06

זה סוג המידע שמעונינים בו.
2:07 - 2:10

רוצים משהו שיאפשר לתקשר עם העולם הפיזי.
2:11 - 2:13

עכשיו, כשהתחלתי לעבוד על זיהוי אובייקט,
2:13 - 2:16

לקח 20 שניות כדי לעבד תמונה בודדת.
2:16 - 2:20

וכדי לקבל תחושה לסיבה שמהירות
כה חשובה בתחום זה,
2:21 - 2:24

הנה דוגמה של גלאי אובייקט
2:24 - 2:26

שלוקח לו שתי שניות לעבד תמונה.
2:26 - 2:29

אז זה פי 10 מהר יותר
2:29 - 2:32

מה20 שניות לתמונה של גלאי תמונה,
2:32 - 2:35

ואתם יכולים לראות שעד שזה עושה תחזיות,
2:35 - 2:37

המצב כולו של העולם השתנה,
2:38 - 2:40

וזה לא יהיה מאוד שימושי
2:40 - 2:42

עבור יישום.
2:42 - 2:44

אם נאיץ את זה
לפי מקדם נוסף של 10,
2:44 - 2:47

זה יהיה גלאי שרץ בחמש מסגרות לשנייה.
2:47 - 2:49

זה הרבה יותר טוב,
2:49 - 2:51

אבל לדוגמה,
2:51 - 2:53

אם יש תנועה משמעותית,
2:53 - 2:56

לא הייתי רוצה שמערכת כזו תנהג במכונית שלי.
2:57 - 3:00

זוהי מערכת האיתור שלנו שרצה
בזמן אמת על המחשב הנייד שלי.
3:01 - 3:04

כך היא עוקבת אחרי בצורה חלקה
כשאני זז סביב המסגרת,
3:04 - 3:08

והיא חסינה למגוון רחב של שינויים בגודל,
3:09 - 3:11

העמדה,
3:11 - 3:13

קדימה, אחורה.
3:13 - 3:14

זה נהדר.
3:14 - 3:16

זה מה שאנחנו באמת צריכים
3:16 - 3:19

אם אנחנו הולכים לבנות מערכות
על גבי ראייה ממוחשבת.
3:19 - 3:23

(מחיאות כפיים)
3:24 - 3:26

אז תוך שנים אחדות,
3:26 - 3:29

עברנו מ -20 שניות לתמונה
3:29 - 3:33

ל 20 אלפיות השנייה, פי אלף יותר מהר.
3:33 - 3:34

איך הגענו לזה?
3:34 - 3:37

בעבר, מערכות לאיתור אובייקטים
3:37 - 3:39

היו לוקחות תמונה כמו זו
3:39 - 3:42

ומפצלות אותה לקבוצה של אזורים
3:42 - 3:45

ולאחר מכן מפעילות מסווג
על כל אחד מאזורים אלה,
3:45 - 3:47

וציונים גבוהים עבור מסווג זה
3:47 - 3:51

ייחשבו זיהויים בתמונה.
3:51 - 3:55

אבל זה כרוך בהפעלת מסווג
אלפי פעמים על תמונה,
3:55 - 3:58

אלפי הערכות של רשת עצבית
כדי לייצר זיהוי.
3:59 - 4:04

במקום זה, הכשרנו רשת אחת
לעשות את כל הזיהוי עבורנו.
4:04 - 4:08

היא מייצרת את כל תיבות התחימה
ואת סוג ההסתברויות בו זמנית.
4:09 - 4:12

עם המערכת שלנו, במקום להסתכל
על תמונה אלפי פעמים
4:12 - 4:14

כדי לייצר זיהוי,
4:14 - 4:15

מסתכלים רק פעם אחת,
4:15 - 4:18

ולכן אנחנו קוראים לזה
שיטת YOLO לזיהוי אובייקט.
4:19 - 4:23

אז עם מהירות זו, איננו מוגבלים רק לתמונות;
4:23 - 4:26

אנו יכולים לעבד וידאו בזמן אמת.
4:26 - 4:29

ועכשיו, במקום לראות רק
את החתול והכלב האלה,
4:29 - 4:32

אנחנו יכולים לראות אותם נעים סביב
ומתקשרים אחד עם השני.
4:35 - 4:37

זהו גלאי שאימנו
4:37 - 4:41

על 80 סוגים שונים
4:41 - 4:44

במערך הנתונים COCO של מיקרוסופט.
4:44 - 4:48

יש בו כל מיני דברים כמו כף ומזלג, קערה,
4:48 - 4:49

חפצים רגילים כאלה.
4:50 - 4:53

יש לו מגוון של דברים אקזוטיים יותר:
4:53 - 4:57

חיות, מכוניות, זברות, ג'ירפות.
4:57 - 4:59

ועכשיו אנחנו הולכים לעשות משהו מהנה.
4:59 - 5:01

אנחנו פשוט יוצאים אל הקהל
5:01 - 5:03

כדי לראות איזה סוג של דברים
נוכל לזהות.
5:03 - 5:04

האם מישהו רוצה בובת חיה?
5:06 - 5:08

יש כמה בובות דובי שם.
5:10 - 5:15

ואנחנו יכול להנמיך מעט את סף הזיהוי שלנו,
5:15 - 5:18

כדי שנוכל למצוא יותר אנשים מביניכם, בקהל.
5:20 - 5:22

בואו ונראה אם נוכל לתפוס תמרורי עצור אלה.
5:22 - 5:24

אנחנו מוצאים כמה תרמילי גב.
5:26 - 5:28

בואו פשוט נגדיל קצת.
5:30 - 5:32

וזה נהדר.
5:32 - 5:35

וכל העיבוד קורה בזמן אמת
5:35 - 5:36

על המחשב הנייד.
5:37 - 5:39

וחשוב לזכור
5:39 - 5:42

שזוהי מערכת זיהוי אובייקט למטרה כללית,
5:42 - 5:47

כך שנוכל להכשיר אותה עבור תמונה מכל תחום.
5:48 - 5:51

אותו קוד שבו אנו משתמשים
5:51 - 5:53

כדי למצוא שלטי עצור או הולכי רגל,
5:53 - 5:55

אופניים ברכב לנהיגה עצמית,
5:55 - 5:58

יכול לשמש כדי למצוא תאים סרטניים
5:58 - 6:01

בביופסיה של רקמה.
6:01 - 6:05

ויש חוקרים ברחבי העולם
שכבר משתמשים בטכנולוגיה זו
6:06 - 6:10

לקדם תחומים כמו רפואה, ורובוטיקה.
6:10 - 6:11

הבוקר קראתי עיתון
6:11 - 6:16

שבו ערכו מפקד של בעלי חיים
בפארק הלאומי של ניירובי
6:16 - 6:19

עם YOLO כחלק של מערכת זיהוי זו.
6:19 - 6:22

וזה בגלל ש "דארקנט" הוא קוד פתוח
6:22 - 6:24

עבור רשות הרבים, וללא תשלום,
לכל מי שרוצה להשתמש,
6:26 - 6:31

(מחיאות כפיים)
6:31 - 6:36

אבל רצינו לעשות את הזיהוי
לאפילו יותר נגיש ושמיש,
6:36 - 6:40

כך שבאמצעות שילוב
של אופטימיזציה של המודל,
6:40 - 6:43

בינאריזציה ואומדנות של רשת,
6:43 - 6:47

יש לנו למעשה זיהוי אובייקט שרץ בטלפון.
6:53 - 6:58

(מחיאות כפיים)
6:59 - 7:04

ואני באמת מתרגש כי
עכשיו יש לנו פתרון די חזק
7:04 - 7:06

לבעיית ראייה ממוחשבת ברמה נמוכה זו.
7:06 - 7:10

וכל אחד יכול לקחת את זה ולבנות עם זה משהו.
7:10 - 7:13

אז עכשיו כל השאר תלוי בכם
7:13 - 7:16

ובאנשים ברחבי העולם עם גישה לתוכנה זו,
7:16 - 7:20

ואני לא יכול לחכות לראות מה אנשים
יבנו עם טכנולוגיה זו.
7:20 - 7:21

תודה רבה.
7:21 - 7:25

(מחיאות כפיים)

Title:: כיצד מחשב לומד לזהות אובייקטים באופן מיידי
Speaker:: ג'וזף רדמון
Description:: לפני עשר שנים, חוקרים חשבו שלגרום למחשב להבדיל בין חתול לכלב יהיה כמעט בלתי אפשרי. כיום, מערכות ראייה ממוחשבת עושות זאת עם למעלה מ 99 אחוזי דיוק. כיצד? ג'וזף רדמון עובד על מערכת YOLO (אתה רק רואה פעם אחת), שיטת קוד פתוח לזיהוי אובייקטים, שיכולה לזהות אובייקטים בתמונות ובווידאו - מזברות ועד סימני עצור - במהירות הבזק. בהדגמה חיה להפליא, רדמון מראה את הצעד החשוב הזה קדימה עבור יישומים כמו מכוניות בנהיגה עצמית, רובוטיקה, ואפילו גילוי סרטן.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 07:37

	Ido Dekkers approved Hebrew subtitles for How computers learn to recognize objects instantly
	Ido Dekkers accepted Hebrew subtitles for How computers learn to recognize objects instantly
	Ido Dekkers edited Hebrew subtitles for How computers learn to recognize objects instantly
	Zeeva Livshitz edited Hebrew subtitles for How computers learn to recognize objects instantly
	Zeeva Livshitz edited Hebrew subtitles for How computers learn to recognize objects instantly
	Zeeva Livshitz edited Hebrew subtitles for How computers learn to recognize objects instantly
	Zeeva Livshitz edited Hebrew subtitles for How computers learn to recognize objects instantly
	Zeeva Livshitz edited Hebrew subtitles for How computers learn to recognize objects instantly

Show all

Hebrew subtitles

Revisions

Revision 8 Edited

Ido Dekkers

כיצד מחשב לומד לזהות אובייקטים באופן מיידי

Revisions

Our website uses cookies

Operating cookies (Required)