1 00:00:00,825 --> 00:00:01,976 לפני עשר שנים, 2 00:00:02,000 --> 00:00:04,776 מדעני ראייה ממוחשבת חשבו שלגרום למחשב 3 00:00:04,800 --> 00:00:07,496 להבדיל בין חתול לכלב 4 00:00:07,520 --> 00:00:09,496 יהיה כמעט בלתי אפשרי, 5 00:00:09,520 --> 00:00:13,216 אפילו עם התקדמות משמעותית במצב של הבינה המלאכותית. 6 00:00:13,240 --> 00:00:16,800 עכשיו אנחנו יכולים לעשות זאת ברמת דיוק של למעלה מ 99 אחוז. 7 00:00:17,680 --> 00:00:19,536 זה נקרא סיווג תמונה -- 8 00:00:19,560 --> 00:00:22,656 מעלים תמונה ושמים עליה תווית -- 9 00:00:22,680 --> 00:00:25,720 ומחשבים מכירים אלפי קטגוריות אחרות גם כן. 10 00:00:26,680 --> 00:00:29,576 אני סטודנט לתואר שני באוניברסיטת וושינגטון, 11 00:00:29,600 --> 00:00:31,496 ואני עובד על פרויקט שנקרא "דארקנט", 12 00:00:31,520 --> 00:00:33,216 שהוא מסגרת של רשת עצבית 13 00:00:33,240 --> 00:00:36,056 להכשרה ובדיקת מודלים של ראייה ממוחשבת. 14 00:00:36,080 --> 00:00:39,056 אז בואו ונראה מה "דארקנט" חושבת 15 00:00:39,080 --> 00:00:40,840 על תמונה זו שיש לנו. 16 00:00:42,520 --> 00:00:44,856 כאשר אנו מפעילים את המסווג שלנו 17 00:00:44,880 --> 00:00:46,096 על התמונה הזו, 18 00:00:46,120 --> 00:00:48,576 רואים שלא רק מקבלים חיזוי של כלב או חתול, 19 00:00:48,600 --> 00:00:50,936 אנחנו למעשה מקבלים תחזיות של גזע ספציפי. 20 00:00:50,960 --> 00:00:53,136 זוהי רמת הפירוט שיש לנו עכשיו. 21 00:00:53,160 --> 00:00:54,776 והיא נכונה. 22 00:00:54,800 --> 00:00:56,640 הכלב שלי למעשה הוא מלמוט. 23 00:00:57,040 --> 00:01:01,376 אז עשינו צעדים מדהימים בסיווג תמונות, 24 00:01:01,400 --> 00:01:03,400 אבל מה קורה כשאנו מפעילים את המסווג 25 00:01:03,424 --> 00:01:05,384 על תמונה שנראית כמו זו? 26 00:01:07,080 --> 00:01:08,280 טוב ... 27 00:01:12,640 --> 00:01:16,536 אנו רואים שהמסווג נותן תחזית די דומה. 28 00:01:16,560 --> 00:01:19,656 וזה נכון. יש מלמוט בתמונה. 29 00:01:19,680 --> 00:01:23,376 אבל רק בהתחשב בתווית זו, איננו ממש יודעים כל כך הרבה 30 00:01:23,400 --> 00:01:25,067 על מה שקורה בתמונה. 31 00:01:25,091 --> 00:01:26,651 אנחנו צריכים משהו חזק יותר. 32 00:01:27,240 --> 00:01:29,856 אני עובד על בעיה שנקראת זיהוי אובייקט, 33 00:01:29,880 --> 00:01:32,816 שבה אנו מסתכלים על תמונה ומנסים למצוא את כל האובייקטים, 34 00:01:32,840 --> 00:01:34,296 שמים קופסאות תוחמות סביבם 35 00:01:34,320 --> 00:01:35,840 ואומרים מה הם אובייקטים אלה: 36 00:01:36,400 --> 00:01:39,680 אז זה מה שקורה כשאנו מפעילים גלאי על התמונה הזאת. 37 00:01:41,240 --> 00:01:43,496 עכשיו, עם סוג זה של תוצאה, 38 00:01:43,520 --> 00:01:46,216 נוכל לעשות הרבה יותר עם האלגוריתמים של הראייה הממוחשבת. 39 00:01:46,240 --> 00:01:49,216 אנחנו רואים שהוא מזהה שיש חתול וכלב. 40 00:01:49,240 --> 00:01:51,496 הוא יודע את המקומות היחסיים שלהם, 41 00:01:51,520 --> 00:01:52,736 את גודלם. 42 00:01:52,760 --> 00:01:54,696 הוא אולי אפילו יודע עוד מידע נוסף כלשהו. 43 00:01:54,720 --> 00:01:56,680 יש ספר שמונח ברקע. 44 00:01:57,280 --> 00:02:00,536 ואם רוצים לבנות שיטה על גבי ראייה ממוחשבת, 45 00:02:00,560 --> 00:02:04,016 למשל, רכב נהיגה עצמית או מערכת רובוטית, 46 00:02:04,040 --> 00:02:06,496 זה סוג המידע שמעונינים בו. 47 00:02:06,520 --> 00:02:09,759 רוצים משהו שיאפשר לתקשר עם העולם הפיזי. 48 00:02:10,759 --> 00:02:13,016 עכשיו, כשהתחלתי לעבוד על זיהוי אובייקט, 49 00:02:13,040 --> 00:02:16,336 לקח 20 שניות כדי לעבד תמונה בודדת. 50 00:02:16,360 --> 00:02:20,240 וכדי לקבל תחושה לסיבה שמהירות כה חשובה בתחום זה, 51 00:02:21,120 --> 00:02:23,656 הנה דוגמה של גלאי אובייקט 52 00:02:23,680 --> 00:02:26,096 שלוקח לו שתי שניות לעבד תמונה. 53 00:02:26,120 --> 00:02:28,736 אז זה פי 10 מהר יותר 54 00:02:28,760 --> 00:02:32,296 מה20 שניות לתמונה של גלאי תמונה, 55 00:02:32,320 --> 00:02:34,976 ואתם יכולים לראות שעד שזה עושה תחזיות, 56 00:02:35,000 --> 00:02:37,040 המצב כולו של העולם השתנה, 57 00:02:37,880 --> 00:02:40,296 וזה לא יהיה מאוד שימושי 58 00:02:40,320 --> 00:02:41,736 עבור יישום. 59 00:02:41,760 --> 00:02:44,256 אם נאיץ את זה לפי מקדם נוסף של 10, 60 00:02:44,280 --> 00:02:47,096 זה יהיה גלאי שרץ בחמש מסגרות לשנייה. 61 00:02:47,120 --> 00:02:48,656 זה הרבה יותר טוב, 62 00:02:48,680 --> 00:02:50,656 אבל לדוגמה, 63 00:02:50,680 --> 00:02:52,976 אם יש תנועה משמעותית, 64 00:02:53,000 --> 00:02:55,560 לא הייתי רוצה שמערכת כזו תנהג במכונית שלי. 65 00:02:57,120 --> 00:03:00,360 זוהי מערכת האיתור שלנו שרצה בזמן אמת על המחשב הנייד שלי. 66 00:03:01,000 --> 00:03:04,136 כך היא עוקבת אחרי בצורה חלקה כשאני זז סביב המסגרת, 67 00:03:04,160 --> 00:03:07,880 והיא חסינה למגוון רחב של שינויים בגודל, 68 00:03:09,440 --> 00:03:10,640 העמדה, 69 00:03:11,280 --> 00:03:13,136 קדימה, אחורה. 70 00:03:13,160 --> 00:03:14,376 זה נהדר. 71 00:03:14,400 --> 00:03:16,136 זה מה שאנחנו באמת צריכים 72 00:03:16,160 --> 00:03:19,056 אם אנחנו הולכים לבנות מערכות על גבי ראייה ממוחשבת. 73 00:03:19,080 --> 00:03:23,080 (מחיאות כפיים) 74 00:03:24,280 --> 00:03:26,456 אז תוך שנים אחדות, 75 00:03:26,480 --> 00:03:29,136 עברנו מ -20 שניות לתמונה 76 00:03:29,160 --> 00:03:32,696 ל 20 אלפיות השנייה, פי אלף יותר מהר. 77 00:03:32,720 --> 00:03:34,136 איך הגענו לזה? 78 00:03:34,160 --> 00:03:37,176 בעבר, מערכות לאיתור אובייקטים 79 00:03:37,200 --> 00:03:39,136 היו לוקחות תמונה כמו זו 80 00:03:39,160 --> 00:03:41,616 ומפצלות אותה לקבוצה של אזורים 81 00:03:41,640 --> 00:03:44,896 ולאחר מכן מפעילות מסווג על כל אחד מאזורים אלה, 82 00:03:44,920 --> 00:03:47,456 וציונים גבוהים עבור מסווג זה 83 00:03:47,480 --> 00:03:50,616 ייחשבו זיהויים בתמונה. 84 00:03:50,640 --> 00:03:54,696 אבל זה כרוך בהפעלת מסווג אלפי פעמים על תמונה, 85 00:03:54,720 --> 00:03:57,640 אלפי הערכות של רשת עצבית כדי לייצר זיהוי. 86 00:03:59,240 --> 00:04:03,776 במקום זה, הכשרנו רשת אחת לעשות את כל הזיהוי עבורנו. 87 00:04:03,800 --> 00:04:08,080 היא מייצרת את כל תיבות התחימה ואת סוג ההסתברויות בו זמנית. 88 00:04:08,680 --> 00:04:12,176 עם המערכת שלנו, במקום להסתכל על תמונה אלפי פעמים 89 00:04:12,200 --> 00:04:13,656 כדי לייצר זיהוי, 90 00:04:13,680 --> 00:04:14,936 מסתכלים רק פעם אחת, 91 00:04:14,960 --> 00:04:17,880 ולכן אנחנו קוראים לזה שיטת YOLO לזיהוי אובייקט. 92 00:04:19,360 --> 00:04:23,336 אז עם מהירות זו, איננו מוגבלים רק לתמונות; 93 00:04:23,360 --> 00:04:25,776 אנו יכולים לעבד וידאו בזמן אמת. 94 00:04:25,800 --> 00:04:28,896 ועכשיו, במקום לראות רק את החתול והכלב האלה, 95 00:04:28,920 --> 00:04:31,880 אנחנו יכולים לראות אותם נעים סביב ומתקשרים אחד עם השני. 96 00:04:34,560 --> 00:04:36,616 זהו גלאי שאימנו 97 00:04:36,640 --> 00:04:41,016 על 80 סוגים שונים 98 00:04:41,040 --> 00:04:44,296 במערך הנתונים COCO של מיקרוסופט. 99 00:04:44,320 --> 00:04:47,656 יש בו כל מיני דברים כמו כף ומזלג, קערה, 100 00:04:47,680 --> 00:04:49,480 חפצים רגילים כאלה. 101 00:04:50,360 --> 00:04:53,456 יש לו מגוון של דברים אקזוטיים יותר: 102 00:04:53,480 --> 00:04:56,736 חיות, מכוניות, זברות, ג'ירפות. 103 00:04:56,760 --> 00:04:58,696 ועכשיו אנחנו הולכים לעשות משהו מהנה. 104 00:04:58,720 --> 00:05:00,816 אנחנו פשוט יוצאים אל הקהל 105 00:05:00,840 --> 00:05:02,856 כדי לראות איזה סוג של דברים נוכל לזהות. 106 00:05:02,880 --> 00:05:04,500 האם מישהו רוצה בובת חיה? 107 00:05:06,000 --> 00:05:07,762 יש כמה בובות דובי שם. 108 00:05:10,040 --> 00:05:14,576 ואנחנו יכול להנמיך מעט את סף הזיהוי שלנו, 109 00:05:14,600 --> 00:05:18,000 כדי שנוכל למצוא יותר אנשים מביניכם, בקהל. 110 00:05:19,560 --> 00:05:21,896 בואו ונראה אם נוכל לתפוס תמרורי עצור אלה. 111 00:05:21,920 --> 00:05:23,800 אנחנו מוצאים כמה תרמילי גב. 112 00:05:25,880 --> 00:05:27,720 בואו פשוט נגדיל קצת. 113 00:05:30,320 --> 00:05:31,576 וזה נהדר. 114 00:05:31,600 --> 00:05:34,776 וכל העיבוד קורה בזמן אמת 115 00:05:34,800 --> 00:05:36,000 על המחשב הנייד. 116 00:05:37,080 --> 00:05:38,536 וחשוב לזכור 117 00:05:38,560 --> 00:05:41,776 שזוהי מערכת זיהוי אובייקט למטרה כללית, 118 00:05:41,800 --> 00:05:46,800 כך שנוכל להכשיר אותה עבור תמונה מכל תחום. 119 00:05:48,320 --> 00:05:50,856 אותו קוד שבו אנו משתמשים 120 00:05:50,880 --> 00:05:53,336 כדי למצוא שלטי עצור או הולכי רגל, 121 00:05:53,360 --> 00:05:55,336 אופניים ברכב לנהיגה עצמית, 122 00:05:55,360 --> 00:05:58,216 יכול לשמש כדי למצוא תאים סרטניים 123 00:05:58,240 --> 00:06:01,256 בביופסיה של רקמה. 124 00:06:01,280 --> 00:06:05,320 ויש חוקרים ברחבי העולם שכבר משתמשים בטכנולוגיה זו 125 00:06:06,240 --> 00:06:09,656 לקדם תחומים כמו רפואה, ורובוטיקה. 126 00:06:09,680 --> 00:06:11,056 הבוקר קראתי עיתון 127 00:06:11,080 --> 00:06:15,656 שבו ערכו מפקד של בעלי חיים בפארק הלאומי של ניירובי 128 00:06:15,680 --> 00:06:18,816 עם YOLO כחלק של מערכת זיהוי זו. 129 00:06:18,840 --> 00:06:21,936 וזה בגלל ש "דארקנט" הוא קוד פתוח 130 00:06:21,960 --> 00:06:24,480 עבור רשות הרבים, וללא תשלום, לכל מי שרוצה להשתמש, 131 00:06:25,600 --> 00:06:31,296 (מחיאות כפיים) 132 00:06:31,320 --> 00:06:36,256 אבל רצינו לעשות את הזיהוי לאפילו יותר נגיש ושמיש, 133 00:06:36,280 --> 00:06:40,336 כך שבאמצעות שילוב של אופטימיזציה של המודל, 134 00:06:40,360 --> 00:06:42,656 בינאריזציה ואומדנות של רשת, 135 00:06:42,680 --> 00:06:46,600 יש לנו למעשה זיהוי אובייקט שרץ בטלפון. 136 00:06:52,800 --> 00:06:58,120 (מחיאות כפיים) 137 00:06:58,960 --> 00:07:04,016 ואני באמת מתרגש כי עכשיו יש לנו פתרון די חזק 138 00:07:04,040 --> 00:07:06,336 לבעיית ראייה ממוחשבת ברמה נמוכה זו. 139 00:07:06,360 --> 00:07:10,216 וכל אחד יכול לקחת את זה ולבנות עם זה משהו. 140 00:07:10,240 --> 00:07:13,416 אז עכשיו כל השאר תלוי בכם 141 00:07:13,440 --> 00:07:16,376 ובאנשים ברחבי העולם עם גישה לתוכנה זו, 142 00:07:16,400 --> 00:07:20,056 ואני לא יכול לחכות לראות מה אנשים יבנו עם טכנולוגיה זו. 143 00:07:20,080 --> 00:07:21,296 תודה רבה. 144 00:07:21,320 --> 00:07:24,760 (מחיאות כפיים)