1
00:00:00,825 --> 00:00:01,976
לפני עשר שנים,


2
00:00:02,000 --> 00:00:04,776
מדעני ראייה ממוחשבת חשבו שלגרום למחשב

3
00:00:04,800 --> 00:00:07,496
להבדיל בין חתול לכלב

4
00:00:07,520 --> 00:00:09,496
יהיה כמעט בלתי אפשרי,


5
00:00:09,520 --> 00:00:13,216
אפילו עם התקדמות משמעותית
במצב של הבינה המלאכותית.

6
00:00:13,240 --> 00:00:16,800
עכשיו אנחנו יכולים לעשות זאת
ברמת דיוק של למעלה מ 99 אחוז.

7
00:00:17,680 --> 00:00:19,536
זה נקרא סיווג תמונה --

8
00:00:19,560 --> 00:00:22,656
מעלים תמונה ושמים עליה תווית --

9
00:00:22,680 --> 00:00:25,720
ומחשבים מכירים אלפי קטגוריות אחרות גם כן.


10
00:00:26,680 --> 00:00:29,576
אני סטודנט לתואר שני 
באוניברסיטת וושינגטון,

11
00:00:29,600 --> 00:00:31,496
ואני עובד על פרויקט שנקרא "דארקנט",

12
00:00:31,520 --> 00:00:33,216
שהוא מסגרת של רשת עצבית

13
00:00:33,240 --> 00:00:36,056
להכשרה ובדיקת מודלים של ראייה ממוחשבת.

14
00:00:36,080 --> 00:00:39,056
אז בואו ונראה מה "דארקנט" חושבת

15
00:00:39,080 --> 00:00:40,840
על תמונה זו שיש לנו.

16
00:00:42,520 --> 00:00:44,856
כאשר אנו מפעילים את המסווג שלנו


17
00:00:44,880 --> 00:00:46,096
על התמונה הזו,


18
00:00:46,120 --> 00:00:48,576
רואים שלא רק מקבלים חיזוי של כלב או חתול,


19
00:00:48,600 --> 00:00:50,936
אנחנו למעשה מקבלים תחזיות של גזע ספציפי.

20
00:00:50,960 --> 00:00:53,136
זוהי רמת הפירוט שיש לנו עכשיו.

21
00:00:53,160 --> 00:00:54,776
והיא נכונה.

22
00:00:54,800 --> 00:00:56,640
הכלב שלי למעשה הוא מלמוט.


23
00:00:57,040 --> 00:01:01,376
אז עשינו צעדים מדהימים בסיווג תמונות,


24
00:01:01,400 --> 00:01:03,400
אבל מה קורה כשאנו מפעילים את המסווג


25
00:01:03,424 --> 00:01:05,384
על תמונה שנראית כמו זו?

26
00:01:07,080 --> 00:01:08,280
טוב ...

27
00:01:12,640 --> 00:01:16,536
אנו רואים שהמסווג נותן תחזית די דומה.

28
00:01:16,560 --> 00:01:19,656
וזה נכון. יש מלמוט בתמונה.

29
00:01:19,680 --> 00:01:23,376
אבל רק בהתחשב בתווית זו,
איננו ממש יודעים כל כך הרבה

30
00:01:23,400 --> 00:01:25,067
על מה שקורה בתמונה.


31
00:01:25,091 --> 00:01:26,651
אנחנו צריכים משהו חזק יותר.


32
00:01:27,240 --> 00:01:29,856
אני עובד על בעיה שנקראת זיהוי אובייקט,


33
00:01:29,880 --> 00:01:32,816
שבה אנו מסתכלים על תמונה
ומנסים למצוא את כל האובייקטים,


34
00:01:32,840 --> 00:01:34,296
שמים קופסאות תוחמות סביבם

35
00:01:34,320 --> 00:01:35,840
ואומרים מה הם אובייקטים אלה:

36
00:01:36,400 --> 00:01:39,680
אז זה מה שקורה כשאנו מפעילים
גלאי על התמונה הזאת.


37
00:01:41,240 --> 00:01:43,496
עכשיו, עם סוג זה של תוצאה,


38
00:01:43,520 --> 00:01:46,216
נוכל לעשות הרבה יותר עם
האלגוריתמים של הראייה הממוחשבת.

39
00:01:46,240 --> 00:01:49,216
אנחנו רואים שהוא מזהה שיש חתול וכלב.

40
00:01:49,240 --> 00:01:51,496
הוא יודע את המקומות היחסיים שלהם,


41
00:01:51,520 --> 00:01:52,736
את גודלם.


42
00:01:52,760 --> 00:01:54,696
הוא אולי אפילו יודע עוד מידע נוסף כלשהו.

43
00:01:54,720 --> 00:01:56,680
יש ספר שמונח ברקע.


44
00:01:57,280 --> 00:02:00,536
ואם רוצים לבנות שיטה על גבי ראייה ממוחשבת,

45
00:02:00,560 --> 00:02:04,016
למשל, רכב נהיגה עצמית או מערכת רובוטית,

46
00:02:04,040 --> 00:02:06,496
זה סוג המידע שמעונינים בו.

47
00:02:06,520 --> 00:02:09,759
רוצים משהו שיאפשר לתקשר עם העולם הפיזי.

48
00:02:10,759 --> 00:02:13,016
עכשיו, כשהתחלתי לעבוד על זיהוי אובייקט,


49
00:02:13,040 --> 00:02:16,336
לקח 20 שניות כדי לעבד תמונה בודדת.

50
00:02:16,360 --> 00:02:20,240
וכדי לקבל תחושה לסיבה שמהירות 
כה חשובה בתחום זה,

51
00:02:21,120 --> 00:02:23,656
הנה דוגמה של גלאי אובייקט


52
00:02:23,680 --> 00:02:26,096
שלוקח לו שתי שניות לעבד תמונה.


53
00:02:26,120 --> 00:02:28,736
אז זה פי 10 מהר יותר


54
00:02:28,760 --> 00:02:32,296
מה20 שניות לתמונה של גלאי תמונה,

55
00:02:32,320 --> 00:02:34,976
ואתם יכולים לראות שעד שזה עושה תחזיות,


56
00:02:35,000 --> 00:02:37,040
המצב כולו של העולם השתנה,

57
00:02:37,880 --> 00:02:40,296
וזה לא יהיה מאוד שימושי 


58
00:02:40,320 --> 00:02:41,736
עבור יישום.


59
00:02:41,760 --> 00:02:44,256
אם נאיץ את זה
לפי מקדם נוסף של 10,

60
00:02:44,280 --> 00:02:47,096
זה יהיה גלאי שרץ בחמש מסגרות לשנייה.

61
00:02:47,120 --> 00:02:48,656
זה הרבה יותר טוב,


62
00:02:48,680 --> 00:02:50,656
אבל לדוגמה,

63
00:02:50,680 --> 00:02:52,976
אם יש תנועה משמעותית,


64
00:02:53,000 --> 00:02:55,560
לא הייתי רוצה שמערכת כזו תנהג במכונית שלי.


65
00:02:57,120 --> 00:03:00,360
זוהי מערכת האיתור שלנו שרצה
בזמן אמת על המחשב הנייד שלי.


66
00:03:01,000 --> 00:03:04,136
כך היא עוקבת אחרי בצורה חלקה
כשאני זז סביב המסגרת,

67
00:03:04,160 --> 00:03:07,880
והיא חסינה למגוון רחב של שינויים בגודל,

68
00:03:09,440 --> 00:03:10,640
העמדה,

69
00:03:11,280 --> 00:03:13,136
קדימה, אחורה.


70
00:03:13,160 --> 00:03:14,376
זה נהדר.


71
00:03:14,400 --> 00:03:16,136
זה מה שאנחנו באמת צריכים


72
00:03:16,160 --> 00:03:19,056
אם אנחנו הולכים לבנות מערכות
על גבי ראייה ממוחשבת.

73
00:03:19,080 --> 00:03:23,080
(מחיאות כפיים)

74
00:03:24,280 --> 00:03:26,456
אז תוך שנים אחדות,

75
00:03:26,480 --> 00:03:29,136
עברנו מ -20 שניות לתמונה

76
00:03:29,160 --> 00:03:32,696
ל 20 אלפיות השנייה, פי אלף יותר מהר.

77
00:03:32,720 --> 00:03:34,136
איך הגענו לזה?


78
00:03:34,160 --> 00:03:37,176
בעבר, מערכות לאיתור אובייקטים



79
00:03:37,200 --> 00:03:39,136
היו לוקחות תמונה כמו זו

80
00:03:39,160 --> 00:03:41,616
ומפצלות אותה לקבוצה של אזורים


81
00:03:41,640 --> 00:03:44,896
ולאחר מכן מפעילות מסווג
על כל אחד מאזורים אלה,

82
00:03:44,920 --> 00:03:47,456
וציונים גבוהים עבור מסווג זה

83
00:03:47,480 --> 00:03:50,616
ייחשבו זיהויים בתמונה.

84
00:03:50,640 --> 00:03:54,696
אבל זה כרוך בהפעלת מסווג
אלפי פעמים על תמונה,

85
00:03:54,720 --> 00:03:57,640
אלפי הערכות של רשת עצבית
כדי לייצר זיהוי.

86
00:03:59,240 --> 00:04:03,776
במקום זה, הכשרנו רשת אחת
לעשות את כל הזיהוי עבורנו.

87
00:04:03,800 --> 00:04:08,080
היא מייצרת את כל תיבות התחימה
ואת סוג ההסתברויות בו זמנית.

88
00:04:08,680 --> 00:04:12,176
עם המערכת שלנו, במקום להסתכל
על תמונה אלפי פעמים

89
00:04:12,200 --> 00:04:13,656
כדי לייצר זיהוי,


90
00:04:13,680 --> 00:04:14,936
מסתכלים רק פעם אחת,

91
00:04:14,960 --> 00:04:17,880
ולכן אנחנו קוראים לזה 
שיטת YOLO לזיהוי אובייקט.


92
00:04:19,360 --> 00:04:23,336
אז עם מהירות זו, איננו מוגבלים רק לתמונות;


93
00:04:23,360 --> 00:04:25,776
אנו יכולים לעבד וידאו בזמן אמת.


94
00:04:25,800 --> 00:04:28,896
ועכשיו, במקום לראות רק 
את החתול והכלב האלה,

95
00:04:28,920 --> 00:04:31,880
אנחנו יכולים לראות אותם נעים סביב
ומתקשרים אחד עם השני.

96
00:04:34,560 --> 00:04:36,616
זהו גלאי שאימנו

97
00:04:36,640 --> 00:04:41,016
על 80 סוגים שונים

98
00:04:41,040 --> 00:04:44,296
במערך הנתונים COCO של מיקרוסופט.


99
00:04:44,320 --> 00:04:47,656
יש בו כל מיני דברים כמו כף ומזלג, קערה,


100
00:04:47,680 --> 00:04:49,480
חפצים רגילים כאלה.

101
00:04:50,360 --> 00:04:53,456
יש לו מגוון של דברים אקזוטיים יותר:


102
00:04:53,480 --> 00:04:56,736
חיות, מכוניות, זברות, ג'ירפות.

103
00:04:56,760 --> 00:04:58,696
ועכשיו אנחנו הולכים לעשות משהו מהנה.


104
00:04:58,720 --> 00:05:00,816
אנחנו פשוט יוצאים אל הקהל

105
00:05:00,840 --> 00:05:02,856
כדי לראות איזה סוג של דברים
נוכל לזהות.

106
00:05:02,880 --> 00:05:04,500
האם מישהו רוצה בובת חיה?


107
00:05:06,000 --> 00:05:07,762
יש כמה בובות דובי שם.

108
00:05:10,040 --> 00:05:14,576
ואנחנו יכול להנמיך מעט את סף הזיהוי שלנו,

109
00:05:14,600 --> 00:05:18,000
כדי שנוכל למצוא יותר אנשים מביניכם, בקהל.

110
00:05:19,560 --> 00:05:21,896
בואו ונראה אם נוכל לתפוס תמרורי עצור אלה.

111
00:05:21,920 --> 00:05:23,800
אנחנו מוצאים כמה תרמילי גב.

112
00:05:25,880 --> 00:05:27,720
בואו פשוט נגדיל קצת.

113
00:05:30,320 --> 00:05:31,576
וזה נהדר.

114
00:05:31,600 --> 00:05:34,776
וכל העיבוד קורה בזמן אמת

115
00:05:34,800 --> 00:05:36,000
על המחשב הנייד.


116
00:05:37,080 --> 00:05:38,536
וחשוב לזכור


117
00:05:38,560 --> 00:05:41,776
שזוהי מערכת זיהוי אובייקט למטרה כללית,


118
00:05:41,800 --> 00:05:46,800
כך שנוכל להכשיר אותה עבור תמונה מכל תחום.

119
00:05:48,320 --> 00:05:50,856
אותו קוד שבו אנו משתמשים


120
00:05:50,880 --> 00:05:53,336
כדי למצוא שלטי עצור או הולכי רגל,

121
00:05:53,360 --> 00:05:55,336
אופניים ברכב לנהיגה עצמית,

122
00:05:55,360 --> 00:05:58,216
יכול לשמש כדי למצוא תאים סרטניים

123
00:05:58,240 --> 00:06:01,256
בביופסיה של רקמה.

124
00:06:01,280 --> 00:06:05,320
ויש חוקרים ברחבי העולם
שכבר משתמשים בטכנולוגיה זו


125
00:06:06,240 --> 00:06:09,656
לקדם תחומים כמו רפואה, ורובוטיקה.

126
00:06:09,680 --> 00:06:11,056
הבוקר קראתי עיתון


127
00:06:11,080 --> 00:06:15,656
שבו ערכו מפקד של בעלי חיים 
בפארק הלאומי של ניירובי

128
00:06:15,680 --> 00:06:18,816
עם YOLO כחלק של מערכת זיהוי זו.

129
00:06:18,840 --> 00:06:21,936
וזה בגלל ש "דארקנט" הוא קוד פתוח


130
00:06:21,960 --> 00:06:24,480
עבור רשות הרבים, וללא תשלום, 
לכל מי שרוצה להשתמש,

131
00:06:25,600 --> 00:06:31,296
(מחיאות כפיים)

132
00:06:31,320 --> 00:06:36,256
אבל רצינו לעשות את הזיהוי 
לאפילו יותר נגיש ושמיש,

133
00:06:36,280 --> 00:06:40,336
כך שבאמצעות שילוב
של אופטימיזציה של המודל,

134
00:06:40,360 --> 00:06:42,656
בינאריזציה ואומדנות של רשת,

135
00:06:42,680 --> 00:06:46,600
יש לנו למעשה זיהוי אובייקט שרץ בטלפון.


136
00:06:52,800 --> 00:06:58,120
(מחיאות כפיים)

137
00:06:58,960 --> 00:07:04,016
ואני באמת מתרגש כי
עכשיו יש לנו פתרון די חזק


138
00:07:04,040 --> 00:07:06,336
לבעיית ראייה ממוחשבת ברמה נמוכה זו.

139
00:07:06,360 --> 00:07:10,216
וכל אחד יכול לקחת את זה ולבנות עם זה משהו.

140
00:07:10,240 --> 00:07:13,416
אז עכשיו כל השאר תלוי בכם


141
00:07:13,440 --> 00:07:16,376
ובאנשים ברחבי העולם עם גישה לתוכנה זו,

142
00:07:16,400 --> 00:07:20,056
ואני לא יכול לחכות לראות מה אנשים
יבנו עם טכנולוגיה זו.

143
00:07:20,080 --> 00:07:21,296
תודה רבה.

144
00:07:21,320 --> 00:07:24,760
(מחיאות כפיים)