Return to Video

كيف يتعلم الحاسوب التعرف على الأشياء فورًا؟

  • 0:01 - 0:02
    منذ عشر سنوات مضت،
  • 0:02 - 0:05
    اعتقد باحثوا رؤية الكمبيوتر أن الحصول
    على جهاز كمبيوتر
  • 0:05 - 0:07
    لمعرفة الفرق بين القط والكلب
  • 0:08 - 0:09
    سيكون شبه مستحيل،
  • 0:10 - 0:13
    وحتى مع التقدم الكبير فى حالة
    الذكاء الاصطناعي.
  • 0:13 - 0:17
    يمكننا الآن أن نفعل ذلك بمستوى
    دقة أعلى من 99%.
  • 0:18 - 0:20
    وهذا ما يسمى بالتصنيف الصوري --
  • 0:20 - 0:23
    وإعطائها صورة،
    ووضع تسمية لتلك الصورة --
  • 0:23 - 0:26
    وكذلك تعرف أجهزة الكمبيوتر الآلاف
    من الفئات الأخرى.
  • 0:27 - 0:30
    أنا طالب دراسات عليا فى جامعة واشنطن
  • 0:30 - 0:31
    وأنا أعمل على مشروع يسمى "داركنيت"
  • 0:32 - 0:33
    وهو إطار الشبكة العصبية
  • 0:33 - 0:36
    لتدريب واختبار نماذج رؤية الكمبيوتر.
  • 0:36 - 0:39
    ولذلك، دعونا نرى ماذا يفكر "داركنيت"
  • 0:39 - 0:41
    فى هذه الصورة لدينا.
  • 0:43 - 0:45
    عندما نقوم بتشغيل المصنف لدينا
  • 0:45 - 0:46
    على هذه الصورة،
  • 0:46 - 0:49
    نجد أننا لا نحصل فقط على تنبؤ للكلب والقط،
  • 0:49 - 0:51
    نحن فى الواقع نحصل على
    تنبؤات سلالة محددة.
  • 0:51 - 0:53
    ذلك هو مستوى التقسيمات المتوفر لنا الآن.
  • 0:53 - 0:55
    وهو صحيح.
  • 0:55 - 0:57
    في الحقيقة فإن كلبي هو "ملموت."
  • 0:57 - 1:01
    ولذلك فقد حقننا خطوة مذهلة فى
    تصنيف الصورة،
  • 1:01 - 1:03
    ولكن ماذا يحدث عندما
    نشغّل المصنف لدينا
  • 1:03 - 1:05
    في صورة تبدو كهذه؟
  • 1:07 - 1:08
    حسناً ...
  • 1:13 - 1:17
    نرى أن المصنف يعود مع تنبؤ مماثل جداً.
  • 1:17 - 1:20
    وهذا صحيح،
    فهناك ملموت فى الصورة،
  • 1:20 - 1:23
    ولكن فقط نظراً لهذه التسمية،
    فنحن حقاً لا نعرف الكثير
  • 1:23 - 1:25
    عن ماذا يدور فى الصورة.
  • 1:25 - 1:27
    ونحن بحاجة إلى شيء أكثر قوة.
  • 1:27 - 1:30
    أنا أعمل على مشكلة
    تسمى الكشف عن الكائن،
  • 1:30 - 1:33
    حيث ننظر إلى صورة
    ونحاول العثور على كل الكائنات،
  • 1:33 - 1:34
    ووضع المربعات المحيطة بهم
  • 1:34 - 1:36
    ونقول ما هي تلك الكائنات.
  • 1:36 - 1:40
    وهنا ما يحدث عندما نقوم بتشغيل
    المكشاف على هذه الصورة.
  • 1:41 - 1:43
    والآن، مع نتيجة من هذا النوع،
  • 1:44 - 1:46
    نستطيع فعل أكثر من ذللك بكثير
    مع خوارزمياتنا لرؤية الكمبيوتر.
  • 1:46 - 1:49
    نجد أنه يعرف أن هناك قط وكلب.
  • 1:49 - 1:51
    ويعرف مواقعهم النسبية،
  • 1:52 - 1:53
    وحجمهم.
  • 1:53 - 1:55
    وربما يعرف معلومات إضافية.
  • 1:55 - 1:57
    يوجد كتاب فى الخلفية.
  • 1:57 - 2:01
    وإذا أردت بناء نظام أعلى رؤية الكمبيوتر،
  • 2:01 - 2:04
    فلنقل سيارة ذاتية القيادة أو نظام روبوتية
  • 2:04 - 2:06
    هذا هو نوع المعلومات التي تريدها.
  • 2:07 - 2:10
    تريد شيئًا بحيث يمكنك التفاعل
    مع العالم المادي.
  • 2:11 - 2:13
    والآن، عندما بدأت العمل
    في الكشف عن الكائنات،
  • 2:13 - 2:16
    فقد استغرق الأمر 20 ثانية
    لمعالجة صورة واحدة.
  • 2:16 - 2:20
    وللحصول على شعور
    لماذا السرعة مهمة جدًا فى هذا المجال،
  • 2:21 - 2:24
    هنا مثال للكشف عن كائن
  • 2:24 - 2:26
    والذي يستغرق تانيتين
    لمعالجة صورة.
  • 2:26 - 2:29
    لذا فهذا أسرع ب 10 مرات
  • 2:29 - 2:32
    من 20 تانية لكل كشف على صورة واحدة،
  • 2:32 - 2:35
    ويمكنك فى نفس الوقت أن ترى
    أنه يقوم بتنبؤات،
  • 2:35 - 2:37
    فقد تغيّرت حالة العالم بأسرها،
  • 2:38 - 2:40
    وهذا لن يكون مفيدًا جدًا
  • 2:40 - 2:42
    للتطبيق.
  • 2:42 - 2:44
    إذا قمنا بتسريع هذا
    بواسطة عامل آخر بمقدار 10
  • 2:44 - 2:47
    فهذا كاشف يعمل
    بمعدل خمسة إطارات فى الثانية الواحدة.
  • 2:47 - 2:49
    وهذا أفضل بكثير،
  • 2:49 - 2:51
    ولكن على سبيل المثال،
  • 2:51 - 2:53
    فإذا كان هناك أي حركة كبيرة،
  • 2:53 - 2:56
    فلن أحتاج إلى نظام مثل قيادة سيارتي.
  • 2:57 - 3:00
    هذا هو نظام الكشف لدينا المشغّل
    فى الوقت الحقيقي على كمبيوتري المحمول.
  • 3:01 - 3:04
    حيث يتتبعني بسلاسة
    بينما أتحرك في جميع أنحاء الإطار،
  • 3:04 - 3:08
    وهي قوى لمجموعة واسعة
    من التغيرات في الحجم،
  • 3:09 - 3:11
    والتشكيل،
  • 3:11 - 3:13
    إلى الأمام وإلى الخلف.
  • 3:13 - 3:14
    هذا عظيم.
  • 3:14 - 3:16
    هذا هو حقًا ما نريده
  • 3:16 - 3:19
    إذا كنا سنبني أنظمة
    على رأس رؤية الكمبيوتر.
  • 3:19 - 3:23
    (تصفيق)
  • 3:24 - 3:26
    بالتالي في بضع سنوات فقط،
  • 3:26 - 3:29
    فقد انتقلنا من 20 ثانية لكل صورة
  • 3:29 - 3:33
    إلى 20 جزء من ألف جزء من الثانية لكل صورة،
    أسرع بألف مرة.
  • 3:33 - 3:34
    كيف وصلنا إلى هناك؟
  • 3:34 - 3:37
    حسناً، في الماضي
    كانت أنظمة الكشف عن الكائن
  • 3:37 - 3:39
    تأخذ صورة من هذا القبيل
  • 3:39 - 3:42
    وتقوم بتقسيمها إلى مجموعة من المناطق
  • 3:42 - 3:45
    ثم تقوم بتشغيل المصنف
    على كلّ من تلك المناطق،
  • 3:45 - 3:47
    ودرجات عالية من المصنف
  • 3:47 - 3:51
    ستعتبر بمثابة الكشف عن الصورة.
  • 3:51 - 3:55
    ولكن هذا ينطوى على تشغيل المصنف
    الآف المرات على الصورة،
  • 3:55 - 3:58
    والآلاف من تقييم الشبكة العصبية
    لإنتاج الكشف.
  • 3:59 - 4:04
    وبدلاً من ذلك، فقد قمنا بتدريب شبكة واحدة
    للقيام بالكشف كاملاً لنا.
  • 4:04 - 4:08
    فهي تنتج كافة المربعات المحيطة
    وفئة الإحتمالات في آن واحد.
  • 4:09 - 4:12
    مع نظامنا، بدلاً من البحث
    في الصورة لآلاف المرات
  • 4:12 - 4:14
    لإنتاج كشفها،
  • 4:14 - 4:15
    فأنت تنظر مرة واحدة فقط،
  • 4:15 - 4:18
    ولهذا السبب نحن نسميها
    طريقة الكشف عن كائن "يولو."
  • 4:19 - 4:23
    لهذا بهذه السرعة
    فنحن لا نقتصر فقط على الصور؛
  • 4:23 - 4:26
    بل نستطيع أن نعالج الفيديو في
    الوقت الحقيقي.
  • 4:26 - 4:29
    والآن، بدلاً من مجرد رؤية
    ذلك القط والكلب،
  • 4:29 - 4:32
    نستطيع أن نرى تحركاتهم
    وتفاعلهم تجاه بعضهم البعض.
  • 4:35 - 4:37
    وهذا هو جهاز الكشف الذي قمنا بتدريبه
  • 4:37 - 4:41
    في 80 فئة مختلفة
  • 4:41 - 4:44
    في مجموعة بيانات "كوكو" ميكروسفت.
  • 4:44 - 4:48
    لديها جميع أنواع االأشياء
    مثل الملعقة والشوكة والسلطانية.
  • 4:48 - 4:49
    الأشياء الشائعة من هذا القبيل.
  • 4:50 - 4:53
    لديها مجموعة متنوعة من أشياء أكثر غرابة:
  • 4:53 - 4:57
    مثل الحيوانات والسيارات والحمر الوحشية
    والزرافات
  • 4:57 - 4:59
    وسنقوم الآن بشيء مرح.
  • 4:59 - 5:01
    سنستهدف الجمهور
  • 5:01 - 5:03
    ونرى ما نوع الأشياء التي يمكننا
    الكشف عنها.
  • 5:03 - 5:04
    هل من أحد يريد الحيوانات المحنطة؟
  • 5:06 - 5:08
    توجد بعض الدببة هناك.
  • 5:10 - 5:15
    ويمكننا أن نخفض العتبة
    لدينا للكشف عنه قليلاً،
  • 5:15 - 5:18
    لذا فنستطيع أن نجد عددًا أكبر يا رفاق
    من ذلك الجمهور.
  • 5:20 - 5:22
    لنرى إذا كان يمكننا الحصول
    على علامات التوقف هذه.
  • 5:22 - 5:24
    نجد بعض حقائب الظهر.
  • 5:26 - 5:28
    دعونا فقط نكبّر قليلاً.
  • 5:30 - 5:32
    وهذا شيء عظيم.
  • 5:32 - 5:35
    والتحويل يحدث كلياً
    فى الوقت الحقيقي
  • 5:35 - 5:36
    على الكمبيوتر المحمول.
  • 5:37 - 5:39
    وهذا أمر هام للتذكّر
  • 5:39 - 5:42
    وهذا هو الغرض العام
    لنظام الكشف عن الكائن،
  • 5:42 - 5:47
    نستطيع أن نُدرب هذا لأي نطاق للصورة.
  • 5:48 - 5:51
    نفس التعليمات البرمجية التى نستخدمها
  • 5:51 - 5:53
    لإيجاد علامات التوقف أو المشاة،
  • 5:53 - 5:55
    والدراجات الهوائية في سيارة ذاتية القيادة
  • 5:55 - 5:58
    يمكن استخدامها لإيجاد الخلايا السرطانية
  • 5:58 - 6:01
    فى عينة من الأنسجة.
  • 6:01 - 6:05
    وهناك باحثون حول العالم
    يستخدمون هذه التكنولوجيا بالفعل
  • 6:06 - 6:10
    للتقدم في أمور مثل الطب
    وعلم الإنسان الآلي.
  • 6:10 - 6:11
    فقد قرأت جريدة هذا الصباح
  • 6:11 - 6:16
    حيث أنهم يتخذون إجراء تعداد
    للحيوانات فى حديقة وطنية في نيروبي
  • 6:16 - 6:19
    مع "يولو" كجزء من نظام الكشف هذا.
  • 6:19 - 6:22
    وهذا لأن "داركنيت" هو المصدر المفتوح
  • 6:22 - 6:24
    وفى المجال العام،
    كما أنه مجاناً لأي شخص ليستخدمه.
  • 6:26 - 6:31
    (تصفيق)
  • 6:31 - 6:36
    ولكننا أردنا جعل الوصول
    إلى الكشف أكتر سهولة وكذلك استعماله،
  • 6:36 - 6:40
    وذلك من خلال الجمع بين النموذج الأمثل،
  • 6:40 - 6:43
    ووضغ البيانات على شكل ثنائي
    والقيمة التقريبية،
  • 6:43 - 6:47
    ولدينا بالفعل كاشف مواد يعمل
    على الهاتف المحمول.
  • 6:53 - 6:58
    (تصفيق)
  • 6:59 - 7:04
    وأنا متحمس حقًا لأنه لدينا
    الآن حل قوي جداً
  • 7:04 - 7:06
    لمشكلة رؤية الكمبيوتر ذات المستوى المنخفض،
  • 7:06 - 7:10
    ويستطيع أي شخص أخذها
    وبناء شيء باستخدامها.
  • 7:10 - 7:13
    لذا، البقية الآن متروكة لكم جميعاً
  • 7:13 - 7:16
    والناس حول العالم ممن لهم إمكانية
    وصول إلى هذا البرنامج،
  • 7:16 - 7:20
    ولا أستطيع الانتظار كي أرى ما سيبنيه
    الناس باستخدام هذه التكنولوجيا.
  • 7:20 - 7:21
    شكراً لكم.
  • 7:21 - 7:25
    (تصفيق)
Title:
كيف يتعلم الحاسوب التعرف على الأشياء فورًا؟
Speaker:
جوزيف ريدمود
Description:

قبل عشر سنوات، اعتقد الباحثون أن الحصول على جهاز كمبيوتر يمكنه التفريق بين القط والكلب سيكون من المستحيل تقريبًا. لكن اليوم، تستطيع الرؤية الحاسوبية فعل ذلك مع أكثر من 99 % من الدقة. كيف ذلك؟ يعمل جوزيف ريدمون على يولو (انظر مرة واحدة فقط)، وهي طريقة مفتوحة المصدر للكشف عن الكائنات في الصور والفيديو - من الحمر الوحشية وحتى إشارات التوقف - بسرعة البرق. وذلك في عرض حي ملحوظ، ويظهر يدمون قبالة هذه الخطوة الهامة إلى الأمام لتطبيقات مثل السيارات ذاتية القيادة وتصميم واستخدام الإنسان الآلي وحتى الكشف عن السرطان.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
07:37

Arabic subtitles

Revisions