Return to Video

چگونه یک کامپیوتر یاد می‌گیرد تا فورا یک شی را بازشناسی کند

  • 0:01 - 0:02
    ۱۰ سال قبل
  • 0:02 - 0:05
    محققان بینایی ماشین فکر کردند که
  • 0:05 - 0:07
    گفتن فرق بین گربه و سگ به کامپیوتر
  • 0:08 - 0:09
    تقریبا غیرممکن خواهد بود،
  • 0:10 - 0:13
    حتی با پیشرفتهای قابل توجه در
    هوش مصنوعی.
  • 0:13 - 0:17
    حالا ما میتوانیم این را با
    دقت بیشتر از ۹۹ درصد انجام بدیم
  • 0:18 - 0:20
    این را دسته بندی تصویر میگویند--
  • 0:20 - 0:23
    یک تصویر بهش بده و یک برچسب به تصویر بزن--
  • 0:23 - 0:26
    و کامپیوترها هزاران دسته بندی دیگر را
    نیز به خوبی میدانند.
  • 0:27 - 0:30
    من دانشجوی ارشد از
    دانشگاه واشنگتن هستم
  • 0:30 - 0:31
    و مشغول کار روی پروژه
    دارکنت (شبکه سیاه)
  • 0:32 - 0:33
    که در چارچوب شبکه عصبی است
  • 0:33 - 0:36
    برای آموزش دادن و تست کردن
    مدلهای بینایی کامیپوتر.
  • 0:36 - 0:39
    خب بیاید به چگونگی فکر کردن
    دارکنت
  • 0:39 - 0:41
    به این تصاویری که داریم، نگاه کنیم.
  • 0:43 - 0:45
    وقتی طبقه بندیمان را روی این تصاویر
  • 0:45 - 0:46
    اجرا میکنیم.
  • 0:46 - 0:49
    میبینیم که فقط پیشبینی
    سگ یا گربه بودن نیست.
  • 0:49 - 0:51
    در واقع نژاد پیشبینیها را نیز میگوییم.
  • 0:51 - 0:53
    این سطح جزئیاتی است که الان داریم
  • 0:53 - 0:55
    و صحیح است.
  • 0:55 - 0:57
    سگ من در حقیقت مالاموت است.
  • 0:57 - 1:01
    خب گامهای حیرت آوری
    در دسته بندی تصاویر ساختهایم،
  • 1:01 - 1:03
    اما چه اتفاقی میفتد
    وقتی طبقهبندمان را
  • 1:03 - 1:05
    روی تصویری مثل
    این اجرا میکنیم؟
  • 1:07 - 1:08
    خب...
  • 1:13 - 1:17
    میبینیم که طبقهبند با یک
    پیشبینی خیلی مشابه باز میگردد.
  • 1:17 - 1:20
    و درسته،
    یک مالاموت در تصویر وجود دارد،
  • 1:20 - 1:23
    اما فقط یک برچسب داده شده،
    در واقع خیلی درباره
  • 1:23 - 1:25
    اینکه در تصویر
    چه رخ داده نمیدانیم.
  • 1:25 - 1:27
    به چیزی قویتری نیاز داریم.
  • 1:27 - 1:30
    من روی یک مسئله کار میکنم که
    یافتن اشیا نامیده میشود،
  • 1:30 - 1:33
    وقتی به تصویری نگاه می کنیم
    و سعی در یافتن تمام اشیا داریم،
  • 1:33 - 1:34
    آنها را داخل مستطیلهای نمایش
    گذاشته
  • 1:34 - 1:36
    و میگوییم که این اشیا
    چه هستند.
  • 1:36 - 1:40
    خب، این چیزی است که
    وقتی یابنده را اجرا کنیم اتفاق میافتد.
  • 1:41 - 1:43
    حالا، با این نتایج،
  • 1:44 - 1:46
    میتوانیم کمی بیشتربا الگوریتم
    بینای کامپیوترمان کار کنیم.
  • 1:46 - 1:49
    میبینیم همانطور که میدانید
    یک گربه و یک سگ وجود دارد.
  • 1:49 - 1:51
    و محلهای نسبی و اندازه
  • 1:52 - 1:53
    آنها را میداند.
  • 1:53 - 1:55
    حتی شاید کمی
    اطلاعات اضافی نیز بدانیم.
  • 1:55 - 1:57
    در پس زمینه هم یک کتاب قرار دارد.
  • 1:57 - 2:01
    و اگر شما بخواید یک سیستم
    در صدر بینایی کامپیوتر بسازید،
  • 2:01 - 2:04
    مثل یک خودروی خودران یا یک سیستم رباتیکی،
  • 2:04 - 2:06
    این نوع اطلاعاتی است که میخواهید.
  • 2:07 - 2:10
    چیزی میخواهید که بین شما
    و دنیای فیزیکی تعامل کند.
  • 2:11 - 2:13
    حالا وقتی من یافتن اشیا را شروع کردم.
  • 2:13 - 2:16
    ۲۰ ثانیه طول کشید
    تا تصویر را پردازش کند.
  • 2:16 - 2:20
    و برای اینکه حس کنید چرا
    سرعت در این حوزه خیلی مهم است،
  • 2:21 - 2:24
    اینجا یک مثال از یافتن اشیا داریم
  • 2:24 - 2:26
    که ۲ ثانیه طول میکشد
    تا تصویری را پردازش کند.
  • 2:26 - 2:29
    خب این ۱۰ برابر سریعتر
  • 2:29 - 2:32
    از یابنده ۲۰ ثانیه بر تصویر است.
  • 2:32 - 2:35
    و شما این پیشبینیها را
    میتوانید همزمان ببینید،
  • 2:35 - 2:37
    کل جهان تغییر کرده است،
  • 2:38 - 2:40
    و این برای یک برنامه خیلی مفید
  • 2:40 - 2:42
    نخواهد بود.
  • 2:42 - 2:44
    اگر این را با یک فاکتور دیگر
    ۱۰ برابر سریعتر کنیم
  • 2:44 - 2:47
    این یابنده با ۵ فریم
    بر ثانیه اجرا خواهد شد.
  • 2:47 - 2:49
    این بسیار بهتر است،
  • 2:49 - 2:51
    اما برای مثال،
  • 2:51 - 2:53
    اگر هر حرکت قابل توجهی وجود داشته باشد،
  • 2:53 - 2:56
    نمیخواهم که
    سیستمی شبیه این، ماشینم را براند.
  • 2:57 - 3:00
    این سیستم یابنده ماست
    که در زمان حقیقی روی لپ تاپم اجرا میشود.
  • 3:01 - 3:04
    خب به آرامی من را دنبال میکند
    بطوریکه من دور فریم حرکت میکنم،
  • 3:04 - 3:08
    و این شیوه مواجه با انواع
    تغییرات در اندازه
  • 3:09 - 3:11
    ژست،
  • 3:11 - 3:13
    رو به جلو،رو به پشت است.
  • 3:13 - 3:14
    این عالیه.
  • 3:14 - 3:16
    این چیزیست که واقعا نیاز داریم
  • 3:16 - 3:19
    اگر بخواهیم سیستمی را
    در صدر بینایی کامپیوترها بسازیم.
  • 3:19 - 3:23
    (تشویق)
  • 3:24 - 3:26
    خب، ظرف فقط چند سال،
  • 3:26 - 3:29
    ما از ۲۰ ثانیه درتصویر به
  • 3:29 - 3:33
    ۲۰ میلی ثانیه بر تصویر رفتیم،
    هزار بار سریعتر.
  • 3:33 - 3:34
    چطور به اینجا رسیدیم؟
  • 3:34 - 3:37
    خب، در گذشته،
    سیستمهای یافتن اشیا
  • 3:37 - 3:39
    تصویری شبیه این میگرفتند
  • 3:39 - 3:42
    و آن را به بسیاری از مناطق تقسیم میکردند
  • 3:42 - 3:45
    و سپس برای هر یک از این مناطق
    یک دسته بند را اجرا میکردند
  • 3:45 - 3:47
    و بالاترین امتیاز برای این دسته بندیها
  • 3:47 - 3:51
    به عنوان تصویر یافته شده
    در نظر گرفته میشد.
  • 3:51 - 3:55
    اما این هزاران بار اجرا کردن یک دسته بند
    روی یک تصویر را شامل میشد،
  • 3:55 - 3:58
    هزاران شبکه عصبی ارزیابی میکردند تا
    "یافتن" را تولید کنند.
  • 3:59 - 4:04
    درعوض، ما یک تک شبکه را آموزش دادیم
    تا کل یافتنها را برای ما انجام دهد.
  • 4:04 - 4:08
    همه باندهای محدود را تولید و
    همه احتمالات را با هم کلاس بندی میکند.
  • 4:09 - 4:12
    با یک سیستم، به جای نگاه کردن
    به یک تصویر برای هزاران بار
  • 4:12 - 4:14
    برای تولید یافتن
  • 4:14 - 4:15
    شما فقط یک بار نگاه میکنید،
  • 4:15 - 4:18
    و به همین دلیل ما آن را
    متد YOLO برای یافتن اشیا نامیدیم.
  • 4:19 - 4:23
    خب، با این سرعت
    ما فقط به یک تصویر محدود نیستیم:
  • 4:23 - 4:26
    همچنین میتوانیم ویدیو را نیز همزمان
    پردازش کنیم.
  • 4:26 - 4:29
    و حالا، به جای نگاه کردن به گربه و سگ
  • 4:29 - 4:32
    میتوانیم حرکت و تعامل آنها
    با یکدیگر را نیز ببینیم.
  • 4:35 - 4:37
    این یابندهای است که ما
  • 4:37 - 4:41
    در ۸۰ کلاس مختلف دردر دیتاست
  • 4:41 - 4:44
    coco مایکروسافت آموزش دادیم.
  • 4:44 - 4:48
    انواع اشیاء مثل
    قاشق، چنگال، کاسه را دارد
  • 4:48 - 4:49
    اشیا معمولی مانند این.
  • 4:50 - 4:53
    تنوع عجیب و غریبی از اشیا را دارد:
  • 4:53 - 4:57
    حیوانات، ماشین ها، گورخرها، زرافهها.
  • 4:57 - 4:59
    و حالا میخواهیم یک کار مفرح انجام دهیم.
  • 4:59 - 5:01
    فقط میخواهیم بیایم بیرون در بین مخاطبان
  • 5:01 - 5:03
    و ببینیم چه چیزهایی را میتوانیم بیابیم.
  • 5:03 - 5:04
    آیا کسی یک حیوان پر شده میخواهد؟
  • 5:06 - 5:08
    تعدادی خرس عروسکی اینجا هست.
  • 5:10 - 5:15
    و ما میتوانیم آستانه خود
    در یافتن را کمی کاهش دهیم،
  • 5:15 - 5:18
    خب میتوانیم شما آقایان را در
    بین مخاطبین پیدا کنیم.
  • 5:20 - 5:22
    ببینیم آیا میتوان این
    علامتهای ایست را یافت.
  • 5:22 - 5:24
    ما تعدادی کوله پشتی یافتیم
  • 5:26 - 5:28
    بیاید فقط کمی زوم کنیم.
  • 5:30 - 5:32
    و این عالیه.
  • 5:32 - 5:35
    و تمام این اتفاقات در زمان واقعی اتفاق میافتد.
  • 5:35 - 5:36
    روی لپ تاپ.
  • 5:37 - 5:39
    و مهم است به خاطر داشته باشید
  • 5:39 - 5:42
    که این یک سیستم یابنده
    اشیا همه منظوره است،
  • 5:42 - 5:47
    خب ما میتوانیم این را
    برای هر حوزه تصویری آموزش دهیم.
  • 5:48 - 5:51
    همان کدی است که ما استفاده کردیم
  • 5:51 - 5:53
    تا علامت ایست یا عابرپیاده،
  • 5:53 - 5:55
    دوچرخه در یک خودروی خودران را پیدا کنیم،
  • 5:55 - 5:58
    میتواند برای یافتن سلولهای سرطانی
  • 5:58 - 6:01
    دریک نمونه برداری بافت استفاده شود.
  • 6:01 - 6:05
    و محققانی در سراسر جهان وجود دارند
    همچنین این سیستم را
  • 6:06 - 6:10
    برای چیزهای پیشرفته مانند دارو
    روباتیک استفاده میکنند.
  • 6:10 - 6:11
    امروز صبح، مقالهای خواندم.
  • 6:11 - 6:16
    جایی یک صحبتی بود از سرشماری حیوانات
    پارک ملی نایروبی
  • 6:16 - 6:19
    با سیستم YOLO به عنوانی
    بخشی از این سیستم یابنده.
  • 6:19 - 6:22
    و این به خاطر این است
    که دارکنت منبع آزاد است
  • 6:22 - 6:24
    ودر حوزه عمومی برای
    استفاده همگان آزاد است.
  • 6:26 - 6:31
    (تشویق)
  • 6:31 - 6:36
    اما میخواهیم یافتن را حتی
    در دسترستر و قابل استفادهتر کنیم
  • 6:36 - 6:40
    بنابراین ازطریق ترکیب مدلهای بهینه
  • 6:40 - 6:43
    شبکه تقسیم بندی شده و تقریبی
  • 6:43 - 6:47
    ما در واقع در حال اجرای
    یافتن اشیا روی گوشی هستیم.
  • 6:53 - 6:58
    (تشویق)
  • 6:59 - 7:04
    و من خیلی هیجان زده هستم
    زیرا حالا یک راه حل خیلی قدرتمند
  • 7:04 - 7:06
    برای این مسئله سطح پایین
    بینایی کامپیوتر داریم.
  • 7:06 - 7:10
    و هرکسی میتواند این را بردارد
    و یک چیزی با آن بسازد.
  • 7:10 - 7:13
    خب حالا دیگر بقیه آن به شما و مردم جهان
  • 7:13 - 7:16
    با دسترسی به این نرم افزار بستگی دارد.
  • 7:16 - 7:20
    و من نمیتوانم صبر کنم ببینم
    مردم با این تکنولوژی چه خواهند ساخت.
  • 7:20 - 7:21
    متشکرم.
  • 7:21 - 7:25
    (تشویق)
Title:
چگونه یک کامپیوتر یاد می‌گیرد تا فورا یک شی را بازشناسی کند
Speaker:
جوزف ردمون
Description:

۱۰ سال قبل، محققان فکر می‌کردند که گفتن فرق بین یک گربه و یک سگ به یک کامپیوتر غیر ممکن است. امروزه، سیستم‌های بینایی کامپیوتر این را با دقت بهتر از ۹۹ درصد انجام می‌دهد. چگونه؟ جوزف ردمون روی یک سیتم YOLO(تو فقط یک بار نگاه کن) کار می‌کند، یک متد منبع آزاد برای یافتن اشیایی که می‌توانند در تصویر و ویدیو-- از گورخر تا علامت ایست-- با سرعت رعد و برق شناسایی شوند. در یک نمایش زنده قابل توجه، ردمون این پله مهم رو به جلو برای کاربردهایی مانند خودروهای خودران، رباتیک و حتی شناسایی سرطان به نمایش می‌گذارد

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
07:37

Persian subtitles

Revisions