چگونه یک کامپیوتر یاد میگیرد تا فورا یک شی را بازشناسی کند
-
0:01 - 0:02۱۰ سال قبل
-
0:02 - 0:05محققان بینایی ماشین فکر کردند که
-
0:05 - 0:07گفتن فرق بین گربه و سگ به کامپیوتر
-
0:08 - 0:09تقریبا غیرممکن خواهد بود،
-
0:10 - 0:13حتی با پیشرفتهای قابل توجه در
هوش مصنوعی. -
0:13 - 0:17حالا ما میتوانیم این را با
دقت بیشتر از ۹۹ درصد انجام بدیم -
0:18 - 0:20این را دسته بندی تصویر میگویند--
-
0:20 - 0:23یک تصویر بهش بده و یک برچسب به تصویر بزن--
-
0:23 - 0:26و کامپیوترها هزاران دسته بندی دیگر را
نیز به خوبی میدانند. -
0:27 - 0:30من دانشجوی ارشد از
دانشگاه واشنگتن هستم -
0:30 - 0:31و مشغول کار روی پروژه
دارکنت (شبکه سیاه) -
0:32 - 0:33که در چارچوب شبکه عصبی است
-
0:33 - 0:36برای آموزش دادن و تست کردن
مدلهای بینایی کامیپوتر. -
0:36 - 0:39خب بیاید به چگونگی فکر کردن
دارکنت -
0:39 - 0:41به این تصاویری که داریم، نگاه کنیم.
-
0:43 - 0:45وقتی طبقه بندیمان را روی این تصاویر
-
0:45 - 0:46اجرا میکنیم.
-
0:46 - 0:49میبینیم که فقط پیشبینی
سگ یا گربه بودن نیست. -
0:49 - 0:51در واقع نژاد پیشبینیها را نیز میگوییم.
-
0:51 - 0:53این سطح جزئیاتی است که الان داریم
-
0:53 - 0:55و صحیح است.
-
0:55 - 0:57سگ من در حقیقت مالاموت است.
-
0:57 - 1:01خب گامهای حیرت آوری
در دسته بندی تصاویر ساختهایم، -
1:01 - 1:03اما چه اتفاقی میفتد
وقتی طبقهبندمان را -
1:03 - 1:05روی تصویری مثل
این اجرا میکنیم؟ -
1:07 - 1:08خب...
-
1:13 - 1:17میبینیم که طبقهبند با یک
پیشبینی خیلی مشابه باز میگردد. -
1:17 - 1:20و درسته،
یک مالاموت در تصویر وجود دارد، -
1:20 - 1:23اما فقط یک برچسب داده شده،
در واقع خیلی درباره -
1:23 - 1:25اینکه در تصویر
چه رخ داده نمیدانیم. -
1:25 - 1:27به چیزی قویتری نیاز داریم.
-
1:27 - 1:30من روی یک مسئله کار میکنم که
یافتن اشیا نامیده میشود، -
1:30 - 1:33وقتی به تصویری نگاه می کنیم
و سعی در یافتن تمام اشیا داریم، -
1:33 - 1:34آنها را داخل مستطیلهای نمایش
گذاشته -
1:34 - 1:36و میگوییم که این اشیا
چه هستند. -
1:36 - 1:40خب، این چیزی است که
وقتی یابنده را اجرا کنیم اتفاق میافتد. -
1:41 - 1:43حالا، با این نتایج،
-
1:44 - 1:46میتوانیم کمی بیشتربا الگوریتم
بینای کامپیوترمان کار کنیم. -
1:46 - 1:49میبینیم همانطور که میدانید
یک گربه و یک سگ وجود دارد. -
1:49 - 1:51و محلهای نسبی و اندازه
-
1:52 - 1:53آنها را میداند.
-
1:53 - 1:55حتی شاید کمی
اطلاعات اضافی نیز بدانیم. -
1:55 - 1:57در پس زمینه هم یک کتاب قرار دارد.
-
1:57 - 2:01و اگر شما بخواید یک سیستم
در صدر بینایی کامپیوتر بسازید، -
2:01 - 2:04مثل یک خودروی خودران یا یک سیستم رباتیکی،
-
2:04 - 2:06این نوع اطلاعاتی است که میخواهید.
-
2:07 - 2:10چیزی میخواهید که بین شما
و دنیای فیزیکی تعامل کند. -
2:11 - 2:13حالا وقتی من یافتن اشیا را شروع کردم.
-
2:13 - 2:16۲۰ ثانیه طول کشید
تا تصویر را پردازش کند. -
2:16 - 2:20و برای اینکه حس کنید چرا
سرعت در این حوزه خیلی مهم است، -
2:21 - 2:24اینجا یک مثال از یافتن اشیا داریم
-
2:24 - 2:26که ۲ ثانیه طول میکشد
تا تصویری را پردازش کند. -
2:26 - 2:29خب این ۱۰ برابر سریعتر
-
2:29 - 2:32از یابنده ۲۰ ثانیه بر تصویر است.
-
2:32 - 2:35و شما این پیشبینیها را
میتوانید همزمان ببینید، -
2:35 - 2:37کل جهان تغییر کرده است،
-
2:38 - 2:40و این برای یک برنامه خیلی مفید
-
2:40 - 2:42نخواهد بود.
-
2:42 - 2:44اگر این را با یک فاکتور دیگر
۱۰ برابر سریعتر کنیم -
2:44 - 2:47این یابنده با ۵ فریم
بر ثانیه اجرا خواهد شد. -
2:47 - 2:49این بسیار بهتر است،
-
2:49 - 2:51اما برای مثال،
-
2:51 - 2:53اگر هر حرکت قابل توجهی وجود داشته باشد،
-
2:53 - 2:56نمیخواهم که
سیستمی شبیه این، ماشینم را براند. -
2:57 - 3:00این سیستم یابنده ماست
که در زمان حقیقی روی لپ تاپم اجرا میشود. -
3:01 - 3:04خب به آرامی من را دنبال میکند
بطوریکه من دور فریم حرکت میکنم، -
3:04 - 3:08و این شیوه مواجه با انواع
تغییرات در اندازه -
3:09 - 3:11ژست،
-
3:11 - 3:13رو به جلو،رو به پشت است.
-
3:13 - 3:14این عالیه.
-
3:14 - 3:16این چیزیست که واقعا نیاز داریم
-
3:16 - 3:19اگر بخواهیم سیستمی را
در صدر بینایی کامپیوترها بسازیم. -
3:19 - 3:23(تشویق)
-
3:24 - 3:26خب، ظرف فقط چند سال،
-
3:26 - 3:29ما از ۲۰ ثانیه درتصویر به
-
3:29 - 3:33۲۰ میلی ثانیه بر تصویر رفتیم،
هزار بار سریعتر. -
3:33 - 3:34چطور به اینجا رسیدیم؟
-
3:34 - 3:37خب، در گذشته،
سیستمهای یافتن اشیا -
3:37 - 3:39تصویری شبیه این میگرفتند
-
3:39 - 3:42و آن را به بسیاری از مناطق تقسیم میکردند
-
3:42 - 3:45و سپس برای هر یک از این مناطق
یک دسته بند را اجرا میکردند -
3:45 - 3:47و بالاترین امتیاز برای این دسته بندیها
-
3:47 - 3:51به عنوان تصویر یافته شده
در نظر گرفته میشد. -
3:51 - 3:55اما این هزاران بار اجرا کردن یک دسته بند
روی یک تصویر را شامل میشد، -
3:55 - 3:58هزاران شبکه عصبی ارزیابی میکردند تا
"یافتن" را تولید کنند. -
3:59 - 4:04درعوض، ما یک تک شبکه را آموزش دادیم
تا کل یافتنها را برای ما انجام دهد. -
4:04 - 4:08همه باندهای محدود را تولید و
همه احتمالات را با هم کلاس بندی میکند. -
4:09 - 4:12با یک سیستم، به جای نگاه کردن
به یک تصویر برای هزاران بار -
4:12 - 4:14برای تولید یافتن
-
4:14 - 4:15شما فقط یک بار نگاه میکنید،
-
4:15 - 4:18و به همین دلیل ما آن را
متد YOLO برای یافتن اشیا نامیدیم. -
4:19 - 4:23خب، با این سرعت
ما فقط به یک تصویر محدود نیستیم: -
4:23 - 4:26همچنین میتوانیم ویدیو را نیز همزمان
پردازش کنیم. -
4:26 - 4:29و حالا، به جای نگاه کردن به گربه و سگ
-
4:29 - 4:32میتوانیم حرکت و تعامل آنها
با یکدیگر را نیز ببینیم. -
4:35 - 4:37این یابندهای است که ما
-
4:37 - 4:41در ۸۰ کلاس مختلف دردر دیتاست
-
4:41 - 4:44coco مایکروسافت آموزش دادیم.
-
4:44 - 4:48انواع اشیاء مثل
قاشق، چنگال، کاسه را دارد -
4:48 - 4:49اشیا معمولی مانند این.
-
4:50 - 4:53تنوع عجیب و غریبی از اشیا را دارد:
-
4:53 - 4:57حیوانات، ماشین ها، گورخرها، زرافهها.
-
4:57 - 4:59و حالا میخواهیم یک کار مفرح انجام دهیم.
-
4:59 - 5:01فقط میخواهیم بیایم بیرون در بین مخاطبان
-
5:01 - 5:03و ببینیم چه چیزهایی را میتوانیم بیابیم.
-
5:03 - 5:04آیا کسی یک حیوان پر شده میخواهد؟
-
5:06 - 5:08تعدادی خرس عروسکی اینجا هست.
-
5:10 - 5:15و ما میتوانیم آستانه خود
در یافتن را کمی کاهش دهیم، -
5:15 - 5:18خب میتوانیم شما آقایان را در
بین مخاطبین پیدا کنیم. -
5:20 - 5:22ببینیم آیا میتوان این
علامتهای ایست را یافت. -
5:22 - 5:24ما تعدادی کوله پشتی یافتیم
-
5:26 - 5:28بیاید فقط کمی زوم کنیم.
-
5:30 - 5:32و این عالیه.
-
5:32 - 5:35و تمام این اتفاقات در زمان واقعی اتفاق میافتد.
-
5:35 - 5:36روی لپ تاپ.
-
5:37 - 5:39و مهم است به خاطر داشته باشید
-
5:39 - 5:42که این یک سیستم یابنده
اشیا همه منظوره است، -
5:42 - 5:47خب ما میتوانیم این را
برای هر حوزه تصویری آموزش دهیم. -
5:48 - 5:51همان کدی است که ما استفاده کردیم
-
5:51 - 5:53تا علامت ایست یا عابرپیاده،
-
5:53 - 5:55دوچرخه در یک خودروی خودران را پیدا کنیم،
-
5:55 - 5:58میتواند برای یافتن سلولهای سرطانی
-
5:58 - 6:01دریک نمونه برداری بافت استفاده شود.
-
6:01 - 6:05و محققانی در سراسر جهان وجود دارند
همچنین این سیستم را -
6:06 - 6:10برای چیزهای پیشرفته مانند دارو
روباتیک استفاده میکنند. -
6:10 - 6:11امروز صبح، مقالهای خواندم.
-
6:11 - 6:16جایی یک صحبتی بود از سرشماری حیوانات
پارک ملی نایروبی -
6:16 - 6:19با سیستم YOLO به عنوانی
بخشی از این سیستم یابنده. -
6:19 - 6:22و این به خاطر این است
که دارکنت منبع آزاد است -
6:22 - 6:24ودر حوزه عمومی برای
استفاده همگان آزاد است. -
6:26 - 6:31(تشویق)
-
6:31 - 6:36اما میخواهیم یافتن را حتی
در دسترستر و قابل استفادهتر کنیم -
6:36 - 6:40بنابراین ازطریق ترکیب مدلهای بهینه
-
6:40 - 6:43شبکه تقسیم بندی شده و تقریبی
-
6:43 - 6:47ما در واقع در حال اجرای
یافتن اشیا روی گوشی هستیم. -
6:53 - 6:58(تشویق)
-
6:59 - 7:04و من خیلی هیجان زده هستم
زیرا حالا یک راه حل خیلی قدرتمند -
7:04 - 7:06برای این مسئله سطح پایین
بینایی کامپیوتر داریم. -
7:06 - 7:10و هرکسی میتواند این را بردارد
و یک چیزی با آن بسازد. -
7:10 - 7:13خب حالا دیگر بقیه آن به شما و مردم جهان
-
7:13 - 7:16با دسترسی به این نرم افزار بستگی دارد.
-
7:16 - 7:20و من نمیتوانم صبر کنم ببینم
مردم با این تکنولوژی چه خواهند ساخت. -
7:20 - 7:21متشکرم.
-
7:21 - 7:25(تشویق)
- Title:
- چگونه یک کامپیوتر یاد میگیرد تا فورا یک شی را بازشناسی کند
- Speaker:
- جوزف ردمون
- Description:
-
۱۰ سال قبل، محققان فکر میکردند که گفتن فرق بین یک گربه و یک سگ به یک کامپیوتر غیر ممکن است. امروزه، سیستمهای بینایی کامپیوتر این را با دقت بهتر از ۹۹ درصد انجام میدهد. چگونه؟ جوزف ردمون روی یک سیتم YOLO(تو فقط یک بار نگاه کن) کار میکند، یک متد منبع آزاد برای یافتن اشیایی که میتوانند در تصویر و ویدیو-- از گورخر تا علامت ایست-- با سرعت رعد و برق شناسایی شوند. در یک نمایش زنده قابل توجه، ردمون این پله مهم رو به جلو برای کاربردهایی مانند خودروهای خودران، رباتیک و حتی شناسایی سرطان به نمایش میگذارد
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 07:37
soheila Jafari approved Persian subtitles for How computers learn to recognize objects instantly | ||
soheila Jafari edited Persian subtitles for How computers learn to recognize objects instantly | ||
Leila Ataei accepted Persian subtitles for How computers learn to recognize objects instantly | ||
Leila Ataei edited Persian subtitles for How computers learn to recognize objects instantly | ||
Leila Ataei edited Persian subtitles for How computers learn to recognize objects instantly | ||
Leila Ataei edited Persian subtitles for How computers learn to recognize objects instantly | ||
Leila Ataei edited Persian subtitles for How computers learn to recognize objects instantly | ||
Leila Ataei edited Persian subtitles for How computers learn to recognize objects instantly |