Return to Video

چطور به کامپیوترها فهمیدن عکسها را میاموزیم

  • 0:02 - 0:06
    اجازه دهید چیزی را به شما نشان دهم.
  • 0:06 - 0:10
    (ویدیو)دختر: بسیار خوب،
    آن گربه روی یک تخت خواب نشسته است.
  • 0:10 - 0:14
    این پسر در حال نوازش فیل است.
  • 0:14 - 0:19
    آنها مردمی هستند
    در حال سوار شدن به هواپیما.
  • 0:19 - 0:21
    این یک هواپیمای بزرگ است.
  • 0:21 - 0:24
    فی-فی-لی: این یک کودک سه ساله است
  • 0:24 - 0:27
    که آنچه که در مجموعه ای
    از عکسها میبیند را توصیف میکند.
  • 0:27 - 0:30
    ممکن است او هنوز چیزهای زیادی
    برای یادگیری درباره این جهان داشته باشد.
  • 0:30 - 0:35
    اما او در یک کار خیلی
    مهم دیگه تخصص دارد:
  • 0:35 - 0:38
    درک کردن آنچه که میبیند.
  • 0:38 - 0:42
    جامعه ما از لحاظ فناوری
    از هر زمان دیگر پیشرفتهتر است.
  • 0:42 - 0:46
    ما آدمها را به ماه میفرستیم،
    تلفنهایی ساختیم که با ما صحبت میکنند
  • 0:46 - 0:51
    یا ایستگاههای رادیویی سفارشی طراحی کردیم
    که می توانند فقط موسیقی را که دوست داریم پخش کنند.
  • 0:51 - 0:55
    با این حال
    پیشرفته ترین ماشینها و رایانههای ما
  • 0:55 - 0:58
    هنوز هم در این کار (درک تصاویر)
    مشکل دارند.
  • 0:58 - 1:01
    بنابراین امروز من اینجا هستم
    که یک گزارش پیشرفت به شما بدهم
  • 1:01 - 1:05
    در مورد آخرین پیشرفت
    در تحقیق ما بر روی بینایی رایانهای،
  • 1:05 - 1:10
    یکی از پیشرفتهترین و
    بصورت بالقوه انقلابیترین
  • 1:10 - 1:13
    فن آوریها در علوم رایانهای.
  • 1:13 - 1:17
    بله، ما نمونه اولیه ماشینهایی را داریم
    که خودشان میتوانند رانندگی کنند،
  • 1:17 - 1:21
    اما بدون دید هوشمند (smart vision)
    نمی توانند فرق بگذارند
  • 1:21 - 1:25
    بین پاکت کاغذی مچاله در جاده
    که میشه از روش با ماشین رد شد.
  • 1:25 - 1:29
    و یک سنگ همان اندازه که
    نباید از روش رد شد
  • 1:29 - 1:33
    ما دوربینهای (با وضوح) مگاپیکسل
    عالی ساخته ایم،
  • 1:33 - 1:36
    اما به نابیناها بینایی ندادهایم.
  • 1:36 - 1:40
    هواپیماهای بدون سرنشین
    که برفراز زمینهای وسیع پرواز کنند،
  • 1:40 - 1:42
    ولی فناوری بینایی کافی برای کمک به ما
  • 1:42 - 1:45
    در رهگیری تغییرات جنگلهای بارانی
    نداریم.
  • 1:45 - 1:48
    دوربین های امنیتی همه جا هست،
  • 1:48 - 1:53
    ولی وقتی یک کودک در استخر
    در حال غرق شدن است به ما هشدار نمیدهند.
  • 1:54 - 2:00
    تصاویر و ویدیوها در حال تبدیل شدن به
    جز مهمی از زندگی جهانی هستند.
  • 2:00 - 2:04
    تصاویر با سرعتی فراتر از آنچه هر انسان
    یا گروهی از انسانها،
  • 2:04 - 2:07
    بتواند امیدوار به دیدن آنها باشد
    تولید میشوند،
  • 2:07 - 2:11
    و من و شما در این TED
    یعنی تولید تصاویر مشارکت میکنیم.
  • 2:11 - 2:16
    با این وجود پیشرفتهترین
    نرم افزارها همچنان
  • 2:16 - 2:20
    در فهم و مدیریت این حجم عظیم مشکل دارند.
  • 2:20 - 2:25
    به عبارت دیگر در مجموع
    به عنوان جامعه
  • 2:25 - 2:27
    ما کاملا کور هستیم،
  • 2:27 - 2:30
    چون باهوشترین
    ماشینهای ما هنوز نابینا هستند.
  • 2:32 - 2:34
    شاید بپرسید "چرا انقدر سخته؟"
  • 2:34 - 2:37
    دوربینها میتوانند تصاویری
    مثل این را بگیرند:
  • 2:37 - 2:41
    با تبدیل نور به
    آرایه دو بعدی اعداد
  • 2:41 - 2:43
    به نام "پیکسل"
  • 2:43 - 2:45
    ولی اینها فقط اعداد بی روح هستند،
  • 2:45 - 2:48
    هیچ معنی به خودی خود ندارند.
  • 2:48 - 2:52
    مثل اینکه:
    شنیدن با گوش کردن یکی نیستند،
  • 2:52 - 2:57
    عکس گرفتن با دیدن یکی نیستند،
  • 2:57 - 3:00
    یا اینکه منظور از دیدن واقعا فهمیدن نیست.
  • 3:01 - 3:07
    در حقیقت ۵۴۰ میلیون سال وقت مادر طبیعت
  • 3:07 - 3:09
    صرف انجام این کار سخت شده
  • 3:09 - 3:11
    و بیشتر این تلاش به تکامل
  • 3:11 - 3:17
    ابزار پردازش دید مغزمان اختصاص داده شده
  • 3:17 - 3:19
    و نه به خود چشمها.
  • 3:19 - 3:22
    پس، دیدن با چشم آغاز میشود،
  • 3:22 - 3:26
    ولی در حقیقت در مغز شکل میگیرد.
  • 3:26 - 3:31
    برای ۱۵ سال با شروع از دکترا در کلتک
  • 3:31 - 3:34
    و سپس رهبری آزمایشگاه بینایی در استانفورد،
  • 3:34 - 3:39
    من با مربی هایم، همکارانم و شاگردانم
    تلاش کرده ام
  • 3:39 - 3:42
    که به رایانه ها یاد بدهیم که ببینند.
  • 3:43 - 3:46
    اسم زمینه تحقیقاتی ما
    بینایی رایانه ای و آموزش ماشین هست.
  • 3:46 - 3:50
    این بخشی از زمینه عمومی تر هوش مصنوعی هست
  • 3:51 - 3:56
    در نهایت میخواهیم به ماشین ها
    یاد بدهیم که ببینند همانند ما:
  • 3:56 - 4:02
    اسم گذاشتن بر روی اشیا، تشخیص افراد
    ، استنباط سه بعدی از اشیا
  • 4:02 - 4:08
    فهم ارتباط، احساسات، اعمال و نیت ها.
  • 4:08 - 4:14
    من و شما وقتی نگاهمون به آدمها، مکانها
    و اشیا میافتد
  • 4:14 - 4:16
    دربارشون قصه میسازیم.
  • 4:17 - 4:23
    اولین قدم در راه این هدف این هست
    که به رایانهها یاد بدهیم تا اشیا را ببینند؛
  • 4:23 - 4:26
    سنگ بنای دنیای بصری.
  • 4:26 - 4:30
    به ساده ترین حالت این فرایند آموزش
    را مانند نشان دادن تعدادی
  • 4:30 - 4:33
    عکس آموزشی از یک شی خاص
  • 4:33 - 4:37
    مثلا گربه ها به رایانه تصور کنید.
  • 4:37 - 4:41
    و طراحی یک مدل (برای رایانه)
    که ازدیدن این عکسها یاد میگیرد.
  • 4:41 - 4:43
    اینکار چقدر میتونه سخت باشه؟
  • 4:43 - 4:47
    بالاخره یک گربه مجموعه ایست
    از شکل ها و رنگها،
  • 4:47 - 4:52
    و این کاری هست که در روزهای ابتدایی
    طراحی اشیا انجام میدادیم.
  • 4:52 - 4:55
    ما به الگوریتم رایانه به زبان ریاضی میگوییم
  • 4:55 - 4:59
    که یک گربه صورت گرد دارد،
    بدن تپل دارد،
  • 4:59 - 5:01
    دو تا گوش تیز دارد و یک دم دراز
  • 5:01 - 5:02
    و این کافی بود.
  • 5:03 - 5:05
    ولی این یکی گربه چطور؟
  • 5:05 - 5:06
    (خنده حضار)
  • 5:06 - 5:08
    این یکی کاملا خم شده
  • 5:08 - 5:12
    حالا شما باید یک شکل و
    زاویه دید دیگه به مدل شی اضافه کنید
  • 5:12 - 5:14
    ولی اگه گربهها قایم شده باشند چی؟
  • 5:15 - 5:17
    این گربه های بامزه چطور؟
  • 5:19 - 5:22
    جالا متوجه منظور من میشوید.
  • 5:22 - 5:25
    حتی یک چیز ساده مثل حیوان خانگی
  • 5:25 - 5:29
    میتونه مدلهای بینهایت
    گونه گون از مدل شی را ارائه کند،
  • 5:29 - 5:32
    و این تازه فقط یک شی هست.
  • 5:33 - 5:35
    تقریبا هشت سال پیش
  • 5:35 - 5:40
    یک مشاهده ساده و عمیق
    طرز فکر من را تغییر داد.
  • 5:41 - 5:44
    کسی به یک کودک نمیگه چطور ببیند،
  • 5:44 - 5:46
    به ویژه در سالهای ابتدایی.
  • 5:46 - 5:51
    اونها این کار را از طریق تجربیات و مثالهای
    دنیای واقعی یاد میگیرند.
  • 5:51 - 5:54
    اگر چشمهای یک کودک را مثل
  • 5:54 - 5:57
    یک جفت دوربین بیولوژیک در نظر بگیرید،
  • 5:57 - 6:01
    آنها هر ۲۰۰ میلی ثانیه
    یک تصویر میگیرند،
  • 6:01 - 6:04
    مدت زمان متوسطی که
    حرکت چشم صورت میگیرد.
  • 6:04 - 6:10
    پس تا سه سالگی یک کودک
    صدها میلیون تصویر
  • 6:10 - 6:11
    از دنیای واقعی دیده
  • 6:11 - 6:14
    این تعداد زیادی از مثالهای آموزشی هست.
  • 6:14 - 6:20
    پس بجای تمرکزصرف بر الگوریتمهای
    بهتر و بهتر
  • 6:20 - 6:26
    نگرش من این بود که به الگوریتمها
    ـآن دسته از دادههای آموزشی
  • 6:26 - 6:29
    که به یک کودک از طریق تجربه داده میشود
  • 6:29 - 6:33
    را در همان حجم و کیفیت بدهیم.
  • 6:33 - 6:35
    وقتی این را فهمیدیم
    متوجه شدیم که
  • 6:35 - 6:38
    به جمع آوری مجموعه اطلاعات نیاز داریم
  • 6:38 - 6:42
    که خیلی بیشتر از آنچه تاکنون داشته ایم
    عکس داشته باشد،
  • 6:42 - 6:45
    احتمالا هزاران بار بیشتر،
  • 6:45 - 6:49
    و با همکاری پرفسور کای لی
    در دانشگاه پرینستون
  • 6:49 - 6:54
    ما پروژه ImageNet را
    در سال ۲۰۰۷ راه اندازی کردیم.
  • 6:54 - 6:57
    خوشبختانه احتیاج نداشتیم
    که یک دوربین روی سرمان نصب کنیم
  • 6:57 - 6:59
    و سالها منتظر بمانیم.
  • 6:59 - 7:01
    رفتیم سراغ اینترنت
  • 7:01 - 7:05
    بزرگترین گنجینه عکسها
    که انسانها تاکنون آفریده اند.
  • 7:05 - 7:08
    نزدیک به یک میلیارد عکس دانلود کردیم
  • 7:08 - 7:14
    و از فناوری CrowdSourcing
    همانند Amazon Mechanical Turk platform
  • 7:14 - 7:16
    استفاده کردیم تا برای برچسب زدن این
    عکسها به ما کمک کند.
  • 7:16 - 7:21
    در اوج خودش، ImageNet
    از بزرگترین کارفرماهای
  • 7:21 - 7:24
    Amazon Mechanical Turk بود
  • 7:24 - 7:28
    در مجموع تقریبا ۵۰٫۰۰۰ کارمند
  • 7:28 - 7:32
    از ۱۶۷ کشور جهان
  • 7:32 - 7:36
    به ما کمک کردند تا
    نزدیک به یک میلیارد عکس منتخب را
  • 7:36 - 7:40
    اصلاح، منظم و برچسب گذاری کنند.
  • 7:41 - 7:43
    این میزانی بود که زحمت برد
  • 7:43 - 7:47
    برای ثبت کسری از تصویرگری که
  • 7:47 - 7:51
    ذهن یک کودک در سالهای اولیه
    تکامل خود انجام میدهد.
  • 7:52 - 7:56
    پس از گذشت زمان و کسب تجربه
    ایده استفاده از حجم عظیم دادهها
  • 7:56 - 8:01
    برای آموزش الگوریتم رایانهها،
    شاید الان بدیهی بنظر برسد،
  • 8:01 - 8:05
    ولی قبلا در سال ۲۰۰۷ انقدر واضح نبود.
  • 8:05 - 8:09
    ما توی این سفر برای مدتی کاملا تنها بودیم.
  • 8:09 - 8:14
    بعضی از همکاران نزدیکم به من توصیه کردند
    که برای استخدام قطعی من کار مفیدتری بکنم
  • 8:14 - 8:18
    و مدام برای بودجه تحقیقاتی مشکل داشتیم.
  • 8:18 - 8:20
    یکبار با دانشجوهای تحصیلات تکمیلیام
    شوخی کردم که
  • 8:20 - 8:24
    برای تامین بودجه ImageNet
    حشکشوییام را دوباره باز کنم.
  • 8:24 - 8:29
    بهر حال این راهی بود که من
    پول تحصیلام را در آورده بودم.
  • 8:29 - 8:31
    پس ادامه دادیم.
  • 8:31 - 8:35
    در سال ۲۰۰۹ پروژه ImageNet
  • 8:35 - 8:39
    یک پایگاه داده از ۱۵ میلیون عکس
  • 8:39 - 8:44
    در وسعت ۲۲٫۰۰۰ کلاس از شی ها
  • 8:44 - 8:47
    که با کلمات انگلیسی روزمره منظم شده بودند
    تحویل داد.
  • 8:47 - 8:50
    از لحاظ کیفیت و کمیت
  • 8:50 - 8:53
    این مقیاس بیسابقه بود.
  • 8:53 - 8:56
    بعنوان مثال در مورد گربهها
  • 8:56 - 8:59
    بیش از ۶۲٫۰۰۰ (تصویر) گربه
  • 8:59 - 9:03
    در انواع شکل ها و فرم بدن
  • 9:03 - 9:08
    و در تمام گونههای اهلی و وحشی داشتیم.
  • 9:08 - 9:12
    ما از اینکه ImageNet را ساخته بودیم
    هیجان زده بودیم و
  • 9:12 - 9:16
    و میخواستیم که تمام دنیای تحقیقات
    از آن بهره ببرند
  • 9:16 - 9:20
    پس به شیوه TED
    تمام مجموعه داده را
  • 9:20 - 9:23
    برای دنیای تحقیقات بصورت رایگان
    باز کردیم.
  • 9:25 - 9:29
    (تشویق حضار)
  • 9:29 - 9:34
    حالا که دادهها را برای تغذیه مغز
    رایانه هایمان داریم،
  • 9:34 - 9:38
    آماده ایم که برگردیم سراغ
    خود الگوریتم ها.
  • 9:38 - 9:43
    اینطور شد که
    وفور اطلاعات تهیه شده توسط ImageNet
  • 9:43 - 9:48
    خیلی خوب به کلاس خاصی از الگوریتمهای
    یادگیری ماشینی
  • 9:48 - 9:50
    به نام "شبکه های عصبی در هم تنیده"
    تطابق داشت،
  • 9:50 - 9:55
    که پیشگامانش کونیهیکو فوکوشیما و
    جف هینتون و یان لیکان
  • 9:55 - 9:59
    در دهههای ۱۹۷۰ و ۱۹۸۰ بودند.
  • 9:59 - 10:05
    درست مثل مغز که از میلیاردها
    نورون پیوسته تشکیل شده
  • 10:05 - 10:08
    یک واحد عملیاتی بنیادی در یک شبکه عصبی
  • 10:08 - 10:11
    یک گره نورون-مانند است.
  • 10:11 - 10:13
    از گرههای دیگر ورودی میگیرد و
  • 10:13 - 10:16
    و خروجی را به دیگر گرهها میفرستند.
  • 10:16 - 10:21
    به علاوه، این صدها یا هزاران یا حتی
    میلیونها گره
  • 10:21 - 10:24
    در لایههایی با سلسله مراتب منظم شدهاند،
  • 10:24 - 10:27
    مانند مغز.
  • 10:27 - 10:31
    در یک شبکه عصبی نوعی، برای آموزش
    مدل تشخیص اشیا،
  • 10:31 - 10:35
    ۲۴ میلیون گره،
  • 10:35 - 10:38
    ۱۴۰ میلیون پارامتر،
  • 10:38 - 10:41
    و ۱۵ میلیارد اتصال وجود دارد.
  • 10:41 - 10:43
    این یک مدل عظیم است.
  • 10:43 - 10:47
    با استفاده از نیروی عظیم داده ها
    از ImageNet
  • 10:47 - 10:52
    و CPU و GPU های مدرن
    برای آموزش چنین مدل یکدستی،
  • 10:52 - 10:55
    "شبکه عصبی در هم تنیده"...
  • 10:55 - 10:58
    به شکلی که کسی انتظار نداشت
    شکوفا شد.
  • 10:58 - 11:01
    تبدیل شد به معماری برتر
  • 11:01 - 11:06
    برای تولید نتایج تازه و هیجان انگیز
    در تشخیص اشیا.
  • 11:06 - 11:09
    این یک کامپیوتر هست که به ما میگه
  • 11:09 - 11:11
    این تصویر شامل یک گربه است
  • 11:11 - 11:13
    و اینکه گربه کجاست.
  • 11:13 - 11:15
    البته چیزهای بیشتری از گربه وجود دارد،
  • 11:15 - 11:18
    پس این یک الگوریتم رایانهای
    هست که به ما میگوید
  • 11:18 - 11:21
    تصویر شامل یک پسر هست
    و یک عروسک خرس؛
  • 11:21 - 11:25
    یک سگ، یک آدم، و بادبادک کوچک
    در پس زمینه؛
  • 11:25 - 11:28
    یا تصویر چیزهای شلوغتر
  • 11:28 - 11:33
    مثل یک مرد، تخته اسکیت، نردهها،
    تیر چراغ برق و چیزهای دیگر.
  • 11:33 - 11:38
    بعضی وقتها که رایانه مطمئن نیست
    از چیزی که به آن نگاه میکند،
  • 11:39 - 11:42
    بهش یاد دادیم که به اندازه کافی باهوش باشد
  • 11:42 - 11:46
    تا به جای کار زیادی یک جواب مطمئن
    به ما بدهد،
  • 11:46 - 11:48
    درست مثل کاری که ما انجام میدهیم،
  • 11:48 - 11:53
    ولی در موارد دیگر الگوریتم رایانه ای ما
    در گفتن اینکه
  • 11:53 - 11:55
    اشیا چه هستند فوق العاده است
  • 11:55 - 11:59
    مثل نوع ، مدل و سال ساخت ماشین.
  • 11:59 - 12:04
    ما این الگوریتم را به میلیونها عکس
  • 12:04 - 12:07
    "منظره خیابان گوگل"
    در صدها شهر آمریکا اعمال کردیم
  • 12:07 - 12:10
    و چیز جالبی را متوجه شدیم:
  • 12:10 - 12:14
    اول اینکه عقل سلیم ما را تایید کرد
  • 12:14 - 12:17
    که قیمت خودرو وابستگی زیادی به
  • 12:17 - 12:19
    درآمد خانوارها دارد.
  • 12:19 - 12:24
    اما تعجب اینکه، قیمت خودرو
    بستگی زیادی هم به
  • 12:24 - 12:26
    نرخ جرایم در شهرها،
  • 12:27 - 12:31
    یا الگوی رای دادن در شهرها بر اساس
    کدپستی دارد.
  • 12:32 - 12:34
    صبر کن ببینم! همین؟!
  • 12:34 - 12:39
    آیا دیگر توانایی رایانه با توانایی انسان
    مطابقت دارد یا از آن پیشی گرفته؟
  • 12:39 - 12:42
    نه به این زودی.
  • 12:42 - 12:46
    تا حالا به رایانه یاد دادیم
    که اشیا را ببیند.
  • 12:46 - 12:51
    این مثل این هست که کودک
    یاد بگیرد چند اسم بگوید.
  • 12:51 - 12:54
    این یک موفقیت باورنکردنی است،
  • 12:54 - 12:56
    اما فقط اولین قدم است.
  • 12:56 - 13:00
    بزودی یک مرحله مهم طی خواهد شد
  • 13:00 - 13:03
    و کودکان یاد میگیرند
    تا بصورت گفتن جمله ارتباط برقرار کنند.
  • 13:03 - 13:08
    پس به جای اینکه بگوید
    این یک گربه در این عکس است که قبلا شنیدید
  • 13:08 - 13:13
    دختر کوچولو به ما گفت این
    یک گربه خوابیده روی تخت است.
  • 13:13 - 13:18
    برای یاد دادن به رایانه که تصویری را
    ببیند و جملاتی تولید کند،
  • 13:18 - 13:22
    پیوند بین دادههای عظیم و
    الگوریتم آموزش ماشین
  • 13:22 - 13:25
    باید گام دیگری بردارد.
  • 13:25 - 13:29
    حالا رایانه باید هم از تصاویر یاد بگیرد
  • 13:29 - 13:32
    هم از جملات زبان طبیعی
  • 13:32 - 13:35
    که توسط انسان تولید میشوند.
  • 13:35 - 13:39
    درست مثل مغز که بینایی و
    زبان را به هم میآمیزد
  • 13:39 - 13:44
    ما هم مدلی ایجاد کردیم که قسمت های
    اجسام بصری
  • 13:44 - 13:46
    مانند خرده تصاویر
  • 13:46 - 13:50
    را به کلمات و عبارات در جملات پیوند میزند.
  • 13:50 - 13:53
    حدود چهار ماه پیش،
  • 13:53 - 13:56
    بالاخره همه اینها را به هم پیوند زدیم
  • 13:56 - 13:59
    و یکی از اولین مدلهای دید رایانهای را
  • 13:59 - 14:03
    که وقتی یک تصویر را برای اولین بار میبیند
  • 14:03 - 14:07
    قادر به تولید جملات
    همانند انسانها هست تولید کردیم.
  • 14:07 - 14:12
    حالا آماده هستم که بهتون نشان دهم
    که یک رایانه وقتی تصویری که
  • 14:12 - 14:14
    وقتی تصویری را میبیند که
  • 14:14 - 14:17
    اون دختر کوچولوی اول سخنرانی آن را دید.
  • 14:20 - 14:23
    (صدای رایانه): یک مرد کنار یک فیل
    ایستاده است.
  • 14:24 - 14:28
    یک هواپیمای بزرگ روی
    باند پروازفرودگاه نشسته.
  • 14:29 - 14:33
    (سخنران): البته ما هنوز داریم سخت تلاش
    میکنیم که الگوریتممان را بهتر کنیم،
  • 14:33 - 14:36
    و هنوز چیزهای زیادی هست که باید یاد بگیرد.
  • 14:36 - 14:38
    (تشویق حضار)
  • 14:40 - 14:43
    و رایانه هنوز اشتباه میکند.
  • 14:43 - 14:46
    (صدای رایانه): یک گربه زیر لحاف
    دراز کشیده روی تخت.
  • 14:46 - 14:49
    (سخنران): قطعا وقتی
    تعداد زیادی گربه میبیند
  • 14:49 - 14:52
    ممکن است فکر کند که همه چیز شبیه گربه است.
  • 14:53 - 14:56
    (صدای رایانه): یک پسربچه
    یک چوب بیسبال در دست دارد.
  • 14:56 - 14:58
    (خنده حضار)
  • 14:58 - 15:03
    (سخنران): و اگر مسواک ندیده باشد
    آن را با چوب بیسبال اشتباه میگیرد.
  • 15:03 - 15:07
    (صدای رایانه): مردی که در خیابان
    کنار یک ساختمان اسب سواری میکند.
  • 15:07 - 15:09
    (خنده حضار)
  • 15:09 - 15:12
    (سخنران): ما به رایانهها کلاس
    هنر پایه تدریس نکردیم.
  • 15:14 - 15:17
    (صدای رایانه): یک گورخر ایستاده
    در زمینی پوشیده از علف.
  • 15:17 - 15:20
    (سخنران): و یاد نگرفته که قدر
    زیبایی مسحور کننده طبیعت
  • 15:20 - 15:22
    را مثل من و شما بداند.
  • 15:22 - 15:25
    بله، سفر درازی بوده
  • 15:25 - 15:30
    تا از سن صفر به سه سالگی برسیم
    دشوار بود.
  • 15:30 - 15:35
    سختی واقعی رفتن از سه سالگی به
    ۱۳ سالگی و فراتر هست.
  • 15:35 - 15:39
    اجازه بدهید به شما با این تصویر
    پسر و کیک یادآوری کنم.
  • 15:39 - 15:44
    تا الان به رایانه یاد دادیم
    که اجسام را ببیند
  • 15:44 - 15:48
    یا حتی وقتی یک تصویر را میبیند
    یک داستان ساده به ما بگوید.
  • 15:48 - 15:52
    (صدای رایانه): یک شخص نشسته سر یک میز
    با یک کیک.
  • 15:52 - 15:54
    (سخنران): اما در این عکس
    خیلی چیزهای دیگر غیر از یک
  • 15:54 - 15:56
    آدم و کیک هست.
  • 15:56 - 16:01
    چیزی که رایانه نمیبیند این است که
    این یک کیک مخصوص ایتالیایی
  • 16:01 - 16:04
    که فقط در زمان عید پاک پخته میشود
    هست.
  • 16:04 - 16:07
    پسر تیشرت مورد علاقهاش را پوشیده
  • 16:07 - 16:11
    که توسط پدرش بعنوان هدیه بعد از سفر
    به سیدنی به او داده شده.
  • 16:11 - 16:15
    و من و شما همه میتوانیم بگویم
    که چقدر خوشحال هست
  • 16:15 - 16:18
    و دقیقا در آن لحظه در ذهنش چه میگذرد.
  • 16:19 - 16:22
    این پسر من "لیو" هست.
  • 16:22 - 16:25
    در جستجوی من برای هوش بصری
  • 16:25 - 16:27
    مدام به "لیو" فکر میکنم
  • 16:27 - 16:30
    و آیندهای که او زندگی خواهد کرد.
  • 16:30 - 16:32
    زمانی که ماشینها میتوانند ببینند،
  • 16:32 - 16:37
    پزشکان و پرستاران یک جفت چشم
    خستگی ناپذیراضافه خواهند داشت
  • 16:37 - 16:41
    که به آنها کمک خواهد کرد برای تشخیص
    و مراقبت از بیماران.
  • 16:41 - 16:45
    خودروها هوشمندانهتر و ایمنتر
    در جادهها حرکت خواهند کرد.
  • 16:45 - 16:48
    رباتها، نه فقط انسانها
  • 16:48 - 16:53
    به ما در خطرکردن در مناطق فاجعهزده برای
    نجات مصدومان و زخمیها کمک خواهند کرد.
  • 16:54 - 16:58
    گونههای جدید خواهیم یافت،
    مواد بهتر،
  • 16:58 - 17:02
    و مرزهای نادیده را با کمک ماشینها
    اکتشاف خواهیم کرد.
  • 17:03 - 17:07
    کم کم داریم به ماشینها بینایی میبخشیم.
  • 17:07 - 17:10
    ابتدا ما به آنها دیدن را میآموزیم.
  • 17:10 - 17:13
    سپس آنها به ما کمک میکنند تا بهتر ببینیم.
  • 17:13 - 17:17
    برای اولین بار چشمان انسان
    تنها چشمانی نخواهند بود
  • 17:17 - 17:20
    که تفکر میکنند و جهان ما را کاوش میکنند.
  • 17:20 - 17:23
    ما نه تنها از ماشینها برای
    هوش آنها استفاده میکنیم،
  • 17:23 - 17:30
    بلکه با آنها به روش هایی که
    نمیتوانیم تصور کنیم همکاری خواهیم کرد.
  • 17:30 - 17:32
    این جستجوی من است:
  • 17:32 - 17:34
    تا به رایانه ها هوش بصری بدهم
  • 17:34 - 17:40
    و آینده بهتری برای "لیو" و جهان خلق کنم.
  • 17:40 - 17:41
    متشکرم.
  • 17:41 - 17:45
    (تشویق حضار)
Title:
چطور به کامپیوترها فهمیدن عکسها را میاموزیم
Speaker:
فی-فی لی
Description:

وقتی یک دختر بچه خیلی کوچولو به عکسی نگاه می‎کند، عناصر کوچکی را تشخیص می‎‎دهد: "گربه"، " کتاب" و "صندلی". اکنون کامپیوترها نیز برای انجا این کار هوشمند می‎‎شوند. گام بعدی چیست؟ در سخنرانی هیجان‌‎انگیز، متخصص بینایی کامپیوتر فی-فی لی موقعیت این هنر را شرح می‎دهد-- از جمله پایگاه داده‎‎‎‎ها با 15 میلیون عکس که تیمش ساخته تا به کامپیوتر فهمیدن عکسها را بیاموزد-- و هنوز افقهای اصلی در راه هستند.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
17:58

Persian subtitles

Revisions