WEBVTT 00:00:02.366 --> 00:00:05.387 Müsadenizle size bazı şeyler göstermek istiyorum. NOTE Paragraph 00:00:05.728 --> 00:00:09.700 (Video) Kız: Tamam, burada yatağın üzerinde oturan bir kedi var. 00:00:09.910 --> 00:00:13.350 Çocuk fili okşuyor. 00:00:14.300 --> 00:00:18.174 Buradaki insanlar uçağa gidiyorlar. 00:00:18.364 --> 00:00:20.274 Bu büyük bir uçak. NOTE Paragraph 00:00:21.054 --> 00:00:23.480 Fei-Fei Li: Üç yaşında küçük bir kız çocuğu 00:00:23.480 --> 00:00:26.959 fotoğraflarda ne gördüğünü anlatıyor. 00:00:27.349 --> 00:00:30.194 Henüz, dünya hakkında öğrenmesi gereken çok şey var 00:00:30.194 --> 00:00:34.743 fakat çok önemli bir alanda uzman olmuş bile: 00:00:34.743 --> 00:00:37.589 gördüklerini anlamlandırma. 00:00:38.089 --> 00:00:42.455 Toplumumuz teknolojik olarak her zamankinden daha fazla ilerlemiş durumda. 00:00:42.455 --> 00:00:46.084 İnsanları aya gönderiyoruz, bizimle konuşabilen ya da radyo kanallarını 00:00:46.084 --> 00:00:51.030 sadece sevdiğimiz müzikleri çalması için düzenleyebilen telefonlar yapıyoruz. 00:00:51.030 --> 00:00:55.085 En gelişmiş makinelerimiz ve bilgisayarlarımız 00:00:55.085 --> 00:00:57.988 hâlâ bu özelliği elde etmeye çalışıyorlar. 00:00:57.988 --> 00:01:01.447 Bugün, bilgisayar görme yetisi üzerine yapılan ileri düzeydeki 00:01:01.447 --> 00:01:05.494 araştırmalarımızın işleyişi hakkında size bilgi vermek için buradayım. 00:01:05.494 --> 00:01:09.655 Bilgisayar biliminde, en önde ve devrim niteliğinde 00:01:09.655 --> 00:01:12.861 olan teknolojik gelişmelerden biri. NOTE Paragraph 00:01:12.861 --> 00:01:17.412 Evet, kendini sürebilen araçların prototiplerine sahibiz, 00:01:17.412 --> 00:01:21.265 fakat akıllı görme yetisine sahip olmadan, üzerinden geçilebilecek buruşmuş bir 00:01:21.265 --> 00:01:25.235 kağıt torba ile sakınılması gereken aynı boyuttaki bir kaya 00:01:25.235 --> 00:01:28.575 arasındaki farkı söyleyebilmeleri mümkün değil. 00:01:29.415 --> 00:01:32.805 Mükemmel çözünürlükte kameralar yapmamıza rağmen, 00:01:32.805 --> 00:01:35.940 görebilmelerini sağlayamamıştık. 00:01:36.420 --> 00:01:39.725 İnsansız hava araçları koca bir araziyi uçabilirler, 00:01:39.725 --> 00:01:41.859 ama yağmur ormanlarındaki değişimleri izlememize yardımcı olabilecek 00:01:41.859 --> 00:01:45.320 düzeyde yeterli bir görüş kabiliyetine sahip değiller. 00:01:45.320 --> 00:01:48.270 Güvenlik kameraları her yerde, 00:01:48.270 --> 00:01:53.337 fakat bir çocuk havuzda boğuluyorken bizi uyaramıyorlar. 00:01:54.167 --> 00:01:59.502 Fotoğraf ve videolar gündelik hayatın bir parçası haline geliyorlar. 00:01:59.762 --> 00:02:03.849 Herhangi bir insan veya bazı grupların görme umuduyla 00:02:03.849 --> 00:02:06.632 hızlı bir şekilde çoğalıyorlar, 00:02:06.632 --> 00:02:10.553 buradaki TED konuşmaları ile sizler ve ben de buna katkı sağlıyoruz. 00:02:10.773 --> 00:02:13.745 En iyi yazılımımız hala bu devasa içeriği 00:02:14.915 --> 00:02:18.661 anlamaya ve yönetmeye çabalıyor. 00:02:19.661 --> 00:02:24.023 Başka bir anlamda, toplumun tamamı olarak 00:02:24.543 --> 00:02:26.529 büyük bir görme kaybına sahibiz 00:02:26.679 --> 00:02:30.066 çünkü en iyi makinelerimiz hala göremiyorlar. NOTE Paragraph 00:02:31.526 --> 00:02:34.452 "Neden bu kadar zor ki bu?" diye soracaksınız. 00:02:34.452 --> 00:02:37.145 Kameralar burada da olduğu gibi fotoğraf çekebilirler, 00:02:37.145 --> 00:02:41.139 ışığın iki boyutlu sayı dizilerine çevrilmiş hali ile, 00:02:41.139 --> 00:02:42.789 ki bunlara pikseller diyoruz. 00:02:42.789 --> 00:02:45.040 Fakat burada sadece ölü sayılar bulunmakta. 00:02:45.040 --> 00:02:48.151 Kendi içlerinde herhangi bir anlam taşımıyorlar. 00:02:48.151 --> 00:02:52.494 Nasıl ki duymak ile dinlemek aynı anlama gelmiyorsa 00:02:52.494 --> 00:02:56.534 fotoğraf çekmek ile görmek de aynı şeyi ifade etmiyor. 00:02:56.974 --> 00:03:00.043 Görmek derken ciddi manada "anlamayı" kastediyoruz. 00:03:01.293 --> 00:03:04.710 Aslında, bu yetiye sahip olabilmemiz 00:03:05.200 --> 00:03:08.943 tabiat ananın 540 milyon yılını aldı. 00:03:09.443 --> 00:03:11.324 Bu çabanın çoğu, beynin görsel 00:03:11.444 --> 00:03:16.595 işleme bölümünün gelişimine gitti 00:03:16.595 --> 00:03:19.242 sadece gözlerin kendisine değil. 00:03:19.242 --> 00:03:21.989 Yani görmek gözlerde başlıyor, 00:03:21.989 --> 00:03:25.507 ama asıl olarak beynin bir bölümünde anlam kazanıyor. NOTE Paragraph 00:03:26.287 --> 00:03:31.347 15 sene önce, Caltech'deki doktorama başladığımda 00:03:31.347 --> 00:03:34.273 ve sonra Stanford Görsel Laboratuvarını yönlendirdiğimde 00:03:34.273 --> 00:03:38.669 mentorlerim, iş ortaklarım ve öğrencilerimle birlikte 00:03:38.669 --> 00:03:41.558 bilgisayarlara görmeyi öğretmek için çalışıyorduk. 00:03:42.138 --> 00:03:45.932 Araştırma alanımız bilgisayar görme yetisi ve makine öğrenimi olarak anılıyordu. 00:03:45.952 --> 00:03:49.830 Yapay zeka bölümünün genel bir dalı olarak geçiyordu. 00:03:51.000 --> 00:03:56.493 Nihayetinde, makinelere tıpkı bizim gibi görebilmelerini öğretmek istedik, 00:03:56.493 --> 00:04:01.880 nesnelerin isimlendirilmesi, insanların tanımlanması, 3B geometrileri tahmin 00:04:01.880 --> 00:04:07.568 ilişkileri anlama, duygular, olaylar ve şiddet. 00:04:07.568 --> 00:04:13.721 Şu anda insanların, yerlerin ve eşyaların bütün hikayesini 00:04:13.721 --> 00:04:16.265 gözler önüne serip beraber dokuyalım. NOTE Paragraph 00:04:16.955 --> 00:04:22.538 Bu amaca doğru atılacak ilk adım bilgisayara gördüğü şeyleri öğretmek, 00:04:22.538 --> 00:04:25.906 sanal dünyanın yapı taşı bu. 00:04:25.906 --> 00:04:30.340 Basit anlamda bu öğretme sürecini bi hayal edin, 00:04:30.340 --> 00:04:33.335 bilgisayara belirli bir nesnenin ya da bir kedinin diyelim 00:04:33.335 --> 00:04:36.656 deneme amaçlı resimlerini göstermek gibi 00:04:36.656 --> 00:04:41.393 ve bu resimlerden öğrenilmiş bir model tasarlamayı. 00:04:41.393 --> 00:04:43.437 Bu ne kadar zor olabilir ki? 00:04:43.437 --> 00:04:47.489 Sonuç olarak, bir kedi sadece şekillerin ve renklerin bir derlemesi 00:04:47.489 --> 00:04:51.575 ve bu ilk zamanlarda yaptığımız nesne modellemesi. 00:04:51.575 --> 00:04:55.197 Algoritmasını sayısal bir dille bilgisayara öğretmemiz gerekiyordu 00:04:55.197 --> 00:04:58.540 bu kedi yuvarak bir yüze, dolgun bir vücuda 00:04:58.540 --> 00:05:00.839 iki noktada kulaklara ve uzun bir kuyruğa sahip 00:05:00.839 --> 00:05:02.249 her şey yolunda gibi. 00:05:02.859 --> 00:05:04.972 Peki, ya bu kedi? 00:05:04.972 --> 00:05:06.063 (Gülüşmeler) 00:05:06.063 --> 00:05:07.689 Hepsi iç içe. 00:05:07.689 --> 00:05:12.408 Bu nesne için için farklı bir şekil ve farklı bir bakış açısı eklemeniz gerek. 00:05:12.408 --> 00:05:14.123 Peki ya kediler gizlenirse? 00:05:15.143 --> 00:05:17.362 Bu absürd kedilere ne demeli? 00:05:19.112 --> 00:05:21.529 Şimdi ne demek istediğimi anladınız. 00:05:21.529 --> 00:05:24.896 Evdeki kedi gibi basit bir şey için bile 00:05:24.896 --> 00:05:29.400 sonsuz çeşitlilikte nesne modellemesi yapmak mümkün 00:05:29.400 --> 00:05:31.633 ve bu sadece bir nesne. NOTE Paragraph 00:05:32.573 --> 00:05:35.065 Yaklaşık sekiz yıl önce, 00:05:35.065 --> 00:05:40.095 oldukça basit ama yoğun bir gözlem fikrimi değiştirdi. 00:05:41.425 --> 00:05:44.110 Hiç kimse bir çocuğa nasıl görebileceğini öğretmez, 00:05:44.110 --> 00:05:46.371 özellikle de erken yaşlarda. 00:05:46.371 --> 00:05:51.371 Gerçek dünya tecrübeleri ve örnekleriyle öğrenirler bunu. 00:05:51.371 --> 00:05:54.111 Bir çocuğun gözlerini düşünecek olursanız 00:05:54.111 --> 00:05:56.665 sanki bir çift biyolojik kameraymış gibi, 00:05:56.665 --> 00:06:00.845 yaklaşık her 200 milisaniyede bir fotoğraf çekerler, 00:06:00.845 --> 00:06:03.979 göz hareketinden oluşmuş ortalama bir zaman dilimi. 00:06:03.979 --> 00:06:09.529 Yani üç yaşında bir çocuk, gerçek hayatta yüz milyonlarca 00:06:09.529 --> 00:06:11.363 fotoğraf görmüş olacak. 00:06:11.363 --> 00:06:13.643 Bu oldukça fazla deneme örneği. 00:06:14.383 --> 00:06:20.372 Sadece daha iyi algoritmalara odaklanmak yerine, 00:06:20.372 --> 00:06:25.644 sezilerim algoritmalara bir tür eğitici veri vermek üzerineydi, 00:06:25.644 --> 00:06:28.963 tıpkı bir çocuğa sayıca ve kalitece 00:06:28.963 --> 00:06:32.841 deneyimleri yoluyla verilmiş gibi. NOTE Paragraph 00:06:32.841 --> 00:06:34.699 Bunu anlayınca, 00:06:34.699 --> 00:06:37.670 bir tür veri havuzuna 00:06:37.670 --> 00:06:42.129 sahip olduğumuz resimlerden daha fazla, hatta binlerce kat daha fazla 00:06:42.129 --> 00:06:44.706 ihtiyacımız olduğunu biliyorduk. 00:06:44.706 --> 00:06:48.817 Princeton Üniversitesinden Prof. Kai Li ile birlikte 00:06:48.817 --> 00:06:53.569 2007 senesinde ImageNet projesini başlattık. 00:06:53.569 --> 00:06:57.407 Şanslıyız ki başımızın üzerine bir kamera alıp 00:06:57.407 --> 00:06:59.171 yıllarca beklememize gerek kalmadı. 00:06:59.171 --> 00:07:00.634 İnternete başvurduk. 00:07:00.634 --> 00:07:05.070 İnsanların oluşturduğu en büyük resim definesi. 00:07:05.070 --> 00:07:08.111 Yaklaşık bir milyar resim indirdik 00:07:08.111 --> 00:07:13.991 ve crowdsourcing teknolojisini kullandık. Resimleri tanımlamada bize yardımcı olmada 00:07:13.991 --> 00:07:16.330 Amazon Mechanical Turk platformu gibi. 00:07:16.330 --> 00:07:21.230 ImageNet, Amazon Mechanical Turk çalışanlarına işveren en büyük 00:07:21.230 --> 00:07:24.226 kurumlardan biri oldu. 00:07:24.226 --> 00:07:28.080 Dünya genelinde 167 ülkeden 00:07:28.080 --> 00:07:32.120 neredeyse 50,000 çalışan 00:07:32.120 --> 00:07:35.257 yaklaşık bir milyar resmi 00:07:35.537 --> 00:07:39.642 eleyip, sınıflandırma ve tanımlamada bize yardımcı oldu. 00:07:40.612 --> 00:07:43.265 Bu çaba, erken gelişim dönemindeki 00:07:43.265 --> 00:07:47.165 bir çocuğun algıladığı görüntülerin sadece belli bir bölümünü 00:07:47.165 --> 00:07:51.336 elde edebilmemiz içindi. NOTE Paragraph 00:07:52.148 --> 00:07:56.050 Nihayet, bilgisayar algoritmalarını eğitmek için 00:07:56.050 --> 00:08:00.600 big datanın kullanılması fikri şu anda mümkün hale geldi, 00:08:00.600 --> 00:08:04.710 fakat 2007 senesine dönersek, bu mümkün değildi. 00:08:04.710 --> 00:08:08.588 Bu yolculukta uzun bir süre tam anlamıyla kendi başımızaydık. 00:08:08.588 --> 00:08:13.591 Samimi bazı arkadaşlarım kadrom için daha kullanışlı şeyler yapmamı tavsiye ettiler, 00:08:13.591 --> 00:08:17.933 ve aynı zamanda araştırma fonu oluşturmak için durmaksızın çabalıyorduk. 00:08:17.933 --> 00:08:20.418 Hatta, master öğrencilerime ImageNet fonu 00:08:20.418 --> 00:08:24.481 için kuru temizleme mağazamı tekrar açma konusunda şaka yapıyordum. 00:08:24.481 --> 00:08:29.242 Üniversite yıllarımda bu şekilde geçiniyordum. NOTE Paragraph 00:08:29.242 --> 00:08:31.098 Sonra devam ettik. 00:08:31.098 --> 00:08:34.813 2009 senesinde, ImageNet projesi 00:08:34.813 --> 00:08:38.855 her gün ingilizce kelimelerle 22,000 00:08:38.855 --> 00:08:43.660 nesne ve eşya sınıfı ile 00:08:43.660 --> 00:08:46.980 15 milyonluk bir resim veritabanına ulaştı. 00:08:46.980 --> 00:08:49.906 Sayı ve kalite olarak, 00:08:49.906 --> 00:08:52.878 emsalsiz bir ölçekti bu. 00:08:52.878 --> 00:08:56.339 Örneğin, kedi kategorisinde, 00:08:56.339 --> 00:08:59.148 görünüş ve poz 00:08:59.148 --> 00:09:03.258 ile evcil ve yaban türlerinin tümüyle 00:09:03.258 --> 00:09:08.481 62 binden fazla kedi bulunmakta. 00:09:08.481 --> 00:09:11.825 Bunları ImageNet olarak toparladığımızdan heyecanlıydık 00:09:11.825 --> 00:09:15.563 ve sonra bütün dünya araştırmalarında bunlardan faydalanılsın istedik, 00:09:15.563 --> 00:09:19.604 bu yüzden TED fashion'da bütün veri havuzumuzu 00:09:19.604 --> 00:09:23.196 global araştırma topluluklarına ücretsiz bir şekilde açtık. 00:09:24.636 --> 00:09:28.636 (Alkış) NOTE Paragraph 00:09:29.416 --> 00:09:33.954 Artık, bilgisayarımızın beynini besleyecek veriye sahibiz, 00:09:33.954 --> 00:09:37.691 algoritmaların kendilerine dönecek kadar da hazırız. 00:09:37.691 --> 00:09:42.869 ImageNet projesinin sağladığı bilgi zenginliği, sonunda 00:09:42.869 --> 00:09:47.675 "evrişimli sinirsel ağ" olarak ifade edilen makine öğrenme algoritmalarının 00:09:47.675 --> 00:09:50.090 özel bir sınıfıyla mükemmel bir şekilde eşleşmişti, 00:09:50.090 --> 00:09:55.338 öncülüğünü Kunihiko Fukushima, Geoff Hinton ve Yann LeCun'un yaptığı 00:09:55.338 --> 00:09:58.983 1970 ve 80'lerin öncesindeki bir alan. 00:09:58.983 --> 00:10:04.602 Beyinde meydana gelen milyarlarca yüksek bağlantılı sinirler gibi, 00:10:04.602 --> 00:10:08.456 sinir ağının basit bir çalışma birimine 00:10:08.456 --> 00:10:10.871 "nöron benzeri" düğümü deniyor. 00:10:10.871 --> 00:10:13.425 Başka düğümlerden girdi alıyorlar 00:10:13.425 --> 00:10:16.143 ve diğer düğümlere gönderiyorlar. 00:10:16.143 --> 00:10:20.856 Dahası, bu yüzbinlerce hatta milyonlarca düğüm 00:10:20.856 --> 00:10:24.083 hiyerarşik tabakalarla düzenleniyorlar 00:10:24.083 --> 00:10:26.637 tıpkı beyin gibi. 00:10:26.637 --> 00:10:31.420 Normal bir sinir ağında nesne tanıma modelimizi eğitmek için, 00:10:31.420 --> 00:10:34.601 24 milyon düğüm, 00:10:34.601 --> 00:10:37.898 140 milyon değişken, 00:10:37.898 --> 00:10:40.661 ve 15 milyar bağlantı kullandık. 00:10:40.661 --> 00:10:43.076 Bu muazzam bir modeldi. 00:10:43.076 --> 00:10:46.977 ImageNet'den elde edilen büyük veri ile 00:10:46.977 --> 00:10:52.410 oldukça muazzam bir modeli eğitmek için kullanılan modern CPU ve GPU'lar sayesinde 00:10:52.410 --> 00:10:54.779 evrişimli sinirsel ağ 00:10:54.779 --> 00:10:58.215 hiçbirimizin hayal edemeyeceği bir şekilde gelişti. 00:10:58.215 --> 00:11:01.493 Nesne tanımlamada etkileyeci yeni sonuçlar üretmek için 00:11:01.493 --> 00:11:06.063 başarılı bir mimari olmaya başladı. 00:11:06.063 --> 00:11:08.873 Bu bilgisayarın bize söylediği, 00:11:08.873 --> 00:11:11.173 bu fotoğrafta bir kedinin olduğu 00:11:11.173 --> 00:11:13.076 ve kedinin nerede olduğu. 00:11:13.076 --> 00:11:15.188 Elbette orada kedilerden daha fazlası var, 00:11:15.188 --> 00:11:17.626 burada ise bilgisayar algoritmasının bize söylediği 00:11:17.626 --> 00:11:20.900 resimde bir çocuk ile oyuncak bir ayının; 00:11:20.900 --> 00:11:25.266 bir köpeğin, bir kişinin ve arkaplanda küçük bir uçurtmanın; 00:11:25.266 --> 00:11:28.401 ya da çok karışık bir resimin 00:11:28.401 --> 00:11:33.045 bir adam, bir kaykay, korkuluklar, lamba direği v.b. gibi şeyler olduğu. 00:11:33.045 --> 00:11:38.338 Bazen, bilgisayar ne gördüğü hakkında emin olamayınca 00:11:39.488 --> 00:11:42.434 çok fazla düşünmek yerine yeterince 00:11:42.504 --> 00:11:45.652 mantıklı bir cevap vermesini öğrettik, 00:11:45.652 --> 00:11:48.463 tıpkı bizim yapacağımız gibi 00:11:48.463 --> 00:11:53.129 fakat başka zamanlarda bilgisayar algoritmamız bize dikkate değer şeyler 00:11:53.129 --> 00:11:55.382 tam olarak nesnelerin ne olduğunu 00:11:55.382 --> 00:11:58.818 marka, model ve üretim yılı gibi şeyleri söylüyor. NOTE Paragraph 00:11:58.818 --> 00:12:04.204 Bu algoritmayı Google Sokak Görüntüleme ile yüzlerce Amerika şehrinden 00:12:04.204 --> 00:12:07.339 alınmış resimlere uyguladık 00:12:07.339 --> 00:12:10.265 ve gerçekten ilginç şeyler öğrendik: 00:12:10.265 --> 00:12:13.585 öncelikle, hepimizin bildiği gibi araç 00:12:13.585 --> 00:12:16.875 fiyatlarının aile gelir düzeyiyle 00:12:16.875 --> 00:12:19.220 doğrudan ilişkili olduğunu teyit etti 00:12:19.220 --> 00:12:23.747 fakat ilginçtir ki, araç fiyatları aynı zamanda 00:12:23.747 --> 00:12:26.047 şehirdeki suç oranları 00:12:27.007 --> 00:12:30.970 ya da posta kodlarından oy verme alanları ile de bağlantılı. NOTE Paragraph 00:12:32.060 --> 00:12:34.266 Peki biraz düşünün, bu oldu mu? 00:12:34.266 --> 00:12:39.419 Bilgisayar henüz insan kabiliyetlerine erişebildi mi hatta daha üstün geldi mi ? 00:12:39.419 --> 00:12:41.557 Hayır, o kadar hızlı değil. 00:12:41.557 --> 00:12:46.480 Şu ana dek, sadece bilgisayara nesneleri görmesini öğrettik. 00:12:46.480 --> 00:12:51.124 Bu küçük bir çocuğun bir kaç kelime söylemesini öğrenmesi gibi bir sey. 00:12:51.124 --> 00:12:53.794 İnanılmaz bir başarıdır bu, 00:12:53.794 --> 00:12:56.254 fakat bu sadece ilk adımdır. 00:12:56.254 --> 00:13:00.016 Sonrasında, başka bir gelişimsel dönüm noktası açığa çıkar, 00:13:00.016 --> 00:13:03.477 ve çocuk cümlelerle iletişim kurmaya başlar. 00:13:03.477 --> 00:13:07.701 Yani, "bu resimdeki bir kedidir" demek yerine 00:13:07.701 --> 00:13:12.903 dinlediğiniz gibi küçük kız bize "bu yatağın üzerinde uzanan bir kedidir" diyor NOTE Paragraph 00:13:12.903 --> 00:13:18.498 Bilgisayarı resimleri görmek ve cümle kurmak için eğitmek, 00:13:18.498 --> 00:13:22.446 big data ile makine öğrenim algoritmasının beraberliği için 00:13:22.446 --> 00:13:24.721 bir adım daha atılmalı. 00:13:24.721 --> 00:13:28.877 Şimdilik, bilgisayarın her resimden 00:13:28.877 --> 00:13:31.733 insanlar tarafından oluşturulmuş kadar 00:13:31.733 --> 00:13:35.055 iyi cümleler öğrenmesi gerek. 00:13:35.055 --> 00:13:38.908 Beynin görsellik ve dili bütünleştirdiği gibi, 00:13:38.908 --> 00:13:44.109 biz de ufak görsel parçacıklar gibi görsel şeylerle 00:13:44.189 --> 00:13:46.483 cümlelerdeki kelime ve ifadeleri 00:13:46.553 --> 00:13:49.936 birleştirecek bir model geliştirdik. NOTE Paragraph 00:13:50.216 --> 00:13:52.979 Yaklaşık dört ay önce, 00:13:52.979 --> 00:13:55.626 sonunda bütün bunları bağladık 00:13:55.626 --> 00:13:59.410 ve bir fotoğrafı ilk kez gördüğünde 00:13:59.410 --> 00:14:03.404 bir insan gibi cümle kurabilme yeteneğine sahip 00:14:03.404 --> 00:14:06.910 ilk bilgisayar görme modelinden bir tane yaptık. 00:14:06.910 --> 00:14:11.554 Şu anda, bilgisayarın konuşmamızın başında 00:14:11.554 --> 00:14:13.529 küçük kızın gördüğü resimleri gördüğünde 00:14:13.529 --> 00:14:17.359 neler söylediğini size göstermeye hazırım. NOTE Paragraph 00:14:19.519 --> 00:14:22.863 (Video) Bilgisayar: Bir adam filin yanında duruyor. 00:14:24.393 --> 00:14:28.027 Geniş bir uçak, uçak pistinin üstünde oturuyor. NOTE Paragraph 00:14:29.057 --> 00:14:33.269 FFL: Tabii, hala sıkı bir şekilde algoritmamızı geliştirmek için çalışıyoruz 00:14:33.269 --> 00:14:35.865 ve henüz öğreneceği çok sey var. 00:14:35.865 --> 00:14:38.156 (Alkış) NOTE Paragraph 00:14:39.556 --> 00:14:42.877 Bilgisayar henüz hatalar yapmakta. NOTE Paragraph 00:14:42.877 --> 00:14:46.268 Bilgisayar: Bir kedi battaniyenin içinde yatakta uzanıyor. NOTE Paragraph 00:14:46.268 --> 00:14:48.821 FFL: Tabii, oldukça fazla kedi gördüğünden 00:14:48.821 --> 00:14:51.747 herşeyin kediye benzeyebileceğini düşünüyor. NOTE Paragraph 00:14:53.317 --> 00:14:56.181 Bilgisayar: Genç erkek bir beysbol sopasını tutuyor. 00:14:56.181 --> 00:14:57.946 (Gülüşmeler) NOTE Paragraph 00:14:57.946 --> 00:15:02.529 FFL: Ya da, henüz bir diş fırçası görmemişse, beysbol sopasıyla karıştırıyor NOTE Paragraph 00:15:03.309 --> 00:15:06.743 Bilgisayar: Bir adam binanın kenarından atını sokak aşağı sürüyor. 00:15:06.743 --> 00:15:08.766 (Gülüşmeler) NOTE Paragraph 00:15:08.766 --> 00:15:12.318 FFL: Henüz bilgisayarlara Sanat 101 dersini öğretmedik. NOTE Paragraph 00:15:13.768 --> 00:15:16.652 Bilgisayar: Bir zebra otlukların içinde duruyor. NOTE Paragraph 00:15:16.652 --> 00:15:20.019 FFL: Ve henüz doğanın büyüleci güzelliğini 00:15:20.019 --> 00:15:22.457 takdir etmeyi bizim gibi öğrenmedi. NOTE Paragraph 00:15:22.457 --> 00:15:25.289 Uzun bir yolculuktu. 00:15:25.289 --> 00:15:29.515 Sıfırdan üç yaşına getirmek oldukça zordu. 00:15:29.515 --> 00:15:35.111 Asıl zor olan üç yaşından on üç yaş ve daha ötesine götürebilmek. 00:15:35.111 --> 00:15:39.476 Size bu resmi tekrar hatırlatmak istiyorum, çocuk ve kekin olduğu. 00:15:39.476 --> 00:15:43.540 Şu ana dek, bilgisayara nesneleri görebilmesini 00:15:43.540 --> 00:15:47.998 hatta gördüğü resimden küçük bir hikaye anlatmasını bile öğrettik. NOTE Paragraph 00:15:47.998 --> 00:15:51.574 Bilgisayar: Biri yaş pastanın olduğu masada oturuyor. NOTE Paragraph 00:15:51.574 --> 00:15:54.554 FFL: Fakat bu resimde sadece bir kişi ve pastadan 00:15:54.554 --> 00:15:56.474 daha fazlası var. 00:15:56.474 --> 00:16:00.941 Bilgisayarın göremediği şey, onun sadece Paskalya süresince 00:16:00.941 --> 00:16:04.158 servis edilen özel bir İtalyan pastası olduğu. 00:16:04.158 --> 00:16:08.003 Çocuk, babası tarafından Sidney gezisinden sonra kendisine hediye edilen 00:16:08.003 --> 00:16:11.333 en sevdiği tişörtünü giyiyor, 00:16:11.333 --> 00:16:15.141 hepimiz onun nasıl mutlu olduğunu 00:16:15.141 --> 00:16:18.344 ve şu anda kafasından geçenleri söyleyebiliriz. NOTE Paragraph 00:16:19.214 --> 00:16:22.339 Bu benim oğlum Leo. 00:16:22.339 --> 00:16:24.963 Görsel zeka araştırmalarımda, 00:16:24.963 --> 00:16:27.354 durmaksızın Leo'yu 00:16:27.354 --> 00:16:30.257 ve içinde yaşayacağı geleceği düşünüyorum. 00:16:30.257 --> 00:16:32.278 Makineler görebildiğinde, 00:16:32.278 --> 00:16:36.990 doktor ve hemşireler, tanı koymak ve hastalarla ilgilenmek için 00:16:36.990 --> 00:16:41.082 ek olarak yorulmayan göz çiftlerine sahip olacaklar. 00:16:41.082 --> 00:16:45.465 Arabalar yollarda daha güvenli daha akıllı bir şekilde gidecek. 00:16:45.465 --> 00:16:48.159 Robotlar, sadece insanlar değil, 00:16:48.159 --> 00:16:53.008 enkaz bölgelerinde tutsak ve yaralıları kurtarmada bizimle göğüs gerecekler. 00:16:53.798 --> 00:16:57.594 Yeni tür, daha iyi malzemeler bulacak 00:16:57.594 --> 00:17:02.103 ve makinelerin yardımıyla, görünmeyen sınırları keşfedeceğiz. NOTE Paragraph 00:17:03.113 --> 00:17:07.280 Azar azar, makinelere görme yetisini veriyoruz. 00:17:07.280 --> 00:17:10.078 Önce, biz onlara görmeyi öğretiyoruz. 00:17:10.078 --> 00:17:12.841 Sonra, onlar daha iyi görebilmemiz için bize yardım ediyor. 00:17:12.841 --> 00:17:17.006 Öncelikle, dünyamızı keşfetmek ve düşünmek için gözlerimiz 00:17:17.006 --> 00:17:19.940 sadece insan gözleri olmayacak. 00:17:19.940 --> 00:17:23.400 Makineleri sadece zekaları için kullanmıyor, 00:17:23.400 --> 00:17:29.579 aynı zamanda hayal bile edemeyeceğimiz bir şekilde onlarla iş birliği yapıyoruz. NOTE Paragraph 00:17:29.579 --> 00:17:31.740 Benim araştırmam bu: 00:17:31.740 --> 00:17:34.452 bilgisayarlara görsel zekayı vermek 00:17:34.452 --> 00:17:39.583 ve Leo için, dünya için daha iyi bir gelecek oluşturmak. NOTE Paragraph 00:17:39.583 --> 00:17:41.394 Teşekkürler. NOTE Paragraph 00:17:41.394 --> 00:17:45.179 (Alkış)