1 00:00:02,366 --> 00:00:05,387 Müsadenizle size bazı şeyler göstermek istiyorum. 2 00:00:05,728 --> 00:00:09,700 (Video) Kız: Tamam, burada yatağın üzerinde oturan bir kedi var. 3 00:00:09,910 --> 00:00:13,350 Çocuk fili okşuyor. 4 00:00:14,300 --> 00:00:18,174 Buradaki insanlar uçağa gidiyorlar. 5 00:00:18,364 --> 00:00:20,274 Bu büyük bir uçak. 6 00:00:21,054 --> 00:00:23,480 Fei-Fei Li: Üç yaşında küçük bir kız çocuğu 7 00:00:23,480 --> 00:00:26,959 fotoğraflarda ne gördüğünü anlatıyor. 8 00:00:27,349 --> 00:00:30,194 Henüz, dünya hakkında öğrenmesi gereken çok şey var 9 00:00:30,194 --> 00:00:34,743 fakat çok önemli bir alanda uzman olmuş bile: 10 00:00:34,743 --> 00:00:37,589 gördüklerini anlamlandırma. 11 00:00:38,089 --> 00:00:42,455 Toplumumuz teknolojik olarak her zamankinden daha fazla ilerlemiş durumda. 12 00:00:42,455 --> 00:00:46,084 İnsanları aya gönderiyoruz, bizimle konuşabilen ya da radyo kanallarını 13 00:00:46,084 --> 00:00:51,030 sadece sevdiğimiz müzikleri çalması için düzenleyebilen telefonlar yapıyoruz. 14 00:00:51,030 --> 00:00:55,085 En gelişmiş makinelerimiz ve bilgisayarlarımız 15 00:00:55,085 --> 00:00:57,988 hâlâ bu özelliği elde etmeye çalışıyorlar. 16 00:00:57,988 --> 00:01:01,447 Bugün, bilgisayar görme yetisi üzerine yapılan ileri düzeydeki 17 00:01:01,447 --> 00:01:05,494 araştırmalarımızın işleyişi hakkında size bilgi vermek için buradayım. 18 00:01:05,494 --> 00:01:09,655 Bilgisayar biliminde, en önde ve devrim niteliğinde 19 00:01:09,655 --> 00:01:12,861 olan teknolojik gelişmelerden biri. 20 00:01:12,861 --> 00:01:17,412 Evet, kendini sürebilen araçların prototiplerine sahibiz, 21 00:01:17,412 --> 00:01:21,265 fakat akıllı görme yetisine sahip olmadan, üzerinden geçilebilecek buruşmuş bir 22 00:01:21,265 --> 00:01:25,235 kağıt torba ile sakınılması gereken aynı boyuttaki bir kaya 23 00:01:25,235 --> 00:01:28,575 arasındaki farkı söyleyebilmeleri mümkün değil. 24 00:01:29,415 --> 00:01:32,805 Mükemmel çözünürlükte kameralar yapmamıza rağmen, 25 00:01:32,805 --> 00:01:35,940 görebilmelerini sağlayamamıştık. 26 00:01:36,420 --> 00:01:39,725 İnsansız hava araçları koca bir araziyi uçabilirler, 27 00:01:39,725 --> 00:01:41,859 ama yağmur ormanlarındaki değişimleri izlememize yardımcı olabilecek 28 00:01:41,859 --> 00:01:45,320 düzeyde yeterli bir görüş kabiliyetine sahip değiller. 29 00:01:45,320 --> 00:01:48,270 Güvenlik kameraları her yerde, 30 00:01:48,270 --> 00:01:53,337 fakat bir çocuk havuzda boğuluyorken bizi uyaramıyorlar. 31 00:01:54,167 --> 00:01:59,502 Fotoğraf ve videolar gündelik hayatın bir parçası haline geliyorlar. 32 00:01:59,762 --> 00:02:03,849 Herhangi bir insan veya bazı grupların görme umuduyla 33 00:02:03,849 --> 00:02:06,632 hızlı bir şekilde çoğalıyorlar, 34 00:02:06,632 --> 00:02:10,553 buradaki TED konuşmaları ile sizler ve ben de buna katkı sağlıyoruz. 35 00:02:10,773 --> 00:02:13,745 En iyi yazılımımız hala bu devasa içeriği 36 00:02:14,915 --> 00:02:18,661 anlamaya ve yönetmeye çabalıyor. 37 00:02:19,661 --> 00:02:24,023 Başka bir anlamda, toplumun tamamı olarak 38 00:02:24,543 --> 00:02:26,529 büyük bir görme kaybına sahibiz 39 00:02:26,679 --> 00:02:30,066 çünkü en iyi makinelerimiz hala göremiyorlar. 40 00:02:31,526 --> 00:02:34,452 "Neden bu kadar zor ki bu?" diye soracaksınız. 41 00:02:34,452 --> 00:02:37,145 Kameralar burada da olduğu gibi fotoğraf çekebilirler, 42 00:02:37,145 --> 00:02:41,139 ışığın iki boyutlu sayı dizilerine çevrilmiş hali ile, 43 00:02:41,139 --> 00:02:42,789 ki bunlara pikseller diyoruz. 44 00:02:42,789 --> 00:02:45,040 Fakat burada sadece ölü sayılar bulunmakta. 45 00:02:45,040 --> 00:02:48,151 Kendi içlerinde herhangi bir anlam taşımıyorlar. 46 00:02:48,151 --> 00:02:52,494 Nasıl ki duymak ile dinlemek aynı anlama gelmiyorsa 47 00:02:52,494 --> 00:02:56,534 fotoğraf çekmek ile görmek de aynı şeyi ifade etmiyor. 48 00:02:56,974 --> 00:03:00,043 Görmek derken ciddi manada "anlamayı" kastediyoruz. 49 00:03:01,293 --> 00:03:04,710 Aslında, bu yetiye sahip olabilmemiz 50 00:03:05,200 --> 00:03:08,943 tabiat ananın 540 milyon yılını aldı. 51 00:03:09,443 --> 00:03:11,324 Bu çabanın çoğu, beynin görsel 52 00:03:11,444 --> 00:03:16,595 işleme bölümünün gelişimine gitti 53 00:03:16,595 --> 00:03:19,242 sadece gözlerin kendisine değil. 54 00:03:19,242 --> 00:03:21,989 Yani görmek gözlerde başlıyor, 55 00:03:21,989 --> 00:03:25,507 ama asıl olarak beynin bir bölümünde anlam kazanıyor. 56 00:03:26,287 --> 00:03:31,347 15 sene önce, Caltech'deki doktorama başladığımda 57 00:03:31,347 --> 00:03:34,273 ve sonra Stanford Görsel Laboratuvarını yönlendirdiğimde 58 00:03:34,273 --> 00:03:38,669 mentorlerim, iş ortaklarım ve öğrencilerimle birlikte 59 00:03:38,669 --> 00:03:41,558 bilgisayarlara görmeyi öğretmek için çalışıyorduk. 60 00:03:42,138 --> 00:03:45,932 Araştırma alanımız bilgisayar görme yetisi ve makine öğrenimi olarak anılıyordu. 61 00:03:45,952 --> 00:03:49,830 Yapay zeka bölümünün genel bir dalı olarak geçiyordu. 62 00:03:51,000 --> 00:03:56,493 Nihayetinde, makinelere tıpkı bizim gibi görebilmelerini öğretmek istedik, 63 00:03:56,493 --> 00:04:01,880 nesnelerin isimlendirilmesi, insanların tanımlanması, 3B geometrileri tahmin 64 00:04:01,880 --> 00:04:07,568 ilişkileri anlama, duygular, olaylar ve şiddet. 65 00:04:07,568 --> 00:04:13,721 Şu anda insanların, yerlerin ve eşyaların bütün hikayesini 66 00:04:13,721 --> 00:04:16,265 gözler önüne serip beraber dokuyalım. 67 00:04:16,955 --> 00:04:22,538 Bu amaca doğru atılacak ilk adım bilgisayara gördüğü şeyleri öğretmek, 68 00:04:22,538 --> 00:04:25,906 sanal dünyanın yapı taşı bu. 69 00:04:25,906 --> 00:04:30,340 Basit anlamda bu öğretme sürecini bi hayal edin, 70 00:04:30,340 --> 00:04:33,335 bilgisayara belirli bir nesnenin ya da bir kedinin diyelim 71 00:04:33,335 --> 00:04:36,656 deneme amaçlı resimlerini göstermek gibi 72 00:04:36,656 --> 00:04:41,393 ve bu resimlerden öğrenilmiş bir model tasarlamayı. 73 00:04:41,393 --> 00:04:43,437 Bu ne kadar zor olabilir ki? 74 00:04:43,437 --> 00:04:47,489 Sonuç olarak, bir kedi sadece şekillerin ve renklerin bir derlemesi 75 00:04:47,489 --> 00:04:51,575 ve bu ilk zamanlarda yaptığımız nesne modellemesi. 76 00:04:51,575 --> 00:04:55,197 Algoritmasını sayısal bir dille bilgisayara öğretmemiz gerekiyordu 77 00:04:55,197 --> 00:04:58,540 bu kedi yuvarak bir yüze, dolgun bir vücuda 78 00:04:58,540 --> 00:05:00,839 iki noktada kulaklara ve uzun bir kuyruğa sahip 79 00:05:00,839 --> 00:05:02,249 her şey yolunda gibi. 80 00:05:02,859 --> 00:05:04,972 Peki, ya bu kedi? 81 00:05:04,972 --> 00:05:06,063 (Gülüşmeler) 82 00:05:06,063 --> 00:05:07,689 Hepsi iç içe. 83 00:05:07,689 --> 00:05:12,408 Bu nesne için için farklı bir şekil ve farklı bir bakış açısı eklemeniz gerek. 84 00:05:12,408 --> 00:05:14,123 Peki ya kediler gizlenirse? 85 00:05:15,143 --> 00:05:17,362 Bu absürd kedilere ne demeli? 86 00:05:19,112 --> 00:05:21,529 Şimdi ne demek istediğimi anladınız. 87 00:05:21,529 --> 00:05:24,896 Evdeki kedi gibi basit bir şey için bile 88 00:05:24,896 --> 00:05:29,400 sonsuz çeşitlilikte nesne modellemesi yapmak mümkün 89 00:05:29,400 --> 00:05:31,633 ve bu sadece bir nesne. 90 00:05:32,573 --> 00:05:35,065 Yaklaşık sekiz yıl önce, 91 00:05:35,065 --> 00:05:40,095 oldukça basit ama yoğun bir gözlem fikrimi değiştirdi. 92 00:05:41,425 --> 00:05:44,110 Hiç kimse bir çocuğa nasıl görebileceğini öğretmez, 93 00:05:44,110 --> 00:05:46,371 özellikle de erken yaşlarda. 94 00:05:46,371 --> 00:05:51,371 Gerçek dünya tecrübeleri ve örnekleriyle öğrenirler bunu. 95 00:05:51,371 --> 00:05:54,111 Bir çocuğun gözlerini düşünecek olursanız 96 00:05:54,111 --> 00:05:56,665 sanki bir çift biyolojik kameraymış gibi, 97 00:05:56,665 --> 00:06:00,845 yaklaşık her 200 milisaniyede bir fotoğraf çekerler, 98 00:06:00,845 --> 00:06:03,979 göz hareketinden oluşmuş ortalama bir zaman dilimi. 99 00:06:03,979 --> 00:06:09,529 Yani üç yaşında bir çocuk, gerçek hayatta yüz milyonlarca 100 00:06:09,529 --> 00:06:11,363 fotoğraf görmüş olacak. 101 00:06:11,363 --> 00:06:13,643 Bu oldukça fazla deneme örneği. 102 00:06:14,383 --> 00:06:20,372 Sadece daha iyi algoritmalara odaklanmak yerine, 103 00:06:20,372 --> 00:06:25,644 sezilerim algoritmalara bir tür eğitici veri vermek üzerineydi, 104 00:06:25,644 --> 00:06:28,963 tıpkı bir çocuğa sayıca ve kalitece 105 00:06:28,963 --> 00:06:32,841 deneyimleri yoluyla verilmiş gibi. 106 00:06:32,841 --> 00:06:34,699 Bunu anlayınca, 107 00:06:34,699 --> 00:06:37,670 bir tür veri havuzuna 108 00:06:37,670 --> 00:06:42,129 sahip olduğumuz resimlerden daha fazla, hatta binlerce kat daha fazla 109 00:06:42,129 --> 00:06:44,706 ihtiyacımız olduğunu biliyorduk. 110 00:06:44,706 --> 00:06:48,817 Princeton Üniversitesinden Prof. Kai Li ile birlikte 111 00:06:48,817 --> 00:06:53,569 2007 senesinde ImageNet projesini başlattık. 112 00:06:53,569 --> 00:06:57,407 Şanslıyız ki başımızın üzerine bir kamera alıp 113 00:06:57,407 --> 00:06:59,171 yıllarca beklememize gerek kalmadı. 114 00:06:59,171 --> 00:07:00,634 İnternete başvurduk. 115 00:07:00,634 --> 00:07:05,070 İnsanların oluşturduğu en büyük resim definesi. 116 00:07:05,070 --> 00:07:08,111 Yaklaşık bir milyar resim indirdik 117 00:07:08,111 --> 00:07:13,991 ve crowdsourcing teknolojisini kullandık. Resimleri tanımlamada bize yardımcı olmada 118 00:07:13,991 --> 00:07:16,330 Amazon Mechanical Turk platformu gibi. 119 00:07:16,330 --> 00:07:21,230 ImageNet, Amazon Mechanical Turk çalışanlarına işveren en büyük 120 00:07:21,230 --> 00:07:24,226 kurumlardan biri oldu. 121 00:07:24,226 --> 00:07:28,080 Dünya genelinde 167 ülkeden 122 00:07:28,080 --> 00:07:32,120 neredeyse 50,000 çalışan 123 00:07:32,120 --> 00:07:35,257 yaklaşık bir milyar resmi 124 00:07:35,537 --> 00:07:39,642 eleyip, sınıflandırma ve tanımlamada bize yardımcı oldu. 125 00:07:40,612 --> 00:07:43,265 Bu çaba, erken gelişim dönemindeki 126 00:07:43,265 --> 00:07:47,165 bir çocuğun algıladığı görüntülerin sadece belli bir bölümünü 127 00:07:47,165 --> 00:07:51,336 elde edebilmemiz içindi. 128 00:07:52,148 --> 00:07:56,050 Nihayet, bilgisayar algoritmalarını eğitmek için 129 00:07:56,050 --> 00:08:00,600 big datanın kullanılması fikri şu anda mümkün hale geldi, 130 00:08:00,600 --> 00:08:04,710 fakat 2007 senesine dönersek, bu mümkün değildi. 131 00:08:04,710 --> 00:08:08,588 Bu yolculukta uzun bir süre tam anlamıyla kendi başımızaydık. 132 00:08:08,588 --> 00:08:13,591 Samimi bazı arkadaşlarım kadrom için daha kullanışlı şeyler yapmamı tavsiye ettiler, 133 00:08:13,591 --> 00:08:17,933 ve aynı zamanda araştırma fonu oluşturmak için durmaksızın çabalıyorduk. 134 00:08:17,933 --> 00:08:20,418 Hatta, master öğrencilerime ImageNet fonu 135 00:08:20,418 --> 00:08:24,481 için kuru temizleme mağazamı tekrar açma konusunda şaka yapıyordum. 136 00:08:24,481 --> 00:08:29,242 Üniversite yıllarımda bu şekilde geçiniyordum. 137 00:08:29,242 --> 00:08:31,098 Sonra devam ettik. 138 00:08:31,098 --> 00:08:34,813 2009 senesinde, ImageNet projesi 139 00:08:34,813 --> 00:08:38,855 her gün ingilizce kelimelerle 22,000 140 00:08:38,855 --> 00:08:43,660 nesne ve eşya sınıfı ile 141 00:08:43,660 --> 00:08:46,980 15 milyonluk bir resim veritabanına ulaştı. 142 00:08:46,980 --> 00:08:49,906 Sayı ve kalite olarak, 143 00:08:49,906 --> 00:08:52,878 emsalsiz bir ölçekti bu. 144 00:08:52,878 --> 00:08:56,339 Örneğin, kedi kategorisinde, 145 00:08:56,339 --> 00:08:59,148 görünüş ve poz 146 00:08:59,148 --> 00:09:03,258 ile evcil ve yaban türlerinin tümüyle 147 00:09:03,258 --> 00:09:08,481 62 binden fazla kedi bulunmakta. 148 00:09:08,481 --> 00:09:11,825 Bunları ImageNet olarak toparladığımızdan heyecanlıydık 149 00:09:11,825 --> 00:09:15,563 ve sonra bütün dünya araştırmalarında bunlardan faydalanılsın istedik, 150 00:09:15,563 --> 00:09:19,604 bu yüzden TED fashion'da bütün veri havuzumuzu 151 00:09:19,604 --> 00:09:23,196 global araştırma topluluklarına ücretsiz bir şekilde açtık. 152 00:09:24,636 --> 00:09:28,636 (Alkış) 153 00:09:29,416 --> 00:09:33,954 Artık, bilgisayarımızın beynini besleyecek veriye sahibiz, 154 00:09:33,954 --> 00:09:37,691 algoritmaların kendilerine dönecek kadar da hazırız. 155 00:09:37,691 --> 00:09:42,869 ImageNet projesinin sağladığı bilgi zenginliği, sonunda 156 00:09:42,869 --> 00:09:47,675 "evrişimli sinirsel ağ" olarak ifade edilen makine öğrenme algoritmalarının 157 00:09:47,675 --> 00:09:50,090 özel bir sınıfıyla mükemmel bir şekilde eşleşmişti, 158 00:09:50,090 --> 00:09:55,338 öncülüğünü Kunihiko Fukushima, Geoff Hinton ve Yann LeCun'un yaptığı 159 00:09:55,338 --> 00:09:58,983 1970 ve 80'lerin öncesindeki bir alan. 160 00:09:58,983 --> 00:10:04,602 Beyinde meydana gelen milyarlarca yüksek bağlantılı sinirler gibi, 161 00:10:04,602 --> 00:10:08,456 sinir ağının basit bir çalışma birimine 162 00:10:08,456 --> 00:10:10,871 "nöron benzeri" düğümü deniyor. 163 00:10:10,871 --> 00:10:13,425 Başka düğümlerden girdi alıyorlar 164 00:10:13,425 --> 00:10:16,143 ve diğer düğümlere gönderiyorlar. 165 00:10:16,143 --> 00:10:20,856 Dahası, bu yüzbinlerce hatta milyonlarca düğüm 166 00:10:20,856 --> 00:10:24,083 hiyerarşik tabakalarla düzenleniyorlar 167 00:10:24,083 --> 00:10:26,637 tıpkı beyin gibi. 168 00:10:26,637 --> 00:10:31,420 Normal bir sinir ağında nesne tanıma modelimizi eğitmek için, 169 00:10:31,420 --> 00:10:34,601 24 milyon düğüm, 170 00:10:34,601 --> 00:10:37,898 140 milyon değişken, 171 00:10:37,898 --> 00:10:40,661 ve 15 milyar bağlantı kullandık. 172 00:10:40,661 --> 00:10:43,076 Bu muazzam bir modeldi. 173 00:10:43,076 --> 00:10:46,977 ImageNet'den elde edilen büyük veri ile 174 00:10:46,977 --> 00:10:52,410 oldukça muazzam bir modeli eğitmek için kullanılan modern CPU ve GPU'lar sayesinde 175 00:10:52,410 --> 00:10:54,779 evrişimli sinirsel ağ 176 00:10:54,779 --> 00:10:58,215 hiçbirimizin hayal edemeyeceği bir şekilde gelişti. 177 00:10:58,215 --> 00:11:01,493 Nesne tanımlamada etkileyeci yeni sonuçlar üretmek için 178 00:11:01,493 --> 00:11:06,063 başarılı bir mimari olmaya başladı. 179 00:11:06,063 --> 00:11:08,873 Bu bilgisayarın bize söylediği, 180 00:11:08,873 --> 00:11:11,173 bu fotoğrafta bir kedinin olduğu 181 00:11:11,173 --> 00:11:13,076 ve kedinin nerede olduğu. 182 00:11:13,076 --> 00:11:15,188 Elbette orada kedilerden daha fazlası var, 183 00:11:15,188 --> 00:11:17,626 burada ise bilgisayar algoritmasının bize söylediği 184 00:11:17,626 --> 00:11:20,900 resimde bir çocuk ile oyuncak bir ayının; 185 00:11:20,900 --> 00:11:25,266 bir köpeğin, bir kişinin ve arkaplanda küçük bir uçurtmanın; 186 00:11:25,266 --> 00:11:28,401 ya da çok karışık bir resimin 187 00:11:28,401 --> 00:11:33,045 bir adam, bir kaykay, korkuluklar, lamba direği v.b. gibi şeyler olduğu. 188 00:11:33,045 --> 00:11:38,338 Bazen, bilgisayar ne gördüğü hakkında emin olamayınca 189 00:11:39,488 --> 00:11:42,434 çok fazla düşünmek yerine yeterince 190 00:11:42,504 --> 00:11:45,652 mantıklı bir cevap vermesini öğrettik, 191 00:11:45,652 --> 00:11:48,463 tıpkı bizim yapacağımız gibi 192 00:11:48,463 --> 00:11:53,129 fakat başka zamanlarda bilgisayar algoritmamız bize dikkate değer şeyler 193 00:11:53,129 --> 00:11:55,382 tam olarak nesnelerin ne olduğunu 194 00:11:55,382 --> 00:11:58,818 marka, model ve üretim yılı gibi şeyleri söylüyor. 195 00:11:58,818 --> 00:12:04,204 Bu algoritmayı Google Sokak Görüntüleme ile yüzlerce Amerika şehrinden 196 00:12:04,204 --> 00:12:07,339 alınmış resimlere uyguladık 197 00:12:07,339 --> 00:12:10,265 ve gerçekten ilginç şeyler öğrendik: 198 00:12:10,265 --> 00:12:13,585 öncelikle, hepimizin bildiği gibi araç 199 00:12:13,585 --> 00:12:16,875 fiyatlarının aile gelir düzeyiyle 200 00:12:16,875 --> 00:12:19,220 doğrudan ilişkili olduğunu teyit etti 201 00:12:19,220 --> 00:12:23,747 fakat ilginçtir ki, araç fiyatları aynı zamanda 202 00:12:23,747 --> 00:12:26,047 şehirdeki suç oranları 203 00:12:27,007 --> 00:12:30,970 ya da posta kodlarından oy verme alanları ile de bağlantılı. 204 00:12:32,060 --> 00:12:34,266 Peki biraz düşünün, bu oldu mu? 205 00:12:34,266 --> 00:12:39,419 Bilgisayar henüz insan kabiliyetlerine erişebildi mi hatta daha üstün geldi mi ? 206 00:12:39,419 --> 00:12:41,557 Hayır, o kadar hızlı değil. 207 00:12:41,557 --> 00:12:46,480 Şu ana dek, sadece bilgisayara nesneleri görmesini öğrettik. 208 00:12:46,480 --> 00:12:51,124 Bu küçük bir çocuğun bir kaç kelime söylemesini öğrenmesi gibi bir sey. 209 00:12:51,124 --> 00:12:53,794 İnanılmaz bir başarıdır bu, 210 00:12:53,794 --> 00:12:56,254 fakat bu sadece ilk adımdır. 211 00:12:56,254 --> 00:13:00,016 Sonrasında, başka bir gelişimsel dönüm noktası açığa çıkar, 212 00:13:00,016 --> 00:13:03,477 ve çocuk cümlelerle iletişim kurmaya başlar. 213 00:13:03,477 --> 00:13:07,701 Yani, "bu resimdeki bir kedidir" demek yerine 214 00:13:07,701 --> 00:13:12,903 dinlediğiniz gibi küçük kız bize "bu yatağın üzerinde uzanan bir kedidir" diyor 215 00:13:12,903 --> 00:13:18,498 Bilgisayarı resimleri görmek ve cümle kurmak için eğitmek, 216 00:13:18,498 --> 00:13:22,446 big data ile makine öğrenim algoritmasının beraberliği için 217 00:13:22,446 --> 00:13:24,721 bir adım daha atılmalı. 218 00:13:24,721 --> 00:13:28,877 Şimdilik, bilgisayarın her resimden 219 00:13:28,877 --> 00:13:31,733 insanlar tarafından oluşturulmuş kadar 220 00:13:31,733 --> 00:13:35,055 iyi cümleler öğrenmesi gerek. 221 00:13:35,055 --> 00:13:38,908 Beynin görsellik ve dili bütünleştirdiği gibi, 222 00:13:38,908 --> 00:13:44,109 biz de ufak görsel parçacıklar gibi görsel şeylerle 223 00:13:44,189 --> 00:13:46,483 cümlelerdeki kelime ve ifadeleri 224 00:13:46,553 --> 00:13:49,936 birleştirecek bir model geliştirdik. 225 00:13:50,216 --> 00:13:52,979 Yaklaşık dört ay önce, 226 00:13:52,979 --> 00:13:55,626 sonunda bütün bunları bağladık 227 00:13:55,626 --> 00:13:59,410 ve bir fotoğrafı ilk kez gördüğünde 228 00:13:59,410 --> 00:14:03,404 bir insan gibi cümle kurabilme yeteneğine sahip 229 00:14:03,404 --> 00:14:06,910 ilk bilgisayar görme modelinden bir tane yaptık. 230 00:14:06,910 --> 00:14:11,554 Şu anda, bilgisayarın konuşmamızın başında 231 00:14:11,554 --> 00:14:13,529 küçük kızın gördüğü resimleri gördüğünde 232 00:14:13,529 --> 00:14:17,359 neler söylediğini size göstermeye hazırım. 233 00:14:19,519 --> 00:14:22,863 (Video) Bilgisayar: Bir adam filin yanında duruyor. 234 00:14:24,393 --> 00:14:28,027 Geniş bir uçak, uçak pistinin üstünde oturuyor. 235 00:14:29,057 --> 00:14:33,269 FFL: Tabii, hala sıkı bir şekilde algoritmamızı geliştirmek için çalışıyoruz 236 00:14:33,269 --> 00:14:35,865 ve henüz öğreneceği çok sey var. 237 00:14:35,865 --> 00:14:38,156 (Alkış) 238 00:14:39,556 --> 00:14:42,877 Bilgisayar henüz hatalar yapmakta. 239 00:14:42,877 --> 00:14:46,268 Bilgisayar: Bir kedi battaniyenin içinde yatakta uzanıyor. 240 00:14:46,268 --> 00:14:48,821 FFL: Tabii, oldukça fazla kedi gördüğünden 241 00:14:48,821 --> 00:14:51,747 herşeyin kediye benzeyebileceğini düşünüyor. 242 00:14:53,317 --> 00:14:56,181 Bilgisayar: Genç erkek bir beysbol sopasını tutuyor. 243 00:14:56,181 --> 00:14:57,946 (Gülüşmeler) 244 00:14:57,946 --> 00:15:02,529 FFL: Ya da, henüz bir diş fırçası görmemişse, beysbol sopasıyla karıştırıyor 245 00:15:03,309 --> 00:15:06,743 Bilgisayar: Bir adam binanın kenarından atını sokak aşağı sürüyor. 246 00:15:06,743 --> 00:15:08,766 (Gülüşmeler) 247 00:15:08,766 --> 00:15:12,318 FFL: Henüz bilgisayarlara Sanat 101 dersini öğretmedik. 248 00:15:13,768 --> 00:15:16,652 Bilgisayar: Bir zebra otlukların içinde duruyor. 249 00:15:16,652 --> 00:15:20,019 FFL: Ve henüz doğanın büyüleci güzelliğini 250 00:15:20,019 --> 00:15:22,457 takdir etmeyi bizim gibi öğrenmedi. 251 00:15:22,457 --> 00:15:25,289 Uzun bir yolculuktu. 252 00:15:25,289 --> 00:15:29,515 Sıfırdan üç yaşına getirmek oldukça zordu. 253 00:15:29,515 --> 00:15:35,111 Asıl zor olan üç yaşından on üç yaş ve daha ötesine götürebilmek. 254 00:15:35,111 --> 00:15:39,476 Size bu resmi tekrar hatırlatmak istiyorum, çocuk ve kekin olduğu. 255 00:15:39,476 --> 00:15:43,540 Şu ana dek, bilgisayara nesneleri görebilmesini 256 00:15:43,540 --> 00:15:47,998 hatta gördüğü resimden küçük bir hikaye anlatmasını bile öğrettik. 257 00:15:47,998 --> 00:15:51,574 Bilgisayar: Biri yaş pastanın olduğu masada oturuyor. 258 00:15:51,574 --> 00:15:54,554 FFL: Fakat bu resimde sadece bir kişi ve pastadan 259 00:15:54,554 --> 00:15:56,474 daha fazlası var. 260 00:15:56,474 --> 00:16:00,941 Bilgisayarın göremediği şey, onun sadece Paskalya süresince 261 00:16:00,941 --> 00:16:04,158 servis edilen özel bir İtalyan pastası olduğu. 262 00:16:04,158 --> 00:16:08,003 Çocuk, babası tarafından Sidney gezisinden sonra kendisine hediye edilen 263 00:16:08,003 --> 00:16:11,333 en sevdiği tişörtünü giyiyor, 264 00:16:11,333 --> 00:16:15,141 hepimiz onun nasıl mutlu olduğunu 265 00:16:15,141 --> 00:16:18,344 ve şu anda kafasından geçenleri söyleyebiliriz. 266 00:16:19,214 --> 00:16:22,339 Bu benim oğlum Leo. 267 00:16:22,339 --> 00:16:24,963 Görsel zeka araştırmalarımda, 268 00:16:24,963 --> 00:16:27,354 durmaksızın Leo'yu 269 00:16:27,354 --> 00:16:30,257 ve içinde yaşayacağı geleceği düşünüyorum. 270 00:16:30,257 --> 00:16:32,278 Makineler görebildiğinde, 271 00:16:32,278 --> 00:16:36,990 doktor ve hemşireler, tanı koymak ve hastalarla ilgilenmek için 272 00:16:36,990 --> 00:16:41,082 ek olarak yorulmayan göz çiftlerine sahip olacaklar. 273 00:16:41,082 --> 00:16:45,465 Arabalar yollarda daha güvenli daha akıllı bir şekilde gidecek. 274 00:16:45,465 --> 00:16:48,159 Robotlar, sadece insanlar değil, 275 00:16:48,159 --> 00:16:53,008 enkaz bölgelerinde tutsak ve yaralıları kurtarmada bizimle göğüs gerecekler. 276 00:16:53,798 --> 00:16:57,594 Yeni tür, daha iyi malzemeler bulacak 277 00:16:57,594 --> 00:17:02,103 ve makinelerin yardımıyla, görünmeyen sınırları keşfedeceğiz. 278 00:17:03,113 --> 00:17:07,280 Azar azar, makinelere görme yetisini veriyoruz. 279 00:17:07,280 --> 00:17:10,078 Önce, biz onlara görmeyi öğretiyoruz. 280 00:17:10,078 --> 00:17:12,841 Sonra, onlar daha iyi görebilmemiz için bize yardım ediyor. 281 00:17:12,841 --> 00:17:17,006 Öncelikle, dünyamızı keşfetmek ve düşünmek için gözlerimiz 282 00:17:17,006 --> 00:17:19,940 sadece insan gözleri olmayacak. 283 00:17:19,940 --> 00:17:23,400 Makineleri sadece zekaları için kullanmıyor, 284 00:17:23,400 --> 00:17:29,579 aynı zamanda hayal bile edemeyeceğimiz bir şekilde onlarla iş birliği yapıyoruz. 285 00:17:29,579 --> 00:17:31,740 Benim araştırmam bu: 286 00:17:31,740 --> 00:17:34,452 bilgisayarlara görsel zekayı vermek 287 00:17:34,452 --> 00:17:39,583 ve Leo için, dünya için daha iyi bir gelecek oluşturmak. 288 00:17:39,583 --> 00:17:41,394 Teşekkürler. 289 00:17:41,394 --> 00:17:45,179 (Alkış)