1
00:00:02,366 --> 00:00:05,387
Müsadenizle size bazı şeyler göstermek
istiyorum.

2
00:00:05,728 --> 00:00:09,700
(Video) Kız: Tamam, burada yatağın üzerinde
oturan bir kedi var.

3
00:00:09,910 --> 00:00:13,350
Çocuk fili okşuyor.

4
00:00:14,300 --> 00:00:18,174
Buradaki insanlar uçağa gidiyorlar.

5
00:00:18,364 --> 00:00:20,274
Bu büyük bir uçak.

6
00:00:21,054 --> 00:00:23,480
Fei-Fei Li: Üç yaşında
küçük bir kız çocuğu

7
00:00:23,480 --> 00:00:26,959
fotoğraflarda ne gördüğünü
anlatıyor.

8
00:00:27,349 --> 00:00:30,194
Henüz, dünya hakkında öğrenmesi
gereken çok şey var

9
00:00:30,194 --> 00:00:34,743
fakat çok önemli bir alanda
uzman olmuş bile:

10
00:00:34,743 --> 00:00:37,589
gördüklerini anlamlandırma.

11
00:00:38,089 --> 00:00:42,455
Toplumumuz teknolojik olarak her
zamankinden daha fazla ilerlemiş durumda.

12
00:00:42,455 --> 00:00:46,084
İnsanları aya gönderiyoruz, bizimle
konuşabilen ya da radyo kanallarını

13
00:00:46,084 --> 00:00:51,030
sadece sevdiğimiz müzikleri çalması
için düzenleyebilen telefonlar yapıyoruz.

14
00:00:51,030 --> 00:00:55,085
En gelişmiş makinelerimiz 
ve bilgisayarlarımız

15
00:00:55,085 --> 00:00:57,988
hâlâ bu özelliği elde etmeye çalışıyorlar.

16
00:00:57,988 --> 00:01:01,447
Bugün, bilgisayar görme yetisi üzerine
yapılan ileri düzeydeki

17
00:01:01,447 --> 00:01:05,494
araştırmalarımızın işleyişi hakkında size
bilgi vermek için buradayım.

18
00:01:05,494 --> 00:01:09,655
Bilgisayar biliminde, en önde ve devrim niteliğinde

19
00:01:09,655 --> 00:01:12,861
olan teknolojik gelişmelerden biri.

20
00:01:12,861 --> 00:01:17,412
Evet, kendini sürebilen araçların
prototiplerine sahibiz,

21
00:01:17,412 --> 00:01:21,265
fakat akıllı görme yetisine sahip olmadan,
üzerinden geçilebilecek buruşmuş bir

22
00:01:21,265 --> 00:01:25,235
kağıt torba ile sakınılması gereken aynı
boyuttaki bir kaya

23
00:01:25,235 --> 00:01:28,575
arasındaki farkı söyleyebilmeleri
mümkün değil.

24
00:01:29,415 --> 00:01:32,805
Mükemmel çözünürlükte kameralar
yapmamıza rağmen,

25
00:01:32,805 --> 00:01:35,940
görebilmelerini sağlayamamıştık.

26
00:01:36,420 --> 00:01:39,725
İnsansız hava araçları koca bir araziyi
uçabilirler,

27
00:01:39,725 --> 00:01:41,859
ama yağmur ormanlarındaki değişimleri
izlememize yardımcı olabilecek

28
00:01:41,859 --> 00:01:45,320
düzeyde yeterli bir görüş kabiliyetine 
sahip değiller.

29
00:01:45,320 --> 00:01:48,270
Güvenlik kameraları her yerde,

30
00:01:48,270 --> 00:01:53,337
fakat bir çocuk havuzda boğuluyorken 
bizi uyaramıyorlar.

31
00:01:54,167 --> 00:01:59,502
Fotoğraf ve videolar gündelik hayatın
bir parçası haline geliyorlar.

32
00:01:59,762 --> 00:02:03,849
Herhangi bir insan veya bazı 
grupların görme umuduyla

33
00:02:03,849 --> 00:02:06,632
hızlı bir şekilde çoğalıyorlar,

34
00:02:06,632 --> 00:02:10,553
buradaki TED konuşmaları ile
sizler ve ben de buna katkı sağlıyoruz.

35
00:02:10,773 --> 00:02:13,745
En iyi yazılımımız hala bu devasa içeriği

36
00:02:14,915 --> 00:02:18,661
anlamaya ve yönetmeye çabalıyor.

37
00:02:19,661 --> 00:02:24,023
Başka bir anlamda,
toplumun tamamı olarak

38
00:02:24,543 --> 00:02:26,529
büyük bir görme kaybına sahibiz

39
00:02:26,679 --> 00:02:30,066
çünkü en iyi makinelerimiz hala
göremiyorlar.

40
00:02:31,526 --> 00:02:34,452
"Neden bu kadar zor ki bu?"
diye soracaksınız.

41
00:02:34,452 --> 00:02:37,145
Kameralar burada da olduğu gibi
fotoğraf çekebilirler,

42
00:02:37,145 --> 00:02:41,139
ışığın iki boyutlu sayı dizilerine
çevrilmiş hali ile,

43
00:02:41,139 --> 00:02:42,789
ki bunlara pikseller diyoruz.

44
00:02:42,789 --> 00:02:45,040
Fakat burada sadece ölü sayılar
bulunmakta.

45
00:02:45,040 --> 00:02:48,151
Kendi içlerinde herhangi bir anlam
taşımıyorlar.

46
00:02:48,151 --> 00:02:52,494
Nasıl ki duymak ile dinlemek aynı 
anlama gelmiyorsa

47
00:02:52,494 --> 00:02:56,534
fotoğraf çekmek ile görmek de
aynı şeyi ifade etmiyor.

48
00:02:56,974 --> 00:03:00,043
Görmek derken ciddi manada "anlamayı"
kastediyoruz.

49
00:03:01,293 --> 00:03:04,710
Aslında, bu yetiye sahip olabilmemiz

50
00:03:05,200 --> 00:03:08,943
tabiat ananın 540 milyon yılını aldı.

51
00:03:09,443 --> 00:03:11,324
Bu çabanın çoğu, beynin görsel

52
00:03:11,444 --> 00:03:16,595
işleme bölümünün gelişimine gitti

53
00:03:16,595 --> 00:03:19,242
sadece gözlerin kendisine değil.

54
00:03:19,242 --> 00:03:21,989
Yani görmek gözlerde başlıyor,

55
00:03:21,989 --> 00:03:25,507
ama asıl olarak beynin bir bölümünde
anlam kazanıyor.

56
00:03:26,287 --> 00:03:31,347
15 sene önce, Caltech'deki doktorama
başladığımda

57
00:03:31,347 --> 00:03:34,273
ve sonra Stanford Görsel Laboratuvarını
yönlendirdiğimde

58
00:03:34,273 --> 00:03:38,669
mentorlerim, iş ortaklarım ve
öğrencilerimle birlikte

59
00:03:38,669 --> 00:03:41,558
bilgisayarlara görmeyi öğretmek için
çalışıyorduk.

60
00:03:42,138 --> 00:03:45,932
Araştırma alanımız bilgisayar görme yetisi
ve makine öğrenimi olarak anılıyordu.

61
00:03:45,952 --> 00:03:49,830
Yapay zeka bölümünün genel bir dalı
olarak geçiyordu.

62
00:03:51,000 --> 00:03:56,493
Nihayetinde, makinelere tıpkı bizim gibi
görebilmelerini öğretmek istedik,

63
00:03:56,493 --> 00:04:01,880
nesnelerin isimlendirilmesi, insanların
tanımlanması, 3B geometrileri tahmin

64
00:04:01,880 --> 00:04:07,568
ilişkileri anlama, duygular, olaylar
ve şiddet.

65
00:04:07,568 --> 00:04:13,721
Şu anda insanların, yerlerin ve
eşyaların bütün hikayesini

66
00:04:13,721 --> 00:04:16,265
gözler önüne serip beraber dokuyalım.

67
00:04:16,955 --> 00:04:22,538
Bu amaca doğru atılacak ilk adım
bilgisayara gördüğü şeyleri öğretmek,

68
00:04:22,538 --> 00:04:25,906
sanal dünyanın yapı taşı bu.

69
00:04:25,906 --> 00:04:30,340
Basit anlamda bu öğretme
sürecini bi hayal edin,

70
00:04:30,340 --> 00:04:33,335
bilgisayara belirli bir nesnenin
ya da bir kedinin diyelim

71
00:04:33,335 --> 00:04:36,656
deneme amaçlı resimlerini göstermek
gibi

72
00:04:36,656 --> 00:04:41,393
ve bu resimlerden öğrenilmiş bir model
tasarlamayı.

73
00:04:41,393 --> 00:04:43,437
Bu ne kadar zor olabilir ki?

74
00:04:43,437 --> 00:04:47,489
Sonuç olarak, bir kedi sadece
şekillerin ve renklerin bir derlemesi

75
00:04:47,489 --> 00:04:51,575
ve bu ilk zamanlarda yaptığımız
nesne modellemesi.

76
00:04:51,575 --> 00:04:55,197
Algoritmasını sayısal bir dille
bilgisayara öğretmemiz gerekiyordu

77
00:04:55,197 --> 00:04:58,540
bu kedi yuvarak bir yüze, 
dolgun bir vücuda

78
00:04:58,540 --> 00:05:00,839
iki noktada kulaklara ve uzun bir kuyruğa
sahip

79
00:05:00,839 --> 00:05:02,249
her şey yolunda gibi.

80
00:05:02,859 --> 00:05:04,972
Peki, ya bu kedi?

81
00:05:04,972 --> 00:05:06,063
(Gülüşmeler)

82
00:05:06,063 --> 00:05:07,689
Hepsi iç içe.

83
00:05:07,689 --> 00:05:12,408
Bu nesne için için farklı bir şekil
ve farklı bir bakış açısı eklemeniz gerek.

84
00:05:12,408 --> 00:05:14,123
Peki ya kediler gizlenirse?

85
00:05:15,143 --> 00:05:17,362
Bu absürd kedilere ne demeli?

86
00:05:19,112 --> 00:05:21,529
Şimdi ne demek istediğimi anladınız.

87
00:05:21,529 --> 00:05:24,896
Evdeki kedi gibi basit bir şey için bile

88
00:05:24,896 --> 00:05:29,400
sonsuz çeşitlilikte nesne modellemesi
yapmak mümkün

89
00:05:29,400 --> 00:05:31,633
ve bu sadece bir nesne.

90
00:05:32,573 --> 00:05:35,065
Yaklaşık sekiz yıl önce,

91
00:05:35,065 --> 00:05:40,095
oldukça basit ama yoğun bir gözlem
fikrimi değiştirdi.

92
00:05:41,425 --> 00:05:44,110
Hiç kimse bir çocuğa nasıl görebileceğini
öğretmez,

93
00:05:44,110 --> 00:05:46,371
özellikle de erken yaşlarda.

94
00:05:46,371 --> 00:05:51,371
Gerçek dünya tecrübeleri ve örnekleriyle
öğrenirler bunu.

95
00:05:51,371 --> 00:05:54,111
Bir çocuğun gözlerini düşünecek olursanız

96
00:05:54,111 --> 00:05:56,665
sanki bir çift biyolojik kameraymış gibi,

97
00:05:56,665 --> 00:06:00,845
yaklaşık her 200 milisaniyede
bir fotoğraf çekerler,

98
00:06:00,845 --> 00:06:03,979
göz hareketinden oluşmuş ortalama
bir zaman dilimi.

99
00:06:03,979 --> 00:06:09,529
Yani üç yaşında bir çocuk, gerçek hayatta
yüz milyonlarca

100
00:06:09,529 --> 00:06:11,363
fotoğraf görmüş olacak.

101
00:06:11,363 --> 00:06:13,643
Bu oldukça fazla deneme örneği.

102
00:06:14,383 --> 00:06:20,372
Sadece daha iyi algoritmalara
odaklanmak yerine,

103
00:06:20,372 --> 00:06:25,644
sezilerim algoritmalara bir tür
eğitici veri vermek üzerineydi,

104
00:06:25,644 --> 00:06:28,963
tıpkı bir çocuğa sayıca ve kalitece

105
00:06:28,963 --> 00:06:32,841
deneyimleri yoluyla verilmiş gibi.

106
00:06:32,841 --> 00:06:34,699
Bunu anlayınca,

107
00:06:34,699 --> 00:06:37,670
bir tür veri havuzuna

108
00:06:37,670 --> 00:06:42,129
sahip olduğumuz resimlerden daha
fazla, hatta binlerce kat daha fazla

109
00:06:42,129 --> 00:06:44,706
ihtiyacımız olduğunu biliyorduk.

110
00:06:44,706 --> 00:06:48,817
Princeton Üniversitesinden Prof. Kai Li
ile birlikte

111
00:06:48,817 --> 00:06:53,569
2007 senesinde ImageNet projesini
başlattık.

112
00:06:53,569 --> 00:06:57,407
Şanslıyız ki başımızın üzerine bir
kamera alıp

113
00:06:57,407 --> 00:06:59,171
yıllarca beklememize gerek kalmadı.

114
00:06:59,171 --> 00:07:00,634
İnternete başvurduk.

115
00:07:00,634 --> 00:07:05,070
İnsanların oluşturduğu en büyük
resim definesi.

116
00:07:05,070 --> 00:07:08,111
Yaklaşık bir milyar resim indirdik

117
00:07:08,111 --> 00:07:13,991
ve crowdsourcing teknolojisini kullandık.
Resimleri tanımlamada bize yardımcı olmada

118
00:07:13,991 --> 00:07:16,330
Amazon Mechanical Turk platformu gibi.

119
00:07:16,330 --> 00:07:21,230
ImageNet, Amazon Mechanical Turk
çalışanlarına işveren en büyük

120
00:07:21,230 --> 00:07:24,226
kurumlardan biri oldu.

121
00:07:24,226 --> 00:07:28,080
Dünya genelinde 167 ülkeden

122
00:07:28,080 --> 00:07:32,120
neredeyse 50,000 çalışan

123
00:07:32,120 --> 00:07:35,257
yaklaşık bir milyar resmi

124
00:07:35,537 --> 00:07:39,642
eleyip, sınıflandırma ve tanımlamada bize
yardımcı oldu.

125
00:07:40,612 --> 00:07:43,265
Bu çaba, erken gelişim dönemindeki

126
00:07:43,265 --> 00:07:47,165
bir çocuğun algıladığı görüntülerin
sadece belli bir bölümünü

127
00:07:47,165 --> 00:07:51,336
elde edebilmemiz içindi.

128
00:07:52,148 --> 00:07:56,050
Nihayet, bilgisayar algoritmalarını
eğitmek için

129
00:07:56,050 --> 00:08:00,600
big datanın kullanılması fikri
şu anda mümkün hale geldi,

130
00:08:00,600 --> 00:08:04,710
fakat 2007 senesine dönersek,
bu mümkün değildi.

131
00:08:04,710 --> 00:08:08,588
Bu yolculukta uzun bir süre tam
anlamıyla kendi başımızaydık.

132
00:08:08,588 --> 00:08:13,591
Samimi bazı arkadaşlarım kadrom için daha
kullanışlı şeyler yapmamı tavsiye ettiler,

133
00:08:13,591 --> 00:08:17,933
ve aynı zamanda araştırma fonu oluşturmak
için durmaksızın çabalıyorduk.

134
00:08:17,933 --> 00:08:20,418
Hatta, master öğrencilerime ImageNet fonu

135
00:08:20,418 --> 00:08:24,481
için kuru temizleme mağazamı tekrar açma
konusunda şaka yapıyordum.

136
00:08:24,481 --> 00:08:29,242
Üniversite yıllarımda bu şekilde
geçiniyordum.

137
00:08:29,242 --> 00:08:31,098
Sonra devam ettik.

138
00:08:31,098 --> 00:08:34,813
2009 senesinde, ImageNet projesi

139
00:08:34,813 --> 00:08:38,855
her gün ingilizce kelimelerle 22,000

140
00:08:38,855 --> 00:08:43,660
nesne ve eşya sınıfı ile

141
00:08:43,660 --> 00:08:46,980
15 milyonluk bir resim veritabanına
ulaştı.

142
00:08:46,980 --> 00:08:49,906
Sayı ve kalite olarak,

143
00:08:49,906 --> 00:08:52,878
emsalsiz bir ölçekti bu.

144
00:08:52,878 --> 00:08:56,339
Örneğin, kedi kategorisinde,

145
00:08:56,339 --> 00:08:59,148
görünüş ve poz

146
00:08:59,148 --> 00:09:03,258
ile evcil ve yaban türlerinin tümüyle

147
00:09:03,258 --> 00:09:08,481
62 binden fazla kedi bulunmakta.

148
00:09:08,481 --> 00:09:11,825
Bunları ImageNet olarak toparladığımızdan
heyecanlıydık

149
00:09:11,825 --> 00:09:15,563
ve sonra bütün dünya araştırmalarında
bunlardan faydalanılsın istedik,

150
00:09:15,563 --> 00:09:19,604
bu yüzden TED fashion'da bütün veri
havuzumuzu

151
00:09:19,604 --> 00:09:23,196
global araştırma topluluklarına ücretsiz
bir şekilde açtık.

152
00:09:24,636 --> 00:09:28,636
(Alkış)

153
00:09:29,416 --> 00:09:33,954
Artık, bilgisayarımızın beynini besleyecek
veriye sahibiz,

154
00:09:33,954 --> 00:09:37,691
algoritmaların kendilerine
dönecek kadar da hazırız.

155
00:09:37,691 --> 00:09:42,869
ImageNet projesinin sağladığı
bilgi zenginliği, sonunda

156
00:09:42,869 --> 00:09:47,675
"evrişimli sinirsel ağ" olarak ifade
edilen makine öğrenme algoritmalarının

157
00:09:47,675 --> 00:09:50,090
özel bir sınıfıyla mükemmel bir şekilde
eşleşmişti,

158
00:09:50,090 --> 00:09:55,338
öncülüğünü Kunihiko Fukushima,
Geoff Hinton ve Yann LeCun'un yaptığı

159
00:09:55,338 --> 00:09:58,983
1970 ve 80'lerin öncesindeki bir alan.

160
00:09:58,983 --> 00:10:04,602
Beyinde meydana gelen milyarlarca
yüksek bağlantılı sinirler gibi,

161
00:10:04,602 --> 00:10:08,456
sinir ağının basit bir çalışma birimine

162
00:10:08,456 --> 00:10:10,871
"nöron benzeri" düğümü deniyor.

163
00:10:10,871 --> 00:10:13,425
Başka düğümlerden girdi alıyorlar

164
00:10:13,425 --> 00:10:16,143
ve diğer düğümlere gönderiyorlar.

165
00:10:16,143 --> 00:10:20,856
Dahası, bu yüzbinlerce hatta milyonlarca
düğüm

166
00:10:20,856 --> 00:10:24,083
hiyerarşik tabakalarla düzenleniyorlar

167
00:10:24,083 --> 00:10:26,637
tıpkı beyin gibi.

168
00:10:26,637 --> 00:10:31,420
Normal bir sinir ağında nesne tanıma
modelimizi eğitmek için,

169
00:10:31,420 --> 00:10:34,601
24 milyon düğüm,

170
00:10:34,601 --> 00:10:37,898
140 milyon değişken,

171
00:10:37,898 --> 00:10:40,661
ve 15 milyar bağlantı kullandık.

172
00:10:40,661 --> 00:10:43,076
Bu muazzam bir modeldi.

173
00:10:43,076 --> 00:10:46,977
ImageNet'den elde edilen büyük veri ile

174
00:10:46,977 --> 00:10:52,410
oldukça muazzam bir modeli eğitmek için
kullanılan modern CPU ve GPU'lar sayesinde

175
00:10:52,410 --> 00:10:54,779
evrişimli sinirsel ağ

176
00:10:54,779 --> 00:10:58,215
hiçbirimizin hayal edemeyeceği bir şekilde
gelişti.

177
00:10:58,215 --> 00:11:01,493
Nesne tanımlamada etkileyeci
yeni sonuçlar üretmek için

178
00:11:01,493 --> 00:11:06,063
başarılı bir mimari olmaya başladı.

179
00:11:06,063 --> 00:11:08,873
Bu bilgisayarın bize söylediği,

180
00:11:08,873 --> 00:11:11,173
bu fotoğrafta bir kedinin olduğu

181
00:11:11,173 --> 00:11:13,076
ve kedinin nerede olduğu.

182
00:11:13,076 --> 00:11:15,188
Elbette orada kedilerden daha fazlası var,

183
00:11:15,188 --> 00:11:17,626
burada ise bilgisayar algoritmasının
bize söylediği

184
00:11:17,626 --> 00:11:20,900
resimde bir çocuk ile oyuncak bir ayının;

185
00:11:20,900 --> 00:11:25,266
bir köpeğin, bir kişinin ve arkaplanda
küçük bir uçurtmanın;

186
00:11:25,266 --> 00:11:28,401
ya da çok karışık bir resimin

187
00:11:28,401 --> 00:11:33,045
bir adam, bir kaykay, korkuluklar, lamba
direği v.b. gibi şeyler olduğu.

188
00:11:33,045 --> 00:11:38,338
Bazen, bilgisayar ne gördüğü hakkında emin
olamayınca

189
00:11:39,488 --> 00:11:42,434
çok fazla düşünmek yerine yeterince

190
00:11:42,504 --> 00:11:45,652
mantıklı bir cevap vermesini öğrettik,

191
00:11:45,652 --> 00:11:48,463
tıpkı bizim yapacağımız gibi

192
00:11:48,463 --> 00:11:53,129
fakat başka zamanlarda bilgisayar
algoritmamız bize dikkate değer şeyler

193
00:11:53,129 --> 00:11:55,382
tam olarak nesnelerin ne olduğunu

194
00:11:55,382 --> 00:11:58,818
marka, model ve üretim yılı gibi şeyleri
söylüyor.

195
00:11:58,818 --> 00:12:04,204
Bu algoritmayı Google Sokak Görüntüleme
ile yüzlerce Amerika şehrinden

196
00:12:04,204 --> 00:12:07,339
alınmış resimlere uyguladık

197
00:12:07,339 --> 00:12:10,265
ve gerçekten ilginç şeyler öğrendik:

198
00:12:10,265 --> 00:12:13,585
öncelikle, hepimizin bildiği gibi araç

199
00:12:13,585 --> 00:12:16,875
fiyatlarının aile gelir düzeyiyle

200
00:12:16,875 --> 00:12:19,220
doğrudan ilişkili olduğunu teyit etti

201
00:12:19,220 --> 00:12:23,747
fakat ilginçtir ki, araç fiyatları aynı
zamanda

202
00:12:23,747 --> 00:12:26,047
şehirdeki suç oranları

203
00:12:27,007 --> 00:12:30,970
ya da posta kodlarından oy verme alanları
ile de bağlantılı.

204
00:12:32,060 --> 00:12:34,266
Peki biraz düşünün, bu oldu mu?

205
00:12:34,266 --> 00:12:39,419
Bilgisayar henüz insan kabiliyetlerine
erişebildi mi hatta daha üstün geldi mi ?

206
00:12:39,419 --> 00:12:41,557
Hayır, o kadar hızlı değil.

207
00:12:41,557 --> 00:12:46,480
Şu ana dek, sadece bilgisayara nesneleri
görmesini öğrettik.

208
00:12:46,480 --> 00:12:51,124
Bu küçük bir çocuğun bir kaç kelime
söylemesini öğrenmesi gibi bir sey.

209
00:12:51,124 --> 00:12:53,794
İnanılmaz bir başarıdır bu,

210
00:12:53,794 --> 00:12:56,254
fakat bu sadece ilk adımdır.

211
00:12:56,254 --> 00:13:00,016
Sonrasında, başka bir gelişimsel dönüm
noktası açığa çıkar,

212
00:13:00,016 --> 00:13:03,477
ve çocuk cümlelerle iletişim kurmaya
başlar.

213
00:13:03,477 --> 00:13:07,701
Yani, "bu resimdeki bir kedidir"
demek yerine

214
00:13:07,701 --> 00:13:12,903
dinlediğiniz gibi küçük kız bize "bu
yatağın üzerinde uzanan bir kedidir" diyor

215
00:13:12,903 --> 00:13:18,498
Bilgisayarı resimleri görmek ve cümle
kurmak için eğitmek,

216
00:13:18,498 --> 00:13:22,446
big data ile makine öğrenim algoritmasının
beraberliği için

217
00:13:22,446 --> 00:13:24,721
bir adım daha atılmalı.

218
00:13:24,721 --> 00:13:28,877
Şimdilik, bilgisayarın her resimden

219
00:13:28,877 --> 00:13:31,733
insanlar tarafından oluşturulmuş kadar

220
00:13:31,733 --> 00:13:35,055
iyi cümleler öğrenmesi gerek.

221
00:13:35,055 --> 00:13:38,908
Beynin görsellik ve dili bütünleştirdiği
gibi,

222
00:13:38,908 --> 00:13:44,109
biz de ufak görsel parçacıklar
gibi görsel şeylerle

223
00:13:44,189 --> 00:13:46,483
cümlelerdeki kelime ve ifadeleri

224
00:13:46,553 --> 00:13:49,936
birleştirecek bir model geliştirdik.

225
00:13:50,216 --> 00:13:52,979
Yaklaşık dört ay önce,

226
00:13:52,979 --> 00:13:55,626
sonunda bütün bunları bağladık

227
00:13:55,626 --> 00:13:59,410
ve bir fotoğrafı ilk kez gördüğünde

228
00:13:59,410 --> 00:14:03,404
bir insan gibi cümle kurabilme
yeteneğine sahip

229
00:14:03,404 --> 00:14:06,910
ilk bilgisayar görme modelinden
bir tane yaptık.

230
00:14:06,910 --> 00:14:11,554
Şu anda, bilgisayarın konuşmamızın başında

231
00:14:11,554 --> 00:14:13,529
küçük kızın gördüğü resimleri gördüğünde

232
00:14:13,529 --> 00:14:17,359
neler söylediğini size göstermeye hazırım.

233
00:14:19,519 --> 00:14:22,863
(Video) Bilgisayar:
Bir adam filin yanında duruyor.

234
00:14:24,393 --> 00:14:28,027
Geniş bir uçak, uçak pistinin üstünde
oturuyor.

235
00:14:29,057 --> 00:14:33,269
FFL: Tabii, hala sıkı bir şekilde
algoritmamızı geliştirmek için çalışıyoruz

236
00:14:33,269 --> 00:14:35,865
ve henüz öğreneceği çok sey var.

237
00:14:35,865 --> 00:14:38,156
(Alkış)

238
00:14:39,556 --> 00:14:42,877
Bilgisayar henüz hatalar yapmakta.

239
00:14:42,877 --> 00:14:46,268
Bilgisayar: Bir kedi battaniyenin içinde
yatakta uzanıyor.

240
00:14:46,268 --> 00:14:48,821
FFL: Tabii, oldukça fazla kedi
gördüğünden

241
00:14:48,821 --> 00:14:51,747
herşeyin kediye benzeyebileceğini
düşünüyor.

242
00:14:53,317 --> 00:14:56,181
Bilgisayar: Genç erkek bir beysbol
sopasını tutuyor.

243
00:14:56,181 --> 00:14:57,946
(Gülüşmeler)

244
00:14:57,946 --> 00:15:02,529
FFL: Ya da, henüz bir diş fırçası
görmemişse, beysbol sopasıyla karıştırıyor

245
00:15:03,309 --> 00:15:06,743
Bilgisayar: Bir adam binanın kenarından
atını sokak aşağı sürüyor.

246
00:15:06,743 --> 00:15:08,766
(Gülüşmeler)

247
00:15:08,766 --> 00:15:12,318
FFL: Henüz bilgisayarlara Sanat 101
dersini öğretmedik.

248
00:15:13,768 --> 00:15:16,652
Bilgisayar: Bir zebra otlukların içinde
duruyor.

249
00:15:16,652 --> 00:15:20,019
FFL: Ve henüz doğanın büyüleci güzelliğini

250
00:15:20,019 --> 00:15:22,457
takdir etmeyi bizim gibi öğrenmedi.

251
00:15:22,457 --> 00:15:25,289
Uzun bir yolculuktu.

252
00:15:25,289 --> 00:15:29,515
Sıfırdan üç yaşına getirmek oldukça zordu.

253
00:15:29,515 --> 00:15:35,111
Asıl zor olan üç yaşından on üç yaş ve
daha ötesine götürebilmek.

254
00:15:35,111 --> 00:15:39,476
Size bu resmi tekrar hatırlatmak istiyorum,
çocuk ve kekin olduğu.

255
00:15:39,476 --> 00:15:43,540
Şu ana dek, bilgisayara nesneleri
görebilmesini

256
00:15:43,540 --> 00:15:47,998
hatta gördüğü resimden küçük bir hikaye
anlatmasını bile öğrettik.

257
00:15:47,998 --> 00:15:51,574
Bilgisayar: Biri yaş pastanın olduğu
masada oturuyor.

258
00:15:51,574 --> 00:15:54,554
FFL: Fakat bu resimde sadece bir kişi ve
pastadan

259
00:15:54,554 --> 00:15:56,474
daha fazlası var.

260
00:15:56,474 --> 00:16:00,941
Bilgisayarın göremediği şey,
onun sadece Paskalya süresince

261
00:16:00,941 --> 00:16:04,158
servis edilen özel bir İtalyan pastası
olduğu.

262
00:16:04,158 --> 00:16:08,003
Çocuk, babası tarafından Sidney gezisinden
sonra kendisine hediye edilen

263
00:16:08,003 --> 00:16:11,333
en sevdiği tişörtünü giyiyor,

264
00:16:11,333 --> 00:16:15,141
hepimiz onun nasıl mutlu olduğunu

265
00:16:15,141 --> 00:16:18,344
ve şu anda kafasından geçenleri
söyleyebiliriz.

266
00:16:19,214 --> 00:16:22,339
Bu benim oğlum Leo.

267
00:16:22,339 --> 00:16:24,963
Görsel zeka araştırmalarımda,

268
00:16:24,963 --> 00:16:27,354
durmaksızın Leo'yu

269
00:16:27,354 --> 00:16:30,257
ve içinde yaşayacağı geleceği düşünüyorum.

270
00:16:30,257 --> 00:16:32,278
Makineler görebildiğinde,

271
00:16:32,278 --> 00:16:36,990
doktor ve hemşireler, tanı koymak ve
hastalarla ilgilenmek için

272
00:16:36,990 --> 00:16:41,082
ek olarak yorulmayan
göz çiftlerine sahip olacaklar.

273
00:16:41,082 --> 00:16:45,465
Arabalar yollarda daha güvenli
daha akıllı bir şekilde gidecek.

274
00:16:45,465 --> 00:16:48,159
Robotlar, sadece insanlar değil,

275
00:16:48,159 --> 00:16:53,008
enkaz bölgelerinde tutsak ve yaralıları
kurtarmada bizimle göğüs gerecekler.

276
00:16:53,798 --> 00:16:57,594
Yeni tür, daha iyi malzemeler bulacak

277
00:16:57,594 --> 00:17:02,103
ve makinelerin yardımıyla, görünmeyen
sınırları keşfedeceğiz.

278
00:17:03,113 --> 00:17:07,280
Azar azar, makinelere görme yetisini
veriyoruz.

279
00:17:07,280 --> 00:17:10,078
Önce, biz onlara görmeyi öğretiyoruz.

280
00:17:10,078 --> 00:17:12,841
Sonra, onlar daha iyi görebilmemiz için
bize yardım ediyor.

281
00:17:12,841 --> 00:17:17,006
Öncelikle, dünyamızı keşfetmek
ve düşünmek için gözlerimiz

282
00:17:17,006 --> 00:17:19,940
sadece insan gözleri olmayacak.

283
00:17:19,940 --> 00:17:23,400
Makineleri sadece zekaları için
kullanmıyor,

284
00:17:23,400 --> 00:17:29,579
aynı zamanda hayal bile edemeyeceğimiz bir
şekilde onlarla iş birliği yapıyoruz.

285
00:17:29,579 --> 00:17:31,740
Benim araştırmam bu:

286
00:17:31,740 --> 00:17:34,452
bilgisayarlara görsel zekayı vermek

287
00:17:34,452 --> 00:17:39,583
ve Leo için, dünya için daha iyi bir
gelecek oluşturmak.

288
00:17:39,583 --> 00:17:41,394
Teşekkürler.

289
00:17:41,394 --> 00:17:45,179
(Alkış)