1
00:00:09,259 --> 00:00:13,276
Valaha, ha azt akartuk, hogy 
a számítógép csináljon meg valamit,

2
00:00:13,276 --> 00:00:16,093
előtte be kellett rá programoznunk.

3
00:00:16,093 --> 00:00:18,542
Azoknak, akik sohasem programoztak:
a programozás

4
00:00:18,566 --> 00:00:21,645
annyit tesz, hogy célunk érdekében 
aprólékosan, lépésenként

5
00:00:21,645 --> 00:00:25,234
részletesen közölni kell a géppel,

6
00:00:25,234 --> 00:00:27,481
mikor mit csináljon.

7
00:00:27,481 --> 00:00:31,126
De ha olyat akarunk tenni, 
amiről mi sem tudjuk, miként kell,

8
00:00:31,126 --> 00:00:33,132
az ám az igazi kunszt!

9
00:00:33,132 --> 00:00:36,682
Ilyen feladattal találkozott 
Arthur Samuel

10
00:00:36,682 --> 00:00:42,775
1956-ban: szerette volna, ha
a gép legyőzi a dámajátékban.

11
00:00:42,775 --> 00:00:44,532
Hogy lehet megírni egy programot

12
00:00:44,532 --> 00:00:48,820
minden apró részletében, 
hogy a számítógép győzzön?

13
00:00:48,820 --> 00:00:50,527
Támadt egy ötlete:

14
00:00:50,527 --> 00:00:54,370
A gépet önmaga ellen játszatta 
több ezerszer,

15
00:00:54,370 --> 00:00:56,826
hogy a gép tanulja, 
hogyan kell dámázni.

16
00:00:56,826 --> 00:00:59,774
A dolog sikerült, és 1962-re

17
00:00:59,774 --> 00:01:02,707
a számítógép legyőzte 
Connecticut állam bajnokát.

18
00:01:03,416 --> 00:01:06,859
Úgyhogy Samuelt a gépi tanulás 
atyjának nevezhetjük.

19
00:01:06,859 --> 00:01:08,441
Le vagyok kötelezve neki,

20
00:01:08,441 --> 00:01:11,279
mert gépi tanulással foglalkozom.

21
00:01:11,279 --> 00:01:13,014
A Kaggle elnöke voltam, a közösségé,

22
00:01:13,014 --> 00:01:16,162
ahol 200 000-nél többen foglalkoznak 
gépi tanulással.

23
00:01:16,162 --> 00:01:18,447
A Kaggle versenyeket szervez nekik,

24
00:01:18,447 --> 00:01:21,893
hogy oldjanak meg eddig 
megoldatlan feladatokat,

25
00:01:22,071 --> 00:01:24,732
s ezek több száz alkalommal 
bizonyultak sikeresnek.

26
00:01:25,727 --> 00:01:28,118
Ebből a pozícióból
rá tudtam jönni sok mindenre:

27
00:01:28,118 --> 00:01:32,169
mire volt képes a gépi tanulás 
a múltban, mire a jelenben

28
00:01:32,169 --> 00:01:34,367
és mit fog tudni a jövőben.

29
00:01:34,367 --> 00:01:36,605
Valószínűleg a gépi tanulásban

30
00:01:36,605 --> 00:01:39,209
az első üzleti siker a Google volt.

31
00:01:39,209 --> 00:01:42,045
A Google bebizonyította, hogy 
lehet gépi algoritmus alapján

32
00:01:42,045 --> 00:01:44,131
adatokhoz jutni,

33
00:01:44,131 --> 00:01:46,945
és ez az algoritmus 
gépi tanuláson alapul.

34
00:01:46,945 --> 00:01:50,661
Azóta sok, gépi tanuláson alapuló 
üzleti sikertörténetet ismerünk.

35
00:01:50,661 --> 00:01:53,886
Olyan cégek, mint az Amazon 
és a Netflix a gépi tanulás módszerével

36
00:01:53,896 --> 00:01:55,901
ajánlják termékeiket megvételre

37
00:01:55,901 --> 00:01:58,147
illetve filmjeiket megnézésre.

38
00:01:58,147 --> 00:02:00,091
Néha ez, mondhatni, elég ijesztő.

39
00:02:00,091 --> 00:02:01,915
Mások, mint a LinkedIn és a Facebook

40
00:02:01,915 --> 00:02:04,490
néha megmondják, kik lehetnének 
a barátaink,

41
00:02:04,490 --> 00:02:06,361
és fogalmunk sincs, hogy csinálják.

42
00:02:06,361 --> 00:02:09,410
A gépi tanulásban rejlő
lehetőségeket használják.

43
00:02:09,410 --> 00:02:12,619
Ezek az algoritmusok sokkal inkább 
az adatokból tanulnak,

44
00:02:12,619 --> 00:02:15,386
semmint a kézzel írt programokból.

45
00:02:15,860 --> 00:02:18,884
Így lett sikeres az IBM is: 
Watson nevű gépe

46
00:02:18,884 --> 00:02:21,286
legyőzte a "Jeopardy" kvízműsor 
két világbajnokát,

47
00:02:21,311 --> 00:02:24,438
mert válaszolt körmönfont és 
bonyolult kérdésekre; pl.

48
00:02:24,463 --> 00:02:28,143
[Ennek a városnak a múzeumából tűnt el 
az ókori Nimród oroszlánja 2003-ban]

49
00:02:28,143 --> 00:02:31,904
Így jelentek meg az első, 
vezető nélküli autók.

50
00:02:31,904 --> 00:02:34,586
Elég fontos, hogy 
meg tudjuk mondani, mi a különbség,

51
00:02:34,586 --> 00:02:37,167
mondjuk, egy fa és egy gyalogos között.

52
00:02:37,167 --> 00:02:40,198
Nem tudjuk, hogyan kell 
manuálisan megírni a programokat,

53
00:02:40,219 --> 00:02:42,690
de gépi tanulással erre most 
megvan a lehetőség.

54
00:02:42,690 --> 00:02:46,180
Tény, hogy ez a kocsi már
több millió kilométert tett meg

55
00:02:46,180 --> 00:02:48,259
baleset nélkül átlagos utakon.

56
00:02:48,782 --> 00:02:52,408
Tudjuk tehát, hogy a számítógépek 
tudnak tanulni, és képesek megtanulni,

57
00:02:52,408 --> 00:02:54,550
hogyan végezzenek el feladatokat,

58
00:02:54,550 --> 00:02:57,305
amelyeknél néha mi magunk 
tanácstalanok vagyunk,

59
00:02:57,305 --> 00:03:00,062
vagy talán nálunk ügyesebben végzik el.

60
00:03:00,062 --> 00:03:04,042
A gépi tanulás egyik legpompásabb példáját

61
00:03:04,042 --> 00:03:06,863
egy általam irányított Kaggle-
projektnél tapasztaltam,

62
00:03:06,863 --> 00:03:09,641
ahol a Torontói Egyetem csoportja,

63
00:03:09,641 --> 00:03:12,276
amelyet Geoffrey Hinton vezetett, 
megnyert

64
00:03:12,276 --> 00:03:14,838
egy automatizált gyógyszer-
kifejlesztési versenyt.

65
00:03:14,838 --> 00:03:18,943
Nemcsak az volt rendhagyó, hogy 
legyőzték a Merck

66
00:03:18,943 --> 00:03:21,451
és más nemzetközi tudóscsoportok
algoritmusait,

67
00:03:21,451 --> 00:03:25,433
hanem hogy egyikük sem volt járatos 
a kémiában, a biológiában

68
00:03:25,433 --> 00:03:28,800
vagy az élettudományokban, s 
mindezt két hét alatt.

69
00:03:28,800 --> 00:03:30,473
Hogy sikerült nekik?

70
00:03:30,473 --> 00:03:34,008
Rendhagyó algoritmust alkalmaztak, 
az ún. mély tanulást.

71
00:03:34,008 --> 00:03:37,072
Annyira fontos eredmény volt ez, 
hogy a New York Times

72
00:03:37,072 --> 00:03:40,109
címoldalon tudósított róla pár hét múlva.

73
00:03:40,109 --> 00:03:42,727
Balra látható Geoffrey Hinton.

74
00:03:42,727 --> 00:03:46,738
A mély tanulás olyan algoritmus, 
amelyet az emberi agy működése ihletett.

75
00:03:46,738 --> 00:03:48,709
Az algoritmusnak nincs 
elméleti korlátja

76
00:03:48,709 --> 00:03:52,108
abból a szempontból, hogy 
mi mindenre lehet képes.

77
00:03:52,108 --> 00:03:54,569
Minél több adatot és gépidőt adunk neki,

78
00:03:54,569 --> 00:03:56,716
annál jobbak lesznek az eredmények.

79
00:03:56,752 --> 00:03:59,421
A New York Times cikkében 
írt a mély tanulás

80
00:03:59,421 --> 00:04:01,674
egy másik rendkívüli eredményéről is,

81
00:04:01,674 --> 00:04:03,928
amelyről rögtön szólni fogok.

82
00:04:03,928 --> 00:04:07,872
Ez azt mutatja, hogy a számítógépek 
képesek hangot érzékelni és értelmezni.

83
00:04:08,184 --> 00:04:11,018
(Video) Richard Rashid: Az utolsó 
lépés, s ezt szeretném,

84
00:04:11,018 --> 00:04:13,993
hogy hozzá tudjam tenni a folyamathoz:

85
00:04:13,993 --> 00:04:17,334
kínaiul beszélni önökhöz.

86
00:04:19,394 --> 00:04:21,910
Ennek kulcsa, hogy képesek voltunk

87
00:04:21,910 --> 00:04:26,531
nagy mennyiségű információt 
átvenni sok kínai beszédjéből,

88
00:04:26,531 --> 00:04:29,641
létrehozni egy "szövegből beszédet" 
rendszert, amely

89
00:04:29,641 --> 00:04:33,772
a kínai szöveget átalakítja 
kínai beszéddé.

90
00:04:35,428 --> 00:04:38,952
Azután az én hangmintámból felvettünk 
egy órányit,

91
00:04:38,952 --> 00:04:41,218
s ezzel moduláltuk a szokásos

92
00:04:41,218 --> 00:04:44,944
"szövegből beszédet" rendszert, 
amely aztán az én hangomon szól.

93
00:04:45,188 --> 00:04:47,726
Az eredmény nem tökéletes.

94
00:04:47,726 --> 00:04:50,554
Tény, hogy elég sok a hiba.

95
00:04:50,554 --> 00:04:52,880
(kínaiul)

96
00:04:52,880 --> 00:04:56,573
(taps)

97
00:04:57,549 --> 00:05:00,990
Elég sok feladat van még ezen a területen.

98
00:05:01,449 --> 00:05:04,893
(kínaiul)

99
00:05:04,893 --> 00:05:09,970
(taps)

100
00:05:10,462 --> 00:05:14,244
Howard: Ez egy gépi tanulási 
konferencián történt, Kínában.

101
00:05:14,244 --> 00:05:16,614
Valóban ritka, hogy egy 
tudományos tanácskozáson

102
00:05:16,614 --> 00:05:18,511
spontán tapsot hall az ember,

103
00:05:18,511 --> 00:05:22,187
bár néha TEDx konferenciákon igen.

104
00:05:22,187 --> 00:05:24,982
Amit itt láttak, mind 
a mély tanulással kapcsolatos.

105
00:05:24,982 --> 00:05:26,507
(taps) Köszönöm.

106
00:05:26,507 --> 00:05:28,789
A fonetikus átírás angolra 
mély tanulás volt.

107
00:05:28,789 --> 00:05:32,201
A kínaira fordítás és a szöveg 
a jobb fölső sarokban szintén,

108
00:05:32,201 --> 00:05:35,508
és a hangképzés úgyszintén 
mély tanulás volt.

109
00:05:35,508 --> 00:05:38,742
Úgyhogy a mély tanulás különleges dolog.

110
00:05:38,742 --> 00:05:41,841
Egyszerű algoritmus, de úgy látszik, 
majdnem mindenre alkalmas,

111
00:05:41,841 --> 00:05:44,952
erre tavaly jöttem rá. 
Látni is megtanult már.

112
00:05:44,952 --> 00:05:47,128
Egy kevéssé ismert német versenyen,

113
00:05:47,128 --> 00:05:49,725
amely a közlekedési jelzések
felismerésére irányul,

114
00:05:49,725 --> 00:05:53,118
a mély tanulás megtanulta fölismerni 
a közlekedési jelzéseket.

115
00:05:53,118 --> 00:05:55,214
Nemcsak jobban ismeri föl őket,

116
00:05:55,238 --> 00:05:56,970
mint bármely más algoritmus,

117
00:05:56,970 --> 00:05:59,789
de az eredményjelző kimutatta, 
hogy az embernél is jobban,

118
00:05:59,789 --> 00:06:01,541
kb. kétszer jobban mint az ember.

119
00:06:01,541 --> 00:06:03,537
2011-re megvolt az első,

120
00:06:03,537 --> 00:06:06,942
az embernél jobban látó számítógép.

121
00:06:06,942 --> 00:06:08,991
Azóta sok minden történt.

122
00:06:08,991 --> 00:06:12,505
2012-ben a Google közölte: van 
egy mély tanuló algoritmusuk,

123
00:06:12,505 --> 00:06:14,180
amely figyeli YouTube videókat, és

124
00:06:14,180 --> 00:06:17,357
egy hónap alatt átrágta magát 
16 000 gép adatain,

125
00:06:17,357 --> 00:06:20,868
és a számítógép önállóan megtanult 
olyan fogalmakat mint "emberek"

126
00:06:20,868 --> 00:06:23,527
vagy „macskák”, csupán csak a 
videókat figyelve.

127
00:06:23,527 --> 00:06:25,529
Az emberek nagyon hasonlóan tanulnak.

128
00:06:25,529 --> 00:06:28,619
Az emberek nem úgy tanulnak, hogy 
megmondják nekik, mit látnak,

129
00:06:28,619 --> 00:06:31,950
hanem maguknak tanítják meg, 
mik ezek a dolgok.

130
00:06:31,950 --> 00:06:35,319
2012-ben az említett Hinton

131
00:06:35,319 --> 00:06:38,177
megnyerte a nagyon népszerű 
ImageNet versenyt,

132
00:06:38,177 --> 00:06:42,318
ahol másfél millió képről kellett

133
00:06:42,318 --> 00:06:43,756
eldönteni, hogy mit ábrázol.

134
00:06:43,756 --> 00:06:46,339
2014-re elértük a képfelismerésben

135
00:06:46,339 --> 00:06:48,742
a 6%-os hibaszintet.

136
00:06:48,742 --> 00:06:50,768
Ez megint az emberekénél 
jobb eredmény.

137
00:06:50,768 --> 00:06:54,447
Tehát a gépek ebben rendkívül 
jó munkát végeznek,

138
00:06:54,447 --> 00:06:56,806
és az eredményeket ma 
az iparban is hasznosítják.

139
00:06:56,806 --> 00:06:59,848
Például a Google tavaly bejelentette,

140
00:06:59,848 --> 00:07:04,309
hogy két óra alatt feltérképezte 
egész Franciaországot,

141
00:07:04,433 --> 00:07:07,880
mindezt úgy, hogy betáplálták 
az utcai látképeket

142
00:07:07,880 --> 00:07:12,199
egy mély tanuló algoritmusba, 
az fölismerte és beolvasta

143
00:07:12,199 --> 00:07:14,419
a házszámokat. 
Korábban meddig tartott volna?

144
00:07:14,419 --> 00:07:17,684
Tucatnyi ember, több év.

145
00:07:17,774 --> 00:07:19,685
Ez történik most Kínában is.

146
00:07:19,685 --> 00:07:23,721
A Baidu valami kínai Google,

147
00:07:23,721 --> 00:07:26,004
és a bal fölső sarokban látható 
egy kép, amelyet

148
00:07:26,004 --> 00:07:29,978
feltöltöttem a Baidu mély tanuló 
rendszerébe,

149
00:07:29,978 --> 00:07:33,747
alatta pedig látják, hogy 
a rendszer megértette, mi ez a kép,

150
00:07:33,747 --> 00:07:35,983
és talált hasonló képeket.

151
00:07:35,983 --> 00:07:38,719
A hasonló képnek egyébként 
hasonló a háttere,

152
00:07:38,719 --> 00:07:42,165
az állatok pofája egyfelé fordul, 
némelyik még a nyelvét is kiölti.

153
00:07:42,165 --> 00:07:44,975
Ez nem ugyanaz, mint egy szöveg 
a weboldalon.

154
00:07:44,975 --> 00:07:46,607
Mindössze egy képet töltöttem föl.

155
00:07:46,607 --> 00:07:50,628
Tehát a mai számítógépeink 
tényleg értik, amit látnak,

156
00:07:50,628 --> 00:07:52,252
és százmilliónyi képet tartalmazó

157
00:07:52,252 --> 00:07:55,546
adatbázist nézhetnek át valós időben.

158
00:07:55,546 --> 00:07:59,036
De mit jelent az, hogy 
a számítógépek látnak?

159
00:07:59,036 --> 00:08:01,053
Nos, nemcsak, hogy látnak.

160
00:08:01,053 --> 00:08:03,244
Valójában a mély tanulás ennél 
többet ért el.

161
00:08:03,268 --> 00:08:06,070
Az összetett, finoman árnyalt 
mondatok, mint ez,

162
00:08:06,070 --> 00:08:08,894
mély tanuló algoritmusokkal 
ma már érthetők.

163
00:08:08,894 --> 00:08:10,337
A felül látható piros pöttyel

164
00:08:10,337 --> 00:08:12,965
ez a stanfordi rendszer azt jelzi,

165
00:08:12,965 --> 00:08:16,884
hogy ez a mondat 
negatív érzelmet fejez ki.

166
00:08:16,884 --> 00:08:20,290
A mély tanulás ma már tényleg 
megközelíti az emberi teljesítményt

167
00:08:20,302 --> 00:08:25,423
abban, hogy miről szól a mondat, 
és mit állít ezekről a dolgokról.

168
00:08:25,423 --> 00:08:28,151
A mély tanulás révén olvasunk kínaiul,

169
00:08:28,151 --> 00:08:31,137
kb. egy született kínai szintjén.

170
00:08:31,137 --> 00:08:33,475
Ez az algoritmus svájci, 
s akik kifejlesztették,

171
00:08:33,475 --> 00:08:36,831
nem beszélnek és nem értenek kínaiul.

172
00:08:36,831 --> 00:08:38,881
A mély tanulás alkalmazása

173
00:08:38,881 --> 00:08:41,101
erre talán a világ legjobb rendszere,

174
00:08:41,101 --> 00:08:45,562
akár összevetve a természetes 
emberi megértéssel.

175
00:08:46,218 --> 00:08:49,182
Ezt a rendszert raktuk össze 
a cégemnél, mely

176
00:08:49,182 --> 00:08:51,230
megmutatja, hogyan kell ezeket összerakni.

177
00:08:51,254 --> 00:08:53,689
Ezekhez a képekhez nem társul szöveg,

178
00:08:53,689 --> 00:08:56,041
és ahogy mondatokat írok be ide,

179
00:08:56,041 --> 00:08:59,010
ez valós időben megérti 
ezeket a képeket,

180
00:08:59,010 --> 00:09:00,689
kitalálja, miről szólnak,

181
00:09:00,689 --> 00:09:03,852
és talál a beírt szöveghez 
hasonló képeket.

182
00:09:03,852 --> 00:09:06,608
Ez azt jelenti, hogy valójában 
érti a mondataimat,

183
00:09:06,608 --> 00:09:08,832
és valójában érti a képeket.

184
00:09:08,832 --> 00:09:11,391
Tudom, hogy hasonlót már 
láttak a Google-on,

185
00:09:11,391 --> 00:09:14,166
ahol beírják a szavakat, és 
megjelennek a képek,

186
00:09:14,166 --> 00:09:17,590
de az úgy működik, hogy a gép 
a weboldalon szöveget keres.

187
00:09:17,590 --> 00:09:20,591
Az teljesen más, mint képeket fölismerni.

188
00:09:20,591 --> 00:09:23,343
Ilyesmit számítógépek 
csak az utóbbi hónapokban

189
00:09:23,343 --> 00:09:26,321
voltak képesek első ízben megcsinálni.

190
00:09:26,591 --> 00:09:30,682
A számítógépek nemcsak látnak, 
hanem olvasnak is,

191
00:09:30,682 --> 00:09:34,447
megmutattuk, hogy értik is, amit hallanak.

192
00:09:34,447 --> 00:09:37,889
Talán nem meglepő, ha elmondom, 
hogy írni is tudnak.

193
00:09:37,889 --> 00:09:42,672
Itt egy szöveg, amelyet tegnap egy 
mély tanuló algoritmussal írattam.

194
00:09:42,672 --> 00:09:46,406
Itt egy szöveg, melyet a stanfordi 
algoritmus írt.

195
00:09:46,406 --> 00:09:48,360
Minden mondatot mély tanuló 
algoritmus

196
00:09:48,360 --> 00:09:52,609
állított elő a képek leírása céljából.

197
00:09:52,609 --> 00:09:57,081
Az algoritmus korábban soha nem 
látott fekete inges, gitározó embert.

198
00:09:57,081 --> 00:09:59,301
Látott korábban embert, 
látott fekete színt,

199
00:09:59,301 --> 00:10:00,900
látott korábban gitárt,

200
00:10:00,900 --> 00:10:05,194
de önállóan állította elő a kép 
új leírását.

201
00:10:05,194 --> 00:10:08,696
Ez még nem üti meg az emberi 
teljesítmény szintjét, de közelíti.

202
00:10:08,696 --> 00:10:12,524
A tesztekben az esetek negyedében
jobban tetszik az embernek

203
00:10:12,524 --> 00:10:14,291
a számítógép-generálta képaláírás.

204
00:10:14,291 --> 00:10:16,355
Ez a rendszer csupán kéthetes,
tehát

205
00:10:16,355 --> 00:10:18,201
valószínűleg egy éven belül

206
00:10:18,201 --> 00:10:21,002
a számítógépes algoritmus

207
00:10:21,002 --> 00:10:22,864
felülmúlja az emberi teljesítményt.

208
00:10:22,864 --> 00:10:25,913
Tehát a számítógép írni is tud.

209
00:10:25,913 --> 00:10:29,388
Ha mindent összerakunk, 
ez izgalmas lehetőségekhez vezet.

210
00:10:29,388 --> 00:10:30,880
Például a gyógyításban,

211
00:10:30,880 --> 00:10:33,405
egy bostoni csoport bejelentette, 
hogy felfedeztek

212
00:10:33,405 --> 00:10:36,354
több tucat klinikailag fontos 
daganat-jellemzőt,

213
00:10:36,354 --> 00:10:40,596
amelyek segítenek az orvosoknak 
a rák előrejelzésében.

214
00:10:41,720 --> 00:10:44,016
Hasonlóképpen, Stanfordban

215
00:10:44,016 --> 00:10:47,679
bejelentették, hogy kifejlesztettek 
egy gépi tanuló rendszert,

216
00:10:47,679 --> 00:10:50,060
amely a szöveteket nagyításban vizsgálva

217
00:10:50,060 --> 00:10:52,642
a rákosok túlélési esélyeinek 
előrejelzésében

218
00:10:52,642 --> 00:10:56,225
tényleg jobban teljesít, 
mint a patológusok.

219
00:10:56,719 --> 00:11:00,264
Mindkét esetben az előrejelzések 
nemcsak pontosabbak voltak,

220
00:11:00,264 --> 00:11:02,766
hanem új tudományos eredményt hoztak.

221
00:11:02,776 --> 00:11:04,281
A radiológia esetében

222
00:11:04,281 --> 00:11:07,376
ezek új klinikai mutatók, amelyeket 
az ember képes értelmezni.

223
00:11:07,376 --> 00:11:09,168
A patológiai esetben

224
00:11:09,168 --> 00:11:11,768
a számítógépes rendszer
végeredményben felfedezte,

225
00:11:11,768 --> 00:11:14,788
hogy a rák körüli sejtek 
a diagnózis fölállításában

226
00:11:14,788 --> 00:11:18,760
ugyanolyan fontosak, 
mint maguk a rákos sejtek.

227
00:11:18,760 --> 00:11:23,204
A patológusoknak évtizedeken át 
pont az ellenkezőjét tanították.

228
00:11:24,121 --> 00:11:27,413
Mindkét esetben ezek olyan 
rendszerek, melyeket

229
00:11:27,413 --> 00:11:31,034
az orvos és a gépi tanulás 
szakértők együtt

230
00:11:31,034 --> 00:11:33,775
fejlesztettek ki. Tavaly óta 
ezt is túlhaladtuk.

231
00:11:33,775 --> 00:11:37,324
Itt egy példa arra, ahogyan 
mikroszkóp alatt azonosítják

232
00:11:37,324 --> 00:11:39,854
az emberi szövet rákos területét.

233
00:11:39,854 --> 00:11:44,027
A bemutatott rendszer pontosabban vagy kb.
ugyanolyan pontossággal tudja azonosítani

234
00:11:44,027 --> 00:11:47,242
azokat a területeket, mint egy patológus.

235
00:11:47,242 --> 00:11:50,634
Mély tanulással alakították ki 
a rendszert, orvosi szakértelem nélkül,

236
00:11:50,634 --> 00:11:53,160
olyanok, akiknek nincs semmi hátterük
a témában.

237
00:11:53,830 --> 00:11:56,785
Azután itt van az idegsejtek 
szelvényezése. Már majdnem

238
00:11:56,785 --> 00:12:00,453
olyan precízen tudjuk szelvényezni 
az idegsejteket, mint az emberek,

239
00:12:00,453 --> 00:12:03,170
és a rendszert mély tanulással 
azok alakították ki,

240
00:12:03,170 --> 00:12:05,472
akiknek nem volt előzetes orvosi 
tapasztalatuk.

241
00:12:06,421 --> 00:12:09,648
Úgy éreztem, hogy orvosi háttér nélkül is

242
00:12:09,648 --> 00:12:13,375
eléggé képzett vagyok, 
hogy orvosi céget alapítsak.

243
00:12:13,375 --> 00:12:15,521
Meg is tettem.

244
00:12:15,521 --> 00:12:18,211
Kissé féltem tőle, 
de az elmélet azt sugallta,

245
00:12:18,211 --> 00:12:21,500
hogy hasznára válhatnánk a gyógyításnak

246
00:12:21,500 --> 00:12:25,355
csupán ilyen adatelemző módszerek 
alkalmazásával.

247
00:12:25,642 --> 00:12:28,122
Hálás vagyok a fantasztikus fogadtatásért,

248
00:12:28,122 --> 00:12:30,694
nemcsak a média, hanem 
az orvosi közösség részéről is,

249
00:12:30,718 --> 00:12:32,622
akik nagyon támogattak.

250
00:12:32,822 --> 00:12:36,861
Az elmélet szerint a gyógyítás 
folyamatában a középső részt lecseréljük

251
00:12:36,861 --> 00:12:39,864
adatelemzésre lehetőség szerint, 
és azt hagyjuk az orvosokra,

252
00:12:39,864 --> 00:12:42,398
amihez legjobban értenek.

253
00:12:42,929 --> 00:12:44,531
Mondok rá példát. Ma 15 perc

254
00:12:44,531 --> 00:12:48,425
egy új diagnosztikai teszt kidolgozása.

255
00:12:48,425 --> 00:12:51,429
Megmutatom ezt önöknek valós 
időben, de én három percbe

256
00:12:51,429 --> 00:12:53,120
sűrítettem be, mert

257
00:12:53,120 --> 00:12:54,723
elhagytam egyes elemeit.

258
00:12:54,723 --> 00:12:58,555
Ahelyett, hogy megmutatnám, hogy 
készül egy orvosdiagnosztikai teszt,

259
00:12:58,579 --> 00:13:01,346
lássuk inkább autót ábrázoló 
képek diagnosztikai tesztjét,

260
00:13:01,346 --> 00:13:03,568
mert azt mindenki érteni fogja.

261
00:13:03,568 --> 00:13:06,769
Kb. másfél millió, autót ábrázoló 
képpel kezdünk,

262
00:13:06,769 --> 00:13:09,975
és szeretnék létrehozni valamit, 
ami a szerint rendezi őket,

263
00:13:09,975 --> 00:13:12,198
hogy milyen szögből készült a felvétel.

264
00:13:12,198 --> 00:13:16,086
A képek címkézetlenek, ezért 
az alapoktól kell kezdenem.

265
00:13:16,086 --> 00:13:17,951
Mély tanuló algoritmusunkkal


266
00:13:17,951 --> 00:13:21,658
azonosítani lehet 
az egyes részekhez tartozó területeket. 


267
00:13:21,658 --> 00:13:25,278
Az ember és a gép pompásan 
együtt tud működni.

268
00:13:25,278 --> 00:13:27,456
Az ember, ahogy itt látható,

269
00:13:27,456 --> 00:13:30,131
megmondja a gépnek, 
mely területek érdeklik,

270
00:13:30,131 --> 00:13:34,781
melyeken szeretné, hogy próbáljon 
javítani a gép az algoritmusa szerint.

271
00:13:34,781 --> 00:13:39,077
Ezek a mély tanuló rendszerek egy 
16 000-dimenziós térben vannak,

272
00:13:39,077 --> 00:13:42,509
látják, ahogy a gép ezt pörgeti azon 
a téren keresztül,

273
00:13:42,509 --> 00:13:44,501
és próbál új területeket találni.

274
00:13:44,501 --> 00:13:46,782
Amint eredményt ér el, 
az őt irányító ember

275
00:13:46,782 --> 00:13:50,286
megjelölheti az érdekes területeket.

276
00:13:50,286 --> 00:13:52,708
A gépnek sikerült területeket találnia,

277
00:13:52,708 --> 00:13:55,270
például sarkokat.

278
00:13:55,270 --> 00:13:56,876
Ahogy végigvisszük a folyamatot,

279
00:13:56,876 --> 00:13:59,216
fokozatosan egyre többet közlünk 
a géppel arról,

280
00:13:59,216 --> 00:14:01,414
miféle struktúrát keresünk.

281
00:14:01,414 --> 00:14:03,416
Képzeljenek el egy diagnosztikai tesztben

282
00:14:03,416 --> 00:14:06,766
egy patológust, amint meghatározza
a patologikus részeket,

283
00:14:06,766 --> 00:14:11,792
vagy egy radiológust, 
amint kimutatja a gócokat.

284
00:14:11,792 --> 00:14:14,351
Néha nehéz az algoritmus számára.

285
00:14:14,351 --> 00:14:16,315
Most egy kissé összezavarodott.

286
00:14:16,315 --> 00:14:18,865
Összekeveri a kocsik elejét 
a hátuljával.

287
00:14:18,865 --> 00:14:20,937
Egy kicsit jobban kell vigyáznunk,

288
00:14:20,937 --> 00:14:24,169
és nekünk kell előbb különválogatnunk 
a kocsik elejét és a hátulját,

289
00:14:24,169 --> 00:14:27,275
azután megmondjuk a gépnek,

290
00:14:27,275 --> 00:14:30,644
hogy ez a csoport érdekes 
nekünk.

291
00:14:31,023 --> 00:14:33,700
Ez eltart egy ideig, ugrunk egyet.

292
00:14:33,700 --> 00:14:35,946
és okítjuk a párszáz dologra támaszkodó

293
00:14:35,946 --> 00:14:37,920
gépi tanuló algoritmust,

294
00:14:37,920 --> 00:14:39,945
és reméljük, hogy erősen följavul.

295
00:14:39,945 --> 00:14:43,018
Látják, kezd elhalványulni 
egy néhány kép,

296
00:14:43,018 --> 00:14:47,194
tehát már felismeri, ezek hogyan értendők.

297
00:14:47,726 --> 00:14:50,628
Majd alkalmazhatjuk ezt az elvet
hasonló képekre,

298
00:14:50,628 --> 00:14:52,722
és hasonló képeknél, látják,

299
00:14:52,722 --> 00:14:56,680
már képes a kocsiknak az elejét 
hibátlanul megtalálni.

300
00:14:56,741 --> 00:14:59,689
Itt az ember mondhatja a gépnek:

301
00:14:59,689 --> 00:15:01,982
OK, jó munkát végeztél.

302
00:15:03,152 --> 00:15:05,337
Persze, néha még itt is

303
00:15:05,337 --> 00:15:08,472
bonyolult szétválasztani a csoportokat

304
00:15:09,011 --> 00:15:11,422
esetünkben, bár hagytuk

305
00:15:11,422 --> 00:15:13,833
a gépet egy ideig pörögni,

306
00:15:13,833 --> 00:15:15,574
mégis találunk összekeveredve

307
00:15:15,574 --> 00:15:17,722
jobb és bal oldalas képeket.

308
00:15:17,722 --> 00:15:19,862
Adhatunk további útbaigazításokat 
a gépnek,

309
00:15:19,862 --> 00:15:22,838
mondhatjuk, hogy próbálkozz, 
és találj olyan szempontot,

310
00:15:22,838 --> 00:15:25,445
ami minél jobban szétválogatja 
a jobb és bal oldalakat

311
00:15:25,445 --> 00:15:27,567
a mély tanuló algoritmussal.

312
00:15:27,567 --> 00:15:29,687
S lám, a tanácsunk -- OK, sikeres volt.

313
00:15:29,949 --> 00:15:33,391
Sikerült olyan szempontok szerint 
vizsgálni a tárgyakat,

314
00:15:33,391 --> 00:15:35,771
amelyek alkalmasak szétválogatásukra.

315
00:15:35,771 --> 00:15:38,209
S eszünkbe jut egy gondolat.

316
00:15:38,209 --> 00:15:46,370
Esetünkben a gép 
nem helyettesíti az embert,

317
00:15:46,406 --> 00:15:49,046
hanem együtt munkálkodnak.

318
00:15:49,046 --> 00:15:52,596
Ami egy 5-6 fős csoportnak

319
00:15:52,596 --> 00:15:54,598
kb. hét évébe tellett volna korábban,

320
00:15:54,598 --> 00:15:57,203
azt ezzel az eszközzel 
15 perc alatt

321
00:15:57,203 --> 00:15:59,708
egyetlen személy elvégezi egyedül.

322
00:15:59,708 --> 00:16:03,658
Ez a folyamat 4-5 közelítő lépést
használ.

323
00:16:03,658 --> 00:16:05,517
Látják, hogy a gép a másfél millió kép

324
00:16:05,517 --> 00:16:08,476
62%-át helyesen osztályozta.

325
00:16:08,476 --> 00:16:10,948
Most kezdhetjük gyorsan,

326
00:16:10,948 --> 00:16:12,245
nagy vonalakban

327
00:16:12,245 --> 00:16:15,164
átnézni, nincs-e hiba valahol.

328
00:16:15,164 --> 00:16:19,116
Ahol hiba van, közölhetjük a géppel.

329
00:16:19,116 --> 00:16:22,161
Minden elkülönített csoportra alkalmazva
valami ilyen eljárást

330
00:16:22,161 --> 00:16:24,648
most a 80%-os helyességi aránynál tartunk


331
00:16:24,648 --> 00:16:26,983
a másfél millió kép osztályozásakor.

332
00:16:27,063 --> 00:16:29,141
Most még találunk néhány

333
00:16:29,141 --> 00:16:32,720
helytelenül osztályozott képet,

334
00:16:32,720 --> 00:16:35,608
és megpróbáljuk megérteni, 
mi ennek az oka.

335
00:16:35,608 --> 00:16:38,131
Ugyanezzel a módszerrel
15 perc alatt

336
00:16:38,131 --> 00:16:41,161
97%-os pontossági arányt érünk el.

337
00:16:41,472 --> 00:16:46,072
Az ilyen technika lehetővé tenné, hogy 
kezelni tudjunk egy jelentős problémát,

338
00:16:46,078 --> 00:16:49,114
azt, hogy hiány van 
orvosi szakértelemből a világban.

339
00:16:49,114 --> 00:16:52,603
A Világgazdasági Fórumon elhangzott,

340
00:16:52,603 --> 00:16:55,227
hogy a fejlődő országokban 
10-20-szoros az orvoshiány,

341
00:16:55,227 --> 00:16:57,340
és mintegy 300 évbe telne,

342
00:16:57,340 --> 00:17:00,014
hogy a gond megoldására 
elég orvost képezzenek ki.

343
00:17:00,014 --> 00:17:03,119
Képzeljék csak el, milyen jó lenne, 
ha a mély tanulás módszerével

344
00:17:03,119 --> 00:17:05,958
növelhetnénk az orvosok
hatékonyságát.

345
00:17:05,958 --> 00:17:08,190
Egészen fölvillanyoznak a lehetőségek.

346
00:17:08,190 --> 00:17:10,249
Engem is aggaszt ez a gond.

347
00:17:10,249 --> 00:17:13,103
Az a probléma, hogy 
a kékkel jelölt területek ott vannak,

348
00:17:13,103 --> 00:17:17,072
ahol a szolgáltatások aránya
80% fölötti a foglalkoztatottságban.

349
00:17:17,072 --> 00:17:19,459
A szolgáltatások? 
[Írás-olvasás, Beszéd-figyelem],

350
00:17:19,459 --> 00:17:21,563
[Szemlélet, Tudás összegzése] 
Ezek.

351
00:17:21,563 --> 00:17:23,291
Pont e dolgokkal éppen most

352
00:17:23,291 --> 00:17:25,626
tanult meg a gép bánni.

353
00:17:25,626 --> 00:17:28,931
Most tanult meg a gép bánni 
a szolgáltatások

354
00:17:28,931 --> 00:17:31,463
fejlett világbeli felhasználásának 
80%-ával.

355
00:17:31,463 --> 00:17:32,773
Mit jelent ez? Azt mondják:

356
00:17:32,773 --> 00:17:35,726
Minden rendben lesz. A régiek 
helyett új állások keletkeznek.

357
00:17:35,726 --> 00:17:38,193
Például több állás lesz az 
adattudósok számára.

358
00:17:38,193 --> 00:17:39,010
Nem igazán.

359
00:17:39,010 --> 00:17:42,128
Nem tart soká a számukra
kifejleszteni ezeket a dolgokat.

360
00:17:42,128 --> 00:17:44,770
Például e négy algoritmust 
ugyanaz a fickó hozta létre.

361
00:17:45,380 --> 00:17:47,818
Ha azt hiszik: ó, régen is megtörtént,

362
00:17:47,818 --> 00:17:51,626
láttunk már ilyet, hogy új dolgok jönnek,

363
00:17:51,626 --> 00:17:53,878
és a régieket új állások váltják föl,

364
00:17:53,878 --> 00:17:55,735
no, de milyenek lesznek 
az új állások?

365
00:17:55,994 --> 00:17:57,865
Nagyon nehezen tudjuk megítélni,

366
00:17:57,865 --> 00:18:00,604
mert az emberi teljesítmény 
fokozatosan nő,

367
00:18:00,604 --> 00:18:03,166
de most itt van a mély tanulás rendszere,

368
00:18:03,166 --> 00:18:06,393
tudjuk róla, hogy a teljesítménye 
rohamosan nő.

369
00:18:06,393 --> 00:18:07,828
Itt tartunk.

370
00:18:07,828 --> 00:18:10,059
Mostanában a dolgok láttán 
sokan azt mondják:

371
00:18:10,059 --> 00:18:12,735
"Ó, a számítógépek még mindig 
elég ostobák." Igaz?

372
00:18:12,735 --> 00:18:15,769
De öt éven belül a helyzet megváltozik.

373
00:18:16,164 --> 00:18:19,992
Már most el kell kezdenünk 
gondolkozni a gépek képességeiről.

374
00:18:20,029 --> 00:18:22,079
Ilyet már tapasztaltunk,

375
00:18:22,079 --> 00:18:23,466
az ipari forradalom idején,

376
00:18:23,466 --> 00:18:26,007
ahogy a gépek megjelenésével 
lépést kellett váltani.

377
00:18:27,167 --> 00:18:30,305
De egy idő után a dolgok elsimultak,

378
00:18:30,305 --> 00:18:32,007
Megzavarta a társadalmat,

379
00:18:32,007 --> 00:18:35,446
de amikor energiatermelésre 
már mindenütt gépeket használtak,

380
00:18:35,446 --> 00:18:37,800
a dolgok lecsillapodtak.

381
00:18:37,800 --> 00:18:39,277
A "gépi tanulás forradalma"

382
00:18:39,301 --> 00:18:42,182
egészen más lesz, mint az ipari 
forradalom,

383
00:18:42,182 --> 00:18:45,009
mert a "gépi tanulás forradalma" 
soha nem csillapodik le.

384
00:18:45,009 --> 00:18:48,114
Minél jobbak lesznek a számító- 
gépek a szellemi tevékenységben,

385
00:18:48,114 --> 00:18:52,362
annál jobb szellemi képességű 
számítógépeket tudnak megépíteni,

386
00:18:52,362 --> 00:18:54,180
ez egyfajta olyan váltás lesz,

387
00:18:54,180 --> 00:18:57,478
amit a világ eddig még soha nem 
tapasztalt, ezért korábbi fogalmaik,

388
00:18:57,478 --> 00:19:00,054
hogy mi a lehetséges, teljesen 
megváltoznak.

389
00:19:00,474 --> 00:19:02,254
Mindez már hatással van ránk.

390
00:19:02,254 --> 00:19:05,884
Az utóbbi 25 évben a tőke 
termelékenysége nőtt,

391
00:19:05,900 --> 00:19:10,250
a munka termelékenysége maradt, 
sőt, valamit csökkent is.

392
00:19:10,908 --> 00:19:13,649
Szeretném, ha már elkezdenénk 
ezt az eszmecserét.

393
00:19:13,649 --> 00:19:16,166
Amikor a jelen helyzetről 
beszélgetek emberekkel,

394
00:19:16,166 --> 00:19:17,766
gyakran teljesen elutasítók.

395
00:19:17,766 --> 00:19:20,259
Jó, a számítógépek valójában 
nem tudnak gondolkodni,

396
00:19:20,259 --> 00:19:22,867
nem fejeznek ki érzelmeket, 
nem értik a költészetet,

397
00:19:22,867 --> 00:19:25,388
mi igazából nem értjük, 
hogyan működnek.

398
00:19:25,388 --> 00:19:26,274
Na és?

399
00:19:26,274 --> 00:19:28,678
A számítógépek már most 
meg tudnak tenni dolgokat,

400
00:19:28,678 --> 00:19:31,397
amelyek az emberek munkaidejének 
nagy részét kitöltik.

401
00:19:31,397 --> 00:19:34,313
Ideje elkezdeni a gondolkodást:

402
00:19:34,313 --> 00:19:37,299
hogyan igazítsuk át a társadalom 
és a gazdaság szerkezetét

403
00:19:37,323 --> 00:19:39,355
az új realitások fényében.

404
00:19:39,355 --> 00:19:40,888
Köszönöm

405
00:19:40,888 --> 00:19:44,738
(taps)