1
00:00:03,286 --> 00:00:06,178
Θέλω να σας δείξω κάτι.

2
00:00:06,178 --> 00:00:10,260
(Βίντεο) Κορίτσι: 
ΟΚ, μια γάτα που κάθεται στο κρεβάτι.

3
00:00:10,260 --> 00:00:14,300
Το αγόρι χαϊδεύει τον ελέφαντα.

4
00:00:14,300 --> 00:00:18,654
Οι άνθρωποι ανεβαίνουν στο αεροπλάνο.

5
00:00:18,654 --> 00:00:21,464
Είναι ένα μεγάλο αεροπλάνο.

6
00:00:21,464 --> 00:00:23,670
Φέι Φέι Λι:
Αυτό είναι ένα τρίχρονο κορίτσι

7
00:00:23,670 --> 00:00:27,349
που περιγράφει τι βλέπει σε μια σειρά 
από φωτογραφίες.

8
00:00:27,349 --> 00:00:30,194
Μπορεί να έχει να μάθει 
πολλά ακόμα για τον κόσμο,

9
00:00:30,194 --> 00:00:34,743
αλλά είναι ήδη ειδική 
σε μια πολύ σημαντική εργασία:

10
00:00:34,743 --> 00:00:38,059
να καταλαβαίνει τι βλέπει.

11
00:00:38,059 --> 00:00:42,455
Η κοινωνία μας τεχνολογικά
είναι πιο προηγμένη από ποτέ.

12
00:00:42,455 --> 00:00:46,084
Στέλνουμε ανθρώπους στο φεγγάρι,
έχουμε τηλέφωνα που μας μιλάνε

13
00:00:46,084 --> 00:00:51,030
ή ρυθμίζουμε ραδιοφωνικούς σταθμούς
να παίζουν μόνο τη μουσική που μας αρέσει.

14
00:00:51,030 --> 00:00:55,085
Κι όμως, οι πιο προηγμένες μηχανές
και υπολογιστές μας

15
00:00:55,085 --> 00:00:57,988
δυσκολεύονται ακόμα σε αυτή την εργασία.

16
00:00:57,988 --> 00:01:01,447
Έτσι λοιπόν, είμαι εδώ σήμερα
για να σας δώσω μια αναφορά προόδου

17
00:01:01,447 --> 00:01:05,494
σχετικά με τις πρόσφατες εξελίξεις
στον τομέα της μηχανικής όρασης,

18
00:01:05,494 --> 00:01:09,655
μια από τις πιο σημαντικές
και πιθανότατα επαναστατικές

19
00:01:09,655 --> 00:01:12,161
τεχνολογίες της πληροφορικής.

20
00:01:12,861 --> 00:01:17,412
Ναι, έχουμε πρωτότυπα αυτοκίνητα
που οδηγούν αυτόνομα,

21
00:01:17,412 --> 00:01:21,265
αλλά χωρίς «έξυπνη» όραση
δεν μπορούν να καταλάβουν τη διαφορά

22
00:01:21,265 --> 00:01:25,235
μεταξύ μιας τσαλακωμένης σακούλας
στο δρόμο, που μπορούν να «πατήσουν»,

23
00:01:25,235 --> 00:01:28,575
και μιας πέτρας με το ίδιο μέγεθος,
που πρέπει να αποφύγουν.

24
00:01:29,415 --> 00:01:32,805
Έχουμε εκπληκτικές κάμερες
με ανάλυση μεγαπίξελ,

25
00:01:32,805 --> 00:01:35,940
αλλά δεν έχουμε δώσει όραση στους τυφλούς.

26
00:01:36,390 --> 00:01:39,725
Τηλεκατευθυνόμενα αεροσκάφη μπορούν
να πετάξουν πάνω από τεράστια εδάφη

27
00:01:39,725 --> 00:01:41,859
αλλά δεν έχουν αρκετή τεχνολογία όρασης

28
00:01:41,859 --> 00:01:45,320
για να μας βοηθήσουν να παρακολουθήσουμε
τις αλλαγές στα τροπικά δάση.

29
00:01:45,320 --> 00:01:48,270
Κάμερες ασφαλείας είναι παντού,

30
00:01:48,270 --> 00:01:53,337
αλλά δεν μας προειδοποιούν
όταν ένα παιδί πνίγεται στην πισίνα.

31
00:01:54,167 --> 00:01:59,762
Φωτογραφίες και βίντεο γίνονται ολοένα
πιο σημαντικό κομμάτι της παγκόσμιας ζωής.

32
00:01:59,762 --> 00:02:03,849
Δημιουργούνται με τέτοιο ρυθμό
που είναι πέρα απ' ότι ένας άνθρωπος

33
00:02:03,849 --> 00:02:06,632
ή μια ομάδα ανθρώπων μπορούν να δουν,

34
00:02:06,632 --> 00:02:10,553
και εσείς και εγώ συνεισφέρουμε σε αυτό,
εδώ στο TED.

35
00:02:10,553 --> 00:02:15,785
Κι όμως, το πιο προηγμένο λογισμικό μας
δυσκολεύεται ακόμα να καταλάβει

36
00:02:15,785 --> 00:02:19,661
και να διαχειριστεί αυτές τις τεράστιες
ποσότητες περιεχομένου.

37
00:02:19,661 --> 00:02:24,483
Με άλλα λόγια, συλλογικά σαν κοινωνία,

38
00:02:24,483 --> 00:02:26,679
είμαστε βασικά τυφλοί,

39
00:02:26,679 --> 00:02:30,376
γιατί οι πιο «έξυπνες» μηχανές μας
είναι ακόμα τυφλές.

40
00:02:31,526 --> 00:02:34,082
«Γιατί είναι τόσο δύσκολο;»
μπορεί να ρωτήσετε.

41
00:02:34,082 --> 00:02:37,145
Οι κάμερες μπορούν να τραβήξουν 
φωτογραφίες όπως αυτή

42
00:02:37,145 --> 00:02:41,139
μετατρέποντας το φως
σε δισδιάστατους πίνακες αριθμών

43
00:02:41,139 --> 00:02:42,789
που λέγονται πίξελ,

44
00:02:42,789 --> 00:02:45,040
αλλά αυτοί είναι άψυχοι αριθμοί.

45
00:02:45,040 --> 00:02:48,151
Δεν έχουν νόημα από μόνοι τους.

46
00:02:48,151 --> 00:02:52,494
Όπως το να αντιλαμβάνεσαι έναν ήχο
δεν είναι σαν να τον καταλαβαίνεις,

47
00:02:52,494 --> 00:02:56,534
το να βγάζεις φωτογραφίες
δεν είναι το ίδιο με το να βλέπεις,

48
00:02:56,534 --> 00:03:00,363
και λέγοντας «βλέπω»
εννοούμε «καταλαβαίνω».

49
00:03:01,293 --> 00:03:07,470
Πράγματι, η Φύση χρειάστηκε
540 εκατομμύρια χρόνια σκληρής δουλειάς

50
00:03:07,470 --> 00:03:09,443
για να καταφέρει αυτό το έργο,

51
00:03:09,443 --> 00:03:11,324
και η περισσότερη προσπάθεια

52
00:03:11,324 --> 00:03:16,595
αφιερώθηκε στην ανάπτυξη του οπτικού
μηχανισμού του εγκεφάλου μας

53
00:03:16,595 --> 00:03:19,242
και όχι στα ίδια τα μάτια.

54
00:03:19,242 --> 00:03:21,989
Η όραση λοιπόν ξεκινάει με τα μάτια,

55
00:03:21,989 --> 00:03:25,507
αλλά πραγματικά λαμβάνει χώρα
στον εγκέφαλο.

56
00:03:26,287 --> 00:03:31,347
Εδώ και 15 χρόνια, από το διδακτορικό μου
στο Πανεπιστήμιο της Καλιφόρνια

57
00:03:31,347 --> 00:03:34,273
και ύστερα ως επικεφαλής
του κέντρου όρασης του Στάνφορντ,

58
00:03:34,273 --> 00:03:38,669
δουλεύω με τους μέντορες, 
συνεργάτες και φοιτητές μου

59
00:03:38,669 --> 00:03:41,328
προσπαθώντας να μάθω 
τους υπολογιστές να βλέπουν.

60
00:03:42,348 --> 00:03:45,952
Το ερευνητικό μας πεδίο λέγεται
υπολογιστική όραση και μηχανική μάθηση.

61
00:03:45,952 --> 00:03:49,830
Είναι κομμάτι του γενικότερου πεδίου
της τεχνητής νοημοσύνης.

62
00:03:51,000 --> 00:03:56,493
Τελικά, θέλουμε να διδάξουμε τις μηχανές
να δουν ακριβώς όπως εμείς:

63
00:03:56,493 --> 00:04:01,665
να ονομάζουν αντικείμενα, να αναγνωρίζουν
ανθρώπους και αντικείμενα στον χώρο,

64
00:04:01,665 --> 00:04:07,428
να καταλαβαίνουν σχέσεις, συναισθήματα,
δράσεις και προθέσεις.

65
00:04:07,428 --> 00:04:13,721
Εσείς και εγώ συνυφαίνουμε ολόκληρες
ιστορίες ανθρώπων, τόπων και πραγμάτων

66
00:04:13,721 --> 00:04:15,885
τη στιγμή που τα πρωτοβλέπουμε.

67
00:04:16,955 --> 00:04:22,538
Το πρώτο βήμα προς αυτό το στόχο είναι
να μάθουμε τον υπολογιστή να δει πράγματα,

68
00:04:22,538 --> 00:04:25,906
τα δομικά στοιχεία του οπτικού μας κόσμου.

69
00:04:25,906 --> 00:04:30,340
Στην πιο απλή της εκδοχή, φανταστείτε
την εκπαιδευτική διαδικασία ως εξής:

70
00:04:30,340 --> 00:04:33,335
δείχνουμε στον υπολογιστή
μερικές εικόνες εκμάθησης

71
00:04:33,335 --> 00:04:36,656
ενός συγκεκριμένου αντικειμένου,
ας πούμε γάτες,

72
00:04:36,656 --> 00:04:41,393
και σχεδιάζουμε ένα μοντέλο
που μαθαίνει από αυτές τις εικόνες.

73
00:04:41,393 --> 00:04:43,437
Πόσο δύσκολο μπορεί να είναι;

74
00:04:43,437 --> 00:04:47,489
Στο κάτω κάτω, μια γάτα είναι απλά
μια συλλογή από σχήματα και χρώματα,

75
00:04:47,489 --> 00:04:51,575
και αυτό ακριβώς κάναμε τα πρώτα χρόνια
της μοντελοποίησης αντικειμένων.

76
00:04:51,575 --> 00:04:55,197
Λέγαμε στον αλγόριθμο του υπολογιστή,
σε μαθηματική γλώσσα,

77
00:04:55,197 --> 00:04:58,540
ότι η γάτα έχει ένα στρογγυλό πρόσωπο,
ένα παχουλό σώμα,

78
00:04:58,540 --> 00:05:00,839
δύο μυτερά αυτιά και μια μακριά ουρά,

79
00:05:00,839 --> 00:05:02,249
και αυτό έμοιαζε μια χαρά.

80
00:05:02,859 --> 00:05:04,972
Αλλά αυτή η γάτα;

81
00:05:04,972 --> 00:05:06,063
(Γέλια)

82
00:05:06,063 --> 00:05:07,689
Είναι κουλουριασμένη.

83
00:05:07,689 --> 00:05:12,408
Τώρα πρέπει να προσθέσουμε άλλο ένα σχήμα
και άλλη μια άποψη στο μοντέλο μας.

84
00:05:12,408 --> 00:05:14,403
Κι αν η γάτα κρύβεται;

85
00:05:15,143 --> 00:05:17,622
Και αυτές οι χαζούλες γάτες;

86
00:05:19,112 --> 00:05:21,529
Βλέπετε το πρόβλημα.

87
00:05:21,529 --> 00:05:24,896
Ακόμα και κάτι τόσο απλό
όσο ένα κατοικίδιο

88
00:05:24,896 --> 00:05:29,400
μπορεί να παρουσιάσει έναν άπειρο αριθμό
παραλλαγών στο μοντέλο,

89
00:05:29,400 --> 00:05:31,633
και αυτό είναι μόνο ένα αντικείμενο.

90
00:05:32,573 --> 00:05:35,065
Πριν από οκτώ χρόνια,

91
00:05:35,065 --> 00:05:40,095
μια πολύ απλή και βαθιά παρατήρηση
άλλαξε τον τρόπο σκέψης μου.

92
00:05:41,425 --> 00:05:44,110
Κανένας δεν λέει σε ένα παιδί πώς να δει,

93
00:05:44,110 --> 00:05:46,371
κυριώς τα πρώτα χρόνια.

94
00:05:46,371 --> 00:05:51,371
Μαθαίνουν μέσα από εμπειρίες και
παραδείγματα του πραγματικού κόσμου.

95
00:05:51,371 --> 00:05:54,111
Αν σκεφτούμε τα μάτια του παιδιού

96
00:05:54,111 --> 00:05:56,665
σαν ένα ζευγάρι από βιολογικές κάμερες,

97
00:05:56,665 --> 00:06:00,845
βγάζουν περίπου μία φωτογραφία
κάθε 200 χιλιοστά του δευτερολέπτου,

98
00:06:00,845 --> 00:06:03,979
που είναι ο μέσος χρόνος που χρειάζεται
για μια κίνηση του ματιού.

99
00:06:03,979 --> 00:06:09,529
Έτσι, ένα παιδί τριών ετών θα έχει δει
εκατοντάδες εκατομμύρια φωτογραφίες

100
00:06:09,529 --> 00:06:11,363
του πραγματικού κόσμου.

101
00:06:11,363 --> 00:06:13,643
Αυτά είναι πολλά παραδείγματα εκμάθησης.

102
00:06:14,383 --> 00:06:20,372
Αντί λοιπόν να εστιάζουμε μόνο σε
ολοένα και καλύτερους αλγόριθμους,

103
00:06:20,372 --> 00:06:25,644
η ιδέα μου ήταν να δώσω στους αλγόριθμους
το είδος των εκπαιδευτικών δεδομένων

104
00:06:25,644 --> 00:06:28,963
που ένα παιδί αποκτά μέσω εμπειρίας

105
00:06:28,963 --> 00:06:32,841
τόσο σε ποσότητα όσο και σε ποιότητα.

106
00:06:32,841 --> 00:06:34,699
Όταν το καταλάβαμε

107
00:06:34,699 --> 00:06:37,670
ξέραμε ότι έπρεπε να συλλέξουμε
ένα σετ δεδομένων

108
00:06:37,670 --> 00:06:42,129
που περιείχε πολύ περισσότερες φωτογραφίες
από όσες είχαμε προηγουμένως,

109
00:06:42,129 --> 00:06:44,706
ίσως χιλιάδες φορές περισσότερες,

110
00:06:44,706 --> 00:06:48,817
και μαζί με τον καθηγητή Κάι Λι
στο Πανεπιστήμιο του Πρίνστον

111
00:06:48,817 --> 00:06:52,779
ξεκινήσαμε το πρόγραμμα ImageNet το 2007.

112
00:06:53,569 --> 00:06:57,407
Ευτυχώς, δε χρειάστηκε 
να φορέσουμε κάμερες στο κεφάλι μας

113
00:06:57,407 --> 00:06:59,171
και να περιμένουμε πολλά χρόνια.

114
00:06:59,171 --> 00:07:00,634
Πήγαμε στο Διαδίκτυο,

115
00:07:00,634 --> 00:07:05,070
το μεγαλύτερο θησαυροφυλάκιο εικόνων
που έχουν ποτέ κατασκευάσει οι άνθρωποι.

116
00:07:05,070 --> 00:07:08,111
«Κατεβάσαμε» σχεδόν
ένα δισεκατομμύριο εικόνες

117
00:07:08,111 --> 00:07:13,871
και χρησιμοποιήσαμε τεχνολογίες «υπηρεσιών
πλήθους» όπως η πλατφόρμα της Άμαζον

118
00:07:13,881 --> 00:07:16,360
για να μας βοηθήσουν να ονομάσουμε
αυτές τις εικόνες.

119
00:07:16,360 --> 00:07:21,230
Στην αιχμή του, το ImageNet ήταν
ένας από τους μεγαλύτερους εργοδότες

120
00:07:21,230 --> 00:07:24,226
της πλατφόρμας της Άμαζον:

121
00:07:24,226 --> 00:07:28,080
όλοι μαζί, σχεδόν 50.000 εργαζόμενοι

122
00:07:28,080 --> 00:07:32,120
από 167 χώρες από όλο τον κόσμο

123
00:07:32,120 --> 00:07:36,067
μας βοήθησαν να καθαρίσουμε,
να κατατάξουμε και να ονομάσουμε

124
00:07:36,067 --> 00:07:39,402
σχεδόν ένα δισεκατομμύριο 
υποψήφιες φωτογραφίες.

125
00:07:40,382 --> 00:07:43,265
Τόση προσπάθεια χρειάστηκε

126
00:07:43,265 --> 00:07:47,165
για να καταγράψουμε 
ένα ψήγμα των παραστάσεων

127
00:07:47,165 --> 00:07:51,336
που προσλαμβάνει το μυαλό ενός παιδιού
στα πρώτα χρόνια της ανάπτυξης.

128
00:07:52,148 --> 00:07:56,050
Εκ των υστέρων, η ιδέα της χρήσης
μαζικών δεδομένων

129
00:07:56,050 --> 00:08:00,600
για την εκπαίδευση υπολογιστών
μπορεί να μοιάζει προφανής,

130
00:08:00,600 --> 00:08:04,710
αλλά το 2007 δεν ήταν τόσο προφανής.

131
00:08:04,710 --> 00:08:08,588
Ήμασταν μόνοι μας σε αυτό το ταξίδι
για αρκετό καιρό.

132
00:08:08,588 --> 00:08:13,591
Μερικοί συνάδελφοι με συμβούλευσαν να κάνω
κάτι πιο χρήσιμο για να πάρω μονιμότητα,

133
00:08:13,591 --> 00:08:17,753
και είχαμε διαρκώς 
προβλήματα χρηματοδότησης.

134
00:08:17,753 --> 00:08:20,608
Μια φορά, είπα για πλάκα 
στους μεταπτυχιακούς φοιτητές μου

135
00:08:20,608 --> 00:08:24,481
ότι θα άνοιγα ξανά το καθαριστήριό μου 
για να χρηματοδοτήσω το ImageNet.

136
00:08:24,481 --> 00:08:28,592
Στο κάτω κάτω, 
έτσι χρηματοδότησα τις σπουδές μου.

137
00:08:29,242 --> 00:08:31,098
Έτσι λοιπόν συνεχίσαμε.

138
00:08:31,098 --> 00:08:34,813
Το 2009, το ΙmageNet παρέδωσε

139
00:08:34,813 --> 00:08:38,855
μια βάση δεδομένων 
με 15 εκατομμύρια φωτογραφίες

140
00:08:38,855 --> 00:08:43,660
που ανήκαν σε 22.000 κατηγορίες
αντικειμένων και πραγμάτων

141
00:08:43,660 --> 00:08:46,980
οργανωμένες
με καθημερινές αγγλικές λέξεις.

142
00:08:46,980 --> 00:08:49,906
Τόσο σε ποσότητα όσο και σε ποιότητα,

143
00:08:49,906 --> 00:08:52,878
ήταν μια ανεπανάληπτη κλίμακα.

144
00:08:53,608 --> 00:08:56,339
Για παράδειγμα, όσον αφορά τις γάτες,

145
00:08:56,339 --> 00:08:59,148
έχουμε περισσότερες από 62.000 γάτες

146
00:08:59,148 --> 00:09:03,258
με διαφορετικές εμφανίσεις και πόζες

147
00:09:03,258 --> 00:09:08,481
και όλα τα είδη, κατοικίδιες και άγριες.

148
00:09:08,481 --> 00:09:11,825
Ήμασταν πανευτυχείς
που ολοκληρώσαμε το ImageNet,

149
00:09:11,825 --> 00:09:15,563
και θέλαμε να επωφεληθεί
όλος ο ερευνητικός κόσμος,

150
00:09:15,563 --> 00:09:19,604
κι έτσι, σύμφωνα με το πνεύμα του TED,
διαθέσαμε ολόκληρη τη βάση δεδομένων

151
00:09:19,604 --> 00:09:23,196
στην παγκόσμια ερευνητική κοινότητα,
δωρεάν.

152
00:09:24,166 --> 00:09:28,636
(Χειροκρότημα)

153
00:09:29,416 --> 00:09:33,954
Τώρα που έχουμε τα δεδομένα για να
καλλιεργήσουμε το υπολογιστικό μας μυαλό,

154
00:09:33,954 --> 00:09:37,691
είμαστε έτοιμοι να ξαναγυρίσουμε
στους αλγόριθμους.

155
00:09:37,691 --> 00:09:42,869
Όπως αποδείχθηκε, ο πλούτος πληροφορίας
που παρέχεται από το ImageNet

156
00:09:42,869 --> 00:09:47,675
ήταν το τέλειο ταίρι για μια συγκεκριμένη
κλάση αλγόριθμων μηχανικής μάθησης

157
00:09:47,675 --> 00:09:50,090
που ονομάζονται συνελικτικά
νευρωνικά δίκτυα,

158
00:09:50,090 --> 00:09:55,338
που αναπτύχθηκε απ' τους Τζεφ Χίντον,
Κουνιχίκο Φουκοσίμα και Γιάν ΛεΚούν

159
00:09:55,338 --> 00:09:58,983
στις δεκαετίες του '70 και το '80.

160
00:09:58,983 --> 00:10:04,602
Όπως ο εγκέφαλος αποτελείται από
δισεκατομμύρια διασυνδεδεμένους νευρώνες,

161
00:10:04,602 --> 00:10:08,456
η βασική λειτουργική ενότητα
σε ένα νευρωνικό δίκτυο

162
00:10:08,456 --> 00:10:10,871
είναι ένας κόμβος-νευρώνας.

163
00:10:10,871 --> 00:10:13,425
Δέχεται σήματα εισόδου από άλλους κόμβους

164
00:10:13,425 --> 00:10:16,143
και στέλνει σήματα εξόδου σε άλλους.

165
00:10:16,143 --> 00:10:20,856
Επιπλέον, αυτοί οι εκατοντάδες χιλιάδες
ή εκατομμύρια κόμβοι

166
00:10:20,856 --> 00:10:24,083
είναι οργανωμένοι σε ιεραρχικά στρώμματα,

167
00:10:24,083 --> 00:10:26,637
επίσης παρόμοια με αυτά του εγκεφάλου.

168
00:10:26,637 --> 00:10:29,880
Ένα τυπικό νευρωνικό δίκτυο 
που χρησιμοποιούμε για να εκπαιδεύσουμε

169
00:10:29,880 --> 00:10:34,601
το μοντέλο αναγνώρισης αντικειμένων,
έχει 24 εκατομμύρια κόμβους,

170
00:10:34,601 --> 00:10:37,488
140 εκατομμύρια παραμέτρους

171
00:10:37,488 --> 00:10:40,331
και 15 δισεκατομμύρια συνδέσεις.

172
00:10:40,331 --> 00:10:43,076
Είναι ένα τεράστιο μοντέλο.

173
00:10:43,076 --> 00:10:46,977
Ωθούμενο από τα μαζικά δεδομένα
του ImageNet

174
00:10:46,977 --> 00:10:52,410
και από σύγχρονους μικροεπεξεργαστές
για την εκμάθηση αυτού του μοντέλου,

175
00:10:52,410 --> 00:10:54,619
το συνελικτικό νευρωνικό δίκτυο

176
00:10:54,619 --> 00:10:58,215
«άνθισε» με τρόπο που κανείς δεν περίμενε.

177
00:10:58,215 --> 00:11:00,723
Έγινε η νικήτρια αρχιτεκτονική

178
00:11:00,723 --> 00:11:06,063
που γέννησε συναρπαστικά αποτελέσματα
στην αναγνώριση αντικειμένων.

179
00:11:06,063 --> 00:11:08,873
Αυτός είναι ένας υπολογιστής που μας λέει

180
00:11:08,873 --> 00:11:11,173
ότι αυτή η εικόνα περιέχει μια γάτα

181
00:11:11,173 --> 00:11:12,896
και πού βρίσκεται αυτή η γάτα.

182
00:11:12,896 --> 00:11:15,188
Υπάρχουν κι άλλα πράγματα
εκτός από γάτες,

183
00:11:15,188 --> 00:11:17,626
εδώ ο αλγόριθμος μας λέει

184
00:11:17,626 --> 00:11:20,900
ότι η εικόνα περιέχει ένα αγόρι
και ένα αρκουδάκι,

185
00:11:20,900 --> 00:11:25,266
έναν σκύλο, έναν άνθρωπο
και έναν μικρό χαρταετό στο βάθος,

186
00:11:25,266 --> 00:11:28,401
ή μια εικόνα με πολλά πράγματα

187
00:11:28,401 --> 00:11:33,045
όπως ένας άντρας, ένα σκέιτμπορντ, 
κάγκελα, μια κολώνα και λοιπά.

188
00:11:33,045 --> 00:11:38,518
Μερικές φορές, όταν ο υπολογιστής δεν
είναι και τόσο σίγουρος για το τι βλέπει,

189
00:11:39,498 --> 00:11:41,774
του μάθαμε να είναι αρκετά έξυπνος

190
00:11:41,774 --> 00:11:45,652
ώστε να μας δίνει μια ασφαλή απάντηση
αντί να δεσμευτεί σε κάτι συγκεκριμένο,

191
00:11:45,652 --> 00:11:48,463
όπως ακριβώς θα κάναμε και εμείς,

192
00:11:48,463 --> 00:11:53,129
και άλλες φορές ο αλγόριθμος
είναι τόσο ικανός στο να μας λέει

193
00:11:53,129 --> 00:11:55,382
ακριβώς τι είναι το κάθε αντικείμενο,

194
00:11:55,382 --> 00:11:58,818
όπως τη μάρκα, το μοντέλο
και τη χρονιά των αυτοκινήτων.

195
00:11:58,818 --> 00:12:04,204
Εφαρμόσαμε αυτόν τον αλγόριθμο σε
εκατομμύρια εικόνες του Google Street View

196
00:12:04,204 --> 00:12:07,339
σε εκατοντάδες πόλεις της Αμερικής,

197
00:12:07,339 --> 00:12:09,725
και μάθαμε κάτι πολύ ενδιαφέρον:

198
00:12:10,265 --> 00:12:13,585
πρώτον, επιβεβαιώσαμε 
κάτι που ήταν κοινώς γνωστό

199
00:12:13,585 --> 00:12:16,875
ότι οι τιμές αυτοκινήτων 
συσχετίζονται πολύ καλά

200
00:12:16,875 --> 00:12:19,220
με το εισόδημα των νοικοκυριών.

201
00:12:19,220 --> 00:12:23,747
Αλλά αναπάντεχα, οι τιμές των αυτοκινήτων
επίσης συσχετίζονται καλά

202
00:12:23,747 --> 00:12:26,047
με την εγκληματικότητα στις πόλεις,

203
00:12:26,817 --> 00:12:30,970
ή με την κατανομή ψήφων
ανά ταχυδρομικό κώδικα.

204
00:12:31,740 --> 00:12:34,266
Μισό λεπτό. Αυτό είναι;

205
00:12:34,266 --> 00:12:39,419
Ο υπολογιστής έφτασε ή ξεπέρασε
τις ανθρώπινες δυνατότητες;

206
00:12:39,419 --> 00:12:41,557
Όχι τόσο γρήγορα.

207
00:12:41,557 --> 00:12:46,480
Μέχρι τώρα, έχουμε μάθει στον υπολογιστή 
μόνο να βλέπει αντικείμενα.

208
00:12:46,480 --> 00:12:51,124
Είναι σαν ένα μικρό παιδί που μαθαίνει
να προφέρει μερικά ουσιαστικά.

209
00:12:51,124 --> 00:12:53,794
Είναι ένα απίστευτο επίτευγμα,

210
00:12:53,794 --> 00:12:56,254
αλλά είναι μόνο το πρώτο βήμα.

211
00:12:56,254 --> 00:13:00,016
Σύντομα, θα έρθουμε σε ένα άλλο ορόσημο
της ανάπτυξης,

212
00:13:00,016 --> 00:13:03,477
και τα παιδιά αρχίζουν
να επικοινωνούν με προτάσεις.

213
00:13:03,477 --> 00:13:07,701
Αντί να πει ότι στην εικόνα είναι μια γάτα

214
00:13:07,701 --> 00:13:12,903
ακούσατε ήδη το κοριτσάκι να μας λέει
ότι η γάτα είναι ξαπλωμένη στο κρεβάτι.

215
00:13:12,903 --> 00:13:18,498
Για να μάθουμε τον υπολογιστή να βλέπει
μια εικόνα και να παράγει προτάσεις,

216
00:13:18,498 --> 00:13:22,446
ο «γάμος» των μαζικών δεδομένων
και των αλγόριθμων μηχανικής μάθησης

217
00:13:22,446 --> 00:13:24,721
πρέπει να κάνει ένα ακόμα βήμα.

218
00:13:24,721 --> 00:13:28,877
Τώρα, ο υπολογιστής 
πρέπει να μάθει από εικόνες

219
00:13:28,877 --> 00:13:31,733
αλλά και από προτάσεις φυσικού λόγου

220
00:13:31,733 --> 00:13:34,385
που έχουν παράγει άνθρωποι.

221
00:13:35,055 --> 00:13:38,908
Ακριβώς όπως ο εγκέφαλος ενσωματώνει
όραση και γλώσσα,

222
00:13:38,908 --> 00:13:44,109
αναπτύξαμε ένα μοντέλο 
που συνδέει μέρη οπτικών αντικειμένων,

223
00:13:44,109 --> 00:13:46,013
σαν οπτικά αποσπάσματα,

224
00:13:46,013 --> 00:13:50,216
με λέξεις και φράσεις προτάσεων.

225
00:13:50,216 --> 00:13:52,979
Πριν από περίπου τέσσερις μήνες,

226
00:13:52,979 --> 00:13:55,626
συνθέσαμε όλα αυτά τα κομμάτια

227
00:13:55,626 --> 00:13:59,410
και δημιουργήσαμε ένα από τα πρώτα μοντέλα
υπολογιστικής όρασης

228
00:13:59,410 --> 00:14:03,404
ικανό να παράγει φυσικές προτάσεις

229
00:14:03,404 --> 00:14:06,910
την πρώτη φορά που βλέπει μια εικόνα.

230
00:14:06,910 --> 00:14:11,554
Τώρα, είμαι έτοιμη να σας δείξω 
τι λέει ο υπολογιστής

231
00:14:11,554 --> 00:14:13,529
όταν βλέπει την εικόνα

232
00:14:13,529 --> 00:14:17,359
που είδε το κορίτσι στην αρχή της ομιλίας.

233
00:14:19,239 --> 00:14:22,863
(Βίντεο) Υπολογιστής: Ένας άντρας στέκεται
δίπλα σε έναν ελέφαντα.

234
00:14:24,393 --> 00:14:28,027
Ένα μεγάλο αεροπλάνο βρίσκεται
πάνω σε έναν αεροδιάδρομο.

235
00:14:29,057 --> 00:14:33,269
Φέι-Φέι Λι: Φυσικά, δουλεύουμε σκληρά
για να βελτιώσουμε τον αλγόριθμό μας,

236
00:14:33,269 --> 00:14:35,865
και έχει να μάθει ακόμα πολλά.

237
00:14:35,865 --> 00:14:38,156
(Χειροκρότημα)

238
00:14:39,556 --> 00:14:42,747
Και ο υπολογιστής ακόμα κάνει λάθη.

239
00:14:42,747 --> 00:14:46,268
(Βίντεο) Υπολογιστής: Μια γάτα είναι
ξαπλωμένη στο κρεβάτι με μια κουβέρτα.

240
00:14:46,268 --> 00:14:48,821
Φέι-Φέι Λι: Φυσικά, αφού έχει δει 
τόσες πολλές γάτες,

241
00:14:48,821 --> 00:14:51,747
νομίζει ότι τα πάντα μοιάζουν με γάτες.

242
00:14:53,227 --> 00:14:56,271
(Βίντεο) Υπολογιστής: Ένα αγόρι κρατάει
ένα ρόπαλο του μπέιζμπολ.

243
00:14:56,271 --> 00:14:57,946
(Γέλια)

244
00:14:57,946 --> 00:15:02,529
ΦΦΛ: Ή αν δεν έχει δει οδοντόβουρτσες
τις μπερδεύει με ρόπαλα του μπέιζμπολ.

245
00:15:02,969 --> 00:15:06,823
(Βίντεο) Υπολογιστής: Ένας άντρας ιππεύει
ένα άλογο στο δρόμο δίπλα σε ένα κτίριο.

246
00:15:06,823 --> 00:15:08,766
(Γέλια)

247
00:15:08,766 --> 00:15:12,318
Φέι-Φέι Λι: Δεν έχουμε μάθει στους
υπολογιστές τα βασικά για τις τέχνες.

248
00:15:13,768 --> 00:15:16,472
(Βίντεο) Υπολογιστής: Μια ζέβρα στέκεται
σε ένα λιβάδι.

249
00:15:16,472 --> 00:15:20,019
Φέι-Φέι Λι: Δεν έχει μάθει να εκτιμά
την εκπληκτική ομορφιά της φύσης

250
00:15:20,019 --> 00:15:21,657
όπως εσείς και εγώ.

251
00:15:22,457 --> 00:15:25,289
Ήταν ένα μεγάλο ταξίδι.

252
00:15:25,289 --> 00:15:29,205
Το να πάμε από τις ηλικίες 0 μέχρι 3
ήταν δύσκολο.

253
00:15:29,205 --> 00:15:35,111
Η πραγματική πρόκληση είναι να πάμε
από τα 3 στα 13 και παραπέρα.

254
00:15:35,111 --> 00:15:39,476
Θέλω να σας υπενθυμήσω με αυτή την εικόνα
του παιδιού και της τούρτας.

255
00:15:39,476 --> 00:15:43,540
Μέχρι τώρα, έχουμε διδάξει τον υπολογιστή
να βλέπει αντικείμενα

256
00:15:43,540 --> 00:15:47,998
και ακόμα να μπορεί να μας πει μια ιστορία
όταν βλέπει μια εικόνα.

257
00:15:47,998 --> 00:15:51,574
(Βίντεο) Υπολογιστής: Κάποιος κάθεται
σε ένα τραπέζι με ένα κέικ.

258
00:15:51,574 --> 00:15:54,204
ΦΦΛ: Άλλα υπάρχουν κι άλλα
πράγματα σε αυτή την εικόνα

259
00:15:54,204 --> 00:15:56,474
εκτός από τον άνθρωπο και το κέικ.

260
00:15:56,474 --> 00:16:00,941
Αυτό που δεν βλέπει ο υπολογιστής είναι
ότι αυτό είναι ένα ειδικό ιταλικό κέικ

261
00:16:00,941 --> 00:16:04,158
που σερβίρεται μόνο κατά την περίοδο
του Πάσχα.

262
00:16:04,158 --> 00:16:07,363
Το αγόρι φοράει την αγαπημένη του μπλούζα

263
00:16:07,363 --> 00:16:11,333
που του την έφερε ο πατέρας του
από ένα ταξίδι στο Σίδνεϊ,

264
00:16:11,333 --> 00:16:15,141
και εμείς μπορούμε να δούμε
πόσο χαρούμενο είναι

265
00:16:15,141 --> 00:16:18,344
και τι ακριβώς σκέφτεται αυτή τη στιγμή.

266
00:16:19,214 --> 00:16:22,339
Αυτός είναι ο γιος μου, ο Λέο.

267
00:16:22,339 --> 00:16:24,963
Στην αναζήτησή μου για οπτική νοημοσύνη

268
00:16:24,963 --> 00:16:27,354
σκέφτομαι τον Λέο συνέχεια

269
00:16:27,354 --> 00:16:30,257
και τον μελλοντικό κόσμο
στον οποίο θα ζήσει.

270
00:16:30,257 --> 00:16:32,278
Όταν οι μηχανές θα μπορούν να δουν,

271
00:16:32,278 --> 00:16:36,990
οι γιατροί και νοσοκόμοι θα έχουν
ένα ζευγάρι ακούραστα μάτια

272
00:16:36,990 --> 00:16:41,082
να τους βοηθάνε να διαγνώσουν
και να φροντίσουν τους ασθενείς τους.

273
00:16:41,082 --> 00:16:45,465
Τα αυτοκίνητα θα οδηγούν πιο έξυπνα
και πιο ασφαλή στο δρόμο.

274
00:16:45,465 --> 00:16:48,159
Ρομπότ, όχι μόνο άνθρωποι,

275
00:16:48,159 --> 00:16:53,448
θα μας βοηθάνε σε ζώνες καταστροφής
να σώσουμε εγκλωβισμένους και τραυματίες.

276
00:16:53,448 --> 00:16:57,594
Θα ανακαλύψουμε καινούργια είδη,
καλύτερα υλικά,

277
00:16:57,594 --> 00:17:02,103
και θα εξερευνήσουμε αόρατα σύνορα
με τη βοήθεια των μηχανών.

278
00:17:03,113 --> 00:17:07,280
Σιγά-σιγά δίνουμε όραση στις μηχανές.

279
00:17:07,280 --> 00:17:10,078
Πρώτα, θα τους μάθουμε να βλέπουν.

280
00:17:10,078 --> 00:17:12,841
Μετά, θα μας βοηθήσουν να δούμε καλύτερα.

281
00:17:12,841 --> 00:17:17,006
Για πρώτη φορά, τα ανθρώπινα μάτια
δεν θα είναι τα μόνα

282
00:17:17,006 --> 00:17:19,940
που μελετούν και εξερευνούν τον κόσμο.

283
00:17:19,940 --> 00:17:23,400
Δεν θα χρησιμοποιούμε τις μηχανές 
μόνο για τη νοημοσύνη τους,

284
00:17:23,400 --> 00:17:29,579
θα συνεργαζόμαστε με τρόπους
που δεν μπορούμε να φανταστούμε.

285
00:17:29,579 --> 00:17:31,740
Αυτός είναι ο στόχος μου:

286
00:17:31,740 --> 00:17:34,452
να δώσω στους υπολογιστές οπτική νοημοσύνη

287
00:17:34,452 --> 00:17:39,583
και να φτιάξω ένα καλύτερο μέλλον 
για τον Λέο και για τον κόσμο.

288
00:17:39,583 --> 00:17:41,394
Σας ευχαριστώ.

289
00:17:41,394 --> 00:17:43,339
(Χειροκρότημα)