1 00:00:03,286 --> 00:00:06,178 Θέλω να σας δείξω κάτι. 2 00:00:06,178 --> 00:00:10,260 (Βίντεο) Κορίτσι: ΟΚ, μια γάτα που κάθεται στο κρεβάτι. 3 00:00:10,260 --> 00:00:14,300 Το αγόρι χαϊδεύει τον ελέφαντα. 4 00:00:14,300 --> 00:00:18,654 Οι άνθρωποι ανεβαίνουν στο αεροπλάνο. 5 00:00:18,654 --> 00:00:21,464 Είναι ένα μεγάλο αεροπλάνο. 6 00:00:21,464 --> 00:00:23,670 Φέι Φέι Λι: Αυτό είναι ένα τρίχρονο κορίτσι 7 00:00:23,670 --> 00:00:27,349 που περιγράφει τι βλέπει σε μια σειρά από φωτογραφίες. 8 00:00:27,349 --> 00:00:30,194 Μπορεί να έχει να μάθει πολλά ακόμα για τον κόσμο, 9 00:00:30,194 --> 00:00:34,743 αλλά είναι ήδη ειδική σε μια πολύ σημαντική εργασία: 10 00:00:34,743 --> 00:00:38,059 να καταλαβαίνει τι βλέπει. 11 00:00:38,059 --> 00:00:42,455 Η κοινωνία μας τεχνολογικά είναι πιο προηγμένη από ποτέ. 12 00:00:42,455 --> 00:00:46,084 Στέλνουμε ανθρώπους στο φεγγάρι, έχουμε τηλέφωνα που μας μιλάνε 13 00:00:46,084 --> 00:00:51,030 ή ρυθμίζουμε ραδιοφωνικούς σταθμούς να παίζουν μόνο τη μουσική που μας αρέσει. 14 00:00:51,030 --> 00:00:55,085 Κι όμως, οι πιο προηγμένες μηχανές και υπολογιστές μας 15 00:00:55,085 --> 00:00:57,988 δυσκολεύονται ακόμα σε αυτή την εργασία. 16 00:00:57,988 --> 00:01:01,447 Έτσι λοιπόν, είμαι εδώ σήμερα για να σας δώσω μια αναφορά προόδου 17 00:01:01,447 --> 00:01:05,494 σχετικά με τις πρόσφατες εξελίξεις στον τομέα της μηχανικής όρασης, 18 00:01:05,494 --> 00:01:09,655 μια από τις πιο σημαντικές και πιθανότατα επαναστατικές 19 00:01:09,655 --> 00:01:12,161 τεχνολογίες της πληροφορικής. 20 00:01:12,861 --> 00:01:17,412 Ναι, έχουμε πρωτότυπα αυτοκίνητα που οδηγούν αυτόνομα, 21 00:01:17,412 --> 00:01:21,265 αλλά χωρίς «έξυπνη» όραση δεν μπορούν να καταλάβουν τη διαφορά 22 00:01:21,265 --> 00:01:25,235 μεταξύ μιας τσαλακωμένης σακούλας στο δρόμο, που μπορούν να «πατήσουν», 23 00:01:25,235 --> 00:01:28,575 και μιας πέτρας με το ίδιο μέγεθος, που πρέπει να αποφύγουν. 24 00:01:29,415 --> 00:01:32,805 Έχουμε εκπληκτικές κάμερες με ανάλυση μεγαπίξελ, 25 00:01:32,805 --> 00:01:35,940 αλλά δεν έχουμε δώσει όραση στους τυφλούς. 26 00:01:36,390 --> 00:01:39,725 Τηλεκατευθυνόμενα αεροσκάφη μπορούν να πετάξουν πάνω από τεράστια εδάφη 27 00:01:39,725 --> 00:01:41,859 αλλά δεν έχουν αρκετή τεχνολογία όρασης 28 00:01:41,859 --> 00:01:45,320 για να μας βοηθήσουν να παρακολουθήσουμε τις αλλαγές στα τροπικά δάση. 29 00:01:45,320 --> 00:01:48,270 Κάμερες ασφαλείας είναι παντού, 30 00:01:48,270 --> 00:01:53,337 αλλά δεν μας προειδοποιούν όταν ένα παιδί πνίγεται στην πισίνα. 31 00:01:54,167 --> 00:01:59,762 Φωτογραφίες και βίντεο γίνονται ολοένα πιο σημαντικό κομμάτι της παγκόσμιας ζωής. 32 00:01:59,762 --> 00:02:03,849 Δημιουργούνται με τέτοιο ρυθμό που είναι πέρα απ' ότι ένας άνθρωπος 33 00:02:03,849 --> 00:02:06,632 ή μια ομάδα ανθρώπων μπορούν να δουν, 34 00:02:06,632 --> 00:02:10,553 και εσείς και εγώ συνεισφέρουμε σε αυτό, εδώ στο TED. 35 00:02:10,553 --> 00:02:15,785 Κι όμως, το πιο προηγμένο λογισμικό μας δυσκολεύεται ακόμα να καταλάβει 36 00:02:15,785 --> 00:02:19,661 και να διαχειριστεί αυτές τις τεράστιες ποσότητες περιεχομένου. 37 00:02:19,661 --> 00:02:24,483 Με άλλα λόγια, συλλογικά σαν κοινωνία, 38 00:02:24,483 --> 00:02:26,679 είμαστε βασικά τυφλοί, 39 00:02:26,679 --> 00:02:30,376 γιατί οι πιο «έξυπνες» μηχανές μας είναι ακόμα τυφλές. 40 00:02:31,526 --> 00:02:34,082 «Γιατί είναι τόσο δύσκολο;» μπορεί να ρωτήσετε. 41 00:02:34,082 --> 00:02:37,145 Οι κάμερες μπορούν να τραβήξουν φωτογραφίες όπως αυτή 42 00:02:37,145 --> 00:02:41,139 μετατρέποντας το φως σε δισδιάστατους πίνακες αριθμών 43 00:02:41,139 --> 00:02:42,789 που λέγονται πίξελ, 44 00:02:42,789 --> 00:02:45,040 αλλά αυτοί είναι άψυχοι αριθμοί. 45 00:02:45,040 --> 00:02:48,151 Δεν έχουν νόημα από μόνοι τους. 46 00:02:48,151 --> 00:02:52,494 Όπως το να αντιλαμβάνεσαι έναν ήχο δεν είναι σαν να τον καταλαβαίνεις, 47 00:02:52,494 --> 00:02:56,534 το να βγάζεις φωτογραφίες δεν είναι το ίδιο με το να βλέπεις, 48 00:02:56,534 --> 00:03:00,363 και λέγοντας «βλέπω» εννοούμε «καταλαβαίνω». 49 00:03:01,293 --> 00:03:07,470 Πράγματι, η Φύση χρειάστηκε 540 εκατομμύρια χρόνια σκληρής δουλειάς 50 00:03:07,470 --> 00:03:09,443 για να καταφέρει αυτό το έργο, 51 00:03:09,443 --> 00:03:11,324 και η περισσότερη προσπάθεια 52 00:03:11,324 --> 00:03:16,595 αφιερώθηκε στην ανάπτυξη του οπτικού μηχανισμού του εγκεφάλου μας 53 00:03:16,595 --> 00:03:19,242 και όχι στα ίδια τα μάτια. 54 00:03:19,242 --> 00:03:21,989 Η όραση λοιπόν ξεκινάει με τα μάτια, 55 00:03:21,989 --> 00:03:25,507 αλλά πραγματικά λαμβάνει χώρα στον εγκέφαλο. 56 00:03:26,287 --> 00:03:31,347 Εδώ και 15 χρόνια, από το διδακτορικό μου στο Πανεπιστήμιο της Καλιφόρνια 57 00:03:31,347 --> 00:03:34,273 και ύστερα ως επικεφαλής του κέντρου όρασης του Στάνφορντ, 58 00:03:34,273 --> 00:03:38,669 δουλεύω με τους μέντορες, συνεργάτες και φοιτητές μου 59 00:03:38,669 --> 00:03:41,328 προσπαθώντας να μάθω τους υπολογιστές να βλέπουν. 60 00:03:42,348 --> 00:03:45,952 Το ερευνητικό μας πεδίο λέγεται υπολογιστική όραση και μηχανική μάθηση. 61 00:03:45,952 --> 00:03:49,830 Είναι κομμάτι του γενικότερου πεδίου της τεχνητής νοημοσύνης. 62 00:03:51,000 --> 00:03:56,493 Τελικά, θέλουμε να διδάξουμε τις μηχανές να δουν ακριβώς όπως εμείς: 63 00:03:56,493 --> 00:04:01,665 να ονομάζουν αντικείμενα, να αναγνωρίζουν ανθρώπους και αντικείμενα στον χώρο, 64 00:04:01,665 --> 00:04:07,428 να καταλαβαίνουν σχέσεις, συναισθήματα, δράσεις και προθέσεις. 65 00:04:07,428 --> 00:04:13,721 Εσείς και εγώ συνυφαίνουμε ολόκληρες ιστορίες ανθρώπων, τόπων και πραγμάτων 66 00:04:13,721 --> 00:04:15,885 τη στιγμή που τα πρωτοβλέπουμε. 67 00:04:16,955 --> 00:04:22,538 Το πρώτο βήμα προς αυτό το στόχο είναι να μάθουμε τον υπολογιστή να δει πράγματα, 68 00:04:22,538 --> 00:04:25,906 τα δομικά στοιχεία του οπτικού μας κόσμου. 69 00:04:25,906 --> 00:04:30,340 Στην πιο απλή της εκδοχή, φανταστείτε την εκπαιδευτική διαδικασία ως εξής: 70 00:04:30,340 --> 00:04:33,335 δείχνουμε στον υπολογιστή μερικές εικόνες εκμάθησης 71 00:04:33,335 --> 00:04:36,656 ενός συγκεκριμένου αντικειμένου, ας πούμε γάτες, 72 00:04:36,656 --> 00:04:41,393 και σχεδιάζουμε ένα μοντέλο που μαθαίνει από αυτές τις εικόνες. 73 00:04:41,393 --> 00:04:43,437 Πόσο δύσκολο μπορεί να είναι; 74 00:04:43,437 --> 00:04:47,489 Στο κάτω κάτω, μια γάτα είναι απλά μια συλλογή από σχήματα και χρώματα, 75 00:04:47,489 --> 00:04:51,575 και αυτό ακριβώς κάναμε τα πρώτα χρόνια της μοντελοποίησης αντικειμένων. 76 00:04:51,575 --> 00:04:55,197 Λέγαμε στον αλγόριθμο του υπολογιστή, σε μαθηματική γλώσσα, 77 00:04:55,197 --> 00:04:58,540 ότι η γάτα έχει ένα στρογγυλό πρόσωπο, ένα παχουλό σώμα, 78 00:04:58,540 --> 00:05:00,839 δύο μυτερά αυτιά και μια μακριά ουρά, 79 00:05:00,839 --> 00:05:02,249 και αυτό έμοιαζε μια χαρά. 80 00:05:02,859 --> 00:05:04,972 Αλλά αυτή η γάτα; 81 00:05:04,972 --> 00:05:06,063 (Γέλια) 82 00:05:06,063 --> 00:05:07,689 Είναι κουλουριασμένη. 83 00:05:07,689 --> 00:05:12,408 Τώρα πρέπει να προσθέσουμε άλλο ένα σχήμα και άλλη μια άποψη στο μοντέλο μας. 84 00:05:12,408 --> 00:05:14,403 Κι αν η γάτα κρύβεται; 85 00:05:15,143 --> 00:05:17,622 Και αυτές οι χαζούλες γάτες; 86 00:05:19,112 --> 00:05:21,529 Βλέπετε το πρόβλημα. 87 00:05:21,529 --> 00:05:24,896 Ακόμα και κάτι τόσο απλό όσο ένα κατοικίδιο 88 00:05:24,896 --> 00:05:29,400 μπορεί να παρουσιάσει έναν άπειρο αριθμό παραλλαγών στο μοντέλο, 89 00:05:29,400 --> 00:05:31,633 και αυτό είναι μόνο ένα αντικείμενο. 90 00:05:32,573 --> 00:05:35,065 Πριν από οκτώ χρόνια, 91 00:05:35,065 --> 00:05:40,095 μια πολύ απλή και βαθιά παρατήρηση άλλαξε τον τρόπο σκέψης μου. 92 00:05:41,425 --> 00:05:44,110 Κανένας δεν λέει σε ένα παιδί πώς να δει, 93 00:05:44,110 --> 00:05:46,371 κυριώς τα πρώτα χρόνια. 94 00:05:46,371 --> 00:05:51,371 Μαθαίνουν μέσα από εμπειρίες και παραδείγματα του πραγματικού κόσμου. 95 00:05:51,371 --> 00:05:54,111 Αν σκεφτούμε τα μάτια του παιδιού 96 00:05:54,111 --> 00:05:56,665 σαν ένα ζευγάρι από βιολογικές κάμερες, 97 00:05:56,665 --> 00:06:00,845 βγάζουν περίπου μία φωτογραφία κάθε 200 χιλιοστά του δευτερολέπτου, 98 00:06:00,845 --> 00:06:03,979 που είναι ο μέσος χρόνος που χρειάζεται για μια κίνηση του ματιού. 99 00:06:03,979 --> 00:06:09,529 Έτσι, ένα παιδί τριών ετών θα έχει δει εκατοντάδες εκατομμύρια φωτογραφίες 100 00:06:09,529 --> 00:06:11,363 του πραγματικού κόσμου. 101 00:06:11,363 --> 00:06:13,643 Αυτά είναι πολλά παραδείγματα εκμάθησης. 102 00:06:14,383 --> 00:06:20,372 Αντί λοιπόν να εστιάζουμε μόνο σε ολοένα και καλύτερους αλγόριθμους, 103 00:06:20,372 --> 00:06:25,644 η ιδέα μου ήταν να δώσω στους αλγόριθμους το είδος των εκπαιδευτικών δεδομένων 104 00:06:25,644 --> 00:06:28,963 που ένα παιδί αποκτά μέσω εμπειρίας 105 00:06:28,963 --> 00:06:32,841 τόσο σε ποσότητα όσο και σε ποιότητα. 106 00:06:32,841 --> 00:06:34,699 Όταν το καταλάβαμε 107 00:06:34,699 --> 00:06:37,670 ξέραμε ότι έπρεπε να συλλέξουμε ένα σετ δεδομένων 108 00:06:37,670 --> 00:06:42,129 που περιείχε πολύ περισσότερες φωτογραφίες από όσες είχαμε προηγουμένως, 109 00:06:42,129 --> 00:06:44,706 ίσως χιλιάδες φορές περισσότερες, 110 00:06:44,706 --> 00:06:48,817 και μαζί με τον καθηγητή Κάι Λι στο Πανεπιστήμιο του Πρίνστον 111 00:06:48,817 --> 00:06:52,779 ξεκινήσαμε το πρόγραμμα ImageNet το 2007. 112 00:06:53,569 --> 00:06:57,407 Ευτυχώς, δε χρειάστηκε να φορέσουμε κάμερες στο κεφάλι μας 113 00:06:57,407 --> 00:06:59,171 και να περιμένουμε πολλά χρόνια. 114 00:06:59,171 --> 00:07:00,634 Πήγαμε στο Διαδίκτυο, 115 00:07:00,634 --> 00:07:05,070 το μεγαλύτερο θησαυροφυλάκιο εικόνων που έχουν ποτέ κατασκευάσει οι άνθρωποι. 116 00:07:05,070 --> 00:07:08,111 «Κατεβάσαμε» σχεδόν ένα δισεκατομμύριο εικόνες 117 00:07:08,111 --> 00:07:13,871 και χρησιμοποιήσαμε τεχνολογίες «υπηρεσιών πλήθους» όπως η πλατφόρμα της Άμαζον 118 00:07:13,881 --> 00:07:16,360 για να μας βοηθήσουν να ονομάσουμε αυτές τις εικόνες. 119 00:07:16,360 --> 00:07:21,230 Στην αιχμή του, το ImageNet ήταν ένας από τους μεγαλύτερους εργοδότες 120 00:07:21,230 --> 00:07:24,226 της πλατφόρμας της Άμαζον: 121 00:07:24,226 --> 00:07:28,080 όλοι μαζί, σχεδόν 50.000 εργαζόμενοι 122 00:07:28,080 --> 00:07:32,120 από 167 χώρες από όλο τον κόσμο 123 00:07:32,120 --> 00:07:36,067 μας βοήθησαν να καθαρίσουμε, να κατατάξουμε και να ονομάσουμε 124 00:07:36,067 --> 00:07:39,402 σχεδόν ένα δισεκατομμύριο υποψήφιες φωτογραφίες. 125 00:07:40,382 --> 00:07:43,265 Τόση προσπάθεια χρειάστηκε 126 00:07:43,265 --> 00:07:47,165 για να καταγράψουμε ένα ψήγμα των παραστάσεων 127 00:07:47,165 --> 00:07:51,336 που προσλαμβάνει το μυαλό ενός παιδιού στα πρώτα χρόνια της ανάπτυξης. 128 00:07:52,148 --> 00:07:56,050 Εκ των υστέρων, η ιδέα της χρήσης μαζικών δεδομένων 129 00:07:56,050 --> 00:08:00,600 για την εκπαίδευση υπολογιστών μπορεί να μοιάζει προφανής, 130 00:08:00,600 --> 00:08:04,710 αλλά το 2007 δεν ήταν τόσο προφανής. 131 00:08:04,710 --> 00:08:08,588 Ήμασταν μόνοι μας σε αυτό το ταξίδι για αρκετό καιρό. 132 00:08:08,588 --> 00:08:13,591 Μερικοί συνάδελφοι με συμβούλευσαν να κάνω κάτι πιο χρήσιμο για να πάρω μονιμότητα, 133 00:08:13,591 --> 00:08:17,753 και είχαμε διαρκώς προβλήματα χρηματοδότησης. 134 00:08:17,753 --> 00:08:20,608 Μια φορά, είπα για πλάκα στους μεταπτυχιακούς φοιτητές μου 135 00:08:20,608 --> 00:08:24,481 ότι θα άνοιγα ξανά το καθαριστήριό μου για να χρηματοδοτήσω το ImageNet. 136 00:08:24,481 --> 00:08:28,592 Στο κάτω κάτω, έτσι χρηματοδότησα τις σπουδές μου. 137 00:08:29,242 --> 00:08:31,098 Έτσι λοιπόν συνεχίσαμε. 138 00:08:31,098 --> 00:08:34,813 Το 2009, το ΙmageNet παρέδωσε 139 00:08:34,813 --> 00:08:38,855 μια βάση δεδομένων με 15 εκατομμύρια φωτογραφίες 140 00:08:38,855 --> 00:08:43,660 που ανήκαν σε 22.000 κατηγορίες αντικειμένων και πραγμάτων 141 00:08:43,660 --> 00:08:46,980 οργανωμένες με καθημερινές αγγλικές λέξεις. 142 00:08:46,980 --> 00:08:49,906 Τόσο σε ποσότητα όσο και σε ποιότητα, 143 00:08:49,906 --> 00:08:52,878 ήταν μια ανεπανάληπτη κλίμακα. 144 00:08:53,608 --> 00:08:56,339 Για παράδειγμα, όσον αφορά τις γάτες, 145 00:08:56,339 --> 00:08:59,148 έχουμε περισσότερες από 62.000 γάτες 146 00:08:59,148 --> 00:09:03,258 με διαφορετικές εμφανίσεις και πόζες 147 00:09:03,258 --> 00:09:08,481 και όλα τα είδη, κατοικίδιες και άγριες. 148 00:09:08,481 --> 00:09:11,825 Ήμασταν πανευτυχείς που ολοκληρώσαμε το ImageNet, 149 00:09:11,825 --> 00:09:15,563 και θέλαμε να επωφεληθεί όλος ο ερευνητικός κόσμος, 150 00:09:15,563 --> 00:09:19,604 κι έτσι, σύμφωνα με το πνεύμα του TED, διαθέσαμε ολόκληρη τη βάση δεδομένων 151 00:09:19,604 --> 00:09:23,196 στην παγκόσμια ερευνητική κοινότητα, δωρεάν. 152 00:09:24,166 --> 00:09:28,636 (Χειροκρότημα) 153 00:09:29,416 --> 00:09:33,954 Τώρα που έχουμε τα δεδομένα για να καλλιεργήσουμε το υπολογιστικό μας μυαλό, 154 00:09:33,954 --> 00:09:37,691 είμαστε έτοιμοι να ξαναγυρίσουμε στους αλγόριθμους. 155 00:09:37,691 --> 00:09:42,869 Όπως αποδείχθηκε, ο πλούτος πληροφορίας που παρέχεται από το ImageNet 156 00:09:42,869 --> 00:09:47,675 ήταν το τέλειο ταίρι για μια συγκεκριμένη κλάση αλγόριθμων μηχανικής μάθησης 157 00:09:47,675 --> 00:09:50,090 που ονομάζονται συνελικτικά νευρωνικά δίκτυα, 158 00:09:50,090 --> 00:09:55,338 που αναπτύχθηκε απ' τους Τζεφ Χίντον, Κουνιχίκο Φουκοσίμα και Γιάν ΛεΚούν 159 00:09:55,338 --> 00:09:58,983 στις δεκαετίες του '70 και το '80. 160 00:09:58,983 --> 00:10:04,602 Όπως ο εγκέφαλος αποτελείται από δισεκατομμύρια διασυνδεδεμένους νευρώνες, 161 00:10:04,602 --> 00:10:08,456 η βασική λειτουργική ενότητα σε ένα νευρωνικό δίκτυο 162 00:10:08,456 --> 00:10:10,871 είναι ένας κόμβος-νευρώνας. 163 00:10:10,871 --> 00:10:13,425 Δέχεται σήματα εισόδου από άλλους κόμβους 164 00:10:13,425 --> 00:10:16,143 και στέλνει σήματα εξόδου σε άλλους. 165 00:10:16,143 --> 00:10:20,856 Επιπλέον, αυτοί οι εκατοντάδες χιλιάδες ή εκατομμύρια κόμβοι 166 00:10:20,856 --> 00:10:24,083 είναι οργανωμένοι σε ιεραρχικά στρώμματα, 167 00:10:24,083 --> 00:10:26,637 επίσης παρόμοια με αυτά του εγκεφάλου. 168 00:10:26,637 --> 00:10:29,880 Ένα τυπικό νευρωνικό δίκτυο που χρησιμοποιούμε για να εκπαιδεύσουμε 169 00:10:29,880 --> 00:10:34,601 το μοντέλο αναγνώρισης αντικειμένων, έχει 24 εκατομμύρια κόμβους, 170 00:10:34,601 --> 00:10:37,488 140 εκατομμύρια παραμέτρους 171 00:10:37,488 --> 00:10:40,331 και 15 δισεκατομμύρια συνδέσεις. 172 00:10:40,331 --> 00:10:43,076 Είναι ένα τεράστιο μοντέλο. 173 00:10:43,076 --> 00:10:46,977 Ωθούμενο από τα μαζικά δεδομένα του ImageNet 174 00:10:46,977 --> 00:10:52,410 και από σύγχρονους μικροεπεξεργαστές για την εκμάθηση αυτού του μοντέλου, 175 00:10:52,410 --> 00:10:54,619 το συνελικτικό νευρωνικό δίκτυο 176 00:10:54,619 --> 00:10:58,215 «άνθισε» με τρόπο που κανείς δεν περίμενε. 177 00:10:58,215 --> 00:11:00,723 Έγινε η νικήτρια αρχιτεκτονική 178 00:11:00,723 --> 00:11:06,063 που γέννησε συναρπαστικά αποτελέσματα στην αναγνώριση αντικειμένων. 179 00:11:06,063 --> 00:11:08,873 Αυτός είναι ένας υπολογιστής που μας λέει 180 00:11:08,873 --> 00:11:11,173 ότι αυτή η εικόνα περιέχει μια γάτα 181 00:11:11,173 --> 00:11:12,896 και πού βρίσκεται αυτή η γάτα. 182 00:11:12,896 --> 00:11:15,188 Υπάρχουν κι άλλα πράγματα εκτός από γάτες, 183 00:11:15,188 --> 00:11:17,626 εδώ ο αλγόριθμος μας λέει 184 00:11:17,626 --> 00:11:20,900 ότι η εικόνα περιέχει ένα αγόρι και ένα αρκουδάκι, 185 00:11:20,900 --> 00:11:25,266 έναν σκύλο, έναν άνθρωπο και έναν μικρό χαρταετό στο βάθος, 186 00:11:25,266 --> 00:11:28,401 ή μια εικόνα με πολλά πράγματα 187 00:11:28,401 --> 00:11:33,045 όπως ένας άντρας, ένα σκέιτμπορντ, κάγκελα, μια κολώνα και λοιπά. 188 00:11:33,045 --> 00:11:38,518 Μερικές φορές, όταν ο υπολογιστής δεν είναι και τόσο σίγουρος για το τι βλέπει, 189 00:11:39,498 --> 00:11:41,774 του μάθαμε να είναι αρκετά έξυπνος 190 00:11:41,774 --> 00:11:45,652 ώστε να μας δίνει μια ασφαλή απάντηση αντί να δεσμευτεί σε κάτι συγκεκριμένο, 191 00:11:45,652 --> 00:11:48,463 όπως ακριβώς θα κάναμε και εμείς, 192 00:11:48,463 --> 00:11:53,129 και άλλες φορές ο αλγόριθμος είναι τόσο ικανός στο να μας λέει 193 00:11:53,129 --> 00:11:55,382 ακριβώς τι είναι το κάθε αντικείμενο, 194 00:11:55,382 --> 00:11:58,818 όπως τη μάρκα, το μοντέλο και τη χρονιά των αυτοκινήτων. 195 00:11:58,818 --> 00:12:04,204 Εφαρμόσαμε αυτόν τον αλγόριθμο σε εκατομμύρια εικόνες του Google Street View 196 00:12:04,204 --> 00:12:07,339 σε εκατοντάδες πόλεις της Αμερικής, 197 00:12:07,339 --> 00:12:09,725 και μάθαμε κάτι πολύ ενδιαφέρον: 198 00:12:10,265 --> 00:12:13,585 πρώτον, επιβεβαιώσαμε κάτι που ήταν κοινώς γνωστό 199 00:12:13,585 --> 00:12:16,875 ότι οι τιμές αυτοκινήτων συσχετίζονται πολύ καλά 200 00:12:16,875 --> 00:12:19,220 με το εισόδημα των νοικοκυριών. 201 00:12:19,220 --> 00:12:23,747 Αλλά αναπάντεχα, οι τιμές των αυτοκινήτων επίσης συσχετίζονται καλά 202 00:12:23,747 --> 00:12:26,047 με την εγκληματικότητα στις πόλεις, 203 00:12:26,817 --> 00:12:30,970 ή με την κατανομή ψήφων ανά ταχυδρομικό κώδικα. 204 00:12:31,740 --> 00:12:34,266 Μισό λεπτό. Αυτό είναι; 205 00:12:34,266 --> 00:12:39,419 Ο υπολογιστής έφτασε ή ξεπέρασε τις ανθρώπινες δυνατότητες; 206 00:12:39,419 --> 00:12:41,557 Όχι τόσο γρήγορα. 207 00:12:41,557 --> 00:12:46,480 Μέχρι τώρα, έχουμε μάθει στον υπολογιστή μόνο να βλέπει αντικείμενα. 208 00:12:46,480 --> 00:12:51,124 Είναι σαν ένα μικρό παιδί που μαθαίνει να προφέρει μερικά ουσιαστικά. 209 00:12:51,124 --> 00:12:53,794 Είναι ένα απίστευτο επίτευγμα, 210 00:12:53,794 --> 00:12:56,254 αλλά είναι μόνο το πρώτο βήμα. 211 00:12:56,254 --> 00:13:00,016 Σύντομα, θα έρθουμε σε ένα άλλο ορόσημο της ανάπτυξης, 212 00:13:00,016 --> 00:13:03,477 και τα παιδιά αρχίζουν να επικοινωνούν με προτάσεις. 213 00:13:03,477 --> 00:13:07,701 Αντί να πει ότι στην εικόνα είναι μια γάτα 214 00:13:07,701 --> 00:13:12,903 ακούσατε ήδη το κοριτσάκι να μας λέει ότι η γάτα είναι ξαπλωμένη στο κρεβάτι. 215 00:13:12,903 --> 00:13:18,498 Για να μάθουμε τον υπολογιστή να βλέπει μια εικόνα και να παράγει προτάσεις, 216 00:13:18,498 --> 00:13:22,446 ο «γάμος» των μαζικών δεδομένων και των αλγόριθμων μηχανικής μάθησης 217 00:13:22,446 --> 00:13:24,721 πρέπει να κάνει ένα ακόμα βήμα. 218 00:13:24,721 --> 00:13:28,877 Τώρα, ο υπολογιστής πρέπει να μάθει από εικόνες 219 00:13:28,877 --> 00:13:31,733 αλλά και από προτάσεις φυσικού λόγου 220 00:13:31,733 --> 00:13:34,385 που έχουν παράγει άνθρωποι. 221 00:13:35,055 --> 00:13:38,908 Ακριβώς όπως ο εγκέφαλος ενσωματώνει όραση και γλώσσα, 222 00:13:38,908 --> 00:13:44,109 αναπτύξαμε ένα μοντέλο που συνδέει μέρη οπτικών αντικειμένων, 223 00:13:44,109 --> 00:13:46,013 σαν οπτικά αποσπάσματα, 224 00:13:46,013 --> 00:13:50,216 με λέξεις και φράσεις προτάσεων. 225 00:13:50,216 --> 00:13:52,979 Πριν από περίπου τέσσερις μήνες, 226 00:13:52,979 --> 00:13:55,626 συνθέσαμε όλα αυτά τα κομμάτια 227 00:13:55,626 --> 00:13:59,410 και δημιουργήσαμε ένα από τα πρώτα μοντέλα υπολογιστικής όρασης 228 00:13:59,410 --> 00:14:03,404 ικανό να παράγει φυσικές προτάσεις 229 00:14:03,404 --> 00:14:06,910 την πρώτη φορά που βλέπει μια εικόνα. 230 00:14:06,910 --> 00:14:11,554 Τώρα, είμαι έτοιμη να σας δείξω τι λέει ο υπολογιστής 231 00:14:11,554 --> 00:14:13,529 όταν βλέπει την εικόνα 232 00:14:13,529 --> 00:14:17,359 που είδε το κορίτσι στην αρχή της ομιλίας. 233 00:14:19,239 --> 00:14:22,863 (Βίντεο) Υπολογιστής: Ένας άντρας στέκεται δίπλα σε έναν ελέφαντα. 234 00:14:24,393 --> 00:14:28,027 Ένα μεγάλο αεροπλάνο βρίσκεται πάνω σε έναν αεροδιάδρομο. 235 00:14:29,057 --> 00:14:33,269 Φέι-Φέι Λι: Φυσικά, δουλεύουμε σκληρά για να βελτιώσουμε τον αλγόριθμό μας, 236 00:14:33,269 --> 00:14:35,865 και έχει να μάθει ακόμα πολλά. 237 00:14:35,865 --> 00:14:38,156 (Χειροκρότημα) 238 00:14:39,556 --> 00:14:42,747 Και ο υπολογιστής ακόμα κάνει λάθη. 239 00:14:42,747 --> 00:14:46,268 (Βίντεο) Υπολογιστής: Μια γάτα είναι ξαπλωμένη στο κρεβάτι με μια κουβέρτα. 240 00:14:46,268 --> 00:14:48,821 Φέι-Φέι Λι: Φυσικά, αφού έχει δει τόσες πολλές γάτες, 241 00:14:48,821 --> 00:14:51,747 νομίζει ότι τα πάντα μοιάζουν με γάτες. 242 00:14:53,227 --> 00:14:56,271 (Βίντεο) Υπολογιστής: Ένα αγόρι κρατάει ένα ρόπαλο του μπέιζμπολ. 243 00:14:56,271 --> 00:14:57,946 (Γέλια) 244 00:14:57,946 --> 00:15:02,529 ΦΦΛ: Ή αν δεν έχει δει οδοντόβουρτσες τις μπερδεύει με ρόπαλα του μπέιζμπολ. 245 00:15:02,969 --> 00:15:06,823 (Βίντεο) Υπολογιστής: Ένας άντρας ιππεύει ένα άλογο στο δρόμο δίπλα σε ένα κτίριο. 246 00:15:06,823 --> 00:15:08,766 (Γέλια) 247 00:15:08,766 --> 00:15:12,318 Φέι-Φέι Λι: Δεν έχουμε μάθει στους υπολογιστές τα βασικά για τις τέχνες. 248 00:15:13,768 --> 00:15:16,472 (Βίντεο) Υπολογιστής: Μια ζέβρα στέκεται σε ένα λιβάδι. 249 00:15:16,472 --> 00:15:20,019 Φέι-Φέι Λι: Δεν έχει μάθει να εκτιμά την εκπληκτική ομορφιά της φύσης 250 00:15:20,019 --> 00:15:21,657 όπως εσείς και εγώ. 251 00:15:22,457 --> 00:15:25,289 Ήταν ένα μεγάλο ταξίδι. 252 00:15:25,289 --> 00:15:29,205 Το να πάμε από τις ηλικίες 0 μέχρι 3 ήταν δύσκολο. 253 00:15:29,205 --> 00:15:35,111 Η πραγματική πρόκληση είναι να πάμε από τα 3 στα 13 και παραπέρα. 254 00:15:35,111 --> 00:15:39,476 Θέλω να σας υπενθυμήσω με αυτή την εικόνα του παιδιού και της τούρτας. 255 00:15:39,476 --> 00:15:43,540 Μέχρι τώρα, έχουμε διδάξει τον υπολογιστή να βλέπει αντικείμενα 256 00:15:43,540 --> 00:15:47,998 και ακόμα να μπορεί να μας πει μια ιστορία όταν βλέπει μια εικόνα. 257 00:15:47,998 --> 00:15:51,574 (Βίντεο) Υπολογιστής: Κάποιος κάθεται σε ένα τραπέζι με ένα κέικ. 258 00:15:51,574 --> 00:15:54,204 ΦΦΛ: Άλλα υπάρχουν κι άλλα πράγματα σε αυτή την εικόνα 259 00:15:54,204 --> 00:15:56,474 εκτός από τον άνθρωπο και το κέικ. 260 00:15:56,474 --> 00:16:00,941 Αυτό που δεν βλέπει ο υπολογιστής είναι ότι αυτό είναι ένα ειδικό ιταλικό κέικ 261 00:16:00,941 --> 00:16:04,158 που σερβίρεται μόνο κατά την περίοδο του Πάσχα. 262 00:16:04,158 --> 00:16:07,363 Το αγόρι φοράει την αγαπημένη του μπλούζα 263 00:16:07,363 --> 00:16:11,333 που του την έφερε ο πατέρας του από ένα ταξίδι στο Σίδνεϊ, 264 00:16:11,333 --> 00:16:15,141 και εμείς μπορούμε να δούμε πόσο χαρούμενο είναι 265 00:16:15,141 --> 00:16:18,344 και τι ακριβώς σκέφτεται αυτή τη στιγμή. 266 00:16:19,214 --> 00:16:22,339 Αυτός είναι ο γιος μου, ο Λέο. 267 00:16:22,339 --> 00:16:24,963 Στην αναζήτησή μου για οπτική νοημοσύνη 268 00:16:24,963 --> 00:16:27,354 σκέφτομαι τον Λέο συνέχεια 269 00:16:27,354 --> 00:16:30,257 και τον μελλοντικό κόσμο στον οποίο θα ζήσει. 270 00:16:30,257 --> 00:16:32,278 Όταν οι μηχανές θα μπορούν να δουν, 271 00:16:32,278 --> 00:16:36,990 οι γιατροί και νοσοκόμοι θα έχουν ένα ζευγάρι ακούραστα μάτια 272 00:16:36,990 --> 00:16:41,082 να τους βοηθάνε να διαγνώσουν και να φροντίσουν τους ασθενείς τους. 273 00:16:41,082 --> 00:16:45,465 Τα αυτοκίνητα θα οδηγούν πιο έξυπνα και πιο ασφαλή στο δρόμο. 274 00:16:45,465 --> 00:16:48,159 Ρομπότ, όχι μόνο άνθρωποι, 275 00:16:48,159 --> 00:16:53,448 θα μας βοηθάνε σε ζώνες καταστροφής να σώσουμε εγκλωβισμένους και τραυματίες. 276 00:16:53,448 --> 00:16:57,594 Θα ανακαλύψουμε καινούργια είδη, καλύτερα υλικά, 277 00:16:57,594 --> 00:17:02,103 και θα εξερευνήσουμε αόρατα σύνορα με τη βοήθεια των μηχανών. 278 00:17:03,113 --> 00:17:07,280 Σιγά-σιγά δίνουμε όραση στις μηχανές. 279 00:17:07,280 --> 00:17:10,078 Πρώτα, θα τους μάθουμε να βλέπουν. 280 00:17:10,078 --> 00:17:12,841 Μετά, θα μας βοηθήσουν να δούμε καλύτερα. 281 00:17:12,841 --> 00:17:17,006 Για πρώτη φορά, τα ανθρώπινα μάτια δεν θα είναι τα μόνα 282 00:17:17,006 --> 00:17:19,940 που μελετούν και εξερευνούν τον κόσμο. 283 00:17:19,940 --> 00:17:23,400 Δεν θα χρησιμοποιούμε τις μηχανές μόνο για τη νοημοσύνη τους, 284 00:17:23,400 --> 00:17:29,579 θα συνεργαζόμαστε με τρόπους που δεν μπορούμε να φανταστούμε. 285 00:17:29,579 --> 00:17:31,740 Αυτός είναι ο στόχος μου: 286 00:17:31,740 --> 00:17:34,452 να δώσω στους υπολογιστές οπτική νοημοσύνη 287 00:17:34,452 --> 00:17:39,583 και να φτιάξω ένα καλύτερο μέλλον για τον Λέο και για τον κόσμο. 288 00:17:39,583 --> 00:17:41,394 Σας ευχαριστώ. 289 00:17:41,394 --> 00:17:43,339 (Χειροκρότημα)