0:00:03.286,0:00:06.178 Θέλω να σας δείξω κάτι. 0:00:06.178,0:00:10.260 (Βίντεο) Κορίτσι: [br]ΟΚ, μια γάτα που κάθεται στο κρεβάτι. 0:00:10.260,0:00:14.300 Το αγόρι χαϊδεύει τον ελέφαντα. 0:00:14.300,0:00:18.654 Οι άνθρωποι ανεβαίνουν στο αεροπλάνο. 0:00:18.654,0:00:21.464 Είναι ένα μεγάλο αεροπλάνο. 0:00:21.464,0:00:23.670 Φέι Φέι Λι:[br]Αυτό είναι ένα τρίχρονο κορίτσι 0:00:23.670,0:00:27.349 που περιγράφει τι βλέπει σε μια σειρά [br]από φωτογραφίες. 0:00:27.349,0:00:30.194 Μπορεί να έχει να μάθει [br]πολλά ακόμα για τον κόσμο, 0:00:30.194,0:00:34.743 αλλά είναι ήδη ειδική [br]σε μια πολύ σημαντική εργασία: 0:00:34.743,0:00:38.059 να καταλαβαίνει τι βλέπει. 0:00:38.059,0:00:42.455 Η κοινωνία μας τεχνολογικά[br]είναι πιο προηγμένη από ποτέ. 0:00:42.455,0:00:46.084 Στέλνουμε ανθρώπους στο φεγγάρι,[br]έχουμε τηλέφωνα που μας μιλάνε 0:00:46.084,0:00:51.030 ή ρυθμίζουμε ραδιοφωνικούς σταθμούς[br]να παίζουν μόνο τη μουσική που μας αρέσει. 0:00:51.030,0:00:55.085 Κι όμως, οι πιο προηγμένες μηχανές[br]και υπολογιστές μας 0:00:55.085,0:00:57.988 δυσκολεύονται ακόμα σε αυτή την εργασία. 0:00:57.988,0:01:01.447 Έτσι λοιπόν, είμαι εδώ σήμερα[br]για να σας δώσω μια αναφορά προόδου 0:01:01.447,0:01:05.494 σχετικά με τις πρόσφατες εξελίξεις[br]στον τομέα της μηχανικής όρασης, 0:01:05.494,0:01:09.655 μια από τις πιο σημαντικές[br]και πιθανότατα επαναστατικές 0:01:09.655,0:01:12.161 τεχνολογίες της πληροφορικής. 0:01:12.861,0:01:17.412 Ναι, έχουμε πρωτότυπα αυτοκίνητα[br]που οδηγούν αυτόνομα, 0:01:17.412,0:01:21.265 αλλά χωρίς «έξυπνη» όραση[br]δεν μπορούν να καταλάβουν τη διαφορά 0:01:21.265,0:01:25.235 μεταξύ μιας τσαλακωμένης σακούλας[br]στο δρόμο, που μπορούν να «πατήσουν», 0:01:25.235,0:01:28.575 και μιας πέτρας με το ίδιο μέγεθος,[br]που πρέπει να αποφύγουν. 0:01:29.415,0:01:32.805 Έχουμε εκπληκτικές κάμερες[br]με ανάλυση μεγαπίξελ, 0:01:32.805,0:01:35.940 αλλά δεν έχουμε δώσει όραση στους τυφλούς. 0:01:36.390,0:01:39.725 Τηλεκατευθυνόμενα αεροσκάφη μπορούν[br]να πετάξουν πάνω από τεράστια εδάφη 0:01:39.725,0:01:41.859 αλλά δεν έχουν αρκετή τεχνολογία όρασης 0:01:41.859,0:01:45.320 για να μας βοηθήσουν να παρακολουθήσουμε[br]τις αλλαγές στα τροπικά δάση. 0:01:45.320,0:01:48.270 Κάμερες ασφαλείας είναι παντού, 0:01:48.270,0:01:53.337 αλλά δεν μας προειδοποιούν[br]όταν ένα παιδί πνίγεται στην πισίνα. 0:01:54.167,0:01:59.762 Φωτογραφίες και βίντεο γίνονται ολοένα[br]πιο σημαντικό κομμάτι της παγκόσμιας ζωής. 0:01:59.762,0:02:03.849 Δημιουργούνται με τέτοιο ρυθμό[br]που είναι πέρα απ' ότι ένας άνθρωπος 0:02:03.849,0:02:06.632 ή μια ομάδα ανθρώπων μπορούν να δουν, 0:02:06.632,0:02:10.553 και εσείς και εγώ συνεισφέρουμε σε αυτό,[br]εδώ στο TED. 0:02:10.553,0:02:15.785 Κι όμως, το πιο προηγμένο λογισμικό μας[br]δυσκολεύεται ακόμα να καταλάβει 0:02:15.785,0:02:19.661 και να διαχειριστεί αυτές τις τεράστιες[br]ποσότητες περιεχομένου. 0:02:19.661,0:02:24.483 Με άλλα λόγια, συλλογικά σαν κοινωνία, 0:02:24.483,0:02:26.679 είμαστε βασικά τυφλοί, 0:02:26.679,0:02:30.376 γιατί οι πιο «έξυπνες» μηχανές μας[br]είναι ακόμα τυφλές. 0:02:31.526,0:02:34.082 «Γιατί είναι τόσο δύσκολο;»[br]μπορεί να ρωτήσετε. 0:02:34.082,0:02:37.145 Οι κάμερες μπορούν να τραβήξουν [br]φωτογραφίες όπως αυτή 0:02:37.145,0:02:41.139 μετατρέποντας το φως[br]σε δισδιάστατους πίνακες αριθμών 0:02:41.139,0:02:42.789 που λέγονται πίξελ, 0:02:42.789,0:02:45.040 αλλά αυτοί είναι άψυχοι αριθμοί. 0:02:45.040,0:02:48.151 Δεν έχουν νόημα από μόνοι τους. 0:02:48.151,0:02:52.494 Όπως το να αντιλαμβάνεσαι έναν ήχο[br]δεν είναι σαν να τον καταλαβαίνεις, 0:02:52.494,0:02:56.534 το να βγάζεις φωτογραφίες[br]δεν είναι το ίδιο με το να βλέπεις, 0:02:56.534,0:03:00.363 και λέγοντας «βλέπω»[br]εννοούμε «καταλαβαίνω». 0:03:01.293,0:03:07.470 Πράγματι, η Φύση χρειάστηκε[br]540 εκατομμύρια χρόνια σκληρής δουλειάς 0:03:07.470,0:03:09.443 για να καταφέρει αυτό το έργο, 0:03:09.443,0:03:11.324 και η περισσότερη προσπάθεια 0:03:11.324,0:03:16.595 αφιερώθηκε στην ανάπτυξη του οπτικού[br]μηχανισμού του εγκεφάλου μας 0:03:16.595,0:03:19.242 και όχι στα ίδια τα μάτια. 0:03:19.242,0:03:21.989 Η όραση λοιπόν ξεκινάει με τα μάτια, 0:03:21.989,0:03:25.507 αλλά πραγματικά λαμβάνει χώρα[br]στον εγκέφαλο. 0:03:26.287,0:03:31.347 Εδώ και 15 χρόνια, από το διδακτορικό μου[br]στο Πανεπιστήμιο της Καλιφόρνια 0:03:31.347,0:03:34.273 και ύστερα ως επικεφαλής[br]του κέντρου όρασης του Στάνφορντ, 0:03:34.273,0:03:38.669 δουλεύω με τους μέντορες, [br]συνεργάτες και φοιτητές μου 0:03:38.669,0:03:41.328 προσπαθώντας να μάθω [br]τους υπολογιστές να βλέπουν. 0:03:42.348,0:03:45.952 Το ερευνητικό μας πεδίο λέγεται[br]υπολογιστική όραση και μηχανική μάθηση. 0:03:45.952,0:03:49.830 Είναι κομμάτι του γενικότερου πεδίου[br]της τεχνητής νοημοσύνης. 0:03:51.000,0:03:56.493 Τελικά, θέλουμε να διδάξουμε τις μηχανές[br]να δουν ακριβώς όπως εμείς: 0:03:56.493,0:04:01.665 να ονομάζουν αντικείμενα, να αναγνωρίζουν[br]ανθρώπους και αντικείμενα στον χώρο, 0:04:01.665,0:04:07.428 να καταλαβαίνουν σχέσεις, συναισθήματα,[br]δράσεις και προθέσεις. 0:04:07.428,0:04:13.721 Εσείς και εγώ συνυφαίνουμε ολόκληρες[br]ιστορίες ανθρώπων, τόπων και πραγμάτων 0:04:13.721,0:04:15.885 τη στιγμή που τα πρωτοβλέπουμε. 0:04:16.955,0:04:22.538 Το πρώτο βήμα προς αυτό το στόχο είναι[br]να μάθουμε τον υπολογιστή να δει πράγματα, 0:04:22.538,0:04:25.906 τα δομικά στοιχεία του οπτικού μας κόσμου. 0:04:25.906,0:04:30.340 Στην πιο απλή της εκδοχή, φανταστείτε[br]την εκπαιδευτική διαδικασία ως εξής: 0:04:30.340,0:04:33.335 δείχνουμε στον υπολογιστή[br]μερικές εικόνες εκμάθησης 0:04:33.335,0:04:36.656 ενός συγκεκριμένου αντικειμένου,[br]ας πούμε γάτες, 0:04:36.656,0:04:41.393 και σχεδιάζουμε ένα μοντέλο[br]που μαθαίνει από αυτές τις εικόνες. 0:04:41.393,0:04:43.437 Πόσο δύσκολο μπορεί να είναι; 0:04:43.437,0:04:47.489 Στο κάτω κάτω, μια γάτα είναι απλά[br]μια συλλογή από σχήματα και χρώματα, 0:04:47.489,0:04:51.575 και αυτό ακριβώς κάναμε τα πρώτα χρόνια[br]της μοντελοποίησης αντικειμένων. 0:04:51.575,0:04:55.197 Λέγαμε στον αλγόριθμο του υπολογιστή,[br]σε μαθηματική γλώσσα, 0:04:55.197,0:04:58.540 ότι η γάτα έχει ένα στρογγυλό πρόσωπο,[br]ένα παχουλό σώμα, 0:04:58.540,0:05:00.839 δύο μυτερά αυτιά και μια μακριά ουρά, 0:05:00.839,0:05:02.249 και αυτό έμοιαζε μια χαρά. 0:05:02.859,0:05:04.972 Αλλά αυτή η γάτα; 0:05:04.972,0:05:06.063 (Γέλια) 0:05:06.063,0:05:07.689 Είναι κουλουριασμένη. 0:05:07.689,0:05:12.408 Τώρα πρέπει να προσθέσουμε άλλο ένα σχήμα[br]και άλλη μια άποψη στο μοντέλο μας. 0:05:12.408,0:05:14.403 Κι αν η γάτα κρύβεται; 0:05:15.143,0:05:17.622 Και αυτές οι χαζούλες γάτες; 0:05:19.112,0:05:21.529 Βλέπετε το πρόβλημα. 0:05:21.529,0:05:24.896 Ακόμα και κάτι τόσο απλό[br]όσο ένα κατοικίδιο 0:05:24.896,0:05:29.400 μπορεί να παρουσιάσει έναν άπειρο αριθμό[br]παραλλαγών στο μοντέλο, 0:05:29.400,0:05:31.633 και αυτό είναι μόνο ένα αντικείμενο. 0:05:32.573,0:05:35.065 Πριν από οκτώ χρόνια, 0:05:35.065,0:05:40.095 μια πολύ απλή και βαθιά παρατήρηση[br]άλλαξε τον τρόπο σκέψης μου. 0:05:41.425,0:05:44.110 Κανένας δεν λέει σε ένα παιδί πώς να δει, 0:05:44.110,0:05:46.371 κυριώς τα πρώτα χρόνια. 0:05:46.371,0:05:51.371 Μαθαίνουν μέσα από εμπειρίες και[br]παραδείγματα του πραγματικού κόσμου. 0:05:51.371,0:05:54.111 Αν σκεφτούμε τα μάτια του παιδιού 0:05:54.111,0:05:56.665 σαν ένα ζευγάρι από βιολογικές κάμερες, 0:05:56.665,0:06:00.845 βγάζουν περίπου μία φωτογραφία[br]κάθε 200 χιλιοστά του δευτερολέπτου, 0:06:00.845,0:06:03.979 που είναι ο μέσος χρόνος που χρειάζεται[br]για μια κίνηση του ματιού. 0:06:03.979,0:06:09.529 Έτσι, ένα παιδί τριών ετών θα έχει δει[br]εκατοντάδες εκατομμύρια φωτογραφίες 0:06:09.529,0:06:11.363 του πραγματικού κόσμου. 0:06:11.363,0:06:13.643 Αυτά είναι πολλά παραδείγματα εκμάθησης. 0:06:14.383,0:06:20.372 Αντί λοιπόν να εστιάζουμε μόνο σε[br]ολοένα και καλύτερους αλγόριθμους, 0:06:20.372,0:06:25.644 η ιδέα μου ήταν να δώσω στους αλγόριθμους[br]το είδος των εκπαιδευτικών δεδομένων 0:06:25.644,0:06:28.963 που ένα παιδί αποκτά μέσω εμπειρίας 0:06:28.963,0:06:32.841 τόσο σε ποσότητα όσο και σε ποιότητα. 0:06:32.841,0:06:34.699 Όταν το καταλάβαμε 0:06:34.699,0:06:37.670 ξέραμε ότι έπρεπε να συλλέξουμε[br]ένα σετ δεδομένων 0:06:37.670,0:06:42.129 που περιείχε πολύ περισσότερες φωτογραφίες[br]από όσες είχαμε προηγουμένως, 0:06:42.129,0:06:44.706 ίσως χιλιάδες φορές περισσότερες, 0:06:44.706,0:06:48.817 και μαζί με τον καθηγητή Κάι Λι[br]στο Πανεπιστήμιο του Πρίνστον 0:06:48.817,0:06:52.779 ξεκινήσαμε το πρόγραμμα ImageNet το 2007. 0:06:53.569,0:06:57.407 Ευτυχώς, δε χρειάστηκε [br]να φορέσουμε κάμερες στο κεφάλι μας 0:06:57.407,0:06:59.171 και να περιμένουμε πολλά χρόνια. 0:06:59.171,0:07:00.634 Πήγαμε στο Διαδίκτυο, 0:07:00.634,0:07:05.070 το μεγαλύτερο θησαυροφυλάκιο εικόνων[br]που έχουν ποτέ κατασκευάσει οι άνθρωποι. 0:07:05.070,0:07:08.111 «Κατεβάσαμε» σχεδόν[br]ένα δισεκατομμύριο εικόνες 0:07:08.111,0:07:13.871 και χρησιμοποιήσαμε τεχνολογίες «υπηρεσιών[br]πλήθους» όπως η πλατφόρμα της Άμαζον 0:07:13.881,0:07:16.360 για να μας βοηθήσουν να ονομάσουμε[br]αυτές τις εικόνες. 0:07:16.360,0:07:21.230 Στην αιχμή του, το ImageNet ήταν[br]ένας από τους μεγαλύτερους εργοδότες 0:07:21.230,0:07:24.226 της πλατφόρμας της Άμαζον: 0:07:24.226,0:07:28.080 όλοι μαζί, σχεδόν 50.000 εργαζόμενοι 0:07:28.080,0:07:32.120 από 167 χώρες από όλο τον κόσμο 0:07:32.120,0:07:36.067 μας βοήθησαν να καθαρίσουμε,[br]να κατατάξουμε και να ονομάσουμε 0:07:36.067,0:07:39.402 σχεδόν ένα δισεκατομμύριο [br]υποψήφιες φωτογραφίες. 0:07:40.382,0:07:43.265 Τόση προσπάθεια χρειάστηκε 0:07:43.265,0:07:47.165 για να καταγράψουμε [br]ένα ψήγμα των παραστάσεων 0:07:47.165,0:07:51.336 που προσλαμβάνει το μυαλό ενός παιδιού[br]στα πρώτα χρόνια της ανάπτυξης. 0:07:52.148,0:07:56.050 Εκ των υστέρων, η ιδέα της χρήσης[br]μαζικών δεδομένων 0:07:56.050,0:08:00.600 για την εκπαίδευση υπολογιστών[br]μπορεί να μοιάζει προφανής, 0:08:00.600,0:08:04.710 αλλά το 2007 δεν ήταν τόσο προφανής. 0:08:04.710,0:08:08.588 Ήμασταν μόνοι μας σε αυτό το ταξίδι[br]για αρκετό καιρό. 0:08:08.588,0:08:13.591 Μερικοί συνάδελφοι με συμβούλευσαν να κάνω[br]κάτι πιο χρήσιμο για να πάρω μονιμότητα, 0:08:13.591,0:08:17.753 και είχαμε διαρκώς [br]προβλήματα χρηματοδότησης. 0:08:17.753,0:08:20.608 Μια φορά, είπα για πλάκα [br]στους μεταπτυχιακούς φοιτητές μου 0:08:20.608,0:08:24.481 ότι θα άνοιγα ξανά το καθαριστήριό μου [br]για να χρηματοδοτήσω το ImageNet. 0:08:24.481,0:08:28.592 Στο κάτω κάτω, [br]έτσι χρηματοδότησα τις σπουδές μου. 0:08:29.242,0:08:31.098 Έτσι λοιπόν συνεχίσαμε. 0:08:31.098,0:08:34.813 Το 2009, το ΙmageNet παρέδωσε 0:08:34.813,0:08:38.855 μια βάση δεδομένων [br]με 15 εκατομμύρια φωτογραφίες 0:08:38.855,0:08:43.660 που ανήκαν σε 22.000 κατηγορίες[br]αντικειμένων και πραγμάτων 0:08:43.660,0:08:46.980 οργανωμένες[br]με καθημερινές αγγλικές λέξεις. 0:08:46.980,0:08:49.906 Τόσο σε ποσότητα όσο και σε ποιότητα, 0:08:49.906,0:08:52.878 ήταν μια ανεπανάληπτη κλίμακα. 0:08:53.608,0:08:56.339 Για παράδειγμα, όσον αφορά τις γάτες, 0:08:56.339,0:08:59.148 έχουμε περισσότερες από 62.000 γάτες 0:08:59.148,0:09:03.258 με διαφορετικές εμφανίσεις και πόζες 0:09:03.258,0:09:08.481 και όλα τα είδη, κατοικίδιες και άγριες. 0:09:08.481,0:09:11.825 Ήμασταν πανευτυχείς[br]που ολοκληρώσαμε το ImageNet, 0:09:11.825,0:09:15.563 και θέλαμε να επωφεληθεί[br]όλος ο ερευνητικός κόσμος, 0:09:15.563,0:09:19.604 κι έτσι, σύμφωνα με το πνεύμα του TED,[br]διαθέσαμε ολόκληρη τη βάση δεδομένων 0:09:19.604,0:09:23.196 στην παγκόσμια ερευνητική κοινότητα,[br]δωρεάν. 0:09:24.166,0:09:28.636 (Χειροκρότημα) 0:09:29.416,0:09:33.954 Τώρα που έχουμε τα δεδομένα για να[br]καλλιεργήσουμε το υπολογιστικό μας μυαλό, 0:09:33.954,0:09:37.691 είμαστε έτοιμοι να ξαναγυρίσουμε[br]στους αλγόριθμους. 0:09:37.691,0:09:42.869 Όπως αποδείχθηκε, ο πλούτος πληροφορίας[br]που παρέχεται από το ImageNet 0:09:42.869,0:09:47.675 ήταν το τέλειο ταίρι για μια συγκεκριμένη[br]κλάση αλγόριθμων μηχανικής μάθησης 0:09:47.675,0:09:50.090 που ονομάζονται συνελικτικά[br]νευρωνικά δίκτυα, 0:09:50.090,0:09:55.338 που αναπτύχθηκε απ' τους Τζεφ Χίντον,[br]Κουνιχίκο Φουκοσίμα και Γιάν ΛεΚούν 0:09:55.338,0:09:58.983 στις δεκαετίες του '70 και το '80. 0:09:58.983,0:10:04.602 Όπως ο εγκέφαλος αποτελείται από[br]δισεκατομμύρια διασυνδεδεμένους νευρώνες, 0:10:04.602,0:10:08.456 η βασική λειτουργική ενότητα[br]σε ένα νευρωνικό δίκτυο 0:10:08.456,0:10:10.871 είναι ένας κόμβος-νευρώνας. 0:10:10.871,0:10:13.425 Δέχεται σήματα εισόδου από άλλους κόμβους 0:10:13.425,0:10:16.143 και στέλνει σήματα εξόδου σε άλλους. 0:10:16.143,0:10:20.856 Επιπλέον, αυτοί οι εκατοντάδες χιλιάδες[br]ή εκατομμύρια κόμβοι 0:10:20.856,0:10:24.083 είναι οργανωμένοι σε ιεραρχικά στρώμματα, 0:10:24.083,0:10:26.637 επίσης παρόμοια με αυτά του εγκεφάλου. 0:10:26.637,0:10:29.880 Ένα τυπικό νευρωνικό δίκτυο [br]που χρησιμοποιούμε για να εκπαιδεύσουμε 0:10:29.880,0:10:34.601 το μοντέλο αναγνώρισης αντικειμένων,[br]έχει 24 εκατομμύρια κόμβους, 0:10:34.601,0:10:37.488 140 εκατομμύρια παραμέτρους 0:10:37.488,0:10:40.331 και 15 δισεκατομμύρια συνδέσεις. 0:10:40.331,0:10:43.076 Είναι ένα τεράστιο μοντέλο. 0:10:43.076,0:10:46.977 Ωθούμενο από τα μαζικά δεδομένα[br]του ImageNet 0:10:46.977,0:10:52.410 και από σύγχρονους μικροεπεξεργαστές[br]για την εκμάθηση αυτού του μοντέλου, 0:10:52.410,0:10:54.619 το συνελικτικό νευρωνικό δίκτυο 0:10:54.619,0:10:58.215 «άνθισε» με τρόπο που κανείς δεν περίμενε. 0:10:58.215,0:11:00.723 Έγινε η νικήτρια αρχιτεκτονική 0:11:00.723,0:11:06.063 που γέννησε συναρπαστικά αποτελέσματα[br]στην αναγνώριση αντικειμένων. 0:11:06.063,0:11:08.873 Αυτός είναι ένας υπολογιστής που μας λέει 0:11:08.873,0:11:11.173 ότι αυτή η εικόνα περιέχει μια γάτα 0:11:11.173,0:11:12.896 και πού βρίσκεται αυτή η γάτα. 0:11:12.896,0:11:15.188 Υπάρχουν κι άλλα πράγματα[br]εκτός από γάτες, 0:11:15.188,0:11:17.626 εδώ ο αλγόριθμος μας λέει 0:11:17.626,0:11:20.900 ότι η εικόνα περιέχει ένα αγόρι[br]και ένα αρκουδάκι, 0:11:20.900,0:11:25.266 έναν σκύλο, έναν άνθρωπο[br]και έναν μικρό χαρταετό στο βάθος, 0:11:25.266,0:11:28.401 ή μια εικόνα με πολλά πράγματα 0:11:28.401,0:11:33.045 όπως ένας άντρας, ένα σκέιτμπορντ, [br]κάγκελα, μια κολώνα και λοιπά. 0:11:33.045,0:11:38.518 Μερικές φορές, όταν ο υπολογιστής δεν[br]είναι και τόσο σίγουρος για το τι βλέπει, 0:11:39.498,0:11:41.774 του μάθαμε να είναι αρκετά έξυπνος 0:11:41.774,0:11:45.652 ώστε να μας δίνει μια ασφαλή απάντηση[br]αντί να δεσμευτεί σε κάτι συγκεκριμένο, 0:11:45.652,0:11:48.463 όπως ακριβώς θα κάναμε και εμείς, 0:11:48.463,0:11:53.129 και άλλες φορές ο αλγόριθμος[br]είναι τόσο ικανός στο να μας λέει 0:11:53.129,0:11:55.382 ακριβώς τι είναι το κάθε αντικείμενο, 0:11:55.382,0:11:58.818 όπως τη μάρκα, το μοντέλο[br]και τη χρονιά των αυτοκινήτων. 0:11:58.818,0:12:04.204 Εφαρμόσαμε αυτόν τον αλγόριθμο σε[br]εκατομμύρια εικόνες του Google Street View 0:12:04.204,0:12:07.339 σε εκατοντάδες πόλεις της Αμερικής, 0:12:07.339,0:12:09.725 και μάθαμε κάτι πολύ ενδιαφέρον: 0:12:10.265,0:12:13.585 πρώτον, επιβεβαιώσαμε [br]κάτι που ήταν κοινώς γνωστό 0:12:13.585,0:12:16.875 ότι οι τιμές αυτοκινήτων [br]συσχετίζονται πολύ καλά 0:12:16.875,0:12:19.220 με το εισόδημα των νοικοκυριών. 0:12:19.220,0:12:23.747 Αλλά αναπάντεχα, οι τιμές των αυτοκινήτων[br]επίσης συσχετίζονται καλά 0:12:23.747,0:12:26.047 με την εγκληματικότητα στις πόλεις, 0:12:26.817,0:12:30.970 ή με την κατανομή ψήφων[br]ανά ταχυδρομικό κώδικα. 0:12:31.740,0:12:34.266 Μισό λεπτό. Αυτό είναι; 0:12:34.266,0:12:39.419 Ο υπολογιστής έφτασε ή ξεπέρασε[br]τις ανθρώπινες δυνατότητες; 0:12:39.419,0:12:41.557 Όχι τόσο γρήγορα. 0:12:41.557,0:12:46.480 Μέχρι τώρα, έχουμε μάθει στον υπολογιστή [br]μόνο να βλέπει αντικείμενα. 0:12:46.480,0:12:51.124 Είναι σαν ένα μικρό παιδί που μαθαίνει[br]να προφέρει μερικά ουσιαστικά. 0:12:51.124,0:12:53.794 Είναι ένα απίστευτο επίτευγμα, 0:12:53.794,0:12:56.254 αλλά είναι μόνο το πρώτο βήμα. 0:12:56.254,0:13:00.016 Σύντομα, θα έρθουμε σε ένα άλλο ορόσημο[br]της ανάπτυξης, 0:13:00.016,0:13:03.477 και τα παιδιά αρχίζουν[br]να επικοινωνούν με προτάσεις. 0:13:03.477,0:13:07.701 Αντί να πει ότι στην εικόνα είναι μια γάτα 0:13:07.701,0:13:12.903 ακούσατε ήδη το κοριτσάκι να μας λέει[br]ότι η γάτα είναι ξαπλωμένη στο κρεβάτι. 0:13:12.903,0:13:18.498 Για να μάθουμε τον υπολογιστή να βλέπει[br]μια εικόνα και να παράγει προτάσεις, 0:13:18.498,0:13:22.446 ο «γάμος» των μαζικών δεδομένων[br]και των αλγόριθμων μηχανικής μάθησης 0:13:22.446,0:13:24.721 πρέπει να κάνει ένα ακόμα βήμα. 0:13:24.721,0:13:28.877 Τώρα, ο υπολογιστής [br]πρέπει να μάθει από εικόνες 0:13:28.877,0:13:31.733 αλλά και από προτάσεις φυσικού λόγου 0:13:31.733,0:13:34.385 που έχουν παράγει άνθρωποι. 0:13:35.055,0:13:38.908 Ακριβώς όπως ο εγκέφαλος ενσωματώνει[br]όραση και γλώσσα, 0:13:38.908,0:13:44.109 αναπτύξαμε ένα μοντέλο [br]που συνδέει μέρη οπτικών αντικειμένων, 0:13:44.109,0:13:46.013 σαν οπτικά αποσπάσματα, 0:13:46.013,0:13:50.216 με λέξεις και φράσεις προτάσεων. 0:13:50.216,0:13:52.979 Πριν από περίπου τέσσερις μήνες, 0:13:52.979,0:13:55.626 συνθέσαμε όλα αυτά τα κομμάτια 0:13:55.626,0:13:59.410 και δημιουργήσαμε ένα από τα πρώτα μοντέλα[br]υπολογιστικής όρασης 0:13:59.410,0:14:03.404 ικανό να παράγει φυσικές προτάσεις 0:14:03.404,0:14:06.910 την πρώτη φορά που βλέπει μια εικόνα. 0:14:06.910,0:14:11.554 Τώρα, είμαι έτοιμη να σας δείξω [br]τι λέει ο υπολογιστής 0:14:11.554,0:14:13.529 όταν βλέπει την εικόνα 0:14:13.529,0:14:17.359 που είδε το κορίτσι στην αρχή της ομιλίας. 0:14:19.239,0:14:22.863 (Βίντεο) Υπολογιστής: Ένας άντρας στέκεται[br]δίπλα σε έναν ελέφαντα. 0:14:24.393,0:14:28.027 Ένα μεγάλο αεροπλάνο βρίσκεται[br]πάνω σε έναν αεροδιάδρομο. 0:14:29.057,0:14:33.269 Φέι-Φέι Λι: Φυσικά, δουλεύουμε σκληρά[br]για να βελτιώσουμε τον αλγόριθμό μας, 0:14:33.269,0:14:35.865 και έχει να μάθει ακόμα πολλά. 0:14:35.865,0:14:38.156 (Χειροκρότημα) 0:14:39.556,0:14:42.747 Και ο υπολογιστής ακόμα κάνει λάθη. 0:14:42.747,0:14:46.268 (Βίντεο) Υπολογιστής: Μια γάτα είναι[br]ξαπλωμένη στο κρεβάτι με μια κουβέρτα. 0:14:46.268,0:14:48.821 Φέι-Φέι Λι: Φυσικά, αφού έχει δει [br]τόσες πολλές γάτες, 0:14:48.821,0:14:51.747 νομίζει ότι τα πάντα μοιάζουν με γάτες. 0:14:53.227,0:14:56.271 (Βίντεο) Υπολογιστής: Ένα αγόρι κρατάει[br]ένα ρόπαλο του μπέιζμπολ. 0:14:56.271,0:14:57.946 (Γέλια) 0:14:57.946,0:15:02.529 ΦΦΛ: Ή αν δεν έχει δει οδοντόβουρτσες[br]τις μπερδεύει με ρόπαλα του μπέιζμπολ. 0:15:02.969,0:15:06.823 (Βίντεο) Υπολογιστής: Ένας άντρας ιππεύει[br]ένα άλογο στο δρόμο δίπλα σε ένα κτίριο. 0:15:06.823,0:15:08.766 (Γέλια) 0:15:08.766,0:15:12.318 Φέι-Φέι Λι: Δεν έχουμε μάθει στους[br]υπολογιστές τα βασικά για τις τέχνες. 0:15:13.768,0:15:16.472 (Βίντεο) Υπολογιστής: Μια ζέβρα στέκεται[br]σε ένα λιβάδι. 0:15:16.472,0:15:20.019 Φέι-Φέι Λι: Δεν έχει μάθει να εκτιμά[br]την εκπληκτική ομορφιά της φύσης 0:15:20.019,0:15:21.657 όπως εσείς και εγώ. 0:15:22.457,0:15:25.289 Ήταν ένα μεγάλο ταξίδι. 0:15:25.289,0:15:29.205 Το να πάμε από τις ηλικίες 0 μέχρι 3[br]ήταν δύσκολο. 0:15:29.205,0:15:35.111 Η πραγματική πρόκληση είναι να πάμε[br]από τα 3 στα 13 και παραπέρα. 0:15:35.111,0:15:39.476 Θέλω να σας υπενθυμήσω με αυτή την εικόνα[br]του παιδιού και της τούρτας. 0:15:39.476,0:15:43.540 Μέχρι τώρα, έχουμε διδάξει τον υπολογιστή[br]να βλέπει αντικείμενα 0:15:43.540,0:15:47.998 και ακόμα να μπορεί να μας πει μια ιστορία[br]όταν βλέπει μια εικόνα. 0:15:47.998,0:15:51.574 (Βίντεο) Υπολογιστής: Κάποιος κάθεται[br]σε ένα τραπέζι με ένα κέικ. 0:15:51.574,0:15:54.204 ΦΦΛ: Άλλα υπάρχουν κι άλλα[br]πράγματα σε αυτή την εικόνα 0:15:54.204,0:15:56.474 εκτός από τον άνθρωπο και το κέικ. 0:15:56.474,0:16:00.941 Αυτό που δεν βλέπει ο υπολογιστής είναι[br]ότι αυτό είναι ένα ειδικό ιταλικό κέικ 0:16:00.941,0:16:04.158 που σερβίρεται μόνο κατά την περίοδο[br]του Πάσχα. 0:16:04.158,0:16:07.363 Το αγόρι φοράει την αγαπημένη του μπλούζα 0:16:07.363,0:16:11.333 που του την έφερε ο πατέρας του[br]από ένα ταξίδι στο Σίδνεϊ, 0:16:11.333,0:16:15.141 και εμείς μπορούμε να δούμε[br]πόσο χαρούμενο είναι 0:16:15.141,0:16:18.344 και τι ακριβώς σκέφτεται αυτή τη στιγμή. 0:16:19.214,0:16:22.339 Αυτός είναι ο γιος μου, ο Λέο. 0:16:22.339,0:16:24.963 Στην αναζήτησή μου για οπτική νοημοσύνη 0:16:24.963,0:16:27.354 σκέφτομαι τον Λέο συνέχεια 0:16:27.354,0:16:30.257 και τον μελλοντικό κόσμο[br]στον οποίο θα ζήσει. 0:16:30.257,0:16:32.278 Όταν οι μηχανές θα μπορούν να δουν, 0:16:32.278,0:16:36.990 οι γιατροί και νοσοκόμοι θα έχουν[br]ένα ζευγάρι ακούραστα μάτια 0:16:36.990,0:16:41.082 να τους βοηθάνε να διαγνώσουν[br]και να φροντίσουν τους ασθενείς τους. 0:16:41.082,0:16:45.465 Τα αυτοκίνητα θα οδηγούν πιο έξυπνα[br]και πιο ασφαλή στο δρόμο. 0:16:45.465,0:16:48.159 Ρομπότ, όχι μόνο άνθρωποι, 0:16:48.159,0:16:53.448 θα μας βοηθάνε σε ζώνες καταστροφής[br]να σώσουμε εγκλωβισμένους και τραυματίες. 0:16:53.448,0:16:57.594 Θα ανακαλύψουμε καινούργια είδη,[br]καλύτερα υλικά, 0:16:57.594,0:17:02.103 και θα εξερευνήσουμε αόρατα σύνορα[br]με τη βοήθεια των μηχανών. 0:17:03.113,0:17:07.280 Σιγά-σιγά δίνουμε όραση στις μηχανές. 0:17:07.280,0:17:10.078 Πρώτα, θα τους μάθουμε να βλέπουν. 0:17:10.078,0:17:12.841 Μετά, θα μας βοηθήσουν να δούμε καλύτερα. 0:17:12.841,0:17:17.006 Για πρώτη φορά, τα ανθρώπινα μάτια[br]δεν θα είναι τα μόνα 0:17:17.006,0:17:19.940 που μελετούν και εξερευνούν τον κόσμο. 0:17:19.940,0:17:23.400 Δεν θα χρησιμοποιούμε τις μηχανές [br]μόνο για τη νοημοσύνη τους, 0:17:23.400,0:17:29.579 θα συνεργαζόμαστε με τρόπους[br]που δεν μπορούμε να φανταστούμε. 0:17:29.579,0:17:31.740 Αυτός είναι ο στόχος μου: 0:17:31.740,0:17:34.452 να δώσω στους υπολογιστές οπτική νοημοσύνη 0:17:34.452,0:17:39.583 και να φτιάξω ένα καλύτερο μέλλον [br]για τον Λέο και για τον κόσμο. 0:17:39.583,0:17:41.394 Σας ευχαριστώ. 0:17:41.394,0:17:43.339 (Χειροκρότημα)