Return to Video

Πώς μαθαίνουμε στους υπολογιστές να καταλαβαίνουν εικόνες

  • 0:03 - 0:06
    Θέλω να σας δείξω κάτι.
  • 0:06 - 0:10
    (Βίντεο) Κορίτσι:
    ΟΚ, μια γάτα που κάθεται στο κρεβάτι.
  • 0:10 - 0:14
    Το αγόρι χαϊδεύει τον ελέφαντα.
  • 0:14 - 0:19
    Οι άνθρωποι ανεβαίνουν στο αεροπλάνο.
  • 0:19 - 0:21
    Είναι ένα μεγάλο αεροπλάνο.
  • 0:21 - 0:24
    Φέι Φέι Λι:
    Αυτό είναι ένα τρίχρονο κορίτσι
  • 0:24 - 0:27
    που περιγράφει τι βλέπει σε μια σειρά
    από φωτογραφίες.
  • 0:27 - 0:30
    Μπορεί να έχει να μάθει
    πολλά ακόμα για τον κόσμο,
  • 0:30 - 0:35
    αλλά είναι ήδη ειδική
    σε μια πολύ σημαντική εργασία:
  • 0:35 - 0:38
    να καταλαβαίνει τι βλέπει.
  • 0:38 - 0:42
    Η κοινωνία μας τεχνολογικά
    είναι πιο προηγμένη από ποτέ.
  • 0:42 - 0:46
    Στέλνουμε ανθρώπους στο φεγγάρι,
    έχουμε τηλέφωνα που μας μιλάνε
  • 0:46 - 0:51
    ή ρυθμίζουμε ραδιοφωνικούς σταθμούς
    να παίζουν μόνο τη μουσική που μας αρέσει.
  • 0:51 - 0:55
    Κι όμως, οι πιο προηγμένες μηχανές
    και υπολογιστές μας
  • 0:55 - 0:58
    δυσκολεύονται ακόμα σε αυτή την εργασία.
  • 0:58 - 1:01
    Έτσι λοιπόν, είμαι εδώ σήμερα
    για να σας δώσω μια αναφορά προόδου
  • 1:01 - 1:05
    σχετικά με τις πρόσφατες εξελίξεις
    στον τομέα της μηχανικής όρασης,
  • 1:05 - 1:10
    μια από τις πιο σημαντικές
    και πιθανότατα επαναστατικές
  • 1:10 - 1:12
    τεχνολογίες της πληροφορικής.
  • 1:13 - 1:17
    Ναι, έχουμε πρωτότυπα αυτοκίνητα
    που οδηγούν αυτόνομα,
  • 1:17 - 1:21
    αλλά χωρίς «έξυπνη» όραση
    δεν μπορούν να καταλάβουν τη διαφορά
  • 1:21 - 1:25
    μεταξύ μιας τσαλακωμένης σακούλας
    στο δρόμο, που μπορούν να «πατήσουν»,
  • 1:25 - 1:29
    και μιας πέτρας με το ίδιο μέγεθος,
    που πρέπει να αποφύγουν.
  • 1:29 - 1:33
    Έχουμε εκπληκτικές κάμερες
    με ανάλυση μεγαπίξελ,
  • 1:33 - 1:36
    αλλά δεν έχουμε δώσει όραση στους τυφλούς.
  • 1:36 - 1:40
    Τηλεκατευθυνόμενα αεροσκάφη μπορούν
    να πετάξουν πάνω από τεράστια εδάφη
  • 1:40 - 1:42
    αλλά δεν έχουν αρκετή τεχνολογία όρασης
  • 1:42 - 1:45
    για να μας βοηθήσουν να παρακολουθήσουμε
    τις αλλαγές στα τροπικά δάση.
  • 1:45 - 1:48
    Κάμερες ασφαλείας είναι παντού,
  • 1:48 - 1:53
    αλλά δεν μας προειδοποιούν
    όταν ένα παιδί πνίγεται στην πισίνα.
  • 1:54 - 2:00
    Φωτογραφίες και βίντεο γίνονται ολοένα
    πιο σημαντικό κομμάτι της παγκόσμιας ζωής.
  • 2:00 - 2:04
    Δημιουργούνται με τέτοιο ρυθμό
    που είναι πέρα απ' ότι ένας άνθρωπος
  • 2:04 - 2:07
    ή μια ομάδα ανθρώπων μπορούν να δουν,
  • 2:07 - 2:11
    και εσείς και εγώ συνεισφέρουμε σε αυτό,
    εδώ στο TED.
  • 2:11 - 2:16
    Κι όμως, το πιο προηγμένο λογισμικό μας
    δυσκολεύεται ακόμα να καταλάβει
  • 2:16 - 2:20
    και να διαχειριστεί αυτές τις τεράστιες
    ποσότητες περιεχομένου.
  • 2:20 - 2:24
    Με άλλα λόγια, συλλογικά σαν κοινωνία,
  • 2:24 - 2:27
    είμαστε βασικά τυφλοί,
  • 2:27 - 2:30
    γιατί οι πιο «έξυπνες» μηχανές μας
    είναι ακόμα τυφλές.
  • 2:32 - 2:34
    «Γιατί είναι τόσο δύσκολο;»
    μπορεί να ρωτήσετε.
  • 2:34 - 2:37
    Οι κάμερες μπορούν να τραβήξουν
    φωτογραφίες όπως αυτή
  • 2:37 - 2:41
    μετατρέποντας το φως
    σε δισδιάστατους πίνακες αριθμών
  • 2:41 - 2:43
    που λέγονται πίξελ,
  • 2:43 - 2:45
    αλλά αυτοί είναι άψυχοι αριθμοί.
  • 2:45 - 2:48
    Δεν έχουν νόημα από μόνοι τους.
  • 2:48 - 2:52
    Όπως το να αντιλαμβάνεσαι έναν ήχο
    δεν είναι σαν να τον καταλαβαίνεις,
  • 2:52 - 2:57
    το να βγάζεις φωτογραφίες
    δεν είναι το ίδιο με το να βλέπεις,
  • 2:57 - 3:00
    και λέγοντας «βλέπω»
    εννοούμε «καταλαβαίνω».
  • 3:01 - 3:07
    Πράγματι, η Φύση χρειάστηκε
    540 εκατομμύρια χρόνια σκληρής δουλειάς
  • 3:07 - 3:09
    για να καταφέρει αυτό το έργο,
  • 3:09 - 3:11
    και η περισσότερη προσπάθεια
  • 3:11 - 3:17
    αφιερώθηκε στην ανάπτυξη του οπτικού
    μηχανισμού του εγκεφάλου μας
  • 3:17 - 3:19
    και όχι στα ίδια τα μάτια.
  • 3:19 - 3:22
    Η όραση λοιπόν ξεκινάει με τα μάτια,
  • 3:22 - 3:26
    αλλά πραγματικά λαμβάνει χώρα
    στον εγκέφαλο.
  • 3:26 - 3:31
    Εδώ και 15 χρόνια, από το διδακτορικό μου
    στο Πανεπιστήμιο της Καλιφόρνια
  • 3:31 - 3:34
    και ύστερα ως επικεφαλής
    του κέντρου όρασης του Στάνφορντ,
  • 3:34 - 3:39
    δουλεύω με τους μέντορες,
    συνεργάτες και φοιτητές μου
  • 3:39 - 3:41
    προσπαθώντας να μάθω
    τους υπολογιστές να βλέπουν.
  • 3:42 - 3:46
    Το ερευνητικό μας πεδίο λέγεται
    υπολογιστική όραση και μηχανική μάθηση.
  • 3:46 - 3:50
    Είναι κομμάτι του γενικότερου πεδίου
    της τεχνητής νοημοσύνης.
  • 3:51 - 3:56
    Τελικά, θέλουμε να διδάξουμε τις μηχανές
    να δουν ακριβώς όπως εμείς:
  • 3:56 - 4:02
    να ονομάζουν αντικείμενα, να αναγνωρίζουν
    ανθρώπους και αντικείμενα στον χώρο,
  • 4:02 - 4:07
    να καταλαβαίνουν σχέσεις, συναισθήματα,
    δράσεις και προθέσεις.
  • 4:07 - 4:14
    Εσείς και εγώ συνυφαίνουμε ολόκληρες
    ιστορίες ανθρώπων, τόπων και πραγμάτων
  • 4:14 - 4:16
    τη στιγμή που τα πρωτοβλέπουμε.
  • 4:17 - 4:23
    Το πρώτο βήμα προς αυτό το στόχο είναι
    να μάθουμε τον υπολογιστή να δει πράγματα,
  • 4:23 - 4:26
    τα δομικά στοιχεία του οπτικού μας κόσμου.
  • 4:26 - 4:30
    Στην πιο απλή της εκδοχή, φανταστείτε
    την εκπαιδευτική διαδικασία ως εξής:
  • 4:30 - 4:33
    δείχνουμε στον υπολογιστή
    μερικές εικόνες εκμάθησης
  • 4:33 - 4:37
    ενός συγκεκριμένου αντικειμένου,
    ας πούμε γάτες,
  • 4:37 - 4:41
    και σχεδιάζουμε ένα μοντέλο
    που μαθαίνει από αυτές τις εικόνες.
  • 4:41 - 4:43
    Πόσο δύσκολο μπορεί να είναι;
  • 4:43 - 4:47
    Στο κάτω κάτω, μια γάτα είναι απλά
    μια συλλογή από σχήματα και χρώματα,
  • 4:47 - 4:52
    και αυτό ακριβώς κάναμε τα πρώτα χρόνια
    της μοντελοποίησης αντικειμένων.
  • 4:52 - 4:55
    Λέγαμε στον αλγόριθμο του υπολογιστή,
    σε μαθηματική γλώσσα,
  • 4:55 - 4:59
    ότι η γάτα έχει ένα στρογγυλό πρόσωπο,
    ένα παχουλό σώμα,
  • 4:59 - 5:01
    δύο μυτερά αυτιά και μια μακριά ουρά,
  • 5:01 - 5:02
    και αυτό έμοιαζε μια χαρά.
  • 5:03 - 5:05
    Αλλά αυτή η γάτα;
  • 5:05 - 5:06
    (Γέλια)
  • 5:06 - 5:08
    Είναι κουλουριασμένη.
  • 5:08 - 5:12
    Τώρα πρέπει να προσθέσουμε άλλο ένα σχήμα
    και άλλη μια άποψη στο μοντέλο μας.
  • 5:12 - 5:14
    Κι αν η γάτα κρύβεται;
  • 5:15 - 5:18
    Και αυτές οι χαζούλες γάτες;
  • 5:19 - 5:22
    Βλέπετε το πρόβλημα.
  • 5:22 - 5:25
    Ακόμα και κάτι τόσο απλό
    όσο ένα κατοικίδιο
  • 5:25 - 5:29
    μπορεί να παρουσιάσει έναν άπειρο αριθμό
    παραλλαγών στο μοντέλο,
  • 5:29 - 5:32
    και αυτό είναι μόνο ένα αντικείμενο.
  • 5:33 - 5:35
    Πριν από οκτώ χρόνια,
  • 5:35 - 5:40
    μια πολύ απλή και βαθιά παρατήρηση
    άλλαξε τον τρόπο σκέψης μου.
  • 5:41 - 5:44
    Κανένας δεν λέει σε ένα παιδί πώς να δει,
  • 5:44 - 5:46
    κυριώς τα πρώτα χρόνια.
  • 5:46 - 5:51
    Μαθαίνουν μέσα από εμπειρίες και
    παραδείγματα του πραγματικού κόσμου.
  • 5:51 - 5:54
    Αν σκεφτούμε τα μάτια του παιδιού
  • 5:54 - 5:57
    σαν ένα ζευγάρι από βιολογικές κάμερες,
  • 5:57 - 6:01
    βγάζουν περίπου μία φωτογραφία
    κάθε 200 χιλιοστά του δευτερολέπτου,
  • 6:01 - 6:04
    που είναι ο μέσος χρόνος που χρειάζεται
    για μια κίνηση του ματιού.
  • 6:04 - 6:10
    Έτσι, ένα παιδί τριών ετών θα έχει δει
    εκατοντάδες εκατομμύρια φωτογραφίες
  • 6:10 - 6:11
    του πραγματικού κόσμου.
  • 6:11 - 6:14
    Αυτά είναι πολλά παραδείγματα εκμάθησης.
  • 6:14 - 6:20
    Αντί λοιπόν να εστιάζουμε μόνο σε
    ολοένα και καλύτερους αλγόριθμους,
  • 6:20 - 6:26
    η ιδέα μου ήταν να δώσω στους αλγόριθμους
    το είδος των εκπαιδευτικών δεδομένων
  • 6:26 - 6:29
    που ένα παιδί αποκτά μέσω εμπειρίας
  • 6:29 - 6:33
    τόσο σε ποσότητα όσο και σε ποιότητα.
  • 6:33 - 6:35
    Όταν το καταλάβαμε
  • 6:35 - 6:38
    ξέραμε ότι έπρεπε να συλλέξουμε
    ένα σετ δεδομένων
  • 6:38 - 6:42
    που περιείχε πολύ περισσότερες φωτογραφίες
    από όσες είχαμε προηγουμένως,
  • 6:42 - 6:45
    ίσως χιλιάδες φορές περισσότερες,
  • 6:45 - 6:49
    και μαζί με τον καθηγητή Κάι Λι
    στο Πανεπιστήμιο του Πρίνστον
  • 6:49 - 6:53
    ξεκινήσαμε το πρόγραμμα ImageNet το 2007.
  • 6:54 - 6:57
    Ευτυχώς, δε χρειάστηκε
    να φορέσουμε κάμερες στο κεφάλι μας
  • 6:57 - 6:59
    και να περιμένουμε πολλά χρόνια.
  • 6:59 - 7:01
    Πήγαμε στο Διαδίκτυο,
  • 7:01 - 7:05
    το μεγαλύτερο θησαυροφυλάκιο εικόνων
    που έχουν ποτέ κατασκευάσει οι άνθρωποι.
  • 7:05 - 7:08
    «Κατεβάσαμε» σχεδόν
    ένα δισεκατομμύριο εικόνες
  • 7:08 - 7:14
    και χρησιμοποιήσαμε τεχνολογίες «υπηρεσιών
    πλήθους» όπως η πλατφόρμα της Άμαζον
  • 7:14 - 7:16
    για να μας βοηθήσουν να ονομάσουμε
    αυτές τις εικόνες.
  • 7:16 - 7:21
    Στην αιχμή του, το ImageNet ήταν
    ένας από τους μεγαλύτερους εργοδότες
  • 7:21 - 7:24
    της πλατφόρμας της Άμαζον:
  • 7:24 - 7:28
    όλοι μαζί, σχεδόν 50.000 εργαζόμενοι
  • 7:28 - 7:32
    από 167 χώρες από όλο τον κόσμο
  • 7:32 - 7:36
    μας βοήθησαν να καθαρίσουμε,
    να κατατάξουμε και να ονομάσουμε
  • 7:36 - 7:39
    σχεδόν ένα δισεκατομμύριο
    υποψήφιες φωτογραφίες.
  • 7:40 - 7:43
    Τόση προσπάθεια χρειάστηκε
  • 7:43 - 7:47
    για να καταγράψουμε
    ένα ψήγμα των παραστάσεων
  • 7:47 - 7:51
    που προσλαμβάνει το μυαλό ενός παιδιού
    στα πρώτα χρόνια της ανάπτυξης.
  • 7:52 - 7:56
    Εκ των υστέρων, η ιδέα της χρήσης
    μαζικών δεδομένων
  • 7:56 - 8:01
    για την εκπαίδευση υπολογιστών
    μπορεί να μοιάζει προφανής,
  • 8:01 - 8:05
    αλλά το 2007 δεν ήταν τόσο προφανής.
  • 8:05 - 8:09
    Ήμασταν μόνοι μας σε αυτό το ταξίδι
    για αρκετό καιρό.
  • 8:09 - 8:14
    Μερικοί συνάδελφοι με συμβούλευσαν να κάνω
    κάτι πιο χρήσιμο για να πάρω μονιμότητα,
  • 8:14 - 8:18
    και είχαμε διαρκώς
    προβλήματα χρηματοδότησης.
  • 8:18 - 8:21
    Μια φορά, είπα για πλάκα
    στους μεταπτυχιακούς φοιτητές μου
  • 8:21 - 8:24
    ότι θα άνοιγα ξανά το καθαριστήριό μου
    για να χρηματοδοτήσω το ImageNet.
  • 8:24 - 8:29
    Στο κάτω κάτω,
    έτσι χρηματοδότησα τις σπουδές μου.
  • 8:29 - 8:31
    Έτσι λοιπόν συνεχίσαμε.
  • 8:31 - 8:35
    Το 2009, το ΙmageNet παρέδωσε
  • 8:35 - 8:39
    μια βάση δεδομένων
    με 15 εκατομμύρια φωτογραφίες
  • 8:39 - 8:44
    που ανήκαν σε 22.000 κατηγορίες
    αντικειμένων και πραγμάτων
  • 8:44 - 8:47
    οργανωμένες
    με καθημερινές αγγλικές λέξεις.
  • 8:47 - 8:50
    Τόσο σε ποσότητα όσο και σε ποιότητα,
  • 8:50 - 8:53
    ήταν μια ανεπανάληπτη κλίμακα.
  • 8:54 - 8:56
    Για παράδειγμα, όσον αφορά τις γάτες,
  • 8:56 - 8:59
    έχουμε περισσότερες από 62.000 γάτες
  • 8:59 - 9:03
    με διαφορετικές εμφανίσεις και πόζες
  • 9:03 - 9:08
    και όλα τα είδη, κατοικίδιες και άγριες.
  • 9:08 - 9:12
    Ήμασταν πανευτυχείς
    που ολοκληρώσαμε το ImageNet,
  • 9:12 - 9:16
    και θέλαμε να επωφεληθεί
    όλος ο ερευνητικός κόσμος,
  • 9:16 - 9:20
    κι έτσι, σύμφωνα με το πνεύμα του TED,
    διαθέσαμε ολόκληρη τη βάση δεδομένων
  • 9:20 - 9:23
    στην παγκόσμια ερευνητική κοινότητα,
    δωρεάν.
  • 9:24 - 9:29
    (Χειροκρότημα)
  • 9:29 - 9:34
    Τώρα που έχουμε τα δεδομένα για να
    καλλιεργήσουμε το υπολογιστικό μας μυαλό,
  • 9:34 - 9:38
    είμαστε έτοιμοι να ξαναγυρίσουμε
    στους αλγόριθμους.
  • 9:38 - 9:43
    Όπως αποδείχθηκε, ο πλούτος πληροφορίας
    που παρέχεται από το ImageNet
  • 9:43 - 9:48
    ήταν το τέλειο ταίρι για μια συγκεκριμένη
    κλάση αλγόριθμων μηχανικής μάθησης
  • 9:48 - 9:50
    που ονομάζονται συνελικτικά
    νευρωνικά δίκτυα,
  • 9:50 - 9:55
    που αναπτύχθηκε απ' τους Τζεφ Χίντον,
    Κουνιχίκο Φουκοσίμα και Γιάν ΛεΚούν
  • 9:55 - 9:59
    στις δεκαετίες του '70 και το '80.
  • 9:59 - 10:05
    Όπως ο εγκέφαλος αποτελείται από
    δισεκατομμύρια διασυνδεδεμένους νευρώνες,
  • 10:05 - 10:08
    η βασική λειτουργική ενότητα
    σε ένα νευρωνικό δίκτυο
  • 10:08 - 10:11
    είναι ένας κόμβος-νευρώνας.
  • 10:11 - 10:13
    Δέχεται σήματα εισόδου από άλλους κόμβους
  • 10:13 - 10:16
    και στέλνει σήματα εξόδου σε άλλους.
  • 10:16 - 10:21
    Επιπλέον, αυτοί οι εκατοντάδες χιλιάδες
    ή εκατομμύρια κόμβοι
  • 10:21 - 10:24
    είναι οργανωμένοι σε ιεραρχικά στρώμματα,
  • 10:24 - 10:27
    επίσης παρόμοια με αυτά του εγκεφάλου.
  • 10:27 - 10:30
    Ένα τυπικό νευρωνικό δίκτυο
    που χρησιμοποιούμε για να εκπαιδεύσουμε
  • 10:30 - 10:35
    το μοντέλο αναγνώρισης αντικειμένων,
    έχει 24 εκατομμύρια κόμβους,
  • 10:35 - 10:37
    140 εκατομμύρια παραμέτρους
  • 10:37 - 10:40
    και 15 δισεκατομμύρια συνδέσεις.
  • 10:40 - 10:43
    Είναι ένα τεράστιο μοντέλο.
  • 10:43 - 10:47
    Ωθούμενο από τα μαζικά δεδομένα
    του ImageNet
  • 10:47 - 10:52
    και από σύγχρονους μικροεπεξεργαστές
    για την εκμάθηση αυτού του μοντέλου,
  • 10:52 - 10:55
    το συνελικτικό νευρωνικό δίκτυο
  • 10:55 - 10:58
    «άνθισε» με τρόπο που κανείς δεν περίμενε.
  • 10:58 - 11:01
    Έγινε η νικήτρια αρχιτεκτονική
  • 11:01 - 11:06
    που γέννησε συναρπαστικά αποτελέσματα
    στην αναγνώριση αντικειμένων.
  • 11:06 - 11:09
    Αυτός είναι ένας υπολογιστής που μας λέει
  • 11:09 - 11:11
    ότι αυτή η εικόνα περιέχει μια γάτα
  • 11:11 - 11:13
    και πού βρίσκεται αυτή η γάτα.
  • 11:13 - 11:15
    Υπάρχουν κι άλλα πράγματα
    εκτός από γάτες,
  • 11:15 - 11:18
    εδώ ο αλγόριθμος μας λέει
  • 11:18 - 11:21
    ότι η εικόνα περιέχει ένα αγόρι
    και ένα αρκουδάκι,
  • 11:21 - 11:25
    έναν σκύλο, έναν άνθρωπο
    και έναν μικρό χαρταετό στο βάθος,
  • 11:25 - 11:28
    ή μια εικόνα με πολλά πράγματα
  • 11:28 - 11:33
    όπως ένας άντρας, ένα σκέιτμπορντ,
    κάγκελα, μια κολώνα και λοιπά.
  • 11:33 - 11:39
    Μερικές φορές, όταν ο υπολογιστής δεν
    είναι και τόσο σίγουρος για το τι βλέπει,
  • 11:39 - 11:42
    του μάθαμε να είναι αρκετά έξυπνος
  • 11:42 - 11:46
    ώστε να μας δίνει μια ασφαλή απάντηση
    αντί να δεσμευτεί σε κάτι συγκεκριμένο,
  • 11:46 - 11:48
    όπως ακριβώς θα κάναμε και εμείς,
  • 11:48 - 11:53
    και άλλες φορές ο αλγόριθμος
    είναι τόσο ικανός στο να μας λέει
  • 11:53 - 11:55
    ακριβώς τι είναι το κάθε αντικείμενο,
  • 11:55 - 11:59
    όπως τη μάρκα, το μοντέλο
    και τη χρονιά των αυτοκινήτων.
  • 11:59 - 12:04
    Εφαρμόσαμε αυτόν τον αλγόριθμο σε
    εκατομμύρια εικόνες του Google Street View
  • 12:04 - 12:07
    σε εκατοντάδες πόλεις της Αμερικής,
  • 12:07 - 12:10
    και μάθαμε κάτι πολύ ενδιαφέρον:
  • 12:10 - 12:14
    πρώτον, επιβεβαιώσαμε
    κάτι που ήταν κοινώς γνωστό
  • 12:14 - 12:17
    ότι οι τιμές αυτοκινήτων
    συσχετίζονται πολύ καλά
  • 12:17 - 12:19
    με το εισόδημα των νοικοκυριών.
  • 12:19 - 12:24
    Αλλά αναπάντεχα, οι τιμές των αυτοκινήτων
    επίσης συσχετίζονται καλά
  • 12:24 - 12:26
    με την εγκληματικότητα στις πόλεις,
  • 12:27 - 12:31
    ή με την κατανομή ψήφων
    ανά ταχυδρομικό κώδικα.
  • 12:32 - 12:34
    Μισό λεπτό. Αυτό είναι;
  • 12:34 - 12:39
    Ο υπολογιστής έφτασε ή ξεπέρασε
    τις ανθρώπινες δυνατότητες;
  • 12:39 - 12:42
    Όχι τόσο γρήγορα.
  • 12:42 - 12:46
    Μέχρι τώρα, έχουμε μάθει στον υπολογιστή
    μόνο να βλέπει αντικείμενα.
  • 12:46 - 12:51
    Είναι σαν ένα μικρό παιδί που μαθαίνει
    να προφέρει μερικά ουσιαστικά.
  • 12:51 - 12:54
    Είναι ένα απίστευτο επίτευγμα,
  • 12:54 - 12:56
    αλλά είναι μόνο το πρώτο βήμα.
  • 12:56 - 13:00
    Σύντομα, θα έρθουμε σε ένα άλλο ορόσημο
    της ανάπτυξης,
  • 13:00 - 13:03
    και τα παιδιά αρχίζουν
    να επικοινωνούν με προτάσεις.
  • 13:03 - 13:08
    Αντί να πει ότι στην εικόνα είναι μια γάτα
  • 13:08 - 13:13
    ακούσατε ήδη το κοριτσάκι να μας λέει
    ότι η γάτα είναι ξαπλωμένη στο κρεβάτι.
  • 13:13 - 13:18
    Για να μάθουμε τον υπολογιστή να βλέπει
    μια εικόνα και να παράγει προτάσεις,
  • 13:18 - 13:22
    ο «γάμος» των μαζικών δεδομένων
    και των αλγόριθμων μηχανικής μάθησης
  • 13:22 - 13:25
    πρέπει να κάνει ένα ακόμα βήμα.
  • 13:25 - 13:29
    Τώρα, ο υπολογιστής
    πρέπει να μάθει από εικόνες
  • 13:29 - 13:32
    αλλά και από προτάσεις φυσικού λόγου
  • 13:32 - 13:34
    που έχουν παράγει άνθρωποι.
  • 13:35 - 13:39
    Ακριβώς όπως ο εγκέφαλος ενσωματώνει
    όραση και γλώσσα,
  • 13:39 - 13:44
    αναπτύξαμε ένα μοντέλο
    που συνδέει μέρη οπτικών αντικειμένων,
  • 13:44 - 13:46
    σαν οπτικά αποσπάσματα,
  • 13:46 - 13:50
    με λέξεις και φράσεις προτάσεων.
  • 13:50 - 13:53
    Πριν από περίπου τέσσερις μήνες,
  • 13:53 - 13:56
    συνθέσαμε όλα αυτά τα κομμάτια
  • 13:56 - 13:59
    και δημιουργήσαμε ένα από τα πρώτα μοντέλα
    υπολογιστικής όρασης
  • 13:59 - 14:03
    ικανό να παράγει φυσικές προτάσεις
  • 14:03 - 14:07
    την πρώτη φορά που βλέπει μια εικόνα.
  • 14:07 - 14:12
    Τώρα, είμαι έτοιμη να σας δείξω
    τι λέει ο υπολογιστής
  • 14:12 - 14:14
    όταν βλέπει την εικόνα
  • 14:14 - 14:17
    που είδε το κορίτσι στην αρχή της ομιλίας.
  • 14:19 - 14:23
    (Βίντεο) Υπολογιστής: Ένας άντρας στέκεται
    δίπλα σε έναν ελέφαντα.
  • 14:24 - 14:28
    Ένα μεγάλο αεροπλάνο βρίσκεται
    πάνω σε έναν αεροδιάδρομο.
  • 14:29 - 14:33
    Φέι-Φέι Λι: Φυσικά, δουλεύουμε σκληρά
    για να βελτιώσουμε τον αλγόριθμό μας,
  • 14:33 - 14:36
    και έχει να μάθει ακόμα πολλά.
  • 14:36 - 14:38
    (Χειροκρότημα)
  • 14:40 - 14:43
    Και ο υπολογιστής ακόμα κάνει λάθη.
  • 14:43 - 14:46
    (Βίντεο) Υπολογιστής: Μια γάτα είναι
    ξαπλωμένη στο κρεβάτι με μια κουβέρτα.
  • 14:46 - 14:49
    Φέι-Φέι Λι: Φυσικά, αφού έχει δει
    τόσες πολλές γάτες,
  • 14:49 - 14:52
    νομίζει ότι τα πάντα μοιάζουν με γάτες.
  • 14:53 - 14:56
    (Βίντεο) Υπολογιστής: Ένα αγόρι κρατάει
    ένα ρόπαλο του μπέιζμπολ.
  • 14:56 - 14:58
    (Γέλια)
  • 14:58 - 15:03
    ΦΦΛ: Ή αν δεν έχει δει οδοντόβουρτσες
    τις μπερδεύει με ρόπαλα του μπέιζμπολ.
  • 15:03 - 15:07
    (Βίντεο) Υπολογιστής: Ένας άντρας ιππεύει
    ένα άλογο στο δρόμο δίπλα σε ένα κτίριο.
  • 15:07 - 15:09
    (Γέλια)
  • 15:09 - 15:12
    Φέι-Φέι Λι: Δεν έχουμε μάθει στους
    υπολογιστές τα βασικά για τις τέχνες.
  • 15:14 - 15:16
    (Βίντεο) Υπολογιστής: Μια ζέβρα στέκεται
    σε ένα λιβάδι.
  • 15:16 - 15:20
    Φέι-Φέι Λι: Δεν έχει μάθει να εκτιμά
    την εκπληκτική ομορφιά της φύσης
  • 15:20 - 15:22
    όπως εσείς και εγώ.
  • 15:22 - 15:25
    Ήταν ένα μεγάλο ταξίδι.
  • 15:25 - 15:29
    Το να πάμε από τις ηλικίες 0 μέχρι 3
    ήταν δύσκολο.
  • 15:29 - 15:35
    Η πραγματική πρόκληση είναι να πάμε
    από τα 3 στα 13 και παραπέρα.
  • 15:35 - 15:39
    Θέλω να σας υπενθυμήσω με αυτή την εικόνα
    του παιδιού και της τούρτας.
  • 15:39 - 15:44
    Μέχρι τώρα, έχουμε διδάξει τον υπολογιστή
    να βλέπει αντικείμενα
  • 15:44 - 15:48
    και ακόμα να μπορεί να μας πει μια ιστορία
    όταν βλέπει μια εικόνα.
  • 15:48 - 15:52
    (Βίντεο) Υπολογιστής: Κάποιος κάθεται
    σε ένα τραπέζι με ένα κέικ.
  • 15:52 - 15:54
    ΦΦΛ: Άλλα υπάρχουν κι άλλα
    πράγματα σε αυτή την εικόνα
  • 15:54 - 15:56
    εκτός από τον άνθρωπο και το κέικ.
  • 15:56 - 16:01
    Αυτό που δεν βλέπει ο υπολογιστής είναι
    ότι αυτό είναι ένα ειδικό ιταλικό κέικ
  • 16:01 - 16:04
    που σερβίρεται μόνο κατά την περίοδο
    του Πάσχα.
  • 16:04 - 16:07
    Το αγόρι φοράει την αγαπημένη του μπλούζα
  • 16:07 - 16:11
    που του την έφερε ο πατέρας του
    από ένα ταξίδι στο Σίδνεϊ,
  • 16:11 - 16:15
    και εμείς μπορούμε να δούμε
    πόσο χαρούμενο είναι
  • 16:15 - 16:18
    και τι ακριβώς σκέφτεται αυτή τη στιγμή.
  • 16:19 - 16:22
    Αυτός είναι ο γιος μου, ο Λέο.
  • 16:22 - 16:25
    Στην αναζήτησή μου για οπτική νοημοσύνη
  • 16:25 - 16:27
    σκέφτομαι τον Λέο συνέχεια
  • 16:27 - 16:30
    και τον μελλοντικό κόσμο
    στον οποίο θα ζήσει.
  • 16:30 - 16:32
    Όταν οι μηχανές θα μπορούν να δουν,
  • 16:32 - 16:37
    οι γιατροί και νοσοκόμοι θα έχουν
    ένα ζευγάρι ακούραστα μάτια
  • 16:37 - 16:41
    να τους βοηθάνε να διαγνώσουν
    και να φροντίσουν τους ασθενείς τους.
  • 16:41 - 16:45
    Τα αυτοκίνητα θα οδηγούν πιο έξυπνα
    και πιο ασφαλή στο δρόμο.
  • 16:45 - 16:48
    Ρομπότ, όχι μόνο άνθρωποι,
  • 16:48 - 16:53
    θα μας βοηθάνε σε ζώνες καταστροφής
    να σώσουμε εγκλωβισμένους και τραυματίες.
  • 16:53 - 16:58
    Θα ανακαλύψουμε καινούργια είδη,
    καλύτερα υλικά,
  • 16:58 - 17:02
    και θα εξερευνήσουμε αόρατα σύνορα
    με τη βοήθεια των μηχανών.
  • 17:03 - 17:07
    Σιγά-σιγά δίνουμε όραση στις μηχανές.
  • 17:07 - 17:10
    Πρώτα, θα τους μάθουμε να βλέπουν.
  • 17:10 - 17:13
    Μετά, θα μας βοηθήσουν να δούμε καλύτερα.
  • 17:13 - 17:17
    Για πρώτη φορά, τα ανθρώπινα μάτια
    δεν θα είναι τα μόνα
  • 17:17 - 17:20
    που μελετούν και εξερευνούν τον κόσμο.
  • 17:20 - 17:23
    Δεν θα χρησιμοποιούμε τις μηχανές
    μόνο για τη νοημοσύνη τους,
  • 17:23 - 17:30
    θα συνεργαζόμαστε με τρόπους
    που δεν μπορούμε να φανταστούμε.
  • 17:30 - 17:32
    Αυτός είναι ο στόχος μου:
  • 17:32 - 17:34
    να δώσω στους υπολογιστές οπτική νοημοσύνη
  • 17:34 - 17:40
    και να φτιάξω ένα καλύτερο μέλλον
    για τον Λέο και για τον κόσμο.
  • 17:40 - 17:41
    Σας ευχαριστώ.
  • 17:41 - 17:43
    (Χειροκρότημα)
Title:
Πώς μαθαίνουμε στους υπολογιστές να καταλαβαίνουν εικόνες
Speaker:
Φέι-Φέι Λι
Description:

Όταν ένα πολύ μικρό παιδί κοιτάζει μια εικόνα, μπορεί να αναγνωρίσει απλά αντικείμενα: «γάτα», «βιβλίο», «καρέκλα». Τώρα, οι υπολογιστές γίνονται αρκετά ευφυείς ώστε να κάνουν το ίδιο. Τι έπεται; Σε αυτή τη συναρπαστική ομιλία, η ειδικός στον τομέα της υπολογιστικής όρασης Φέι-Φέι Λι, περιγράφει την «τελευταία λέξη» της τεχνολογίας -- συμπεριλαμβανομένης της βάσης δεδομένων 15 εκατομμυρίων φωτογραφιών που δημιούργησε η ομάδα της για να διδάξουν τους υπολογιστές να καταλαβαίνουν εικόνες -- και το όραμα για το μέλλον.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
17:58

Greek subtitles

Revisions