Πώς μαθαίνουμε στους υπολογιστές να καταλαβαίνουν εικόνες
-
0:03 - 0:06Θέλω να σας δείξω κάτι.
-
0:06 - 0:10(Βίντεο) Κορίτσι:
ΟΚ, μια γάτα που κάθεται στο κρεβάτι. -
0:10 - 0:14Το αγόρι χαϊδεύει τον ελέφαντα.
-
0:14 - 0:19Οι άνθρωποι ανεβαίνουν στο αεροπλάνο.
-
0:19 - 0:21Είναι ένα μεγάλο αεροπλάνο.
-
0:21 - 0:24Φέι Φέι Λι:
Αυτό είναι ένα τρίχρονο κορίτσι -
0:24 - 0:27που περιγράφει τι βλέπει σε μια σειρά
από φωτογραφίες. -
0:27 - 0:30Μπορεί να έχει να μάθει
πολλά ακόμα για τον κόσμο, -
0:30 - 0:35αλλά είναι ήδη ειδική
σε μια πολύ σημαντική εργασία: -
0:35 - 0:38να καταλαβαίνει τι βλέπει.
-
0:38 - 0:42Η κοινωνία μας τεχνολογικά
είναι πιο προηγμένη από ποτέ. -
0:42 - 0:46Στέλνουμε ανθρώπους στο φεγγάρι,
έχουμε τηλέφωνα που μας μιλάνε -
0:46 - 0:51ή ρυθμίζουμε ραδιοφωνικούς σταθμούς
να παίζουν μόνο τη μουσική που μας αρέσει. -
0:51 - 0:55Κι όμως, οι πιο προηγμένες μηχανές
και υπολογιστές μας -
0:55 - 0:58δυσκολεύονται ακόμα σε αυτή την εργασία.
-
0:58 - 1:01Έτσι λοιπόν, είμαι εδώ σήμερα
για να σας δώσω μια αναφορά προόδου -
1:01 - 1:05σχετικά με τις πρόσφατες εξελίξεις
στον τομέα της μηχανικής όρασης, -
1:05 - 1:10μια από τις πιο σημαντικές
και πιθανότατα επαναστατικές -
1:10 - 1:12τεχνολογίες της πληροφορικής.
-
1:13 - 1:17Ναι, έχουμε πρωτότυπα αυτοκίνητα
που οδηγούν αυτόνομα, -
1:17 - 1:21αλλά χωρίς «έξυπνη» όραση
δεν μπορούν να καταλάβουν τη διαφορά -
1:21 - 1:25μεταξύ μιας τσαλακωμένης σακούλας
στο δρόμο, που μπορούν να «πατήσουν», -
1:25 - 1:29και μιας πέτρας με το ίδιο μέγεθος,
που πρέπει να αποφύγουν. -
1:29 - 1:33Έχουμε εκπληκτικές κάμερες
με ανάλυση μεγαπίξελ, -
1:33 - 1:36αλλά δεν έχουμε δώσει όραση στους τυφλούς.
-
1:36 - 1:40Τηλεκατευθυνόμενα αεροσκάφη μπορούν
να πετάξουν πάνω από τεράστια εδάφη -
1:40 - 1:42αλλά δεν έχουν αρκετή τεχνολογία όρασης
-
1:42 - 1:45για να μας βοηθήσουν να παρακολουθήσουμε
τις αλλαγές στα τροπικά δάση. -
1:45 - 1:48Κάμερες ασφαλείας είναι παντού,
-
1:48 - 1:53αλλά δεν μας προειδοποιούν
όταν ένα παιδί πνίγεται στην πισίνα. -
1:54 - 2:00Φωτογραφίες και βίντεο γίνονται ολοένα
πιο σημαντικό κομμάτι της παγκόσμιας ζωής. -
2:00 - 2:04Δημιουργούνται με τέτοιο ρυθμό
που είναι πέρα απ' ότι ένας άνθρωπος -
2:04 - 2:07ή μια ομάδα ανθρώπων μπορούν να δουν,
-
2:07 - 2:11και εσείς και εγώ συνεισφέρουμε σε αυτό,
εδώ στο TED. -
2:11 - 2:16Κι όμως, το πιο προηγμένο λογισμικό μας
δυσκολεύεται ακόμα να καταλάβει -
2:16 - 2:20και να διαχειριστεί αυτές τις τεράστιες
ποσότητες περιεχομένου. -
2:20 - 2:24Με άλλα λόγια, συλλογικά σαν κοινωνία,
-
2:24 - 2:27είμαστε βασικά τυφλοί,
-
2:27 - 2:30γιατί οι πιο «έξυπνες» μηχανές μας
είναι ακόμα τυφλές. -
2:32 - 2:34«Γιατί είναι τόσο δύσκολο;»
μπορεί να ρωτήσετε. -
2:34 - 2:37Οι κάμερες μπορούν να τραβήξουν
φωτογραφίες όπως αυτή -
2:37 - 2:41μετατρέποντας το φως
σε δισδιάστατους πίνακες αριθμών -
2:41 - 2:43που λέγονται πίξελ,
-
2:43 - 2:45αλλά αυτοί είναι άψυχοι αριθμοί.
-
2:45 - 2:48Δεν έχουν νόημα από μόνοι τους.
-
2:48 - 2:52Όπως το να αντιλαμβάνεσαι έναν ήχο
δεν είναι σαν να τον καταλαβαίνεις, -
2:52 - 2:57το να βγάζεις φωτογραφίες
δεν είναι το ίδιο με το να βλέπεις, -
2:57 - 3:00και λέγοντας «βλέπω»
εννοούμε «καταλαβαίνω». -
3:01 - 3:07Πράγματι, η Φύση χρειάστηκε
540 εκατομμύρια χρόνια σκληρής δουλειάς -
3:07 - 3:09για να καταφέρει αυτό το έργο,
-
3:09 - 3:11και η περισσότερη προσπάθεια
-
3:11 - 3:17αφιερώθηκε στην ανάπτυξη του οπτικού
μηχανισμού του εγκεφάλου μας -
3:17 - 3:19και όχι στα ίδια τα μάτια.
-
3:19 - 3:22Η όραση λοιπόν ξεκινάει με τα μάτια,
-
3:22 - 3:26αλλά πραγματικά λαμβάνει χώρα
στον εγκέφαλο. -
3:26 - 3:31Εδώ και 15 χρόνια, από το διδακτορικό μου
στο Πανεπιστήμιο της Καλιφόρνια -
3:31 - 3:34και ύστερα ως επικεφαλής
του κέντρου όρασης του Στάνφορντ, -
3:34 - 3:39δουλεύω με τους μέντορες,
συνεργάτες και φοιτητές μου -
3:39 - 3:41προσπαθώντας να μάθω
τους υπολογιστές να βλέπουν. -
3:42 - 3:46Το ερευνητικό μας πεδίο λέγεται
υπολογιστική όραση και μηχανική μάθηση. -
3:46 - 3:50Είναι κομμάτι του γενικότερου πεδίου
της τεχνητής νοημοσύνης. -
3:51 - 3:56Τελικά, θέλουμε να διδάξουμε τις μηχανές
να δουν ακριβώς όπως εμείς: -
3:56 - 4:02να ονομάζουν αντικείμενα, να αναγνωρίζουν
ανθρώπους και αντικείμενα στον χώρο, -
4:02 - 4:07να καταλαβαίνουν σχέσεις, συναισθήματα,
δράσεις και προθέσεις. -
4:07 - 4:14Εσείς και εγώ συνυφαίνουμε ολόκληρες
ιστορίες ανθρώπων, τόπων και πραγμάτων -
4:14 - 4:16τη στιγμή που τα πρωτοβλέπουμε.
-
4:17 - 4:23Το πρώτο βήμα προς αυτό το στόχο είναι
να μάθουμε τον υπολογιστή να δει πράγματα, -
4:23 - 4:26τα δομικά στοιχεία του οπτικού μας κόσμου.
-
4:26 - 4:30Στην πιο απλή της εκδοχή, φανταστείτε
την εκπαιδευτική διαδικασία ως εξής: -
4:30 - 4:33δείχνουμε στον υπολογιστή
μερικές εικόνες εκμάθησης -
4:33 - 4:37ενός συγκεκριμένου αντικειμένου,
ας πούμε γάτες, -
4:37 - 4:41και σχεδιάζουμε ένα μοντέλο
που μαθαίνει από αυτές τις εικόνες. -
4:41 - 4:43Πόσο δύσκολο μπορεί να είναι;
-
4:43 - 4:47Στο κάτω κάτω, μια γάτα είναι απλά
μια συλλογή από σχήματα και χρώματα, -
4:47 - 4:52και αυτό ακριβώς κάναμε τα πρώτα χρόνια
της μοντελοποίησης αντικειμένων. -
4:52 - 4:55Λέγαμε στον αλγόριθμο του υπολογιστή,
σε μαθηματική γλώσσα, -
4:55 - 4:59ότι η γάτα έχει ένα στρογγυλό πρόσωπο,
ένα παχουλό σώμα, -
4:59 - 5:01δύο μυτερά αυτιά και μια μακριά ουρά,
-
5:01 - 5:02και αυτό έμοιαζε μια χαρά.
-
5:03 - 5:05Αλλά αυτή η γάτα;
-
5:05 - 5:06(Γέλια)
-
5:06 - 5:08Είναι κουλουριασμένη.
-
5:08 - 5:12Τώρα πρέπει να προσθέσουμε άλλο ένα σχήμα
και άλλη μια άποψη στο μοντέλο μας. -
5:12 - 5:14Κι αν η γάτα κρύβεται;
-
5:15 - 5:18Και αυτές οι χαζούλες γάτες;
-
5:19 - 5:22Βλέπετε το πρόβλημα.
-
5:22 - 5:25Ακόμα και κάτι τόσο απλό
όσο ένα κατοικίδιο -
5:25 - 5:29μπορεί να παρουσιάσει έναν άπειρο αριθμό
παραλλαγών στο μοντέλο, -
5:29 - 5:32και αυτό είναι μόνο ένα αντικείμενο.
-
5:33 - 5:35Πριν από οκτώ χρόνια,
-
5:35 - 5:40μια πολύ απλή και βαθιά παρατήρηση
άλλαξε τον τρόπο σκέψης μου. -
5:41 - 5:44Κανένας δεν λέει σε ένα παιδί πώς να δει,
-
5:44 - 5:46κυριώς τα πρώτα χρόνια.
-
5:46 - 5:51Μαθαίνουν μέσα από εμπειρίες και
παραδείγματα του πραγματικού κόσμου. -
5:51 - 5:54Αν σκεφτούμε τα μάτια του παιδιού
-
5:54 - 5:57σαν ένα ζευγάρι από βιολογικές κάμερες,
-
5:57 - 6:01βγάζουν περίπου μία φωτογραφία
κάθε 200 χιλιοστά του δευτερολέπτου, -
6:01 - 6:04που είναι ο μέσος χρόνος που χρειάζεται
για μια κίνηση του ματιού. -
6:04 - 6:10Έτσι, ένα παιδί τριών ετών θα έχει δει
εκατοντάδες εκατομμύρια φωτογραφίες -
6:10 - 6:11του πραγματικού κόσμου.
-
6:11 - 6:14Αυτά είναι πολλά παραδείγματα εκμάθησης.
-
6:14 - 6:20Αντί λοιπόν να εστιάζουμε μόνο σε
ολοένα και καλύτερους αλγόριθμους, -
6:20 - 6:26η ιδέα μου ήταν να δώσω στους αλγόριθμους
το είδος των εκπαιδευτικών δεδομένων -
6:26 - 6:29που ένα παιδί αποκτά μέσω εμπειρίας
-
6:29 - 6:33τόσο σε ποσότητα όσο και σε ποιότητα.
-
6:33 - 6:35Όταν το καταλάβαμε
-
6:35 - 6:38ξέραμε ότι έπρεπε να συλλέξουμε
ένα σετ δεδομένων -
6:38 - 6:42που περιείχε πολύ περισσότερες φωτογραφίες
από όσες είχαμε προηγουμένως, -
6:42 - 6:45ίσως χιλιάδες φορές περισσότερες,
-
6:45 - 6:49και μαζί με τον καθηγητή Κάι Λι
στο Πανεπιστήμιο του Πρίνστον -
6:49 - 6:53ξεκινήσαμε το πρόγραμμα ImageNet το 2007.
-
6:54 - 6:57Ευτυχώς, δε χρειάστηκε
να φορέσουμε κάμερες στο κεφάλι μας -
6:57 - 6:59και να περιμένουμε πολλά χρόνια.
-
6:59 - 7:01Πήγαμε στο Διαδίκτυο,
-
7:01 - 7:05το μεγαλύτερο θησαυροφυλάκιο εικόνων
που έχουν ποτέ κατασκευάσει οι άνθρωποι. -
7:05 - 7:08«Κατεβάσαμε» σχεδόν
ένα δισεκατομμύριο εικόνες -
7:08 - 7:14και χρησιμοποιήσαμε τεχνολογίες «υπηρεσιών
πλήθους» όπως η πλατφόρμα της Άμαζον -
7:14 - 7:16για να μας βοηθήσουν να ονομάσουμε
αυτές τις εικόνες. -
7:16 - 7:21Στην αιχμή του, το ImageNet ήταν
ένας από τους μεγαλύτερους εργοδότες -
7:21 - 7:24της πλατφόρμας της Άμαζον:
-
7:24 - 7:28όλοι μαζί, σχεδόν 50.000 εργαζόμενοι
-
7:28 - 7:32από 167 χώρες από όλο τον κόσμο
-
7:32 - 7:36μας βοήθησαν να καθαρίσουμε,
να κατατάξουμε και να ονομάσουμε -
7:36 - 7:39σχεδόν ένα δισεκατομμύριο
υποψήφιες φωτογραφίες. -
7:40 - 7:43Τόση προσπάθεια χρειάστηκε
-
7:43 - 7:47για να καταγράψουμε
ένα ψήγμα των παραστάσεων -
7:47 - 7:51που προσλαμβάνει το μυαλό ενός παιδιού
στα πρώτα χρόνια της ανάπτυξης. -
7:52 - 7:56Εκ των υστέρων, η ιδέα της χρήσης
μαζικών δεδομένων -
7:56 - 8:01για την εκπαίδευση υπολογιστών
μπορεί να μοιάζει προφανής, -
8:01 - 8:05αλλά το 2007 δεν ήταν τόσο προφανής.
-
8:05 - 8:09Ήμασταν μόνοι μας σε αυτό το ταξίδι
για αρκετό καιρό. -
8:09 - 8:14Μερικοί συνάδελφοι με συμβούλευσαν να κάνω
κάτι πιο χρήσιμο για να πάρω μονιμότητα, -
8:14 - 8:18και είχαμε διαρκώς
προβλήματα χρηματοδότησης. -
8:18 - 8:21Μια φορά, είπα για πλάκα
στους μεταπτυχιακούς φοιτητές μου -
8:21 - 8:24ότι θα άνοιγα ξανά το καθαριστήριό μου
για να χρηματοδοτήσω το ImageNet. -
8:24 - 8:29Στο κάτω κάτω,
έτσι χρηματοδότησα τις σπουδές μου. -
8:29 - 8:31Έτσι λοιπόν συνεχίσαμε.
-
8:31 - 8:35Το 2009, το ΙmageNet παρέδωσε
-
8:35 - 8:39μια βάση δεδομένων
με 15 εκατομμύρια φωτογραφίες -
8:39 - 8:44που ανήκαν σε 22.000 κατηγορίες
αντικειμένων και πραγμάτων -
8:44 - 8:47οργανωμένες
με καθημερινές αγγλικές λέξεις. -
8:47 - 8:50Τόσο σε ποσότητα όσο και σε ποιότητα,
-
8:50 - 8:53ήταν μια ανεπανάληπτη κλίμακα.
-
8:54 - 8:56Για παράδειγμα, όσον αφορά τις γάτες,
-
8:56 - 8:59έχουμε περισσότερες από 62.000 γάτες
-
8:59 - 9:03με διαφορετικές εμφανίσεις και πόζες
-
9:03 - 9:08και όλα τα είδη, κατοικίδιες και άγριες.
-
9:08 - 9:12Ήμασταν πανευτυχείς
που ολοκληρώσαμε το ImageNet, -
9:12 - 9:16και θέλαμε να επωφεληθεί
όλος ο ερευνητικός κόσμος, -
9:16 - 9:20κι έτσι, σύμφωνα με το πνεύμα του TED,
διαθέσαμε ολόκληρη τη βάση δεδομένων -
9:20 - 9:23στην παγκόσμια ερευνητική κοινότητα,
δωρεάν. -
9:24 - 9:29(Χειροκρότημα)
-
9:29 - 9:34Τώρα που έχουμε τα δεδομένα για να
καλλιεργήσουμε το υπολογιστικό μας μυαλό, -
9:34 - 9:38είμαστε έτοιμοι να ξαναγυρίσουμε
στους αλγόριθμους. -
9:38 - 9:43Όπως αποδείχθηκε, ο πλούτος πληροφορίας
που παρέχεται από το ImageNet -
9:43 - 9:48ήταν το τέλειο ταίρι για μια συγκεκριμένη
κλάση αλγόριθμων μηχανικής μάθησης -
9:48 - 9:50που ονομάζονται συνελικτικά
νευρωνικά δίκτυα, -
9:50 - 9:55που αναπτύχθηκε απ' τους Τζεφ Χίντον,
Κουνιχίκο Φουκοσίμα και Γιάν ΛεΚούν -
9:55 - 9:59στις δεκαετίες του '70 και το '80.
-
9:59 - 10:05Όπως ο εγκέφαλος αποτελείται από
δισεκατομμύρια διασυνδεδεμένους νευρώνες, -
10:05 - 10:08η βασική λειτουργική ενότητα
σε ένα νευρωνικό δίκτυο -
10:08 - 10:11είναι ένας κόμβος-νευρώνας.
-
10:11 - 10:13Δέχεται σήματα εισόδου από άλλους κόμβους
-
10:13 - 10:16και στέλνει σήματα εξόδου σε άλλους.
-
10:16 - 10:21Επιπλέον, αυτοί οι εκατοντάδες χιλιάδες
ή εκατομμύρια κόμβοι -
10:21 - 10:24είναι οργανωμένοι σε ιεραρχικά στρώμματα,
-
10:24 - 10:27επίσης παρόμοια με αυτά του εγκεφάλου.
-
10:27 - 10:30Ένα τυπικό νευρωνικό δίκτυο
που χρησιμοποιούμε για να εκπαιδεύσουμε -
10:30 - 10:35το μοντέλο αναγνώρισης αντικειμένων,
έχει 24 εκατομμύρια κόμβους, -
10:35 - 10:37140 εκατομμύρια παραμέτρους
-
10:37 - 10:40και 15 δισεκατομμύρια συνδέσεις.
-
10:40 - 10:43Είναι ένα τεράστιο μοντέλο.
-
10:43 - 10:47Ωθούμενο από τα μαζικά δεδομένα
του ImageNet -
10:47 - 10:52και από σύγχρονους μικροεπεξεργαστές
για την εκμάθηση αυτού του μοντέλου, -
10:52 - 10:55το συνελικτικό νευρωνικό δίκτυο
-
10:55 - 10:58«άνθισε» με τρόπο που κανείς δεν περίμενε.
-
10:58 - 11:01Έγινε η νικήτρια αρχιτεκτονική
-
11:01 - 11:06που γέννησε συναρπαστικά αποτελέσματα
στην αναγνώριση αντικειμένων. -
11:06 - 11:09Αυτός είναι ένας υπολογιστής που μας λέει
-
11:09 - 11:11ότι αυτή η εικόνα περιέχει μια γάτα
-
11:11 - 11:13και πού βρίσκεται αυτή η γάτα.
-
11:13 - 11:15Υπάρχουν κι άλλα πράγματα
εκτός από γάτες, -
11:15 - 11:18εδώ ο αλγόριθμος μας λέει
-
11:18 - 11:21ότι η εικόνα περιέχει ένα αγόρι
και ένα αρκουδάκι, -
11:21 - 11:25έναν σκύλο, έναν άνθρωπο
και έναν μικρό χαρταετό στο βάθος, -
11:25 - 11:28ή μια εικόνα με πολλά πράγματα
-
11:28 - 11:33όπως ένας άντρας, ένα σκέιτμπορντ,
κάγκελα, μια κολώνα και λοιπά. -
11:33 - 11:39Μερικές φορές, όταν ο υπολογιστής δεν
είναι και τόσο σίγουρος για το τι βλέπει, -
11:39 - 11:42του μάθαμε να είναι αρκετά έξυπνος
-
11:42 - 11:46ώστε να μας δίνει μια ασφαλή απάντηση
αντί να δεσμευτεί σε κάτι συγκεκριμένο, -
11:46 - 11:48όπως ακριβώς θα κάναμε και εμείς,
-
11:48 - 11:53και άλλες φορές ο αλγόριθμος
είναι τόσο ικανός στο να μας λέει -
11:53 - 11:55ακριβώς τι είναι το κάθε αντικείμενο,
-
11:55 - 11:59όπως τη μάρκα, το μοντέλο
και τη χρονιά των αυτοκινήτων. -
11:59 - 12:04Εφαρμόσαμε αυτόν τον αλγόριθμο σε
εκατομμύρια εικόνες του Google Street View -
12:04 - 12:07σε εκατοντάδες πόλεις της Αμερικής,
-
12:07 - 12:10και μάθαμε κάτι πολύ ενδιαφέρον:
-
12:10 - 12:14πρώτον, επιβεβαιώσαμε
κάτι που ήταν κοινώς γνωστό -
12:14 - 12:17ότι οι τιμές αυτοκινήτων
συσχετίζονται πολύ καλά -
12:17 - 12:19με το εισόδημα των νοικοκυριών.
-
12:19 - 12:24Αλλά αναπάντεχα, οι τιμές των αυτοκινήτων
επίσης συσχετίζονται καλά -
12:24 - 12:26με την εγκληματικότητα στις πόλεις,
-
12:27 - 12:31ή με την κατανομή ψήφων
ανά ταχυδρομικό κώδικα. -
12:32 - 12:34Μισό λεπτό. Αυτό είναι;
-
12:34 - 12:39Ο υπολογιστής έφτασε ή ξεπέρασε
τις ανθρώπινες δυνατότητες; -
12:39 - 12:42Όχι τόσο γρήγορα.
-
12:42 - 12:46Μέχρι τώρα, έχουμε μάθει στον υπολογιστή
μόνο να βλέπει αντικείμενα. -
12:46 - 12:51Είναι σαν ένα μικρό παιδί που μαθαίνει
να προφέρει μερικά ουσιαστικά. -
12:51 - 12:54Είναι ένα απίστευτο επίτευγμα,
-
12:54 - 12:56αλλά είναι μόνο το πρώτο βήμα.
-
12:56 - 13:00Σύντομα, θα έρθουμε σε ένα άλλο ορόσημο
της ανάπτυξης, -
13:00 - 13:03και τα παιδιά αρχίζουν
να επικοινωνούν με προτάσεις. -
13:03 - 13:08Αντί να πει ότι στην εικόνα είναι μια γάτα
-
13:08 - 13:13ακούσατε ήδη το κοριτσάκι να μας λέει
ότι η γάτα είναι ξαπλωμένη στο κρεβάτι. -
13:13 - 13:18Για να μάθουμε τον υπολογιστή να βλέπει
μια εικόνα και να παράγει προτάσεις, -
13:18 - 13:22ο «γάμος» των μαζικών δεδομένων
και των αλγόριθμων μηχανικής μάθησης -
13:22 - 13:25πρέπει να κάνει ένα ακόμα βήμα.
-
13:25 - 13:29Τώρα, ο υπολογιστής
πρέπει να μάθει από εικόνες -
13:29 - 13:32αλλά και από προτάσεις φυσικού λόγου
-
13:32 - 13:34που έχουν παράγει άνθρωποι.
-
13:35 - 13:39Ακριβώς όπως ο εγκέφαλος ενσωματώνει
όραση και γλώσσα, -
13:39 - 13:44αναπτύξαμε ένα μοντέλο
που συνδέει μέρη οπτικών αντικειμένων, -
13:44 - 13:46σαν οπτικά αποσπάσματα,
-
13:46 - 13:50με λέξεις και φράσεις προτάσεων.
-
13:50 - 13:53Πριν από περίπου τέσσερις μήνες,
-
13:53 - 13:56συνθέσαμε όλα αυτά τα κομμάτια
-
13:56 - 13:59και δημιουργήσαμε ένα από τα πρώτα μοντέλα
υπολογιστικής όρασης -
13:59 - 14:03ικανό να παράγει φυσικές προτάσεις
-
14:03 - 14:07την πρώτη φορά που βλέπει μια εικόνα.
-
14:07 - 14:12Τώρα, είμαι έτοιμη να σας δείξω
τι λέει ο υπολογιστής -
14:12 - 14:14όταν βλέπει την εικόνα
-
14:14 - 14:17που είδε το κορίτσι στην αρχή της ομιλίας.
-
14:19 - 14:23(Βίντεο) Υπολογιστής: Ένας άντρας στέκεται
δίπλα σε έναν ελέφαντα. -
14:24 - 14:28Ένα μεγάλο αεροπλάνο βρίσκεται
πάνω σε έναν αεροδιάδρομο. -
14:29 - 14:33Φέι-Φέι Λι: Φυσικά, δουλεύουμε σκληρά
για να βελτιώσουμε τον αλγόριθμό μας, -
14:33 - 14:36και έχει να μάθει ακόμα πολλά.
-
14:36 - 14:38(Χειροκρότημα)
-
14:40 - 14:43Και ο υπολογιστής ακόμα κάνει λάθη.
-
14:43 - 14:46(Βίντεο) Υπολογιστής: Μια γάτα είναι
ξαπλωμένη στο κρεβάτι με μια κουβέρτα. -
14:46 - 14:49Φέι-Φέι Λι: Φυσικά, αφού έχει δει
τόσες πολλές γάτες, -
14:49 - 14:52νομίζει ότι τα πάντα μοιάζουν με γάτες.
-
14:53 - 14:56(Βίντεο) Υπολογιστής: Ένα αγόρι κρατάει
ένα ρόπαλο του μπέιζμπολ. -
14:56 - 14:58(Γέλια)
-
14:58 - 15:03ΦΦΛ: Ή αν δεν έχει δει οδοντόβουρτσες
τις μπερδεύει με ρόπαλα του μπέιζμπολ. -
15:03 - 15:07(Βίντεο) Υπολογιστής: Ένας άντρας ιππεύει
ένα άλογο στο δρόμο δίπλα σε ένα κτίριο. -
15:07 - 15:09(Γέλια)
-
15:09 - 15:12Φέι-Φέι Λι: Δεν έχουμε μάθει στους
υπολογιστές τα βασικά για τις τέχνες. -
15:14 - 15:16(Βίντεο) Υπολογιστής: Μια ζέβρα στέκεται
σε ένα λιβάδι. -
15:16 - 15:20Φέι-Φέι Λι: Δεν έχει μάθει να εκτιμά
την εκπληκτική ομορφιά της φύσης -
15:20 - 15:22όπως εσείς και εγώ.
-
15:22 - 15:25Ήταν ένα μεγάλο ταξίδι.
-
15:25 - 15:29Το να πάμε από τις ηλικίες 0 μέχρι 3
ήταν δύσκολο. -
15:29 - 15:35Η πραγματική πρόκληση είναι να πάμε
από τα 3 στα 13 και παραπέρα. -
15:35 - 15:39Θέλω να σας υπενθυμήσω με αυτή την εικόνα
του παιδιού και της τούρτας. -
15:39 - 15:44Μέχρι τώρα, έχουμε διδάξει τον υπολογιστή
να βλέπει αντικείμενα -
15:44 - 15:48και ακόμα να μπορεί να μας πει μια ιστορία
όταν βλέπει μια εικόνα. -
15:48 - 15:52(Βίντεο) Υπολογιστής: Κάποιος κάθεται
σε ένα τραπέζι με ένα κέικ. -
15:52 - 15:54ΦΦΛ: Άλλα υπάρχουν κι άλλα
πράγματα σε αυτή την εικόνα -
15:54 - 15:56εκτός από τον άνθρωπο και το κέικ.
-
15:56 - 16:01Αυτό που δεν βλέπει ο υπολογιστής είναι
ότι αυτό είναι ένα ειδικό ιταλικό κέικ -
16:01 - 16:04που σερβίρεται μόνο κατά την περίοδο
του Πάσχα. -
16:04 - 16:07Το αγόρι φοράει την αγαπημένη του μπλούζα
-
16:07 - 16:11που του την έφερε ο πατέρας του
από ένα ταξίδι στο Σίδνεϊ, -
16:11 - 16:15και εμείς μπορούμε να δούμε
πόσο χαρούμενο είναι -
16:15 - 16:18και τι ακριβώς σκέφτεται αυτή τη στιγμή.
-
16:19 - 16:22Αυτός είναι ο γιος μου, ο Λέο.
-
16:22 - 16:25Στην αναζήτησή μου για οπτική νοημοσύνη
-
16:25 - 16:27σκέφτομαι τον Λέο συνέχεια
-
16:27 - 16:30και τον μελλοντικό κόσμο
στον οποίο θα ζήσει. -
16:30 - 16:32Όταν οι μηχανές θα μπορούν να δουν,
-
16:32 - 16:37οι γιατροί και νοσοκόμοι θα έχουν
ένα ζευγάρι ακούραστα μάτια -
16:37 - 16:41να τους βοηθάνε να διαγνώσουν
και να φροντίσουν τους ασθενείς τους. -
16:41 - 16:45Τα αυτοκίνητα θα οδηγούν πιο έξυπνα
και πιο ασφαλή στο δρόμο. -
16:45 - 16:48Ρομπότ, όχι μόνο άνθρωποι,
-
16:48 - 16:53θα μας βοηθάνε σε ζώνες καταστροφής
να σώσουμε εγκλωβισμένους και τραυματίες. -
16:53 - 16:58Θα ανακαλύψουμε καινούργια είδη,
καλύτερα υλικά, -
16:58 - 17:02και θα εξερευνήσουμε αόρατα σύνορα
με τη βοήθεια των μηχανών. -
17:03 - 17:07Σιγά-σιγά δίνουμε όραση στις μηχανές.
-
17:07 - 17:10Πρώτα, θα τους μάθουμε να βλέπουν.
-
17:10 - 17:13Μετά, θα μας βοηθήσουν να δούμε καλύτερα.
-
17:13 - 17:17Για πρώτη φορά, τα ανθρώπινα μάτια
δεν θα είναι τα μόνα -
17:17 - 17:20που μελετούν και εξερευνούν τον κόσμο.
-
17:20 - 17:23Δεν θα χρησιμοποιούμε τις μηχανές
μόνο για τη νοημοσύνη τους, -
17:23 - 17:30θα συνεργαζόμαστε με τρόπους
που δεν μπορούμε να φανταστούμε. -
17:30 - 17:32Αυτός είναι ο στόχος μου:
-
17:32 - 17:34να δώσω στους υπολογιστές οπτική νοημοσύνη
-
17:34 - 17:40και να φτιάξω ένα καλύτερο μέλλον
για τον Λέο και για τον κόσμο. -
17:40 - 17:41Σας ευχαριστώ.
-
17:41 - 17:43(Χειροκρότημα)
- Title:
- Πώς μαθαίνουμε στους υπολογιστές να καταλαβαίνουν εικόνες
- Speaker:
- Φέι-Φέι Λι
- Description:
-
Όταν ένα πολύ μικρό παιδί κοιτάζει μια εικόνα, μπορεί να αναγνωρίσει απλά αντικείμενα: «γάτα», «βιβλίο», «καρέκλα». Τώρα, οι υπολογιστές γίνονται αρκετά ευφυείς ώστε να κάνουν το ίδιο. Τι έπεται; Σε αυτή τη συναρπαστική ομιλία, η ειδικός στον τομέα της υπολογιστικής όρασης Φέι-Φέι Λι, περιγράφει την «τελευταία λέξη» της τεχνολογίας -- συμπεριλαμβανομένης της βάσης δεδομένων 15 εκατομμυρίων φωτογραφιών που δημιούργησε η ομάδα της για να διδάξουν τους υπολογιστές να καταλαβαίνουν εικόνες -- και το όραμα για το μέλλον.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 17:58
Lucas Kaimaras approved Greek subtitles for How we're teaching computers to understand pictures | ||
Lucas Kaimaras edited Greek subtitles for How we're teaching computers to understand pictures | ||
Lucas Kaimaras edited Greek subtitles for How we're teaching computers to understand pictures | ||
Lucas Kaimaras edited Greek subtitles for How we're teaching computers to understand pictures | ||
Lucas Kaimaras edited Greek subtitles for How we're teaching computers to understand pictures | ||
Lucas Kaimaras edited Greek subtitles for How we're teaching computers to understand pictures | ||
Mary Keramida edited Greek subtitles for How we're teaching computers to understand pictures | ||
Mary Keramida edited Greek subtitles for How we're teaching computers to understand pictures |