Wie wir Computern das Sehen beibringen

0:03 - 0:05

Ich möchte Ihnen etwas zeigen.
0:06 - 0:10

(Video) Mädchen: Okay. Das ist
eine Katze, die auf einem Bett sitzt.
0:10 - 0:13

Der Junge streichelt den Elefanten.
0:14 - 0:17

Das sind Menschen,
die ein Flugzeug besteigen.
0:18 - 0:20

Das ist ein großes Flugzeug.
0:21 - 0:24

Fei-Fei Li: Das ist ein dreijähiges Kind,
0:24 - 0:27

das beschreibt, was es
auf einigen Fotos sieht.
0:27 - 0:31

Sie muss wahrscheinlich
noch viel über diese Welt lernen,
0:31 - 0:35

aber sie ist bereits Expertin hinsichtlich
einer sehr wichtigen Aufgabe:
0:35 - 0:38

Sie versteht, was sie sieht.
0:38 - 0:42

Unsere Gesellschaft ist technologisch
fortgeschrittener als je zuvor.
0:42 - 0:47

Wir schicken Menschen zum Mond,
stellen Telefone her, die mit uns reden
0:47 - 0:51

oder stellen Radiosender auf unseren
individuellen Musikgeschmack ein.
0:51 - 0:55

Dennoch haben selbst unsere
fortschrittlichsten Maschinen und Computer
0:55 - 0:58

immer noch Probleme mit dieser Aufgabe.
0:58 - 1:01

Ich werde Ihnen heute
von den Fortschritten erzählen,
1:01 - 1:05

die wir in unserem Forschungsgebiet
der Computer Vision gemacht haben,
1:05 - 1:10

einer der bahnbrechendsten und vielleicht
revolutionärsten Technologien
1:10 - 1:13

in der Informatik.
1:13 - 1:17

Wir haben Autos entwickelt,
die eigenständig fahren können,
1:17 - 1:21

aber ohne intelligentes Sehvermögen
können sie nicht unterscheiden,
1:21 - 1:25

ob auf der Straße eine zerknitterte
Papiertüte liegt, die man überfahren kann,
1:25 - 1:29

oder ein Stein von gleicher Größe,
dem man ausgeweichen muss.
1:29 - 1:33

Wir haben sagenhaft
hochauflösende Kameras entwickelt,
1:33 - 1:36

aber wir können Blinde nicht
wieder sehen lassen.
1:36 - 1:40

Drohnen können über riesige
Distanzen fliegen,
1:40 - 1:42

besitzen aber nicht
die nötige Sichttechnologie,
1:42 - 1:45

um die Veränderungen
der Regenwälder nachzuverfolgen.
1:45 - 1:48

Überwachungskameras sind überall,
1:48 - 1:53

aber warnen uns nicht,
wenn ein Kind im Schwimmbad ertrinkt.
1:54 - 2:00

Bilder und Videos werden immer mehr
zu einem festen Bestandteil des Lebens.
2:00 - 2:04

Sie werden in einer Geschwindigkeit
erzeugt, die weit jenseits dessen liegt,
2:04 - 2:07

was Menschen sich auch nur
erhoffen könnten zu sichten.
2:07 - 2:11

Sie und ich tragen mit diesem
TED Talk gerade dazu bei.
2:11 - 2:16

Unsere fortschrittlichste Software
hat noch immer Probleme
2:16 - 2:20

beim Verstehen und Verwalten
dieser enormen Masse an Inhalten.
2:20 - 2:24

Man kann soweit gehen und sagen,
dass wir als Gesellschaft
2:24 - 2:26

nahezu blind sind,
2:26 - 2:30

weil unsere klügsten Maschinen
immer noch blind sind.
2:31 - 2:34

"Warum ist das so schwierig?",
fragen Sie sich vielleicht.
2:34 - 2:37

Kameras können solche Bilder schießen,
2:37 - 2:41

indem sie Licht in eine zweidimensionale
Matrix aus Zahlen umwandeln,
2:41 - 2:43

besser bekannt als Pixel.
2:43 - 2:45

Aber das sind nur leblose Zahlen.
2:45 - 2:48

Sie sind an sich bedeutungslos.
2:48 - 2:52

Hören ist nicht dasselbe wie Verstehen.
2:52 - 2:56

Ebenso ist Fotografieren
nicht dasselbe wie Sehen.
2:56 - 3:00

Mit Sehen meinen wir
genauer gesagt Verstehen.
3:01 - 3:07

Tatsächlich hat Mutter Natur
540 Millionen Jahre gebraucht,
3:07 - 3:09

um diese Aufgabe zu lösen.
3:09 - 3:11

Ein Großteil des Aufwands
3:11 - 3:17

war die Entwicklung der visuellen
Verarbeitungskapazität unseres Gehirns,
3:17 - 3:19

gar nicht der Augen an sich.
3:19 - 3:22

Das Sehen beginnt mit den Augen,
3:22 - 3:26

geschieht aber eigentlich im Gehirn.
3:26 - 3:31

Vor 15 Jahren begann ich
meine Doktorarbeit am Caltech,
3:31 - 3:34

danach leitete ich
das Vision Lab in Stanford.
3:34 - 3:39

Die ganze Zeit arbeitete ich mit Mentoren,
Mitarbeitern und Studenten daran,
3:39 - 3:42

Computern das Sehen beizubringen.
3:42 - 3:46

Unser Forschungsgebiet nennt sich
Computer Vision und Maschinelles Lernen.
3:46 - 3:50

Es gehört zum allgemeinen Gebiet
der Künstlichen Intelligenz.
3:51 - 3:56

Schlussendlich wollen wir Geräten
beibringen, so wie wir zu sehen:
3:56 - 4:02

Objekte benennen, Menschen erkennen,
Dreidimensionalität von Objekten erfassen,
4:02 - 4:08

Beziehungen, Emotionen, Handlungen
und Absichten verstehen.
4:08 - 4:14

Sie und ich begreifen ganze Geschichten
zwischen Menschen, Orten und Dingen
4:14 - 4:17

in Sekundenschnelle, wenn wir
einen Blick darauf werfen.
4:17 - 4:23

Der erste Schritt ist es, Computern
die Objekterkennung beizubringen,
4:23 - 4:26

einzelne Bausteine der visuellen Welt.
4:26 - 4:30

Grundsätzlich können Sie sich
diesen Lehrprozess so vorstellen,
4:30 - 4:34

dass wir den Computern
einige Trainingsbilder
4:34 - 4:37

von bestimmten Objekten zeigen,
zum Beispiel von Katzen,
4:37 - 4:41

und ein Modell entwerfen,
das von diesen Trainingsbildern lernt.
4:41 - 4:43

Wie schwer kann das schon sein?
4:43 - 4:47

Im Grunde besteht eine Katze aus einer
Reihe verschiedener Formen und Farben.
4:47 - 4:52

Genau das waren unsere ersten Schritte
in der Objektmodellierung.
4:52 - 4:55

Wir sagten dem Computeralgorithmus
in einer mathematischen Sprache,
4:55 - 4:59

dass eine Katze ein rundes Gesicht,
einen pummeligen Körper,
4:59 - 5:01

zwei spitze Ohren
und einen langen Schwanz hat.
5:01 - 5:02

Das sah ganz gut aus.
5:03 - 5:05

Aber wie ist es mit dieser Katze?
5:05 - 5:06

(Lachen)
5:06 - 5:08

Sie ist ganz zusammengekuschelt.
5:08 - 5:12

Jetzt muss man eine andere Form und eine
Perspektive zum Objektmodell hinzufügen.
5:12 - 5:15

Wie sieht es mit versteckten Katzen aus?
5:15 - 5:17

Was ist mit diesen albernen Katzen?
5:19 - 5:22

Jetzt verstehen Sie mich sicherlich.
5:22 - 5:25

Sogar etwas so Einfaches wie ein Haustier
5:25 - 5:29

kann für das Objektmodell
unendlich viele Variationen annehmen.
5:29 - 5:32

Und das ist nur ein Objekt.
5:33 - 5:35

Vor etwa acht Jahren
5:35 - 5:40

veränderte eine sehr einfache
und grundlegende Beobachtung mein Denken.
5:41 - 5:44

Niemand sagt einem Kind,
wie es zu sehen hat,
5:44 - 5:46

erst recht nicht am Anfang.
5:46 - 5:51

Sie lernen durch eigene
Erfahrungen und Beispiele.
5:51 - 5:54

Wenn man sich die Augen eines Kindes
5:54 - 5:57

als ein Paar biologischer
Kameras vorstellt,
5:57 - 6:01

schießen diese alle 200
Millisekunden ein Bild.
6:01 - 6:04

Das ist die durchschnittliche
Dauer einer Augenbewegung.
6:04 - 6:10

Mit drei Jahren hat ein Kind also
mehrere hundert Millionen Bilder
6:10 - 6:11

der realen Welt gesehen.
6:11 - 6:14

Das sind sehr viel Übungsbeispiele.
6:14 - 6:20

Ich erkannte, dass der Fokus nicht auf
immer besseren Algorithmen liegen muss,
6:20 - 6:26

sondern dass wir den Algorithmen
die Art von Übungsdaten geben müssen,
6:26 - 6:29

die ein Kind durch seine
Erfahrungen sammelt,
6:29 - 6:33

sowohl quantitativ und qualitativ.
6:33 - 6:35

Mit dieser Erkenntnis
6:35 - 6:38

war es unsere Aufgabe,
einen Datensatz zusammenzustellen,
6:38 - 6:42

der weit mehr Bilder beinhaltete,
als alles bisher Dagewesene.
6:42 - 6:45

Vielleicht tausendfach mehr Bilder.
6:45 - 6:49

Zusammen mit Professor Kai Li
von der Princeton University
6:49 - 6:54

starteten wir 2007 das ImageNet Projekt.
6:54 - 6:57

Zum Glück mussten wir keine Kameras
an unseren Köpfen anbringen
6:57 - 6:59

und viele Jahre warten.
6:59 - 7:01

Wir nutzten das Internet,
7:01 - 7:05

die größte Fundgrube für Bilder,
die die Menschheit erschaffen hat.
7:05 - 7:08

Wir haben fast eine Milliarde
Bilder heruntergeladen
7:08 - 7:14

und mithilfe von Crowdsourcing
wie der Amazon Mechanical Turk Plattform
7:14 - 7:16

all diese Bilder kategorisiert.
7:16 - 7:21

Zu Spitzenzeiten war ImageNet
einer der größten Arbeitgeber
7:21 - 7:24

für Amazon Mechanical Turk Mitarbeiter:
7:24 - 7:28

Insgesamt bekamen wir Hilfe
von fast 50.000 Arbeitern
7:28 - 7:32

aus 167 Ländern weltweit
7:32 - 7:36

beim Bereinigen, Sortieren und Benennen
7:36 - 7:40

von fast einer Milliarde Bildern.
7:41 - 7:43

Das zeigt, wieviel Aufwand nötig war,
7:43 - 7:47

um auch nur einen Bruchteil
der Bilder zu erfassen,
7:47 - 7:51

die ein Kind in den frühen Jahren
seiner Entwicklung verarbeitet.
7:52 - 7:56

Rückblickend wirkt die Idee,
riesengroße Datensätze zu nutzen,
7:56 - 8:00

um Computeralgorithmen zu trainieren,
absolut naheliegend.
8:00 - 8:04

Doch 2007 war das nicht so offensichtlich.
8:05 - 8:09

Wir waren auf dieser Reise
lange Zeit ziemlich allein.
8:09 - 8:14

Einige Kollegen rieten mir, mit meiner
Anstellung etwas Sinnvolleres zu tun
8:14 - 8:18

und wir kämpften ständig
um die Finanzierung der Forschung.
8:18 - 8:21

Einmal scherzte ich
mit meinen Studenten darüber,
8:21 - 8:24

meine alte Textilreinigung wieder
zu öffnen, um ImageNet zu finanzieren.
8:24 - 8:29

Immerhin hatte ich so auch
mein Studium finanziert.
8:29 - 8:31

Also machten wir weiter.
8:31 - 8:35

2009 lieferte das ImageNet-Projekt
8:35 - 8:39

eine Datenbank mit
über 15 Millionen Bildern,
8:39 - 8:44

die 22.000 Objektkategorien umfassten
8:44 - 8:47

und nach englischen
Alltagsbegriffen geordnet waren.
8:47 - 8:50

Sowohl quantitativ, als auch qualitativ
8:50 - 8:53

war das ein noch nie dagewesener Umfang.
8:53 - 8:56

Zurück zum Katzenbeispiel:
8:56 - 8:59

Wir haben mehr als 62.000 Katzen
8:59 - 9:03

mit verschiedenstem Aussehen
und in allerlei Posen
9:03 - 9:08

über alle Rassen von
Haus- und Wildkatzen hinweg.
9:08 - 9:12

Wir waren begeistert,
ImageNet aufgebaut zu haben,
9:12 - 9:16

und wollten, dass die ganze
Forschungswelt davon profitiert.
9:16 - 9:20

Ganz nach TED-Art machten wir daher
unseren kompletten Datensatz
9:20 - 9:23

für Wissenschaftler aus aller Welt
kostenlos verfügbar.
9:24 - 9:26

(Applaus)
9:29 - 9:34

Da wir nun die Daten haben,
um unser Computerhirn zu füttern,
9:34 - 9:38

können wir jetzt
zu den Algorithmen zurückkommen.
9:38 - 9:43

Es stellte sich heraus,
dass die Informationsfülle auf ImageNet
9:43 - 9:48

perfekt zu einer bestimmten Art
von Machine Learning-Algorithmen passte,
9:48 - 9:50

sogenannte "faltende neuronale Netzwerke",
9:50 - 9:55

entwickelt von Kunihiko Fukushima,
Geoff Hinton und Yann LeCun
9:55 - 9:59

und das schon in den 70er und 80er Jahren.
9:59 - 10:05

So wie unser Gehirn aus Milliarden von
stark vernetzten Neuronen besteht,
10:05 - 10:08

ist die einfachste Betriebseinheit
eines neuronalen Netzwerks
10:08 - 10:11

ein neuronenähnlicher Knotenpunkt.
10:11 - 10:13

Er erhält Input von anderen Knotenpunkten
10:13 - 10:16

und sendet Output an andere.
10:16 - 10:21

Zusätzlich sind diese hunderttausende
oder sogar Millionen von Knotenpunkten
10:21 - 10:24

in hierarchischen Schichten organisiert,
10:24 - 10:27

auch das ähnlich wie im Gehirn.
10:27 - 10:31

Ein typisches Neuronales Netz, das
unser Objekterkennungsmodell trainiert,
10:31 - 10:35

besitzt 24 Millionen Knotenpunkte,
10:35 - 10:38

140 Millionen Parameter
10:38 - 10:40

und 15 Milliarden Verbindungen.
10:40 - 10:43

Das ist ein riesiges Modell.
10:43 - 10:47

Dank der immensen Datenmenge von ImageNet
10:47 - 10:52

und der modernen CPUs und GPUs, auf denen
wir dieses gigantische Modell trainieren,
10:52 - 10:55

blühte das faltende neuronale Netzwerk
10:55 - 10:58

auf eine Weise auf,
die niemand erwartet hatte.
10:58 - 11:01

Es wurde die erfolgreichste Struktur,
11:01 - 11:06

um spannende neue Ergebnisse
in der Objekterkennung zu generieren.
11:06 - 11:09

Das ist ein Computer, der uns sagt,
11:09 - 11:11

dass auf diesem Bild
eine Katze zu sehen ist
11:11 - 11:13

und wo sich diese Katze befindet.
11:13 - 11:15

Natürlich gibt es noch mehr
als nur Katzen.
11:15 - 11:18

Hier sehen Sie einen
Computeralgorithmus, der uns sagt,
11:18 - 11:21

dass auf dem Bild ein Junge
und ein Teddybär sind;
11:21 - 11:25

hier ein Hund, eine Person
und ein kleiner Drachen im Hintergrund;
11:25 - 11:28

oder dieses sehr überladene Bild:
11:28 - 11:33

ein Mann, ein Skateboard,
Geländer, eine Laterne und so weiter.
11:33 - 11:39

Manchmal weiß der Computer
nicht genau, was er sieht,
11:39 - 11:42

und wir haben ihm beigebracht,
schlau genug zu sein,
11:42 - 11:46

uns eine sichere Antwort zu geben,
statt sich zu sehr festzulegen,
11:46 - 11:48

genau so wie wir es auch machen würden.
11:48 - 11:53

Manchmal ist der Algorithmus dagegen
bemerkenswert gut darin, uns zu sagen,
11:53 - 11:55

was genau die Objekte sind,
11:55 - 11:59

wie die Marke, das Modell
und das Baujahr eines Autos.
11:59 - 12:04

Wir haben diesen Algorithmus auf Millionen
von Google Street View Bilder angewendet
12:04 - 12:07

in hunderten amerikanischen Städten
12:07 - 12:10

und fanden dabei etwas
sehr Interessantes heraus:
12:10 - 12:14

Zunächst bestätigte sich unsere Vermutung,
12:14 - 12:17

dass Fahrzeugpreise in direktem Bezug
12:17 - 12:19

zu Haushaltseinkommen stehen.
12:19 - 12:24

Überraschenderweise korrelieren
die Fahrzeugpreise auch stark
12:24 - 12:26

mit den Kriminalitätsraten einer Stadt
12:27 - 12:31

oder den Wahlergebnissen
nach Postleitzahlen.
12:32 - 12:34

Aber Moment mal. War es das schon?
12:34 - 12:39

Sind Computer mit dem Menschen gleich
gezogen oder haben ihn sogar übertroffen?
12:39 - 12:42

Nicht so schnell.
12:42 - 12:46

Bisher haben wir dem Computer
lediglich beigebracht, Objekte zu sehen.
12:46 - 12:51

Das ist wie ein kleines Kind, das gerade
seine ersten Substantive zu sagen lernt.
12:51 - 12:54

Das ist eine beachtliche Leistung,
12:54 - 12:56

aber doch nur der erste Schritt.
12:56 - 13:00

Bald wird das nächste
Entwicklungsziel erreicht
13:00 - 13:03

und Kinder fangen an,
in ganzen Sätzen zu kommunizieren.
13:03 - 13:08

Anstatt zu sagen,
dass auf dem Bild eine Katze ist,
13:08 - 13:13

sagte uns das kleine Mädchen schon,
dass die Katze auf einem Bett liegt.
13:13 - 13:18

Um einem Computer beizubringen,
ein Bild zu sehen und Sätze zu bilden,
13:18 - 13:22

muss die Ehe zwischen Big Data
und dem Machine Learning-Algorithmus
13:22 - 13:24

den nächsten Schritt gehen.
13:24 - 13:29

Nun muss der Computer sowohl von Bildern
13:29 - 13:32

als auch von natürlichsprachlichen
Sätzen lernen,
13:32 - 13:35

die Menschen erzeugen.
13:35 - 13:39

Wie auch das Gehirn das Sehen
mit der Sprache verbindet,
13:39 - 13:44

entwickelten wir ein Modell,
das einen Teil der visuellen Dinge
13:44 - 13:46

wie visuelle Ausschnitte
13:46 - 13:50

mit Wörtern und Ausdrücken
in Sätzen vereint.
13:50 - 13:53

Vor etwa vier Monaten
13:53 - 13:56

haben wir das alles endlich
miteinander verbunden
13:56 - 13:59

und eines der ersten
Computer Vision-Modelle erzeugt,
13:59 - 14:03

das in der Lage ist, einen
menschenähnlichen Satz zu generieren,
14:03 - 14:07

wenn es ein Bild zum ersten Mal sieht.
14:07 - 14:12

Jetzt kann ich Ihnen zeigen,
was der Computer sagt,
14:12 - 14:14

wenn er die Bilder sieht,
14:14 - 14:17

die das kleine Mädchen am Anfang
dieser Präsentation sah.
14:19 - 14:22

(Video) Computer: Ein Mann steht
neben einem Elefanten.
14:24 - 14:28

Ein großes Flugzeug steht auf
einer Landebahn.
14:29 - 14:33

FFL: Natürlich arbeiten wir noch eifrig
daran, diese Algorithmen zu verbessern
14:33 - 14:36

und sie müssen noch immer viel lernen.
14:36 - 14:38

(Applaus)
14:40 - 14:43

Der Computer macht immer noch Fehler.
14:43 - 14:46

(Video) Computer: Eine Katze liegt
unter einer Decke auf dem Bett.
14:46 - 14:49

FFL: Wenn er zu viele Katzen sieht,
14:49 - 14:52

denkt er, alles könnte eine Katze sein.
14:53 - 14:56

(Video) Computer: Ein kleiner Junge
hält einen Baseballschläger.
14:56 - 14:58

(Lachen)
14:58 - 15:03

Wenn er noch nie eine Zahnbürste gesehen
hat, ist es für ihn ein Baseballschläger.
15:03 - 15:07

(Video) Computer: Ein Mann reitet
auf einem Pferd die Straße hinunter.
15:07 - 15:09

(Lachen)
15:09 - 15:13

FFL: Wir haben den Computern das
Konzept der Kunst noch nicht beigebracht.
15:14 - 15:17

(Video) Computer: Ein Zebra
steht auf einer Wiese.
15:17 - 15:21

FFL: Er hat die phantastische Schönheit
der Natur noch nicht schätzen gelernt,
15:21 - 15:22

so wie Sie und ich es tun.
15:23 - 15:25

Wir haben einen langen Weg hinter uns.
15:25 - 15:30

Es war schwer von null bis zu unserem
dritten Lebensjahr zu kommen.
15:30 - 15:35

Die echte Herausforderung ist es aber,
von 3 bis 13 und noch weiter zu kommen.
15:35 - 15:39

Erinnern Sie sich an das Bild
mit dem Jungen und dem Kuchen.
15:39 - 15:44

Bisher haben wir dem Computer
beigebracht, Objekte zu sehen
15:44 - 15:48

oder uns eine einfache Geschichte
zu den Bildern zu erzählen.
15:48 - 15:52

(Video) Computer: Eine Person sitzt
an einem Tisch mit einem Kuchen.
15:52 - 15:54

FFL: Aber es steckt
viel mehr in diesem Bild
15:54 - 15:56

als nur eine Person und ein Kuchen.
15:56 - 16:01

Der Computer erkennt nicht, dass es
ein spezieller italienischer Kuchen ist,
16:01 - 16:04

der nur zu Ostern gebacken wird.
16:04 - 16:07

Der Junge trägt sein Lieblingsshirt,
16:07 - 16:11

das ihm sein Vater von einer Reise
nach Sydney mitgebracht hat.
16:11 - 16:15

Sie und ich können sehen,
wie glücklich er ist
16:15 - 16:18

und was genau in diesem Moment
in seinem Kopf vor sich geht.
16:19 - 16:22

Das ist mein Sohn Leo.
16:22 - 16:25

Auf meiner Suche nach
visueller Intelligenz
16:25 - 16:27

denke ich ständig an Leo
16:27 - 16:30

und an die Welt der Zukunft,
in der er leben wird.
16:30 - 16:34

Wenn Maschinen sehen können,
werden Ärzte und Krankenschwestern
16:34 - 16:37

ein zusätzliches Paar
unermüdlicher Augen haben,
16:37 - 16:41

um ihnen bei der Diagnose
und Behandlung von Patienten zu helfen.
16:41 - 16:45

Autos werden klüger und sicherer
durch die Straßen fahren.
16:45 - 16:49

Roboter, nicht nur Menschen,
werden uns dabei helfen,
16:49 - 16:53

in Katastrophengebiete vorzudringen,
um Verschüttete und Verwundete zu retten.
16:54 - 16:58

Wir werden neue Arten
und bessere Materialien entdecken
16:58 - 17:02

und ungesehene Grenzen erkunden,
mit Hilfe von Maschinen.
17:03 - 17:07

Schritt für Schritt bringen wir
Maschinen das Sehen bei.
17:07 - 17:10

Erst bringen wir es ihnen bei.
17:10 - 17:13

Später helfen sie uns dabei,
besser zu sehen.
17:13 - 17:17

Zum ersten Mal werden unsere Augen
nicht die einzigen sein,
17:17 - 17:20

die unsere Welt studieren und erkunden.
17:20 - 17:24

Wir werden Maschinen nicht nur
wegen ihrer Intelligenz nutzen,
17:24 - 17:30

wir werden mit ihnen zusammenarbeiten,
wie es jetzt noch unvorstellbar scheint.
17:30 - 17:32

Das ist mein Ziel:
17:32 - 17:34

Ich möchte Computern
visuelle Intelligenz geben
17:34 - 17:40

und damit eine bessere Zukunft für Leo
und die ganze Welt gestalten.
17:40 - 17:41

Danke.
17:41 - 17:44

(Applaus)

Title:: Wie wir Computern das Sehen beibringen
Speaker:: Fei-Fei Li
Description:: Wenn ein kleines Kind ein Foto anschaut, kann es einfache Elemente erkennen, wie eine Katze, ein Buch und einen Stuhl. Computer sind heute so weit, um gleichzuziehen. Wie geht es weiter? In einem spannenden TED-Talk erklärt die Expertin Fei-Fei Li, wie sie mit ihrem Team über 15 Millionen Fotos verarbeitete und damit einem Computer das Interpretieren von Bildern beibrachte - und das ist nur der Anfang.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 17:58

	Sonja Maria Neef approved German subtitles for How we're teaching computers to understand pictures
	Sonja Maria Neef edited German subtitles for How we're teaching computers to understand pictures
	Sonja Maria Neef edited German subtitles for How we're teaching computers to understand pictures
	Andreas Herzog accepted German subtitles for How we're teaching computers to understand pictures
	Andreas Herzog edited German subtitles for How we're teaching computers to understand pictures
	Andreas Herzog edited German subtitles for How we're teaching computers to understand pictures
	Andreas Herzog edited German subtitles for How we're teaching computers to understand pictures
	Andreas Herzog edited German subtitles for How we're teaching computers to understand pictures

Show all

German subtitles

Revisions

Revision 23 Edited

Sonja Maria Neef

Wie wir Computern das Sehen beibringen

Revisions

Our website uses cookies

Operating cookies (Required)