Return to Video

Wie wir Computern das Sehen beibringen

  • 0:03 - 0:05
    Ich möchte Ihnen etwas zeigen.
  • 0:06 - 0:10
    (Video) Mädchen: Okay. Das ist
    eine Katze, die auf einem Bett sitzt.
  • 0:10 - 0:13
    Der Junge streichelt den Elefanten.
  • 0:14 - 0:17
    Das sind Menschen,
    die ein Flugzeug besteigen.
  • 0:18 - 0:20
    Das ist ein großes Flugzeug.
  • 0:21 - 0:24
    Fei-Fei Li: Das ist ein dreijähiges Kind,
  • 0:24 - 0:27
    das beschreibt, was es
    auf einigen Fotos sieht.
  • 0:27 - 0:31
    Sie muss wahrscheinlich
    noch viel über diese Welt lernen,
  • 0:31 - 0:35
    aber sie ist bereits Expertin hinsichtlich
    einer sehr wichtigen Aufgabe:
  • 0:35 - 0:38
    Sie versteht, was sie sieht.
  • 0:38 - 0:42
    Unsere Gesellschaft ist technologisch
    fortgeschrittener als je zuvor.
  • 0:42 - 0:47
    Wir schicken Menschen zum Mond,
    stellen Telefone her, die mit uns reden
  • 0:47 - 0:51
    oder stellen Radiosender auf unseren
    individuellen Musikgeschmack ein.
  • 0:51 - 0:55
    Dennoch haben selbst unsere
    fortschrittlichsten Maschinen und Computer
  • 0:55 - 0:58
    immer noch Probleme mit dieser Aufgabe.
  • 0:58 - 1:01
    Ich werde Ihnen heute
    von den Fortschritten erzählen,
  • 1:01 - 1:05
    die wir in unserem Forschungsgebiet
    der Computer Vision gemacht haben,
  • 1:05 - 1:10
    einer der bahnbrechendsten und vielleicht
    revolutionärsten Technologien
  • 1:10 - 1:13
    in der Informatik.
  • 1:13 - 1:17
    Wir haben Autos entwickelt,
    die eigenständig fahren können,
  • 1:17 - 1:21
    aber ohne intelligentes Sehvermögen
    können sie nicht unterscheiden,
  • 1:21 - 1:25
    ob auf der Straße eine zerknitterte
    Papiertüte liegt, die man überfahren kann,
  • 1:25 - 1:29
    oder ein Stein von gleicher Größe,
    dem man ausgeweichen muss.
  • 1:29 - 1:33
    Wir haben sagenhaft
    hochauflösende Kameras entwickelt,
  • 1:33 - 1:36
    aber wir können Blinde nicht
    wieder sehen lassen.
  • 1:36 - 1:40
    Drohnen können über riesige
    Distanzen fliegen,
  • 1:40 - 1:42
    besitzen aber nicht
    die nötige Sichttechnologie,
  • 1:42 - 1:45
    um die Veränderungen
    der Regenwälder nachzuverfolgen.
  • 1:45 - 1:48
    Überwachungskameras sind überall,
  • 1:48 - 1:53
    aber warnen uns nicht,
    wenn ein Kind im Schwimmbad ertrinkt.
  • 1:54 - 2:00
    Bilder und Videos werden immer mehr
    zu einem festen Bestandteil des Lebens.
  • 2:00 - 2:04
    Sie werden in einer Geschwindigkeit
    erzeugt, die weit jenseits dessen liegt,
  • 2:04 - 2:07
    was Menschen sich auch nur
    erhoffen könnten zu sichten.
  • 2:07 - 2:11
    Sie und ich tragen mit diesem
    TED Talk gerade dazu bei.
  • 2:11 - 2:16
    Unsere fortschrittlichste Software
    hat noch immer Probleme
  • 2:16 - 2:20
    beim Verstehen und Verwalten
    dieser enormen Masse an Inhalten.
  • 2:20 - 2:24
    Man kann soweit gehen und sagen,
    dass wir als Gesellschaft
  • 2:24 - 2:26
    nahezu blind sind,
  • 2:26 - 2:30
    weil unsere klügsten Maschinen
    immer noch blind sind.
  • 2:31 - 2:34
    "Warum ist das so schwierig?",
    fragen Sie sich vielleicht.
  • 2:34 - 2:37
    Kameras können solche Bilder schießen,
  • 2:37 - 2:41
    indem sie Licht in eine zweidimensionale
    Matrix aus Zahlen umwandeln,
  • 2:41 - 2:43
    besser bekannt als Pixel.
  • 2:43 - 2:45
    Aber das sind nur leblose Zahlen.
  • 2:45 - 2:48
    Sie sind an sich bedeutungslos.
  • 2:48 - 2:52
    Hören ist nicht dasselbe wie Verstehen.
  • 2:52 - 2:56
    Ebenso ist Fotografieren
    nicht dasselbe wie Sehen.
  • 2:56 - 3:00
    Mit Sehen meinen wir
    genauer gesagt Verstehen.
  • 3:01 - 3:07
    Tatsächlich hat Mutter Natur
    540 Millionen Jahre gebraucht,
  • 3:07 - 3:09
    um diese Aufgabe zu lösen.
  • 3:09 - 3:11
    Ein Großteil des Aufwands
  • 3:11 - 3:17
    war die Entwicklung der visuellen
    Verarbeitungskapazität unseres Gehirns,
  • 3:17 - 3:19
    gar nicht der Augen an sich.
  • 3:19 - 3:22
    Das Sehen beginnt mit den Augen,
  • 3:22 - 3:26
    geschieht aber eigentlich im Gehirn.
  • 3:26 - 3:31
    Vor 15 Jahren begann ich
    meine Doktorarbeit am Caltech,
  • 3:31 - 3:34
    danach leitete ich
    das Vision Lab in Stanford.
  • 3:34 - 3:39
    Die ganze Zeit arbeitete ich mit Mentoren,
    Mitarbeitern und Studenten daran,
  • 3:39 - 3:42
    Computern das Sehen beizubringen.
  • 3:42 - 3:46
    Unser Forschungsgebiet nennt sich
    Computer Vision und Maschinelles Lernen.
  • 3:46 - 3:50
    Es gehört zum allgemeinen Gebiet
    der Künstlichen Intelligenz.
  • 3:51 - 3:56
    Schlussendlich wollen wir Geräten
    beibringen, so wie wir zu sehen:
  • 3:56 - 4:02
    Objekte benennen, Menschen erkennen,
    Dreidimensionalität von Objekten erfassen,
  • 4:02 - 4:08
    Beziehungen, Emotionen, Handlungen
    und Absichten verstehen.
  • 4:08 - 4:14
    Sie und ich begreifen ganze Geschichten
    zwischen Menschen, Orten und Dingen
  • 4:14 - 4:17
    in Sekundenschnelle, wenn wir
    einen Blick darauf werfen.
  • 4:17 - 4:23
    Der erste Schritt ist es, Computern
    die Objekterkennung beizubringen,
  • 4:23 - 4:26
    einzelne Bausteine der visuellen Welt.
  • 4:26 - 4:30
    Grundsätzlich können Sie sich
    diesen Lehrprozess so vorstellen,
  • 4:30 - 4:34
    dass wir den Computern
    einige Trainingsbilder
  • 4:34 - 4:37
    von bestimmten Objekten zeigen,
    zum Beispiel von Katzen,
  • 4:37 - 4:41
    und ein Modell entwerfen,
    das von diesen Trainingsbildern lernt.
  • 4:41 - 4:43
    Wie schwer kann das schon sein?
  • 4:43 - 4:47
    Im Grunde besteht eine Katze aus einer
    Reihe verschiedener Formen und Farben.
  • 4:47 - 4:52
    Genau das waren unsere ersten Schritte
    in der Objektmodellierung.
  • 4:52 - 4:55
    Wir sagten dem Computeralgorithmus
    in einer mathematischen Sprache,
  • 4:55 - 4:59
    dass eine Katze ein rundes Gesicht,
    einen pummeligen Körper,
  • 4:59 - 5:01
    zwei spitze Ohren
    und einen langen Schwanz hat.
  • 5:01 - 5:02
    Das sah ganz gut aus.
  • 5:03 - 5:05
    Aber wie ist es mit dieser Katze?
  • 5:05 - 5:06
    (Lachen)
  • 5:06 - 5:08
    Sie ist ganz zusammengekuschelt.
  • 5:08 - 5:12
    Jetzt muss man eine andere Form und eine
    Perspektive zum Objektmodell hinzufügen.
  • 5:12 - 5:15
    Wie sieht es mit versteckten Katzen aus?
  • 5:15 - 5:17
    Was ist mit diesen albernen Katzen?
  • 5:19 - 5:22
    Jetzt verstehen Sie mich sicherlich.
  • 5:22 - 5:25
    Sogar etwas so Einfaches wie ein Haustier
  • 5:25 - 5:29
    kann für das Objektmodell
    unendlich viele Variationen annehmen.
  • 5:29 - 5:32
    Und das ist nur ein Objekt.
  • 5:33 - 5:35
    Vor etwa acht Jahren
  • 5:35 - 5:40
    veränderte eine sehr einfache
    und grundlegende Beobachtung mein Denken.
  • 5:41 - 5:44
    Niemand sagt einem Kind,
    wie es zu sehen hat,
  • 5:44 - 5:46
    erst recht nicht am Anfang.
  • 5:46 - 5:51
    Sie lernen durch eigene
    Erfahrungen und Beispiele.
  • 5:51 - 5:54
    Wenn man sich die Augen eines Kindes
  • 5:54 - 5:57
    als ein Paar biologischer
    Kameras vorstellt,
  • 5:57 - 6:01
    schießen diese alle 200
    Millisekunden ein Bild.
  • 6:01 - 6:04
    Das ist die durchschnittliche
    Dauer einer Augenbewegung.
  • 6:04 - 6:10
    Mit drei Jahren hat ein Kind also
    mehrere hundert Millionen Bilder
  • 6:10 - 6:11
    der realen Welt gesehen.
  • 6:11 - 6:14
    Das sind sehr viel Übungsbeispiele.
  • 6:14 - 6:20
    Ich erkannte, dass der Fokus nicht auf
    immer besseren Algorithmen liegen muss,
  • 6:20 - 6:26
    sondern dass wir den Algorithmen
    die Art von Übungsdaten geben müssen,
  • 6:26 - 6:29
    die ein Kind durch seine
    Erfahrungen sammelt,
  • 6:29 - 6:33
    sowohl quantitativ und qualitativ.
  • 6:33 - 6:35
    Mit dieser Erkenntnis
  • 6:35 - 6:38
    war es unsere Aufgabe,
    einen Datensatz zusammenzustellen,
  • 6:38 - 6:42
    der weit mehr Bilder beinhaltete,
    als alles bisher Dagewesene.
  • 6:42 - 6:45
    Vielleicht tausendfach mehr Bilder.
  • 6:45 - 6:49
    Zusammen mit Professor Kai Li
    von der Princeton University
  • 6:49 - 6:54
    starteten wir 2007 das ImageNet Projekt.
  • 6:54 - 6:57
    Zum Glück mussten wir keine Kameras
    an unseren Köpfen anbringen
  • 6:57 - 6:59
    und viele Jahre warten.
  • 6:59 - 7:01
    Wir nutzten das Internet,
  • 7:01 - 7:05
    die größte Fundgrube für Bilder,
    die die Menschheit erschaffen hat.
  • 7:05 - 7:08
    Wir haben fast eine Milliarde
    Bilder heruntergeladen
  • 7:08 - 7:14
    und mithilfe von Crowdsourcing
    wie der Amazon Mechanical Turk Plattform
  • 7:14 - 7:16
    all diese Bilder kategorisiert.
  • 7:16 - 7:21
    Zu Spitzenzeiten war ImageNet
    einer der größten Arbeitgeber
  • 7:21 - 7:24
    für Amazon Mechanical Turk Mitarbeiter:
  • 7:24 - 7:28
    Insgesamt bekamen wir Hilfe
    von fast 50.000 Arbeitern
  • 7:28 - 7:32
    aus 167 Ländern weltweit
  • 7:32 - 7:36
    beim Bereinigen, Sortieren und Benennen
  • 7:36 - 7:40
    von fast einer Milliarde Bildern.
  • 7:41 - 7:43
    Das zeigt, wieviel Aufwand nötig war,
  • 7:43 - 7:47
    um auch nur einen Bruchteil
    der Bilder zu erfassen,
  • 7:47 - 7:51
    die ein Kind in den frühen Jahren
    seiner Entwicklung verarbeitet.
  • 7:52 - 7:56
    Rückblickend wirkt die Idee,
    riesengroße Datensätze zu nutzen,
  • 7:56 - 8:00
    um Computeralgorithmen zu trainieren,
    absolut naheliegend.
  • 8:00 - 8:04
    Doch 2007 war das nicht so offensichtlich.
  • 8:05 - 8:09
    Wir waren auf dieser Reise
    lange Zeit ziemlich allein.
  • 8:09 - 8:14
    Einige Kollegen rieten mir, mit meiner
    Anstellung etwas Sinnvolleres zu tun
  • 8:14 - 8:18
    und wir kämpften ständig
    um die Finanzierung der Forschung.
  • 8:18 - 8:21
    Einmal scherzte ich
    mit meinen Studenten darüber,
  • 8:21 - 8:24
    meine alte Textilreinigung wieder
    zu öffnen, um ImageNet zu finanzieren.
  • 8:24 - 8:29
    Immerhin hatte ich so auch
    mein Studium finanziert.
  • 8:29 - 8:31
    Also machten wir weiter.
  • 8:31 - 8:35
    2009 lieferte das ImageNet-Projekt
  • 8:35 - 8:39
    eine Datenbank mit
    über 15 Millionen Bildern,
  • 8:39 - 8:44
    die 22.000 Objektkategorien umfassten
  • 8:44 - 8:47
    und nach englischen
    Alltagsbegriffen geordnet waren.
  • 8:47 - 8:50
    Sowohl quantitativ, als auch qualitativ
  • 8:50 - 8:53
    war das ein noch nie dagewesener Umfang.
  • 8:53 - 8:56
    Zurück zum Katzenbeispiel:
  • 8:56 - 8:59
    Wir haben mehr als 62.000 Katzen
  • 8:59 - 9:03
    mit verschiedenstem Aussehen
    und in allerlei Posen
  • 9:03 - 9:08
    über alle Rassen von
    Haus- und Wildkatzen hinweg.
  • 9:08 - 9:12
    Wir waren begeistert,
    ImageNet aufgebaut zu haben,
  • 9:12 - 9:16
    und wollten, dass die ganze
    Forschungswelt davon profitiert.
  • 9:16 - 9:20
    Ganz nach TED-Art machten wir daher
    unseren kompletten Datensatz
  • 9:20 - 9:23
    für Wissenschaftler aus aller Welt
    kostenlos verfügbar.
  • 9:24 - 9:26
    (Applaus)
  • 9:29 - 9:34
    Da wir nun die Daten haben,
    um unser Computerhirn zu füttern,
  • 9:34 - 9:38
    können wir jetzt
    zu den Algorithmen zurückkommen.
  • 9:38 - 9:43
    Es stellte sich heraus,
    dass die Informationsfülle auf ImageNet
  • 9:43 - 9:48
    perfekt zu einer bestimmten Art
    von Machine Learning-Algorithmen passte,
  • 9:48 - 9:50
    sogenannte "faltende neuronale Netzwerke",
  • 9:50 - 9:55
    entwickelt von Kunihiko Fukushima,
    Geoff Hinton und Yann LeCun
  • 9:55 - 9:59
    und das schon in den 70er und 80er Jahren.
  • 9:59 - 10:05
    So wie unser Gehirn aus Milliarden von
    stark vernetzten Neuronen besteht,
  • 10:05 - 10:08
    ist die einfachste Betriebseinheit
    eines neuronalen Netzwerks
  • 10:08 - 10:11
    ein neuronenähnlicher Knotenpunkt.
  • 10:11 - 10:13
    Er erhält Input von anderen Knotenpunkten
  • 10:13 - 10:16
    und sendet Output an andere.
  • 10:16 - 10:21
    Zusätzlich sind diese hunderttausende
    oder sogar Millionen von Knotenpunkten
  • 10:21 - 10:24
    in hierarchischen Schichten organisiert,
  • 10:24 - 10:27
    auch das ähnlich wie im Gehirn.
  • 10:27 - 10:31
    Ein typisches Neuronales Netz, das
    unser Objekterkennungsmodell trainiert,
  • 10:31 - 10:35
    besitzt 24 Millionen Knotenpunkte,
  • 10:35 - 10:38
    140 Millionen Parameter
  • 10:38 - 10:40
    und 15 Milliarden Verbindungen.
  • 10:40 - 10:43
    Das ist ein riesiges Modell.
  • 10:43 - 10:47
    Dank der immensen Datenmenge von ImageNet
  • 10:47 - 10:52
    und der modernen CPUs und GPUs, auf denen
    wir dieses gigantische Modell trainieren,
  • 10:52 - 10:55
    blühte das faltende neuronale Netzwerk
  • 10:55 - 10:58
    auf eine Weise auf,
    die niemand erwartet hatte.
  • 10:58 - 11:01
    Es wurde die erfolgreichste Struktur,
  • 11:01 - 11:06
    um spannende neue Ergebnisse
    in der Objekterkennung zu generieren.
  • 11:06 - 11:09
    Das ist ein Computer, der uns sagt,
  • 11:09 - 11:11
    dass auf diesem Bild
    eine Katze zu sehen ist
  • 11:11 - 11:13
    und wo sich diese Katze befindet.
  • 11:13 - 11:15
    Natürlich gibt es noch mehr
    als nur Katzen.
  • 11:15 - 11:18
    Hier sehen Sie einen
    Computeralgorithmus, der uns sagt,
  • 11:18 - 11:21
    dass auf dem Bild ein Junge
    und ein Teddybär sind;
  • 11:21 - 11:25
    hier ein Hund, eine Person
    und ein kleiner Drachen im Hintergrund;
  • 11:25 - 11:28
    oder dieses sehr überladene Bild:
  • 11:28 - 11:33
    ein Mann, ein Skateboard,
    Geländer, eine Laterne und so weiter.
  • 11:33 - 11:39
    Manchmal weiß der Computer
    nicht genau, was er sieht,
  • 11:39 - 11:42
    und wir haben ihm beigebracht,
    schlau genug zu sein,
  • 11:42 - 11:46
    uns eine sichere Antwort zu geben,
    statt sich zu sehr festzulegen,
  • 11:46 - 11:48
    genau so wie wir es auch machen würden.
  • 11:48 - 11:53
    Manchmal ist der Algorithmus dagegen
    bemerkenswert gut darin, uns zu sagen,
  • 11:53 - 11:55
    was genau die Objekte sind,
  • 11:55 - 11:59
    wie die Marke, das Modell
    und das Baujahr eines Autos.
  • 11:59 - 12:04
    Wir haben diesen Algorithmus auf Millionen
    von Google Street View Bilder angewendet
  • 12:04 - 12:07
    in hunderten amerikanischen Städten
  • 12:07 - 12:10
    und fanden dabei etwas
    sehr Interessantes heraus:
  • 12:10 - 12:14
    Zunächst bestätigte sich unsere Vermutung,
  • 12:14 - 12:17
    dass Fahrzeugpreise in direktem Bezug
  • 12:17 - 12:19
    zu Haushaltseinkommen stehen.
  • 12:19 - 12:24
    Überraschenderweise korrelieren
    die Fahrzeugpreise auch stark
  • 12:24 - 12:26
    mit den Kriminalitätsraten einer Stadt
  • 12:27 - 12:31
    oder den Wahlergebnissen
    nach Postleitzahlen.
  • 12:32 - 12:34
    Aber Moment mal. War es das schon?
  • 12:34 - 12:39
    Sind Computer mit dem Menschen gleich
    gezogen oder haben ihn sogar übertroffen?
  • 12:39 - 12:42
    Nicht so schnell.
  • 12:42 - 12:46
    Bisher haben wir dem Computer
    lediglich beigebracht, Objekte zu sehen.
  • 12:46 - 12:51
    Das ist wie ein kleines Kind, das gerade
    seine ersten Substantive zu sagen lernt.
  • 12:51 - 12:54
    Das ist eine beachtliche Leistung,
  • 12:54 - 12:56
    aber doch nur der erste Schritt.
  • 12:56 - 13:00
    Bald wird das nächste
    Entwicklungsziel erreicht
  • 13:00 - 13:03
    und Kinder fangen an,
    in ganzen Sätzen zu kommunizieren.
  • 13:03 - 13:08
    Anstatt zu sagen,
    dass auf dem Bild eine Katze ist,
  • 13:08 - 13:13
    sagte uns das kleine Mädchen schon,
    dass die Katze auf einem Bett liegt.
  • 13:13 - 13:18
    Um einem Computer beizubringen,
    ein Bild zu sehen und Sätze zu bilden,
  • 13:18 - 13:22
    muss die Ehe zwischen Big Data
    und dem Machine Learning-Algorithmus
  • 13:22 - 13:24
    den nächsten Schritt gehen.
  • 13:24 - 13:29
    Nun muss der Computer sowohl von Bildern
  • 13:29 - 13:32
    als auch von natürlichsprachlichen
    Sätzen lernen,
  • 13:32 - 13:35
    die Menschen erzeugen.
  • 13:35 - 13:39
    Wie auch das Gehirn das Sehen
    mit der Sprache verbindet,
  • 13:39 - 13:44
    entwickelten wir ein Modell,
    das einen Teil der visuellen Dinge
  • 13:44 - 13:46
    wie visuelle Ausschnitte
  • 13:46 - 13:50
    mit Wörtern und Ausdrücken
    in Sätzen vereint.
  • 13:50 - 13:53
    Vor etwa vier Monaten
  • 13:53 - 13:56
    haben wir das alles endlich
    miteinander verbunden
  • 13:56 - 13:59
    und eines der ersten
    Computer Vision-Modelle erzeugt,
  • 13:59 - 14:03
    das in der Lage ist, einen
    menschenähnlichen Satz zu generieren,
  • 14:03 - 14:07
    wenn es ein Bild zum ersten Mal sieht.
  • 14:07 - 14:12
    Jetzt kann ich Ihnen zeigen,
    was der Computer sagt,
  • 14:12 - 14:14
    wenn er die Bilder sieht,
  • 14:14 - 14:17
    die das kleine Mädchen am Anfang
    dieser Präsentation sah.
  • 14:19 - 14:22
    (Video) Computer: Ein Mann steht
    neben einem Elefanten.
  • 14:24 - 14:28
    Ein großes Flugzeug steht auf
    einer Landebahn.
  • 14:29 - 14:33
    FFL: Natürlich arbeiten wir noch eifrig
    daran, diese Algorithmen zu verbessern
  • 14:33 - 14:36
    und sie müssen noch immer viel lernen.
  • 14:36 - 14:38
    (Applaus)
  • 14:40 - 14:43
    Der Computer macht immer noch Fehler.
  • 14:43 - 14:46
    (Video) Computer: Eine Katze liegt
    unter einer Decke auf dem Bett.
  • 14:46 - 14:49
    FFL: Wenn er zu viele Katzen sieht,
  • 14:49 - 14:52
    denkt er, alles könnte eine Katze sein.
  • 14:53 - 14:56
    (Video) Computer: Ein kleiner Junge
    hält einen Baseballschläger.
  • 14:56 - 14:58
    (Lachen)
  • 14:58 - 15:03
    Wenn er noch nie eine Zahnbürste gesehen
    hat, ist es für ihn ein Baseballschläger.
  • 15:03 - 15:07
    (Video) Computer: Ein Mann reitet
    auf einem Pferd die Straße hinunter.
  • 15:07 - 15:09
    (Lachen)
  • 15:09 - 15:13
    FFL: Wir haben den Computern das
    Konzept der Kunst noch nicht beigebracht.
  • 15:14 - 15:17
    (Video) Computer: Ein Zebra
    steht auf einer Wiese.
  • 15:17 - 15:21
    FFL: Er hat die phantastische Schönheit
    der Natur noch nicht schätzen gelernt,
  • 15:21 - 15:22
    so wie Sie und ich es tun.
  • 15:23 - 15:25
    Wir haben einen langen Weg hinter uns.
  • 15:25 - 15:30
    Es war schwer von null bis zu unserem
    dritten Lebensjahr zu kommen.
  • 15:30 - 15:35
    Die echte Herausforderung ist es aber,
    von 3 bis 13 und noch weiter zu kommen.
  • 15:35 - 15:39
    Erinnern Sie sich an das Bild
    mit dem Jungen und dem Kuchen.
  • 15:39 - 15:44
    Bisher haben wir dem Computer
    beigebracht, Objekte zu sehen
  • 15:44 - 15:48
    oder uns eine einfache Geschichte
    zu den Bildern zu erzählen.
  • 15:48 - 15:52
    (Video) Computer: Eine Person sitzt
    an einem Tisch mit einem Kuchen.
  • 15:52 - 15:54
    FFL: Aber es steckt
    viel mehr in diesem Bild
  • 15:54 - 15:56
    als nur eine Person und ein Kuchen.
  • 15:56 - 16:01
    Der Computer erkennt nicht, dass es
    ein spezieller italienischer Kuchen ist,
  • 16:01 - 16:04
    der nur zu Ostern gebacken wird.
  • 16:04 - 16:07
    Der Junge trägt sein Lieblingsshirt,
  • 16:07 - 16:11
    das ihm sein Vater von einer Reise
    nach Sydney mitgebracht hat.
  • 16:11 - 16:15
    Sie und ich können sehen,
    wie glücklich er ist
  • 16:15 - 16:18
    und was genau in diesem Moment
    in seinem Kopf vor sich geht.
  • 16:19 - 16:22
    Das ist mein Sohn Leo.
  • 16:22 - 16:25
    Auf meiner Suche nach
    visueller Intelligenz
  • 16:25 - 16:27
    denke ich ständig an Leo
  • 16:27 - 16:30
    und an die Welt der Zukunft,
    in der er leben wird.
  • 16:30 - 16:34
    Wenn Maschinen sehen können,
    werden Ärzte und Krankenschwestern
  • 16:34 - 16:37
    ein zusätzliches Paar
    unermüdlicher Augen haben,
  • 16:37 - 16:41
    um ihnen bei der Diagnose
    und Behandlung von Patienten zu helfen.
  • 16:41 - 16:45
    Autos werden klüger und sicherer
    durch die Straßen fahren.
  • 16:45 - 16:49
    Roboter, nicht nur Menschen,
    werden uns dabei helfen,
  • 16:49 - 16:53
    in Katastrophengebiete vorzudringen,
    um Verschüttete und Verwundete zu retten.
  • 16:54 - 16:58
    Wir werden neue Arten
    und bessere Materialien entdecken
  • 16:58 - 17:02
    und ungesehene Grenzen erkunden,
    mit Hilfe von Maschinen.
  • 17:03 - 17:07
    Schritt für Schritt bringen wir
    Maschinen das Sehen bei.
  • 17:07 - 17:10
    Erst bringen wir es ihnen bei.
  • 17:10 - 17:13
    Später helfen sie uns dabei,
    besser zu sehen.
  • 17:13 - 17:17
    Zum ersten Mal werden unsere Augen
    nicht die einzigen sein,
  • 17:17 - 17:20
    die unsere Welt studieren und erkunden.
  • 17:20 - 17:24
    Wir werden Maschinen nicht nur
    wegen ihrer Intelligenz nutzen,
  • 17:24 - 17:30
    wir werden mit ihnen zusammenarbeiten,
    wie es jetzt noch unvorstellbar scheint.
  • 17:30 - 17:32
    Das ist mein Ziel:
  • 17:32 - 17:34
    Ich möchte Computern
    visuelle Intelligenz geben
  • 17:34 - 17:40
    und damit eine bessere Zukunft für Leo
    und die ganze Welt gestalten.
  • 17:40 - 17:41
    Danke.
  • 17:41 - 17:44
    (Applaus)
Title:
Wie wir Computern das Sehen beibringen
Speaker:
Fei-Fei Li
Description:

Wenn ein kleines Kind ein Foto anschaut, kann es einfache Elemente erkennen, wie eine Katze, ein Buch und einen Stuhl. Computer sind heute so weit, um gleichzuziehen. Wie geht es weiter? In einem spannenden TED-Talk erklärt die Expertin Fei-Fei Li, wie sie mit ihrem Team über 15 Millionen Fotos verarbeitete und damit einem Computer das Interpretieren von Bildern beibrachte - und das ist nur der Anfang.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
17:58

German subtitles

Revisions