Ich möchte Ihnen etwas zeigen. (Video) Mädchen: Okay. Das ist eine Katze, die auf einem Bett sitzt. Der Junge streichelt den Elefanten. Das sind Menschen, die ein Flugzeug besteigen. Das ist ein großes Flugzeug. Fei-Fei Li: Das ist ein dreijähiges Kind, das beschreibt, was es auf einigen Fotos sieht. Sie muss wahrscheinlich noch viel über diese Welt lernen, aber sie ist bereits Expertin hinsichtlich einer sehr wichtigen Aufgabe: Sie versteht, was sie sieht. Unsere Gesellschaft ist technologisch fortgeschrittener als je zuvor. Wir schicken Menschen zum Mond, stellen Telefone her, die mit uns reden oder stellen Radiosender auf unseren individuellen Musikgeschmack ein. Dennoch haben selbst unsere fortschrittlichsten Maschinen und Computer immer noch Probleme mit dieser Aufgabe. Ich werde Ihnen heute von den Fortschritten erzählen, die wir in unserem Forschungsgebiet der Computer Vision gemacht haben, einer der bahnbrechendsten und vielleicht revolutionärsten Technologien in der Informatik. Wir haben Autos entwickelt, die eigenständig fahren können, aber ohne intelligentes Sehvermögen können sie nicht unterscheiden, ob auf der Straße eine zerknitterte Papiertüte liegt, die man überfahren kann, oder ein Stein von gleicher Größe, dem man ausgeweichen muss. Wir haben sagenhaft hochauflösende Kameras entwickelt, aber wir können Blinde nicht wieder sehen lassen. Drohnen können über riesige Distanzen fliegen, besitzen aber nicht die nötige Sichttechnologie, um die Veränderungen der Regenwälder nachzuverfolgen. Überwachungskameras sind überall, aber warnen uns nicht, wenn ein Kind im Schwimmbad ertrinkt. Bilder und Videos werden immer mehr zu einem festen Bestandteil des Lebens. Sie werden in einer Geschwindigkeit erzeugt, die weit jenseits dessen liegt, was Menschen sich auch nur erhoffen könnten zu sichten. Sie und ich tragen mit diesem TED Talk gerade dazu bei. Unsere fortschrittlichste Software hat noch immer Probleme beim Verstehen und Verwalten dieser enormen Masse an Inhalten. Man kann soweit gehen und sagen, dass wir als Gesellschaft nahezu blind sind, weil unsere klügsten Maschinen immer noch blind sind. "Warum ist das so schwierig?", fragen Sie sich vielleicht. Kameras können solche Bilder schießen, indem sie Licht in eine zweidimensionale Matrix aus Zahlen umwandeln, besser bekannt als Pixel. Aber das sind nur leblose Zahlen. Sie sind an sich bedeutungslos. Hören ist nicht dasselbe wie Verstehen. Ebenso ist Fotografieren nicht dasselbe wie Sehen. Mit Sehen meinen wir genauer gesagt Verstehen. Tatsächlich hat Mutter Natur 540 Millionen Jahre gebraucht, um diese Aufgabe zu lösen. Ein Großteil des Aufwands war die Entwicklung der visuellen Verarbeitungskapazität unseres Gehirns, gar nicht der Augen an sich. Das Sehen beginnt mit den Augen, geschieht aber eigentlich im Gehirn. Vor 15 Jahren begann ich meine Doktorarbeit am Caltech, danach leitete ich das Vision Lab in Stanford. Die ganze Zeit arbeitete ich mit Mentoren, Mitarbeitern und Studenten daran, Computern das Sehen beizubringen. Unser Forschungsgebiet nennt sich Computer Vision und Maschinelles Lernen. Es gehört zum allgemeinen Gebiet der Künstlichen Intelligenz. Schlussendlich wollen wir Geräten beibringen, so wie wir zu sehen: Objekte benennen, Menschen erkennen, Dreidimensionalität von Objekten erfassen, Beziehungen, Emotionen, Handlungen und Absichten verstehen. Sie und ich begreifen ganze Geschichten zwischen Menschen, Orten und Dingen in Sekundenschnelle, wenn wir einen Blick darauf werfen. Der erste Schritt ist es, Computern die Objekterkennung beizubringen, einzelne Bausteine der visuellen Welt. Grundsätzlich können Sie sich diesen Lehrprozess so vorstellen, dass wir den Computern einige Trainingsbilder von bestimmten Objekten zeigen, zum Beispiel von Katzen, und ein Modell entwerfen, das von diesen Trainingsbildern lernt. Wie schwer kann das schon sein? Im Grunde besteht eine Katze aus einer Reihe verschiedener Formen und Farben. Genau das waren unsere ersten Schritte in der Objektmodellierung. Wir sagten dem Computeralgorithmus in einer mathematischen Sprache, dass eine Katze ein rundes Gesicht, einen pummeligen Körper, zwei spitze Ohren und einen langen Schwanz hat. Das sah ganz gut aus. Aber wie ist es mit dieser Katze? (Lachen) Sie ist ganz zusammengekuschelt. Jetzt muss man eine andere Form und eine Perspektive zum Objektmodell hinzufügen. Wie sieht es mit versteckten Katzen aus? Was ist mit diesen albernen Katzen? Jetzt verstehen Sie mich sicherlich. Sogar etwas so Einfaches wie ein Haustier kann für das Objektmodell unendlich viele Variationen annehmen. Und das ist nur ein Objekt. Vor etwa acht Jahren veränderte eine sehr einfache und grundlegende Beobachtung mein Denken. Niemand sagt einem Kind, wie es zu sehen hat, erst recht nicht am Anfang. Sie lernen durch eigene Erfahrungen und Beispiele. Wenn man sich die Augen eines Kindes als ein Paar biologischer Kameras vorstellt, schießen diese alle 200 Millisekunden ein Bild. Das ist die durchschnittliche Dauer einer Augenbewegung. Mit drei Jahren hat ein Kind also mehrere hundert Millionen Bilder der realen Welt gesehen. Das sind sehr viel Übungsbeispiele. Ich erkannte, dass der Fokus nicht auf immer besseren Algorithmen liegen muss, sondern dass wir den Algorithmen die Art von Übungsdaten geben müssen, die ein Kind durch seine Erfahrungen sammelt, sowohl quantitativ und qualitativ. Mit dieser Erkenntnis war es unsere Aufgabe, einen Datensatz zusammenzustellen, der weit mehr Bilder beinhaltete, als alles bisher Dagewesene. Vielleicht tausendfach mehr Bilder. Zusammen mit Professor Kai Li von der Princeton University starteten wir 2007 das ImageNet Projekt. Zum Glück mussten wir keine Kameras an unseren Köpfen anbringen und viele Jahre warten. Wir nutzten das Internet, die größte Fundgrube für Bilder, die die Menschheit erschaffen hat. Wir haben fast eine Milliarde Bilder heruntergeladen und mithilfe von Crowdsourcing wie der Amazon Mechanical Turk Plattform all diese Bilder kategorisiert. Zu Spitzenzeiten war ImageNet einer der größten Arbeitgeber für Amazon Mechanical Turk Mitarbeiter: Insgesamt bekamen wir Hilfe von fast 50.000 Arbeitern aus 167 Ländern weltweit beim Bereinigen, Sortieren und Benennen von fast einer Milliarde Bildern. Das zeigt, wieviel Aufwand nötig war, um auch nur einen Bruchteil der Bilder zu erfassen, die ein Kind in den frühen Jahren seiner Entwicklung verarbeitet. Rückblickend wirkt die Idee, riesengroße Datensätze zu nutzen, um Computeralgorithmen zu trainieren, absolut naheliegend. Doch 2007 war das nicht so offensichtlich. Wir waren auf dieser Reise lange Zeit ziemlich allein. Einige Kollegen rieten mir, mit meiner Anstellung etwas Sinnvolleres zu tun und wir kämpften ständig um die Finanzierung der Forschung. Einmal scherzte ich mit meinen Studenten darüber, meine alte Textilreinigung wieder zu öffnen, um ImageNet zu finanzieren. Immerhin hatte ich so auch mein Studium finanziert. Also machten wir weiter. 2009 lieferte das ImageNet-Projekt eine Datenbank mit über 15 Millionen Bildern, die 22.000 Objektkategorien umfassten und nach englischen Alltagsbegriffen geordnet waren. Sowohl quantitativ, als auch qualitativ war das ein noch nie dagewesener Umfang. Zurück zum Katzenbeispiel: Wir haben mehr als 62.000 Katzen mit verschiedenstem Aussehen und in allerlei Posen über alle Rassen von Haus- und Wildkatzen hinweg. Wir waren begeistert, ImageNet aufgebaut zu haben, und wollten, dass die ganze Forschungswelt davon profitiert. Ganz nach TED-Art machten wir daher unseren kompletten Datensatz für Wissenschaftler aus aller Welt kostenlos verfügbar. (Applaus) Da wir nun die Daten haben, um unser Computerhirn zu füttern, können wir jetzt zu den Algorithmen zurückkommen. Es stellte sich heraus, dass die Informationsfülle auf ImageNet perfekt zu einer bestimmten Art von Machine Learning-Algorithmen passte, sogenannte "faltende neuronale Netzwerke", entwickelt von Kunihiko Fukushima, Geoff Hinton und Yann LeCun und das schon in den 70er und 80er Jahren. So wie unser Gehirn aus Milliarden von stark vernetzten Neuronen besteht, ist die einfachste Betriebseinheit eines neuronalen Netzwerks ein neuronenähnlicher Knotenpunkt. Er erhält Input von anderen Knotenpunkten und sendet Output an andere. Zusätzlich sind diese hunderttausende oder sogar Millionen von Knotenpunkten in hierarchischen Schichten organisiert, auch das ähnlich wie im Gehirn. Ein typisches Neuronales Netz, das unser Objekterkennungsmodell trainiert, besitzt 24 Millionen Knotenpunkte, 140 Millionen Parameter und 15 Milliarden Verbindungen. Das ist ein riesiges Modell. Dank der immensen Datenmenge von ImageNet und der modernen CPUs und GPUs, auf denen wir dieses gigantische Modell trainieren, blühte das faltende neuronale Netzwerk auf eine Weise auf, die niemand erwartet hatte. Es wurde die erfolgreichste Struktur, um spannende neue Ergebnisse in der Objekterkennung zu generieren. Das ist ein Computer, der uns sagt, dass auf diesem Bild eine Katze zu sehen ist und wo sich diese Katze befindet. Natürlich gibt es noch mehr als nur Katzen. Hier sehen Sie einen Computeralgorithmus, der uns sagt, dass auf dem Bild ein Junge und ein Teddybär sind; hier ein Hund, eine Person und ein kleiner Drachen im Hintergrund; oder dieses sehr überladene Bild: ein Mann, ein Skateboard, Geländer, eine Laterne und so weiter. Manchmal weiß der Computer nicht genau, was er sieht, und wir haben ihm beigebracht, schlau genug zu sein, uns eine sichere Antwort zu geben, statt sich zu sehr festzulegen, genau so wie wir es auch machen würden. Manchmal ist der Algorithmus dagegen bemerkenswert gut darin, uns zu sagen, was genau die Objekte sind, wie die Marke, das Modell und das Baujahr eines Autos. Wir haben diesen Algorithmus auf Millionen von Google Street View Bilder angewendet in hunderten amerikanischen Städten und fanden dabei etwas sehr Interessantes heraus: Zunächst bestätigte sich unsere Vermutung, dass Fahrzeugpreise in direktem Bezug zu Haushaltseinkommen stehen. Überraschenderweise korrelieren die Fahrzeugpreise auch stark mit den Kriminalitätsraten einer Stadt oder den Wahlergebnissen nach Postleitzahlen. Aber Moment mal. War es das schon? Sind Computer mit dem Menschen gleich gezogen oder haben ihn sogar übertroffen? Nicht so schnell. Bisher haben wir dem Computer lediglich beigebracht, Objekte zu sehen. Das ist wie ein kleines Kind, das gerade seine ersten Substantive zu sagen lernt. Das ist eine beachtliche Leistung, aber doch nur der erste Schritt. Bald wird das nächste Entwicklungsziel erreicht und Kinder fangen an, in ganzen Sätzen zu kommunizieren. Anstatt zu sagen, dass auf dem Bild eine Katze ist, sagte uns das kleine Mädchen schon, dass die Katze auf einem Bett liegt. Um einem Computer beizubringen, ein Bild zu sehen und Sätze zu bilden, muss die Ehe zwischen Big Data und dem Machine Learning-Algorithmus den nächsten Schritt gehen. Nun muss der Computer sowohl von Bildern als auch von natürlichsprachlichen Sätzen lernen, die Menschen erzeugen. Wie auch das Gehirn das Sehen mit der Sprache verbindet, entwickelten wir ein Modell, das einen Teil der visuellen Dinge wie visuelle Ausschnitte mit Wörtern und Ausdrücken in Sätzen vereint. Vor etwa vier Monaten haben wir das alles endlich miteinander verbunden und eines der ersten Computer Vision-Modelle erzeugt, das in der Lage ist, einen menschenähnlichen Satz zu generieren, wenn es ein Bild zum ersten Mal sieht. Jetzt kann ich Ihnen zeigen, was der Computer sagt, wenn er die Bilder sieht, die das kleine Mädchen am Anfang dieser Präsentation sah. (Video) Computer: Ein Mann steht neben einem Elefanten. Ein großes Flugzeug steht auf einer Landebahn. FFL: Natürlich arbeiten wir noch eifrig daran, diese Algorithmen zu verbessern und sie müssen noch immer viel lernen. (Applaus) Der Computer macht immer noch Fehler. (Video) Computer: Eine Katze liegt unter einer Decke auf dem Bett. FFL: Wenn er zu viele Katzen sieht, denkt er, alles könnte eine Katze sein. (Video) Computer: Ein kleiner Junge hält einen Baseballschläger. (Lachen) Wenn er noch nie eine Zahnbürste gesehen hat, ist es für ihn ein Baseballschläger. (Video) Computer: Ein Mann reitet auf einem Pferd die Straße hinunter. (Lachen) FFL: Wir haben den Computern das Konzept der Kunst noch nicht beigebracht. (Video) Computer: Ein Zebra steht auf einer Wiese. FFL: Er hat die phantastische Schönheit der Natur noch nicht schätzen gelernt, so wie Sie und ich es tun. Wir haben einen langen Weg hinter uns. Es war schwer von null bis zu unserem dritten Lebensjahr zu kommen. Die echte Herausforderung ist es aber, von 3 bis 13 und noch weiter zu kommen. Erinnern Sie sich an das Bild mit dem Jungen und dem Kuchen. Bisher haben wir dem Computer beigebracht, Objekte zu sehen oder uns eine einfache Geschichte zu den Bildern zu erzählen. (Video) Computer: Eine Person sitzt an einem Tisch mit einem Kuchen. FFL: Aber es steckt viel mehr in diesem Bild als nur eine Person und ein Kuchen. Der Computer erkennt nicht, dass es ein spezieller italienischer Kuchen ist, der nur zu Ostern gebacken wird. Der Junge trägt sein Lieblingsshirt, das ihm sein Vater von einer Reise nach Sydney mitgebracht hat. Sie und ich können sehen, wie glücklich er ist und was genau in diesem Moment in seinem Kopf vor sich geht. Das ist mein Sohn Leo. Auf meiner Suche nach visueller Intelligenz denke ich ständig an Leo und an die Welt der Zukunft, in der er leben wird. Wenn Maschinen sehen können, werden Ärzte und Krankenschwestern ein zusätzliches Paar unermüdlicher Augen haben, um ihnen bei der Diagnose und Behandlung von Patienten zu helfen. Autos werden klüger und sicherer durch die Straßen fahren. Roboter, nicht nur Menschen, werden uns dabei helfen, in Katastrophengebiete vorzudringen, um Verschüttete und Verwundete zu retten. Wir werden neue Arten und bessere Materialien entdecken und ungesehene Grenzen erkunden, mit Hilfe von Maschinen. Schritt für Schritt bringen wir Maschinen das Sehen bei. Erst bringen wir es ihnen bei. Später helfen sie uns dabei, besser zu sehen. Zum ersten Mal werden unsere Augen nicht die einzigen sein, die unsere Welt studieren und erkunden. Wir werden Maschinen nicht nur wegen ihrer Intelligenz nutzen, wir werden mit ihnen zusammenarbeiten, wie es jetzt noch unvorstellbar scheint. Das ist mein Ziel: Ich möchte Computern visuelle Intelligenz geben und damit eine bessere Zukunft für Leo und die ganze Welt gestalten. Danke. (Applaus)