WEBVTT 00:00:03.476 --> 00:00:05.182 Ich möchte Ihnen etwas zeigen. NOTE Paragraph 00:00:05.964 --> 00:00:09.585 (Video) Mädchen: Okay. Das ist eine Katze, die auf einem Bett sitzt. 00:00:10.205 --> 00:00:12.568 Der Junge streichelt den Elefanten. 00:00:14.220 --> 00:00:17.319 Das sind Menschen, die ein Flugzeug besteigen. 00:00:18.285 --> 00:00:20.021 Das ist ein großes Flugzeug. NOTE Paragraph 00:00:21.173 --> 00:00:23.551 Fei-Fei Li: Das ist ein dreijähiges Kind, 00:00:23.551 --> 00:00:26.795 das beschreibt, was es auf einigen Fotos sieht. 00:00:27.307 --> 00:00:30.585 Sie muss wahrscheinlich noch viel über diese Welt lernen, 00:00:30.585 --> 00:00:34.743 aber sie ist bereits Expertin hinsichtlich einer sehr wichtigen Aufgabe: 00:00:34.953 --> 00:00:37.799 Sie versteht, was sie sieht. 00:00:38.029 --> 00:00:42.455 Unsere Gesellschaft ist technologisch fortgeschrittener als je zuvor. 00:00:42.455 --> 00:00:46.773 Wir schicken Menschen zum Mond, stellen Telefone her, die mit uns reden 00:00:46.773 --> 00:00:51.030 oder stellen Radiosender auf unseren individuellen Musikgeschmack ein. 00:00:51.030 --> 00:00:55.085 Dennoch haben selbst unsere fortschrittlichsten Maschinen und Computer 00:00:55.085 --> 00:00:57.988 immer noch Probleme mit dieser Aufgabe. 00:00:57.988 --> 00:01:01.447 Ich werde Ihnen heute von den Fortschritten erzählen, 00:01:01.447 --> 00:01:05.494 die wir in unserem Forschungsgebiet der Computer Vision gemacht haben, 00:01:05.494 --> 00:01:09.795 einer der bahnbrechendsten und vielleicht revolutionärsten Technologien 00:01:09.795 --> 00:01:12.861 in der Informatik. NOTE Paragraph 00:01:12.861 --> 00:01:17.412 Wir haben Autos entwickelt, die eigenständig fahren können, 00:01:17.412 --> 00:01:21.265 aber ohne intelligentes Sehvermögen können sie nicht unterscheiden, 00:01:21.265 --> 00:01:25.373 ob auf der Straße eine zerknitterte Papiertüte liegt, die man überfahren kann, 00:01:25.373 --> 00:01:28.575 oder ein Stein von gleicher Größe, dem man ausgeweichen muss. 00:01:29.285 --> 00:01:32.735 Wir haben sagenhaft hochauflösende Kameras entwickelt, 00:01:32.805 --> 00:01:35.940 aber wir können Blinde nicht wieder sehen lassen. 00:01:36.420 --> 00:01:39.575 Drohnen können über riesige Distanzen fliegen, 00:01:39.575 --> 00:01:42.302 besitzen aber nicht die nötige Sichttechnologie, 00:01:42.302 --> 00:01:45.320 um die Veränderungen der Regenwälder nachzuverfolgen. 00:01:45.320 --> 00:01:48.270 Überwachungskameras sind überall, 00:01:48.270 --> 00:01:53.337 aber warnen uns nicht, wenn ein Kind im Schwimmbad ertrinkt. 00:01:54.167 --> 00:01:59.762 Bilder und Videos werden immer mehr zu einem festen Bestandteil des Lebens. 00:01:59.762 --> 00:02:03.849 Sie werden in einer Geschwindigkeit erzeugt, die weit jenseits dessen liegt, 00:02:03.849 --> 00:02:06.632 was Menschen sich auch nur erhoffen könnten zu sichten. 00:02:06.632 --> 00:02:10.553 Sie und ich tragen mit diesem TED Talk gerade dazu bei. 00:02:10.553 --> 00:02:15.785 Unsere fortschrittlichste Software hat noch immer Probleme 00:02:15.785 --> 00:02:19.661 beim Verstehen und Verwalten dieser enormen Masse an Inhalten. 00:02:19.661 --> 00:02:24.008 Man kann soweit gehen und sagen, dass wir als Gesellschaft 00:02:24.008 --> 00:02:26.298 nahezu blind sind, 00:02:26.423 --> 00:02:29.806 weil unsere klügsten Maschinen immer noch blind sind. NOTE Paragraph 00:02:31.356 --> 00:02:34.302 "Warum ist das so schwierig?", fragen Sie sich vielleicht. 00:02:34.302 --> 00:02:37.145 Kameras können solche Bilder schießen, 00:02:37.145 --> 00:02:41.139 indem sie Licht in eine zweidimensionale Matrix aus Zahlen umwandeln, 00:02:41.139 --> 00:02:42.789 besser bekannt als Pixel. 00:02:42.789 --> 00:02:45.040 Aber das sind nur leblose Zahlen. 00:02:45.040 --> 00:02:47.961 Sie sind an sich bedeutungslos. 00:02:48.061 --> 00:02:52.494 Hören ist nicht dasselbe wie Verstehen. 00:02:52.494 --> 00:02:56.344 Ebenso ist Fotografieren nicht dasselbe wie Sehen. 00:02:56.344 --> 00:03:00.363 Mit Sehen meinen wir genauer gesagt Verstehen. 00:03:01.293 --> 00:03:06.870 Tatsächlich hat Mutter Natur 540 Millionen Jahre gebraucht, 00:03:06.890 --> 00:03:09.443 um diese Aufgabe zu lösen. 00:03:09.443 --> 00:03:11.324 Ein Großteil des Aufwands 00:03:11.324 --> 00:03:16.595 war die Entwicklung der visuellen Verarbeitungskapazität unseres Gehirns, 00:03:16.595 --> 00:03:19.242 gar nicht der Augen an sich. 00:03:19.242 --> 00:03:21.989 Das Sehen beginnt mit den Augen, 00:03:21.989 --> 00:03:25.507 geschieht aber eigentlich im Gehirn. NOTE Paragraph 00:03:26.287 --> 00:03:31.347 Vor 15 Jahren begann ich meine Doktorarbeit am Caltech, 00:03:31.347 --> 00:03:34.273 danach leitete ich das Vision Lab in Stanford. 00:03:34.273 --> 00:03:38.669 Die ganze Zeit arbeitete ich mit Mentoren, Mitarbeitern und Studenten daran, 00:03:38.669 --> 00:03:41.558 Computern das Sehen beizubringen. 00:03:42.258 --> 00:03:45.952 Unser Forschungsgebiet nennt sich Computer Vision und Maschinelles Lernen. 00:03:45.952 --> 00:03:49.830 Es gehört zum allgemeinen Gebiet der Künstlichen Intelligenz. 00:03:51.000 --> 00:03:56.493 Schlussendlich wollen wir Geräten beibringen, so wie wir zu sehen: 00:03:56.493 --> 00:04:01.880 Objekte benennen, Menschen erkennen, Dreidimensionalität von Objekten erfassen, 00:04:01.880 --> 00:04:07.568 Beziehungen, Emotionen, Handlungen und Absichten verstehen. 00:04:07.568 --> 00:04:13.631 Sie und ich begreifen ganze Geschichten zwischen Menschen, Orten und Dingen 00:04:13.631 --> 00:04:16.603 in Sekundenschnelle, wenn wir einen Blick darauf werfen. NOTE Paragraph 00:04:16.954 --> 00:04:22.538 Der erste Schritt ist es, Computern die Objekterkennung beizubringen, 00:04:22.538 --> 00:04:25.906 einzelne Bausteine der visuellen Welt. 00:04:25.906 --> 00:04:30.340 Grundsätzlich können Sie sich diesen Lehrprozess so vorstellen, 00:04:30.340 --> 00:04:34.005 dass wir den Computern einige Trainingsbilder 00:04:34.005 --> 00:04:37.341 von bestimmten Objekten zeigen, zum Beispiel von Katzen, 00:04:37.341 --> 00:04:41.163 und ein Modell entwerfen, das von diesen Trainingsbildern lernt. 00:04:41.193 --> 00:04:43.317 Wie schwer kann das schon sein? 00:04:43.347 --> 00:04:47.489 Im Grunde besteht eine Katze aus einer Reihe verschiedener Formen und Farben. 00:04:47.489 --> 00:04:51.575 Genau das waren unsere ersten Schritte in der Objektmodellierung. 00:04:51.575 --> 00:04:55.197 Wir sagten dem Computeralgorithmus in einer mathematischen Sprache, 00:04:55.197 --> 00:04:58.540 dass eine Katze ein rundes Gesicht, einen pummeligen Körper, 00:04:58.540 --> 00:05:00.839 zwei spitze Ohren und einen langen Schwanz hat. 00:05:00.839 --> 00:05:02.249 Das sah ganz gut aus. 00:05:02.859 --> 00:05:04.972 Aber wie ist es mit dieser Katze? 00:05:04.972 --> 00:05:06.063 (Lachen) 00:05:06.063 --> 00:05:07.689 Sie ist ganz zusammengekuschelt. 00:05:07.689 --> 00:05:12.408 Jetzt muss man eine andere Form und eine Perspektive zum Objektmodell hinzufügen. 00:05:12.408 --> 00:05:14.570 Wie sieht es mit versteckten Katzen aus? 00:05:15.143 --> 00:05:17.362 Was ist mit diesen albernen Katzen? 00:05:19.112 --> 00:05:21.529 Jetzt verstehen Sie mich sicherlich. 00:05:21.529 --> 00:05:24.896 Sogar etwas so Einfaches wie ein Haustier 00:05:24.896 --> 00:05:29.150 kann für das Objektmodell unendlich viele Variationen annehmen. 00:05:29.150 --> 00:05:31.633 Und das ist nur ein Objekt. NOTE Paragraph 00:05:32.573 --> 00:05:35.065 Vor etwa acht Jahren 00:05:35.065 --> 00:05:40.095 veränderte eine sehr einfache und grundlegende Beobachtung mein Denken. 00:05:41.425 --> 00:05:44.110 Niemand sagt einem Kind, wie es zu sehen hat, 00:05:44.110 --> 00:05:46.371 erst recht nicht am Anfang. 00:05:46.371 --> 00:05:51.371 Sie lernen durch eigene Erfahrungen und Beispiele. 00:05:51.371 --> 00:05:54.111 Wenn man sich die Augen eines Kindes 00:05:54.111 --> 00:05:56.665 als ein Paar biologischer Kameras vorstellt, 00:05:56.665 --> 00:06:00.685 schießen diese alle 200 Millisekunden ein Bild. 00:06:00.725 --> 00:06:03.799 Das ist die durchschnittliche Dauer einer Augenbewegung. 00:06:03.979 --> 00:06:09.529 Mit drei Jahren hat ein Kind also mehrere hundert Millionen Bilder 00:06:09.529 --> 00:06:11.363 der realen Welt gesehen. 00:06:11.363 --> 00:06:13.643 Das sind sehr viel Übungsbeispiele. 00:06:14.383 --> 00:06:20.372 Ich erkannte, dass der Fokus nicht auf immer besseren Algorithmen liegen muss, 00:06:20.372 --> 00:06:25.644 sondern dass wir den Algorithmen die Art von Übungsdaten geben müssen, 00:06:25.644 --> 00:06:28.843 die ein Kind durch seine Erfahrungen sammelt, 00:06:28.843 --> 00:06:32.841 sowohl quantitativ und qualitativ. NOTE Paragraph 00:06:32.841 --> 00:06:34.699 Mit dieser Erkenntnis 00:06:34.699 --> 00:06:38.255 war es unsere Aufgabe, einen Datensatz zusammenzustellen, 00:06:38.255 --> 00:06:42.129 der weit mehr Bilder beinhaltete, als alles bisher Dagewesene. 00:06:42.129 --> 00:06:44.706 Vielleicht tausendfach mehr Bilder. 00:06:44.706 --> 00:06:48.817 Zusammen mit Professor Kai Li von der Princeton University 00:06:48.817 --> 00:06:53.569 starteten wir 2007 das ImageNet Projekt. 00:06:53.569 --> 00:06:57.407 Zum Glück mussten wir keine Kameras an unseren Köpfen anbringen 00:06:57.407 --> 00:06:59.171 und viele Jahre warten. 00:06:59.171 --> 00:07:00.634 Wir nutzten das Internet, 00:07:00.634 --> 00:07:05.070 die größte Fundgrube für Bilder, die die Menschheit erschaffen hat. 00:07:05.070 --> 00:07:08.111 Wir haben fast eine Milliarde Bilder heruntergeladen 00:07:08.111 --> 00:07:13.751 und mithilfe von Crowdsourcing wie der Amazon Mechanical Turk Plattform 00:07:13.751 --> 00:07:16.330 all diese Bilder kategorisiert. 00:07:16.330 --> 00:07:21.230 Zu Spitzenzeiten war ImageNet einer der größten Arbeitgeber 00:07:21.230 --> 00:07:24.226 für Amazon Mechanical Turk Mitarbeiter: 00:07:24.226 --> 00:07:28.080 Insgesamt bekamen wir Hilfe von fast 50.000 Arbeitern 00:07:28.080 --> 00:07:32.120 aus 167 Ländern weltweit 00:07:32.120 --> 00:07:36.067 beim Bereinigen, Sortieren und Benennen 00:07:36.067 --> 00:07:39.642 von fast einer Milliarde Bildern. 00:07:40.612 --> 00:07:43.265 Das zeigt, wieviel Aufwand nötig war, 00:07:43.265 --> 00:07:47.165 um auch nur einen Bruchteil der Bilder zu erfassen, 00:07:47.165 --> 00:07:51.336 die ein Kind in den frühen Jahren seiner Entwicklung verarbeitet. NOTE Paragraph 00:07:51.908 --> 00:07:56.050 Rückblickend wirkt die Idee, riesengroße Datensätze zu nutzen, 00:07:56.050 --> 00:08:00.420 um Computeralgorithmen zu trainieren, absolut naheliegend. 00:08:00.420 --> 00:08:04.500 Doch 2007 war das nicht so offensichtlich. 00:08:04.570 --> 00:08:08.588 Wir waren auf dieser Reise lange Zeit ziemlich allein. 00:08:08.588 --> 00:08:13.591 Einige Kollegen rieten mir, mit meiner Anstellung etwas Sinnvolleres zu tun 00:08:13.591 --> 00:08:17.933 und wir kämpften ständig um die Finanzierung der Forschung. 00:08:17.933 --> 00:08:20.574 Einmal scherzte ich mit meinen Studenten darüber, 00:08:20.574 --> 00:08:24.481 meine alte Textilreinigung wieder zu öffnen, um ImageNet zu finanzieren. 00:08:24.481 --> 00:08:29.242 Immerhin hatte ich so auch mein Studium finanziert. NOTE Paragraph 00:08:29.242 --> 00:08:31.098 Also machten wir weiter. 00:08:31.098 --> 00:08:34.813 2009 lieferte das ImageNet-Projekt 00:08:34.813 --> 00:08:38.855 eine Datenbank mit über 15 Millionen Bildern, 00:08:38.855 --> 00:08:43.659 die 22.000 Objektkategorien umfassten 00:08:43.659 --> 00:08:46.980 und nach englischen Alltagsbegriffen geordnet waren. 00:08:46.980 --> 00:08:49.906 Sowohl quantitativ, als auch qualitativ 00:08:49.906 --> 00:08:52.878 war das ein noch nie dagewesener Umfang. 00:08:52.878 --> 00:08:56.339 Zurück zum Katzenbeispiel: 00:08:56.339 --> 00:08:59.148 Wir haben mehr als 62.000 Katzen 00:08:59.148 --> 00:09:03.258 mit verschiedenstem Aussehen und in allerlei Posen 00:09:03.258 --> 00:09:08.481 über alle Rassen von Haus- und Wildkatzen hinweg. 00:09:08.481 --> 00:09:11.825 Wir waren begeistert, ImageNet aufgebaut zu haben, 00:09:11.825 --> 00:09:15.563 und wollten, dass die ganze Forschungswelt davon profitiert. 00:09:15.563 --> 00:09:19.604 Ganz nach TED-Art machten wir daher unseren kompletten Datensatz 00:09:19.604 --> 00:09:23.196 für Wissenschaftler aus aller Welt kostenlos verfügbar. 00:09:23.526 --> 00:09:26.496 (Applaus) NOTE Paragraph 00:09:29.416 --> 00:09:33.954 Da wir nun die Daten haben, um unser Computerhirn zu füttern, 00:09:33.954 --> 00:09:37.691 können wir jetzt zu den Algorithmen zurückkommen. 00:09:37.691 --> 00:09:42.869 Es stellte sich heraus, dass die Informationsfülle auf ImageNet 00:09:42.869 --> 00:09:47.535 perfekt zu einer bestimmten Art von Machine Learning-Algorithmen passte, 00:09:47.575 --> 00:09:50.090 sogenannte "faltende neuronale Netzwerke", 00:09:50.090 --> 00:09:55.338 entwickelt von Kunihiko Fukushima, Geoff Hinton und Yann LeCun 00:09:55.338 --> 00:09:58.983 und das schon in den 70er und 80er Jahren. 00:09:58.983 --> 00:10:04.602 So wie unser Gehirn aus Milliarden von stark vernetzten Neuronen besteht, 00:10:04.602 --> 00:10:08.456 ist die einfachste Betriebseinheit eines neuronalen Netzwerks 00:10:08.456 --> 00:10:10.871 ein neuronenähnlicher Knotenpunkt. 00:10:10.871 --> 00:10:13.425 Er erhält Input von anderen Knotenpunkten 00:10:13.425 --> 00:10:16.143 und sendet Output an andere. 00:10:16.143 --> 00:10:20.856 Zusätzlich sind diese hunderttausende oder sogar Millionen von Knotenpunkten 00:10:20.856 --> 00:10:24.083 in hierarchischen Schichten organisiert, 00:10:24.083 --> 00:10:26.637 auch das ähnlich wie im Gehirn. 00:10:26.637 --> 00:10:31.420 Ein typisches Neuronales Netz, das unser Objekterkennungsmodell trainiert, 00:10:31.420 --> 00:10:34.601 besitzt 24 Millionen Knotenpunkte, 00:10:34.601 --> 00:10:37.668 140 Millionen Parameter 00:10:37.668 --> 00:10:40.371 und 15 Milliarden Verbindungen. 00:10:40.371 --> 00:10:43.076 Das ist ein riesiges Modell. 00:10:43.076 --> 00:10:46.977 Dank der immensen Datenmenge von ImageNet 00:10:46.977 --> 00:10:52.410 und der modernen CPUs und GPUs, auf denen wir dieses gigantische Modell trainieren, 00:10:52.410 --> 00:10:54.779 blühte das faltende neuronale Netzwerk 00:10:54.779 --> 00:10:58.215 auf eine Weise auf, die niemand erwartet hatte. 00:10:58.215 --> 00:11:00.723 Es wurde die erfolgreichste Struktur, 00:11:00.723 --> 00:11:06.063 um spannende neue Ergebnisse in der Objekterkennung zu generieren. 00:11:06.063 --> 00:11:08.873 Das ist ein Computer, der uns sagt, 00:11:08.873 --> 00:11:11.173 dass auf diesem Bild eine Katze zu sehen ist 00:11:11.173 --> 00:11:13.076 und wo sich diese Katze befindet. 00:11:13.076 --> 00:11:15.188 Natürlich gibt es noch mehr als nur Katzen. 00:11:15.188 --> 00:11:18.182 Hier sehen Sie einen Computeralgorithmus, der uns sagt, 00:11:18.182 --> 00:11:20.900 dass auf dem Bild ein Junge und ein Teddybär sind; 00:11:20.900 --> 00:11:25.266 hier ein Hund, eine Person und ein kleiner Drachen im Hintergrund; 00:11:25.266 --> 00:11:28.401 oder dieses sehr überladene Bild: 00:11:28.401 --> 00:11:33.045 ein Mann, ein Skateboard, Geländer, eine Laterne und so weiter. 00:11:33.045 --> 00:11:39.398 Manchmal weiß der Computer nicht genau, was er sieht, 00:11:39.408 --> 00:11:42.153 und wir haben ihm beigebracht, schlau genug zu sein, 00:11:42.153 --> 00:11:45.652 uns eine sichere Antwort zu geben, statt sich zu sehr festzulegen, 00:11:45.652 --> 00:11:48.203 genau so wie wir es auch machen würden. 00:11:48.463 --> 00:11:53.129 Manchmal ist der Algorithmus dagegen bemerkenswert gut darin, uns zu sagen, 00:11:53.129 --> 00:11:55.382 was genau die Objekte sind, 00:11:55.382 --> 00:11:58.818 wie die Marke, das Modell und das Baujahr eines Autos. NOTE Paragraph 00:11:58.818 --> 00:12:04.204 Wir haben diesen Algorithmus auf Millionen von Google Street View Bilder angewendet 00:12:04.204 --> 00:12:07.339 in hunderten amerikanischen Städten 00:12:07.339 --> 00:12:10.265 und fanden dabei etwas sehr Interessantes heraus: 00:12:10.265 --> 00:12:13.585 Zunächst bestätigte sich unsere Vermutung, 00:12:13.585 --> 00:12:16.875 dass Fahrzeugpreise in direktem Bezug 00:12:16.875 --> 00:12:19.070 zu Haushaltseinkommen stehen. 00:12:19.070 --> 00:12:23.747 Überraschenderweise korrelieren die Fahrzeugpreise auch stark 00:12:23.747 --> 00:12:26.047 mit den Kriminalitätsraten einer Stadt 00:12:27.007 --> 00:12:30.970 oder den Wahlergebnissen nach Postleitzahlen. NOTE Paragraph 00:12:31.620 --> 00:12:34.266 Aber Moment mal. War es das schon? 00:12:34.266 --> 00:12:39.419 Sind Computer mit dem Menschen gleich gezogen oder haben ihn sogar übertroffen? 00:12:39.419 --> 00:12:41.557 Nicht so schnell. 00:12:41.557 --> 00:12:46.480 Bisher haben wir dem Computer lediglich beigebracht, Objekte zu sehen. 00:12:46.480 --> 00:12:51.124 Das ist wie ein kleines Kind, das gerade seine ersten Substantive zu sagen lernt. 00:12:51.124 --> 00:12:53.794 Das ist eine beachtliche Leistung, 00:12:53.794 --> 00:12:56.254 aber doch nur der erste Schritt. 00:12:56.254 --> 00:13:00.016 Bald wird das nächste Entwicklungsziel erreicht 00:13:00.016 --> 00:13:03.477 und Kinder fangen an, in ganzen Sätzen zu kommunizieren. 00:13:03.477 --> 00:13:07.701 Anstatt zu sagen, dass auf dem Bild eine Katze ist, 00:13:07.701 --> 00:13:12.903 sagte uns das kleine Mädchen schon, dass die Katze auf einem Bett liegt. NOTE Paragraph 00:13:12.903 --> 00:13:18.498 Um einem Computer beizubringen, ein Bild zu sehen und Sätze zu bilden, 00:13:18.498 --> 00:13:22.446 muss die Ehe zwischen Big Data und dem Machine Learning-Algorithmus 00:13:22.446 --> 00:13:24.491 den nächsten Schritt gehen. 00:13:24.491 --> 00:13:28.877 Nun muss der Computer sowohl von Bildern 00:13:28.877 --> 00:13:31.733 als auch von natürlichsprachlichen Sätzen lernen, 00:13:31.733 --> 00:13:34.885 die Menschen erzeugen. 00:13:35.055 --> 00:13:38.908 Wie auch das Gehirn das Sehen mit der Sprache verbindet, 00:13:38.908 --> 00:13:44.109 entwickelten wir ein Modell, das einen Teil der visuellen Dinge 00:13:44.109 --> 00:13:46.013 wie visuelle Ausschnitte 00:13:46.013 --> 00:13:50.216 mit Wörtern und Ausdrücken in Sätzen vereint. NOTE Paragraph 00:13:50.216 --> 00:13:52.979 Vor etwa vier Monaten 00:13:52.979 --> 00:13:55.626 haben wir das alles endlich miteinander verbunden 00:13:55.626 --> 00:13:59.410 und eines der ersten Computer Vision-Modelle erzeugt, 00:13:59.410 --> 00:14:03.404 das in der Lage ist, einen menschenähnlichen Satz zu generieren, 00:14:03.404 --> 00:14:06.910 wenn es ein Bild zum ersten Mal sieht. 00:14:06.910 --> 00:14:11.554 Jetzt kann ich Ihnen zeigen, was der Computer sagt, 00:14:11.554 --> 00:14:13.529 wenn er die Bilder sieht, 00:14:13.529 --> 00:14:17.359 die das kleine Mädchen am Anfang dieser Präsentation sah. NOTE Paragraph 00:14:19.099 --> 00:14:22.443 (Video) Computer: Ein Mann steht neben einem Elefanten. 00:14:24.393 --> 00:14:28.027 Ein großes Flugzeug steht auf einer Landebahn. NOTE Paragraph 00:14:29.057 --> 00:14:33.269 FFL: Natürlich arbeiten wir noch eifrig daran, diese Algorithmen zu verbessern 00:14:33.269 --> 00:14:35.685 und sie müssen noch immer viel lernen. 00:14:35.685 --> 00:14:38.156 (Applaus) NOTE Paragraph 00:14:39.536 --> 00:14:42.857 Der Computer macht immer noch Fehler. NOTE Paragraph 00:14:42.877 --> 00:14:46.268 (Video) Computer: Eine Katze liegt unter einer Decke auf dem Bett. NOTE Paragraph 00:14:46.268 --> 00:14:48.821 FFL: Wenn er zu viele Katzen sieht, 00:14:48.821 --> 00:14:51.747 denkt er, alles könnte eine Katze sein. NOTE Paragraph 00:14:53.317 --> 00:14:56.431 (Video) Computer: Ein kleiner Junge hält einen Baseballschläger. 00:14:56.431 --> 00:14:57.946 (Lachen) NOTE Paragraph 00:14:57.946 --> 00:15:02.529 Wenn er noch nie eine Zahnbürste gesehen hat, ist es für ihn ein Baseballschläger. NOTE Paragraph 00:15:03.169 --> 00:15:07.163 (Video) Computer: Ein Mann reitet auf einem Pferd die Straße hinunter. 00:15:07.163 --> 00:15:08.766 (Lachen) NOTE Paragraph 00:15:08.766 --> 00:15:12.711 FFL: Wir haben den Computern das Konzept der Kunst noch nicht beigebracht. NOTE Paragraph 00:15:13.768 --> 00:15:16.652 (Video) Computer: Ein Zebra steht auf einer Wiese. NOTE Paragraph 00:15:16.652 --> 00:15:20.991 FFL: Er hat die phantastische Schönheit der Natur noch nicht schätzen gelernt, 00:15:20.991 --> 00:15:22.457 so wie Sie und ich es tun. NOTE Paragraph 00:15:22.637 --> 00:15:25.289 Wir haben einen langen Weg hinter uns. 00:15:25.289 --> 00:15:29.515 Es war schwer von null bis zu unserem dritten Lebensjahr zu kommen. 00:15:29.515 --> 00:15:35.111 Die echte Herausforderung ist es aber, von 3 bis 13 und noch weiter zu kommen. 00:15:35.111 --> 00:15:39.476 Erinnern Sie sich an das Bild mit dem Jungen und dem Kuchen. 00:15:39.476 --> 00:15:43.540 Bisher haben wir dem Computer beigebracht, Objekte zu sehen 00:15:43.540 --> 00:15:47.998 oder uns eine einfache Geschichte zu den Bildern zu erzählen. NOTE Paragraph 00:15:47.998 --> 00:15:51.574 (Video) Computer: Eine Person sitzt an einem Tisch mit einem Kuchen. NOTE Paragraph 00:15:51.574 --> 00:15:54.204 FFL: Aber es steckt viel mehr in diesem Bild 00:15:54.204 --> 00:15:56.474 als nur eine Person und ein Kuchen. 00:15:56.474 --> 00:16:00.791 Der Computer erkennt nicht, dass es ein spezieller italienischer Kuchen ist, 00:16:00.791 --> 00:16:04.058 der nur zu Ostern gebacken wird. 00:16:04.158 --> 00:16:07.363 Der Junge trägt sein Lieblingsshirt, 00:16:07.363 --> 00:16:11.333 das ihm sein Vater von einer Reise nach Sydney mitgebracht hat. 00:16:11.333 --> 00:16:15.141 Sie und ich können sehen, wie glücklich er ist 00:16:15.141 --> 00:16:18.344 und was genau in diesem Moment in seinem Kopf vor sich geht. NOTE Paragraph 00:16:19.134 --> 00:16:22.199 Das ist mein Sohn Leo. 00:16:22.269 --> 00:16:24.963 Auf meiner Suche nach visueller Intelligenz 00:16:24.963 --> 00:16:27.354 denke ich ständig an Leo 00:16:27.354 --> 00:16:30.077 und an die Welt der Zukunft, in der er leben wird. 00:16:30.077 --> 00:16:34.088 Wenn Maschinen sehen können, werden Ärzte und Krankenschwestern 00:16:34.088 --> 00:16:36.990 ein zusätzliches Paar unermüdlicher Augen haben, 00:16:36.990 --> 00:16:41.082 um ihnen bei der Diagnose und Behandlung von Patienten zu helfen. 00:16:41.082 --> 00:16:45.325 Autos werden klüger und sicherer durch die Straßen fahren. 00:16:45.465 --> 00:16:48.679 Roboter, nicht nur Menschen, werden uns dabei helfen, 00:16:48.679 --> 00:16:53.008 in Katastrophengebiete vorzudringen, um Verschüttete und Verwundete zu retten. 00:16:53.538 --> 00:16:57.594 Wir werden neue Arten und bessere Materialien entdecken 00:16:57.594 --> 00:17:02.103 und ungesehene Grenzen erkunden, mit Hilfe von Maschinen. NOTE Paragraph 00:17:03.113 --> 00:17:07.280 Schritt für Schritt bringen wir Maschinen das Sehen bei. 00:17:07.280 --> 00:17:10.078 Erst bringen wir es ihnen bei. 00:17:10.078 --> 00:17:12.840 Später helfen sie uns dabei, besser zu sehen. 00:17:12.840 --> 00:17:16.886 Zum ersten Mal werden unsere Augen nicht die einzigen sein, 00:17:16.886 --> 00:17:19.940 die unsere Welt studieren und erkunden. 00:17:19.940 --> 00:17:23.540 Wir werden Maschinen nicht nur wegen ihrer Intelligenz nutzen, 00:17:23.540 --> 00:17:29.579 wir werden mit ihnen zusammenarbeiten, wie es jetzt noch unvorstellbar scheint. NOTE Paragraph 00:17:29.579 --> 00:17:31.740 Das ist mein Ziel: 00:17:31.740 --> 00:17:34.452 Ich möchte Computern visuelle Intelligenz geben 00:17:34.452 --> 00:17:39.583 und damit eine bessere Zukunft für Leo und die ganze Welt gestalten. NOTE Paragraph 00:17:39.583 --> 00:17:41.394 Danke. NOTE Paragraph 00:17:41.394 --> 00:17:44.379 (Applaus)