1 00:00:09,627 --> 00:00:13,424 Antes, si querías que un computador hiciera algo nuevo 2 00:00:13,424 --> 00:00:15,256 tenías, normalmente, que programarlo. 3 00:00:15,256 --> 00:00:18,542 La programación, para quienes no la han practicado, 4 00:00:18,566 --> 00:00:21,645 requiere especificar con el más mínimo detalle 5 00:00:21,645 --> 00:00:25,234 cada paso que uno quiere que haga su computador 6 00:00:25,234 --> 00:00:27,481 para alcanzar el objetivo. 7 00:00:27,481 --> 00:00:31,126 Si quieren hacer algo que no saben hacer por sí mismos 8 00:00:31,126 --> 00:00:33,132 entonces están ante un gran reto. 9 00:00:33,132 --> 00:00:36,682 Ese fue el reto al que se enfrentó este hombre, Arthur Samuel. 10 00:00:36,682 --> 00:00:42,775 En 1956, quería hacer que su computador pudiera ganarle a las damas. 11 00:00:42,775 --> 00:00:44,532 ¿Cómo se puede diseñar un programa, 12 00:00:44,532 --> 00:00:48,820 teniendo en cuenta el más mínimo detalle que sea mejor que sí mismo a las damas? 13 00:00:48,820 --> 00:00:50,527 Y se le ocurrió una idea: 14 00:00:50,527 --> 00:00:54,370 hizo jugar al computador contra sí mismo miles de veces 15 00:00:54,370 --> 00:00:56,826 y le hizo aprender a jugar a las damas. 16 00:00:56,826 --> 00:00:59,774 De hecho funcionó, ya en 1962, 17 00:00:59,774 --> 00:01:02,707 este computador había ganado la competición estatal de Connecticut. 18 00:01:03,416 --> 00:01:06,859 Arthur Samuel fue el padre del aprendizaje automático, 19 00:01:06,859 --> 00:01:08,441 y tengo una deuda con él, 20 00:01:08,441 --> 00:01:11,279 porque soy un profesional del aprendizaje automático. 21 00:01:11,279 --> 00:01:12,906 Fui presidente de Kaggle, 22 00:01:12,906 --> 00:01:14,533 una comunidad de unos 200 000 23 00:01:14,533 --> 00:01:16,162 profesionales del aprendizaje automático. 24 00:01:16,162 --> 00:01:18,447 Kaggle contribuye con competiciones 25 00:01:18,447 --> 00:01:21,893 para tratar de resolver problemas anteriores no resueltos, 26 00:01:22,071 --> 00:01:24,732 y tuvo éxito cientos de veces. 27 00:01:25,727 --> 00:01:28,118 Así que desde esa perspectiva, pude descubrir 28 00:01:28,118 --> 00:01:32,169 mucho sobre lo que el aprendizaje automático hizo, puede hacer hoy 29 00:01:32,169 --> 00:01:34,367 y lo que podrá hacer en el futuro. 30 00:01:34,367 --> 00:01:36,605 Quizás el primer gran éxito 31 00:01:36,605 --> 00:01:39,209 del aprendizaje automático en el mercado fue Google. 32 00:01:39,209 --> 00:01:41,835 Google demostró que era posible encontrar información 33 00:01:41,835 --> 00:01:44,131 usando un algoritmo informático 34 00:01:44,131 --> 00:01:46,945 y ese algoritmo se basa en el aprendizaje automático. 35 00:01:46,945 --> 00:01:50,661 Desde entonces, ha habido muchos éxitos comerciales del aprendizaje automático. 36 00:01:50,661 --> 00:01:52,676 Compañías como Amazon y Netflix 37 00:01:52,676 --> 00:01:55,901 usan el aprendizaje automático para sugerir artículos que les puedan interesar comprar, 38 00:01:55,901 --> 00:01:58,147 películas que les puedan interesar ver 39 00:01:58,147 --> 00:02:00,091 A veces, es casi escalofriante. 40 00:02:00,091 --> 00:02:01,915 Compañías como LinkedIn y Facebook 41 00:02:01,915 --> 00:02:04,490 dicen, en ocasiones, cuáles pueden ser sus amigos 42 00:02:04,490 --> 00:02:06,361 y uno no tiene ni idea de cómo lo han hecho, 43 00:02:06,361 --> 00:02:09,410 y es porque hace uso del poder del aprendizaje automático. 44 00:02:09,410 --> 00:02:12,619 Estos son algoritmos que han aprendido como hacerlo a partir de los datos 45 00:02:12,619 --> 00:02:15,386 en lugar de ser programados a mano. 46 00:02:15,860 --> 00:02:18,444 Así es también como IBM tuvo éxito 47 00:02:18,444 --> 00:02:21,476 en conseguir que Watson ganara dos campeonatos mundiales de "Jeopardy" 48 00:02:21,476 --> 00:02:24,863 respondiendo preguntas increíblemente ingeniosas, como esta. 49 00:02:24,863 --> 00:02:28,078 [El antiguo "León de Nimrud" se perdió del Museo Nacional de esta ciudad en 2003] 50 00:02:28,078 --> 00:02:32,054 También es por eso, que podemos ver los primeros autos sin piloto. 51 00:02:32,124 --> 00:02:34,756 Si pueden diferenciar entre, por ejemplo 52 00:02:34,756 --> 00:02:37,578 un árbol y un peatón, es algo muy importante. 53 00:02:37,618 --> 00:02:40,315 No sabemos diseñar estos programas manualmente, 54 00:02:40,315 --> 00:02:43,572 pero con el aprendizaje automático es posible. 55 00:02:43,572 --> 00:02:46,320 De hecho, este auto ha conducido más de un millón y medio de kilómetros 56 00:02:46,320 --> 00:02:48,823 sin tener accidentes en carretera. 57 00:02:48,823 --> 00:02:52,390 Así, sabemos que los computadores pueden aprender 58 00:02:52,390 --> 00:02:54,550 y pueden aprender a hacer cosas 59 00:02:54,550 --> 00:02:57,305 que de hecho nosotros, a veces, no sabemos hacer, 60 00:02:57,305 --> 00:03:00,062 o las pueden hacer mejor que nosotros. 61 00:03:00,062 --> 00:03:04,332 Uno de los ejemplos más sorprendentes que he visto en aprendizaje automático 62 00:03:04,332 --> 00:03:06,863 ocurrió en un proyecto que dirigía en Kaggle 63 00:03:06,863 --> 00:03:10,671 donde un equipo dirigido por un chico llamado Geoffrey Hinton 64 00:03:10,671 --> 00:03:12,276 de la Universidad de Toronto 65 00:03:12,276 --> 00:03:14,598 ganó un concurso para el descubrimiento automático de medicamentos. 66 00:03:14,598 --> 00:03:17,453 Lo extraordinario fue no solo que batiera 67 00:03:17,453 --> 00:03:21,979 a todos los algoritmos desarrollados por Merck o la comunidad académica internacional, 68 00:03:21,979 --> 00:03:26,996 sino que nadie del equipo tenía experiencia en química o biología o ciencias biológicas, 69 00:03:26,996 --> 00:03:28,800 y lo hicieron en dos semanas. 70 00:03:28,800 --> 00:03:31,003 ¿Cómo lo hicieron? 71 00:03:31,003 --> 00:03:34,008 Usaron un algoritmo extraordinario llamado aprendizaje profundo. 72 00:03:34,008 --> 00:03:37,072 Fue tan exitoso que tuvo cobertura 73 00:03:37,072 --> 00:03:40,109 en The New York Times en un artículo de portada unas semanas después. 74 00:03:40,109 --> 00:03:42,727 Este es Geoffrey Hinton a la izquierda. 75 00:03:42,727 --> 00:03:46,738 El aprendizaje profundo es un algoritmo inspirado en el cerebro humano 76 00:03:46,738 --> 00:03:48,709 y como resultado 77 00:03:48,709 --> 00:03:52,108 no tiene limitaciones teóricas en lo que puede hacer. 78 00:03:52,108 --> 00:03:55,509 Cuantos más datos y tiempo de cálculo uno le dé 79 00:03:55,509 --> 00:03:56,716 mejor funciona. 80 00:03:56,752 --> 00:03:59,421 The New York Times mostró, también en su artículo 81 00:03:59,421 --> 00:04:01,674 otro resultado extraordinario del aprendizaje profundo 82 00:04:01,674 --> 00:04:03,928 que mostraré ahora. 83 00:04:03,928 --> 00:04:07,872 Demuestra que los computadores pueden escuchar y comprender. 84 00:04:08,654 --> 00:04:11,018 (Vídeo) Richard Rashid: El último paso 85 00:04:11,018 --> 00:04:13,993 que quiero dar en este proceso 86 00:04:13,993 --> 00:04:17,334 es hablar en chino. 87 00:04:19,394 --> 00:04:21,910 La clave es, 88 00:04:21,910 --> 00:04:26,531 hemos recopilado una gran información de hablantes de chino 89 00:04:26,531 --> 00:04:29,641 y producido un sistema de conversión de texto a voz 90 00:04:29,641 --> 00:04:33,772 que toma el texto en chino y lo convierte en lengua oral, 91 00:04:35,428 --> 00:04:38,952 luego hemos grabado una hora de mi voz 92 00:04:38,952 --> 00:04:41,218 que usamos para modular 93 00:04:41,218 --> 00:04:44,944 el texto estándar de conversión de texto a voz para que suene como yo. 94 00:04:45,188 --> 00:04:47,726 De nuevo, el resultado no es perfecto. 95 00:04:47,726 --> 00:04:50,554 De hecho, hay unos cuantos errores. 96 00:04:50,554 --> 00:04:52,880 結果並不完美 (los resultados no son perfectos) 97 00:04:52,880 --> 00:04:56,573 (Aplausos) 98 00:04:58,179 --> 00:05:00,990 Hay mucho que hacer en este área. 99 00:05:01,449 --> 00:05:04,893 在這方面有很多工作要做 (hay mucho trabajo que hacer en esta área) 100 00:05:04,893 --> 00:05:08,420 (Aplausos) 101 00:05:10,462 --> 00:05:14,244 Jeremy Howard: Esto era una conferencia de aprendizaje automático en China. 102 00:05:14,244 --> 00:05:16,614 No es usual, en conferencias académicas 103 00:05:16,614 --> 00:05:18,511 oír aplausos espontáneos, 104 00:05:18,511 --> 00:05:22,187 aunque en las conferencias de TEDx siéntanse libres. 105 00:05:22,187 --> 00:05:24,982 Todo lo que han visto es gracias al aprendizaje profundo. 106 00:05:24,982 --> 00:05:26,507 (Aplausos) Gracias. 107 00:05:26,507 --> 00:05:28,789 La transcripción en inglés es aprendizaje profundo. 108 00:05:28,789 --> 00:05:32,201 La traducción al chino y el texto arriba a la derecha, es aprendizaje profundo, 109 00:05:32,201 --> 00:05:35,508 y la construcción de la voz también es aprendizaje profundo. 110 00:05:35,508 --> 00:05:38,742 Eso es lo extraordinario del aprendizaje profundo. 111 00:05:38,742 --> 00:05:41,841 Es un solo algoritmo que parece hacer casi cualquier cosa, 112 00:05:41,841 --> 00:05:44,952 y descubrí que un año antes, aprendió a ver. 113 00:05:44,952 --> 00:05:47,128 En esta extraña competición en Alemania 114 00:05:47,128 --> 00:05:49,124 llamada Banco de Prueba de Reconocimiento de Señales de Tránsito 115 00:05:49,124 --> 00:05:53,020 el aprendizaje profundo ha aprendido a reconocer señales de tránsito como esta. 116 00:05:53,030 --> 00:05:55,214 No solo reconoce señales de tránsito 117 00:05:55,238 --> 00:05:56,970 mejor que cualquier otro algoritmo, 118 00:05:56,970 --> 00:05:59,689 la clasificación mostró que era mejor que las personas, 119 00:05:59,689 --> 00:06:01,541 dos veces más bueno que las personas. 120 00:06:01,541 --> 00:06:03,537 Para 2011, se da el primer ejemplo 121 00:06:03,537 --> 00:06:06,942 de computadores que pueden ver mejor que las personas. 122 00:06:06,942 --> 00:06:08,991 Desde entonces, han ocurrido muchas cosas. 123 00:06:08,991 --> 00:06:12,505 En 2012, Google anunció que había hecho que un algoritmo de aprendizaje profundo 124 00:06:12,505 --> 00:06:13,920 viera vídeos en YouTube 125 00:06:13,920 --> 00:06:17,357 y procesaron la información en 16 000 computadores al mes 126 00:06:17,357 --> 00:06:21,718 y el computador aprendió de manera independiente conceptos como personas y gatos 127 00:06:21,718 --> 00:06:23,527 solo viendo los vídeos. 128 00:06:23,527 --> 00:06:25,879 Esto se parece mucho al aprendizaje humano. 129 00:06:25,879 --> 00:06:28,619 Los humanos no aprendemos porque nos cuenten lo que vemos, 130 00:06:28,619 --> 00:06:31,950 sino que aprendemos solos qué son esas cosas. 131 00:06:31,950 --> 00:06:35,319 También en 2012, Geoffrey Hinton, que vimos anteriormente, 132 00:06:35,319 --> 00:06:38,177 ganó la famosa competición de ImageNet, 133 00:06:38,177 --> 00:06:42,318 tratando de averiguar, mirando un millón y medio de imágenes, 134 00:06:42,318 --> 00:06:43,756 sobre qué eran estas imágenes. 135 00:06:43,756 --> 00:06:47,289 A partir de 2014, tenemos un porcentaje de error por debajo del 6 % 136 00:06:47,289 --> 00:06:48,742 en reconocimiento de imágenes. 137 00:06:48,742 --> 00:06:50,768 De nuevo, mejor que las personas. 138 00:06:50,768 --> 00:06:54,537 Las máquinas están haciendo un trabajo increíble aquí, 139 00:06:54,537 --> 00:06:56,806 y está siendo usadas en la industria. 140 00:06:56,806 --> 00:06:59,848 Por ejemplo, Google anunció el año pasado 141 00:06:59,848 --> 00:07:04,433 que había cartografiado cada sitio de Francia en dos horas, 142 00:07:04,433 --> 00:07:07,880 y lo hizo alimentando con imágenes de las calles, 143 00:07:07,880 --> 00:07:12,199 al algoritmo de aprendizaje profundo para reconocer y leer los números. 144 00:07:12,199 --> 00:07:14,419 Imaginen lo que se habría tardado antes: 145 00:07:14,419 --> 00:07:17,774 docenas de personas, muchos años. 146 00:07:17,774 --> 00:07:19,685 Esto también está pasando en China. 147 00:07:19,685 --> 00:07:23,721 Baidu es como el Google chino, creo, 148 00:07:23,721 --> 00:07:26,004 y lo que ven arriba a la izquierda 149 00:07:26,004 --> 00:07:29,978 es un ejemplo de una imagen que subí al sistema de aprendizaje profundo de Baidu, 150 00:07:29,978 --> 00:07:33,747 y debajo se puede ver que el sistema ha entendido lo que es esa imagen 151 00:07:33,747 --> 00:07:35,983 y encuentra imágenes similares. 152 00:07:35,983 --> 00:07:38,719 Las imágenes similares tienen fondos similares 153 00:07:38,719 --> 00:07:42,165 similares de las caras, incluso algunos con la lengua afuera. 154 00:07:42,165 --> 00:07:45,195 Esto no es claramente mirar el texto de una página web. 155 00:07:45,195 --> 00:07:46,607 Todo lo que descargué eran imágenes. 156 00:07:46,607 --> 00:07:50,628 Por lo que ahora tenemos computadores que entienden lo que ven 157 00:07:50,628 --> 00:07:52,252 y por ello pueden buscar bases de datos 158 00:07:52,252 --> 00:07:55,806 de cientos de millones de imágenes en tiempo real 159 00:07:55,806 --> 00:07:59,036 ¿Qué significado tiene que los computadores puedan ver? 160 00:07:59,036 --> 00:08:01,053 Bueno, no es solo que los computadores puedan ver. 161 00:08:01,053 --> 00:08:03,244 De hecho, el aprendizaje profundo ha hecho más que eso. 162 00:08:03,268 --> 00:08:06,070 Frases complejas y llenas de matices como esta 163 00:08:06,070 --> 00:08:08,894 son ahora comprensibles con algoritmos del aprendizaje profundo. 164 00:08:08,894 --> 00:08:10,197 Como pueden ver aquí, 165 00:08:10,197 --> 00:08:12,965 este sistema basado en el de Stanford que muestra el punto rojo en la parte superior 166 00:08:12,965 --> 00:08:16,884 ha comprendido que esta frase expresa sentimientos negativos. 167 00:08:16,884 --> 00:08:20,290 El aprendizaje profundo está cercano a la conducta humana 168 00:08:20,302 --> 00:08:25,423 al comprender lo que significan las frases y lo que se está diciendo sobre esas cosas. 169 00:08:25,423 --> 00:08:28,151 El aprendizaje profundo se ha usado también para leer chino, 170 00:08:28,151 --> 00:08:31,307 de nuevo, a un nivel casi de hablante nativo. 171 00:08:31,307 --> 00:08:33,475 Este algoritmo, desarrollado en Suiza 172 00:08:33,475 --> 00:08:36,831 por gente que no hablaba ni entendía chino. 173 00:08:36,831 --> 00:08:38,881 Como dije, usar el aprendizaje profundo 174 00:08:38,881 --> 00:08:41,101 es el mejor sistema del mundo para esto, 175 00:08:41,101 --> 00:08:45,562 hasta comparándolo con el conocimiento humano. 176 00:08:46,218 --> 00:08:49,182 Este es un sistema que formamos en mi empresa 177 00:08:49,182 --> 00:08:51,230 que demuestra todas estas cosas juntas. 178 00:08:51,254 --> 00:08:53,689 Estas son imágenes sin texto adjunto, 179 00:08:53,689 --> 00:08:56,041 y cuando tecleo aquí frases, 180 00:08:56,041 --> 00:08:59,010 entiende, en tiempo real, estas imágenes 181 00:08:59,010 --> 00:09:00,689 y comprende de qué se tratan 182 00:09:00,689 --> 00:09:03,852 y encuentra imágenes similares al texto que estoy escribiendo. 183 00:09:03,852 --> 00:09:06,608 Como pueden ver, entiende mis frases 184 00:09:06,608 --> 00:09:08,832 y de hecho entiende estas imágenes. 185 00:09:08,832 --> 00:09:11,391 Se que han visto algo como esto en Google, 186 00:09:11,391 --> 00:09:14,166 donde puede escribir algo y te lo muestra en imágenes, 187 00:09:14,166 --> 00:09:17,590 pero lo que realmente está haciendo es buscar la página web a través del texto. 188 00:09:17,590 --> 00:09:20,591 Esto es muy diferente a comprender las imágenes. 189 00:09:20,591 --> 00:09:23,343 Esto es algo que los computadores solo han podido hacer 190 00:09:23,343 --> 00:09:26,591 por primera vez hace unos pocos meses. 191 00:09:26,591 --> 00:09:30,682 Así que ahora podemos ver que los computadores no solo ven sino que pueden leer, 192 00:09:30,682 --> 00:09:34,447 y, por supuesto, hemos demostrado que pueden entender lo que oyen. 193 00:09:34,447 --> 00:09:37,889 Quizá no sea sorprendente ahora lo que voy a decir, pueden escribir. 194 00:09:37,889 --> 00:09:42,672 Aquí hay parte de un texto que generé ayer usando el algoritmo de aprendizaje profundo. 195 00:09:42,672 --> 00:09:46,596 Y aquí hay parte de un texto que generó un algoritmo de Stanford. 196 00:09:46,596 --> 00:09:48,360 Cada una de estas frases fue generada 197 00:09:48,360 --> 00:09:52,609 por un algoritmo de aprendizaje profundo para describir estas imágenes. 198 00:09:52,609 --> 00:09:57,081 Este algoritmo nunca había visto a un hombre con camisa negra tocando la guitarra. 199 00:09:57,081 --> 00:09:59,301 Ha visto a un hombre antes, ha visto el negro antes 200 00:09:59,301 --> 00:10:00,900 ha visto una guitarra antes, 201 00:10:00,900 --> 00:10:05,194 pero ha generado de manera independiente esta innovadora descripción de esta imagen. 202 00:10:05,194 --> 00:10:08,696 Aquí no estamos ante un comportamiento humano, pero estamos cerca. 203 00:10:08,696 --> 00:10:12,764 En las pruebas, las personas prefieren las leyendas generadas por el computador 204 00:10:12,764 --> 00:10:14,291 1 de cada 4 veces. 205 00:10:14,291 --> 00:10:16,355 Este sistema tiene ahora solo dos semanas de edad, 206 00:10:16,355 --> 00:10:18,201 por lo que posiblemente antes del año que viene, 207 00:10:18,201 --> 00:10:21,002 el algoritmo del computador irá más allá del comportamiento humano 208 00:10:21,002 --> 00:10:22,864 al paso que van las cosas. 209 00:10:22,864 --> 00:10:25,913 Así que los computadores pueden escribir. 210 00:10:25,913 --> 00:10:29,388 Juntamos todo esto y lleva a oportunidades apasionantes. 211 00:10:29,388 --> 00:10:30,880 Por ejemplo, en medicina, 212 00:10:30,880 --> 00:10:33,405 un equipo de Boston anunció que habían descubierto 213 00:10:33,405 --> 00:10:36,354 decenas de características clínicas relevantes 214 00:10:36,354 --> 00:10:40,596 sobre tumores que ayudan a los médicos a hacer un diagnóstico de un cáncer. 215 00:10:41,720 --> 00:10:44,016 Algo similar, en Stanford, 216 00:10:44,016 --> 00:10:47,679 un grupo anunció que, mirando un tejido con aumento, 217 00:10:47,679 --> 00:10:50,060 habían desarrollado una máquina basada en el sistema de aprendizaje 218 00:10:50,060 --> 00:10:52,642 que de hecho es mejor que los patólogos humanos 219 00:10:52,642 --> 00:10:56,415 prediciendo las tasas de supervivencia de los enfermos de cáncer. 220 00:10:56,415 --> 00:11:00,264 En ambos casos, no solo fueron las predicciones más precisas, 221 00:11:00,264 --> 00:11:02,766 sino que generaron una nueva ciencia reveladora. 222 00:11:02,776 --> 00:11:04,281 En el caso de la radiología, 223 00:11:04,281 --> 00:11:07,376 hubo nuevos indicadores clínicos que las personas pueden entender. 224 00:11:07,376 --> 00:11:09,168 En este caso de patología, 225 00:11:09,168 --> 00:11:13,668 el sistema informático descubrió que las células alrededor del cáncer 226 00:11:13,668 --> 00:11:17,008 son tan importantes como las células del cáncer mismo 227 00:11:17,008 --> 00:11:18,760 al hacer un diagnóstico. 228 00:11:18,760 --> 00:11:24,121 Esto es lo contrario de lo que los patólogos han pensado por décadas. 229 00:11:24,121 --> 00:11:27,413 En cada uno de estos casos, fueron sistemas desarrollados 230 00:11:27,413 --> 00:11:31,034 por una combinación de expertos médicos y expertos del aprendizaje profundo, 231 00:11:31,034 --> 00:11:33,775 pero a partir del año pasado, dimos un paso más allá. 232 00:11:33,775 --> 00:11:37,324 Este es un caso de identificación de áreas cancerígenas 233 00:11:37,324 --> 00:11:39,854 del tejido humano por microscopio. 234 00:11:39,854 --> 00:11:44,467 El sistema que se muestra aquí puede identificar esas áreas de forma más precisa, 235 00:11:44,467 --> 00:11:47,242 o casi tan precisa como los patólogos humanos, 236 00:11:47,242 --> 00:11:50,634 construido completamente con aprendizaje profundo sin usar experiencia médica 237 00:11:50,634 --> 00:11:53,160 por gente que no tenía experiencia en este campo. 238 00:11:54,230 --> 00:11:56,785 De manera similar, esta segmentación neuronal. 239 00:11:56,785 --> 00:12:00,453 Ahora, podemos segmentar neuronas de forma casi tan precisa como las personas, 240 00:12:00,453 --> 00:12:03,170 y este sistema fue desarrollado por aprendizaje profundo 241 00:12:03,170 --> 00:12:06,421 usando a gente sin experiencia previa en medicina. 242 00:12:06,421 --> 00:12:09,648 Como yo, alguien sin experiencia previa en medicina, 243 00:12:09,648 --> 00:12:13,375 parezco completamente calificado para empezar una empresa médica, 244 00:12:13,375 --> 00:12:15,521 y lo hice. 245 00:12:15,521 --> 00:12:17,261 Estaba aterrorizado de hacerlo, 246 00:12:17,261 --> 00:12:20,150 pero la teoría parecía sugerir que podía ser posible 247 00:12:20,150 --> 00:12:25,642 hacer medicina muy útil usando solo estas técnicas de información analítica. 248 00:12:25,642 --> 00:12:28,122 Afortunadamente, la recompensa ha sido fantástica, 249 00:12:28,122 --> 00:12:30,694 no solo por parte de los medios sino de la comunidad médica, 250 00:12:30,718 --> 00:12:32,822 que nos ha apoyado mucho. 251 00:12:32,822 --> 00:12:36,971 La teoría es que podemos tomar media parte del proceso médico 252 00:12:36,971 --> 00:12:39,864 y convertirlo todo lo posible en análisis de datos, 253 00:12:39,864 --> 00:12:42,929 dejando a los médicos en lo que son mejores. 254 00:12:42,929 --> 00:12:44,531 Quiero dar un ejemplo. 255 00:12:44,531 --> 00:12:49,475 No cuesta unos 15 minutos crear una nueva prueba de diagnóstico médico 256 00:12:49,475 --> 00:12:51,429 y ahora lo demostraré en tiempo real, 257 00:12:51,429 --> 00:12:53,611 pero lo he comprimido a 3 minutos 258 00:12:53,611 --> 00:12:55,793 cortando algunas partes. 259 00:12:55,793 --> 00:12:58,555 En vez de mostrar cómo crear una prueba de diagnóstico médico, 260 00:12:58,579 --> 00:13:01,346 mostraré una prueba de diagnóstico de imágenes de autos, 261 00:13:01,346 --> 00:13:03,568 porque es algo que todos podemos entender. 262 00:13:03,568 --> 00:13:06,769 Así que, empezamos con un millón y medio de imágenes de autos, 263 00:13:06,769 --> 00:13:09,975 y quiero crear algo que pueda dividirlas en el ángulo 264 00:13:09,975 --> 00:13:12,198 en el que la foto fue tomada. 265 00:13:12,198 --> 00:13:16,086 Estas imágenes están sin etiquetar, así que tengo que empezar desde cero. 266 00:13:16,086 --> 00:13:17,951 Con nuestro algoritmo de aprendizaje profundo, 267 00:13:17,951 --> 00:13:21,658 se pueden identificar automáticamente áreas de la estructura en estas imágenes. 268 00:13:21,658 --> 00:13:25,278 Lo bueno es que la persona y el computador pueden trabajar juntos. 269 00:13:25,278 --> 00:13:27,456 Así que la persona, como pueden ver aquí, 270 00:13:27,456 --> 00:13:30,131 le está indicando al computador áreas de interés 271 00:13:30,131 --> 00:13:34,781 que quiere que el computador pruebe y use para mejorar su algoritmo. 272 00:13:34,781 --> 00:13:39,077 Estos sistemas de aprendizaje profundo están en un espacio de 16 000 dimensiones, 273 00:13:39,077 --> 00:13:42,509 así, pueden ver aquí cómo el computador rota esto en ese espacio, 274 00:13:42,509 --> 00:13:44,501 intentando encontrar nuevas áreas de estructura. 275 00:13:44,501 --> 00:13:46,282 Y cuando lo hace con éxito, 276 00:13:46,282 --> 00:13:50,286 la persona que lo maneja puede, entonces, señalar las áreas de interés. 277 00:13:50,286 --> 00:13:52,708 Aquí, el computador ha encontrado, con éxito, áreas, 278 00:13:52,708 --> 00:13:55,270 por ejemplo, ángulos. 279 00:13:55,270 --> 00:13:56,876 Conforme avanzamos en este proceso, 280 00:13:56,876 --> 00:13:59,216 vamos diciendo, gradualmente, al computador más y más 281 00:13:59,216 --> 00:14:01,644 sobre los tipos de estructuras que estamos buscando. 282 00:14:01,644 --> 00:14:03,416 Pueden imaginar en una prueba diagnóstica 283 00:14:03,416 --> 00:14:06,766 que esto debería ser un patólogo identificando áreas patológicas, por ejemplo, 284 00:14:06,766 --> 00:14:11,792 o un radiólogo indicando nódulos potencialmente problemáticos. 285 00:14:11,792 --> 00:14:14,351 A veces puede ser difícil para el algoritmo. 286 00:14:14,351 --> 00:14:16,315 En este caso, queda algo confuso. 287 00:14:16,315 --> 00:14:18,865 Las partes delanteras y traseras de los autos están todas mezcladas. 288 00:14:18,865 --> 00:14:20,937 Así que tenemos que ser un poco más cuidadosos, 289 00:14:20,937 --> 00:14:24,169 seleccionando manualmente las partes delanteras en contraposición a las traseras, 290 00:14:24,169 --> 00:14:29,675 para luego decir al computador que este es una especie de grupo 291 00:14:29,675 --> 00:14:31,023 es en el que estamos interesados. 292 00:14:31,023 --> 00:14:33,700 Hacemos esto por un tiempo, nos saltamos un poco, 293 00:14:33,700 --> 00:14:35,946 y luego probamos el algoritmo de aprendizaje automático 294 00:14:35,946 --> 00:14:37,920 basado en un par de cientos de cosas, 295 00:14:37,920 --> 00:14:39,945 y esperamos que haya mejorado mucho. 296 00:14:39,945 --> 00:14:43,018 Se puede ver, que han empezado a desvanecerse algunas de estas imágenes, 297 00:14:43,018 --> 00:14:47,726 mostrándonos que ya está reconociendo cómo entender por sí mismo algunas de ellas. 298 00:14:47,726 --> 00:14:50,628 Entonces podemos usar este concepto en imágenes similares, 299 00:14:50,628 --> 00:14:52,722 y usando imágenes similares, como pueden ver, 300 00:14:52,722 --> 00:14:56,741 en este punto, el computador puede encontrar solo la parte delantera de los autos. 301 00:14:56,741 --> 00:14:59,689 En este punto, la persona puede decir al computador, 302 00:14:59,689 --> 00:15:01,982 de acuerdo, sí, has hecho un buen trabajo. 303 00:15:03,152 --> 00:15:05,337 En ocasiones, por supuesto, incluso en este punto 304 00:15:05,337 --> 00:15:09,011 sigue siendo difícil separar los grupos. 305 00:15:09,011 --> 00:15:11,422 En este caso, incluso después de que dejamos 306 00:15:11,422 --> 00:15:13,833 al computador que intente girar esto por un momento, 307 00:15:13,833 --> 00:15:16,244 seguimos encontrando que la parte izquierda y derecha de las imágenes 308 00:15:16,244 --> 00:15:17,722 están mezcladas. 309 00:15:17,722 --> 00:15:19,862 Así que podemos dar, de nuevo, al computador algunas pistas, 310 00:15:19,862 --> 00:15:22,838 y decimos, bien, intenta encontrar una proyección que separe 311 00:15:22,838 --> 00:15:25,445 los lados izquierdos de los derechos de la manera más precisa 312 00:15:25,445 --> 00:15:27,567 usando este algoritmo de aprendizaje profundo. 313 00:15:27,567 --> 00:15:30,509 Y dándole esta pista... ah, bien, ha tenido éxito. 314 00:15:30,509 --> 00:15:33,391 Consiguió encontrar la manera de pensar estos objetos 315 00:15:33,391 --> 00:15:35,771 que está separando estos que están juntos. 316 00:15:35,771 --> 00:15:38,209 Así se entiende la idea aquí. 317 00:15:38,209 --> 00:15:44,388 Este es un caso en el que la persona no es reemplazada por un computador, 318 00:15:46,406 --> 00:15:49,046 sino que trabajan juntos. 319 00:15:49,046 --> 00:15:52,596 Estamos reemplazando algo que solía necesitar de un equipo 320 00:15:52,596 --> 00:15:54,598 de 5 o 6 personas durante 7 años 321 00:15:54,598 --> 00:15:57,203 por algo que lleva 15 minutos 322 00:15:57,203 --> 00:15:59,708 a una sola persona. 323 00:15:59,708 --> 00:16:03,658 Este proceso lleva unas 4 o 5 iteraciones. 324 00:16:03,658 --> 00:16:05,517 Ahora pueden ver que tenemos un 62 % 325 00:16:05,517 --> 00:16:08,476 de nuestro millón y medio de imágenes clasificadas correctamente. 326 00:16:08,476 --> 00:16:10,948 En este punto, podemos empezar, con bastante rapidez, 327 00:16:10,948 --> 00:16:12,245 a tomar grandes secciones completas, 328 00:16:12,245 --> 00:16:15,164 comprobándolas para asegurarse que no hay errores. 329 00:16:15,164 --> 00:16:19,116 Cuando hay errores, podemos hacérselo saber al computador. 330 00:16:19,116 --> 00:16:22,161 Usando este tipo de proceso para cada uno de los diferentes grupos, 331 00:16:22,161 --> 00:16:24,648 nos colocamos en un índice del 80 % de éxito 332 00:16:24,648 --> 00:16:27,063 en la clasificación de un millón y medio de imágenes. 333 00:16:27,063 --> 00:16:29,141 En este punto, es solo cuestión 334 00:16:29,141 --> 00:16:32,720 de encontrar el pequeño número que no está clasificado correctamente, 335 00:16:32,720 --> 00:16:35,608 e intentar comprender el porqué. 336 00:16:35,608 --> 00:16:37,351 Usando este enfoque, 337 00:16:37,351 --> 00:16:41,472 en 15 minutos alcanza un índice de clasificación del 97 %. 338 00:16:41,472 --> 00:16:46,072 Este tipo de técnica nos permite arreglar un problema mayor, 339 00:16:46,078 --> 00:16:49,114 que es que hay una falta de conocimientos médicos en el mundo. 340 00:16:49,114 --> 00:16:52,603 El Foro Económico Mundial dice que hay entre 10 y 20 veces 341 00:16:52,603 --> 00:16:55,227 de escasez de físicos en el mundo desarrollado, 342 00:16:55,227 --> 00:16:57,340 y llevará unos 300 años 343 00:16:57,340 --> 00:17:00,234 entrenar a gente suficiente para arreglar el problema. 344 00:17:00,234 --> 00:17:03,119 Imaginen que pudiésemos ayudar a aumentar su eficiencia 345 00:17:03,119 --> 00:17:05,958 usando estos métodos de aprendizaje profundo. 346 00:17:05,958 --> 00:17:08,190 Estoy muy entusiasmado con las oportunidades. 347 00:17:08,190 --> 00:17:10,779 También estoy preocupado por los problemas. 348 00:17:10,779 --> 00:17:13,903 El problema aquí es que cada área azul de este mapa 349 00:17:13,903 --> 00:17:17,672 es algún sitio donde el empleo, de servicios es mayor del 80 %. 350 00:17:17,672 --> 00:17:19,459 ¿Qué son los servicios? 351 00:17:19,459 --> 00:17:20,973 Los servicios son esto. 352 00:17:20,973 --> 00:17:23,290 Estas son también las mismas cosas 353 00:17:23,290 --> 00:17:25,626 que los computadores acaban de aprender a hacer. 354 00:17:25,626 --> 00:17:28,931 Así que el 80 % del empleo mundial en el mundo desarrollado 355 00:17:28,931 --> 00:17:31,463 son cosas que los computadores acaban de aprender a hacer. 356 00:17:31,463 --> 00:17:32,903 ¿Qué significa esto? 357 00:17:32,903 --> 00:17:35,486 Bueno no habrá problema, lo reemplazarán por otros trabajos. 358 00:17:35,486 --> 00:17:38,193 Por ejemplo, habrá más trabajos para los científicos de datos. 359 00:17:38,193 --> 00:17:39,010 Bueno, realmente no. 360 00:17:39,010 --> 00:17:42,128 A los científicos de datos no les lleva mucho tiempo construir estas cosas. 361 00:17:42,128 --> 00:17:45,380 Por ejemplo, estos 4 algoritmos fueron creados por el mismo chico. 362 00:17:45,380 --> 00:17:47,818 Así que si piensan, todo ha pasado ya antes, 363 00:17:47,818 --> 00:17:51,626 hemos visto los resultados en el pasado de cuando surgen cosas nuevas 364 00:17:51,626 --> 00:17:53,878 y son reemplazadas por nuevos trabajos. 365 00:17:53,878 --> 00:17:55,994 ¿Qué trabajos van a ser? 366 00:17:55,994 --> 00:17:57,865 Es muy difícil para nosotros hacer una estimación 367 00:17:57,865 --> 00:18:00,604 ya que el comportamiento humano crece a un ritmo gradual, 368 00:18:00,604 --> 00:18:03,166 pero ahora tenemos un sistema, aprendizaje profundo, 369 00:18:03,166 --> 00:18:06,393 que sabemos que crece en capacidad, exponencialmente. 370 00:18:06,393 --> 00:18:07,998 Y aquí estamos. 371 00:18:07,998 --> 00:18:10,059 Actualmente, vemos las cosas a nuestro alrededor 372 00:18:10,059 --> 00:18:12,735 y decimos, "Los computadores siguen siendo un poco estúpidos". ¿Verdad? 373 00:18:12,735 --> 00:18:16,164 Pero en 5 años, los computadores estarán fuera de esta gráfica. 374 00:18:16,164 --> 00:18:20,029 Así que necesitamos empezar a pensar sobre esta capacidad ahora mismo. 375 00:18:20,029 --> 00:18:22,079 Lo hemos visto anteriormente, por supuesto. 376 00:18:22,079 --> 00:18:23,466 En la Revolución Industrial, 377 00:18:23,466 --> 00:18:26,317 vimos un cambio en la capacidad gracias a los motores. 378 00:18:27,167 --> 00:18:30,305 El asunto es, sin embargo, que tras un tiempo, las cosas se nivelan. 379 00:18:30,305 --> 00:18:32,007 Hubo una alteración social, 380 00:18:32,007 --> 00:18:35,446 pero una vez que los motores se usaron para generar energía en todas las situaciones, 381 00:18:35,446 --> 00:18:37,800 las cosas realmente se establecieron. 382 00:18:37,800 --> 00:18:39,277 La Revolución del Aprendizaje Automático 383 00:18:39,301 --> 00:18:42,182 va a ser diferente a la Revolución Industrial 384 00:18:42,182 --> 00:18:45,135 porque la Revolución del Aprendizaje Automático, nunca se asienta. 385 00:18:45,159 --> 00:18:48,114 Cuanto mejores son los computadores en actividades intelectuales, 386 00:18:48,114 --> 00:18:52,362 mejores computadores se crearán para que mejoren su capacidad intelectual, 387 00:18:52,362 --> 00:18:54,270 así que esto va a ser una especie de cambio 388 00:18:54,270 --> 00:18:56,748 que nunca antes había experimentado el mundo, 389 00:18:56,748 --> 00:19:00,054 por lo que el entendimiento previo de lo posible, es diferente. 390 00:19:00,474 --> 00:19:02,254 Esto nos impacta. 391 00:19:02,254 --> 00:19:05,884 En los últimos 25 años, la productividad del capital se ha incrementado, 392 00:19:05,900 --> 00:19:10,088 la productividad laboral se ha mantenido, incluso ha descendido. 393 00:19:10,908 --> 00:19:13,649 Por lo que quiero que empecemos a discutir esto ahora. 394 00:19:13,649 --> 00:19:16,676 Sé que cuando hablo sobre esta situación 395 00:19:16,676 --> 00:19:18,166 la gente puede ser despectiva. 396 00:19:18,166 --> 00:19:19,839 Bueno, los computadores no pueden realmente pensar, 397 00:19:19,839 --> 00:19:22,867 no tienen sentimientos, no entienden poesía, 398 00:19:22,867 --> 00:19:25,388 no entendemos realmente cómo funcionan. 399 00:19:25,388 --> 00:19:26,874 Y, ¿qué? 400 00:19:26,874 --> 00:19:28,678 Actualmente los computadores pueden hacer cosas 401 00:19:28,678 --> 00:19:31,397 en las que las personas gastan su tiempo y les pagan por ello 402 00:19:31,397 --> 00:19:35,203 así pues ahora tenemos que empezar a pensar sobre cómo vamos a ajustar 403 00:19:35,203 --> 00:19:37,299 nuestras estructuras sociales y económicas 404 00:19:37,323 --> 00:19:39,355 para ser conscientes de esta nueva realidad. 405 00:19:39,355 --> 00:19:40,888 Gracias. 406 00:19:40,888 --> 00:19:41,888 (Aplausos)