¿Pastel favorito en EEUU?

Audiencia: El de manzana. 
Kenneth Cukier: De manzana. Por supuesto.

¿Cómo lo sabemos?

Por los datos.

Se miran las ventas en supermercados.

Se miran las ventas en supermercados 
de pasteles de 30 cm

congelados, y los de manzana 
ganan, sin rival.

La mayoría de las ventas son 
los de manzana.

Pero los supermercados 
comenzaron a vender

pasteles más pequeños, de 11 cm,

y de repente, el de manzana 
cayó al 4º o 5º lugar.

¿Por qué? ¿Qué paso?

Bueno, piensen en ello.

Cuando compramos un pastel de 30 cm,

toda la familia tiene 
que estar de acuerdo,

y el de manzana es el segundo 
favorito de todos.

(Risas)

Pero si uno compra 
un pastel de 11 cm individual,

puede comprar el que desee.

Puede comprar su primera opción.

Tenemos más datos.

Podemos ver algo

que no se podía ver

cuando solo había menor 
cantidad de datos.

Ahora, el punto es que 
muchos más datos

no solo nos permiten ver más,

más de lo mismo 
que ya veíamos.

Más datos nos permiten 
ver cosas nuevas.

Nos permiten ver mejor.

Nos permiten ver 
de forma diferente.

En este caso, nos permiten ver

que el pastel favorito de EEUU es:

no el de manzana.

Puede que todos hayan oído escuchado 
el término "Datos masivos".

De hecho, es probable que 
estén hartos de escucharlo

"Datos masivos".

Es cierto que se exagera 
mucho el término,

y eso es muy lamentable,

porque los datos masivos 
son una herramienta muy importante

para que la sociedad avance.

En el pasado, solíamos observar 
pequeñas cantidades de datos

y pensar qué significarían

para tratar de entender el mundo.

Ahora tenemos mucho más de ello,

más de lo que podía existir antes.

Lo que encontramos es que 
cuando tenemos

una gran cantidad de datos, 
podemos hacer cosas

que no podíamos hacer 
teniendo solo cantidades más pequeñas.

Los datos masivos son importantes 
y es algo nuevo,

y cuando se piensa en ello,

la única forma en que 
este planeta afronte

sus desafíos mundiales, esto es,

alimentar a la gente, 
ofrecer atención médica,

suministrar energía, electricidad,

y asegurarse de que 
no nos achicharramos

debido al calentamiento global,

es utilizando de forma eficaz los datos.

Entonces, ¿qué es lo nuevo de 
los datos masivos? ¿Cuál es la gran cosa?

Bueno, para responder a esto, 
pensaremos en

cómo se veía la información,

físicamente en el pasado.

En 1908 en la isla de Creta,

los arqueólogos descubrieron 
un disco de arcilla.

Datan del año 2000 aC, 
así que tienen 4000 años de antigüedad.

Hay inscripciones en este disco,

pero, no sabemos 
qué significan.

Es un completo misterio, 
pero el punto es que

así solía verse la información

hace 4000 años.

Esta es la forma en que 
la sociedad almacenaba

y transmitía la información.

Ahora, la sociedad no ha avanzado tanto.

Todavía guardamos 
la información en discos,

pero ahora podemos almacenar 
mucha más información,

más que nunca.

Buscar es más fácil. Copiar es más fácil.

El compartir es más fácil. 
El procesamiento es más fácil.

Y podemos volver 
a utilizar esta información

para usos que nunca 
nos imaginamos

cuando se recogieron los primeros datos.

A este respecto, los datos 
han evolucionado

de un almacén a un flujo,

de algo que es estacionario y estático

a algo que es fluido y dinámico.

Hay, si quieren, 
una liquidez de información.

El disco descubierto fuera de Creta

que tiene 4000 años 
de antigüedad, es pesado,

no almacena gran cantidad de información,

y esa información no es modificable.

Por el contrario, todos los archivos

que Edward Snowden tomó

de la Agencia de Seguridad Nacional 
de EEUU

caben en un dispositivo 
de memoria extraíble

del tamaño de una uña,

y pueden compartirse 
a la velocidad de la luz.

Más datos. Más.

Una razón para tener tantos datos 
hoy en el mundo

es que recolectamos cosas

sobre las que siempre 
hemos recopilado información,

pero otra razón es que 
estamos tomando cosas

que siempre han sido informacionales

pero nunca se habían convertido 
a un formato de datos

y las estamos convirtiendo en datos.

Piensen, por ejemplo, 
en la cuestión de la ubicación.

Tomemos, por ejemplo, Martín Lutero.

Si hubiéramos querido 
saber en 1500

donde estaba Martín Lutero,

habríamos tenido que seguirlo 
en todo momento,

quizá con pluma y tintero,

y anotarlo.

Pero piensen cómo es hoy en día.

Uds. saben que en algún lugar,

quizá en la base de datos 
de una empresa de telecomunicaciones,

hay una hoja de cálculo o 
entrada de base de datos

donde se registra su información

de donde han estado 
en todo momento.

Si tienen celular,

y el teléfono tiene GPS, 
pero incluso si no tiene GPS,

se puede registrar su información.

En este sentido, la localización 
ha sido un campo de datos.

Ahora piensen, por ejemplo, 
en el tema de la postura,

la forma en que están 
sentados ahora,

la forma en Ud. está sentado,

la de Ud., la de Ud.

Todas diferentes, en función 
de la longitud de las piernas,

la espalda y su contorno,

y si pusiera censores, 
tal vez 100

en todos los asientos ahora,

podría crear un índice 
que es único para cada uno,

algo así como una huella digital, 
que no es del dedo.

Y entonces, 
¿qué podemos hacer con esto?

Los investigadores en Tokio 
están utilizando

como un dispositivo potencial 
antirobo en los autos.

La idea es que el ladrón
se siente al volante,

intente encenderlo, 
pero el auto reconoce

que un conductor no autorizado 
está en el auto

y, tal vez el motor se detiene, 
a menos que

escriba una contraseña 
en el salpicadero

para decir, "Tengo la autorización 
para conducir". Estupendo.

¿Qué pasaría si cada automóvil 
en Europa

tuviera esta tecnología?

¿Qué podemos hacer entonces?

Tal vez, si agregamos los datos,

tal vez podríamos identificar 
signos reveladores

que predijeran mejor 
que un accidente de auto

tendrá lugar en los próximos 
cinco segundos.

Y entonces, 
la base de datos que tendremos

es la fatiga del conductor,

y el servicio se activaría 
cuando los sensores del automóvil

detectaran que la persona 
reposa en esa posición,

y automáticamente 
se activa una alarma interna

que haría vibrar el volante, 
sonar una alarma

para decir, "Despierta,

presta más atención a la carretera".

Este es el tipo de cosas 
que podemos hacer

cuando tomamos datos 
en más aspectos de nuestras vidas.

Entonces, ¿cuál es el valor 
de los datos masivos?

Bueno, piensen en ello.

Tienen más información.

Pueden hacer cosas que antes 
no se podían hacer.

Una de las zonas más impresionantes

donde este concepto se ve aplicado

es en el área del 
aprendizaje automático.

El aprendizaje automático es una rama 
de la inteligencia artificial,

que en sí es una rama de la informática.

La idea general es que en lugar de

enseñar a un equipo algo,

simplemente transferiremos 
datos al problema

para decirle a la computadora 
que lo averigüe sola.

Y nos ayude a entenderlo

al ver sus orígenes.

En la década de 1950, 
un científico de computación

en IBM llamado Arthur Samuel 
al que le gustaba jugar a damas,

por eso escribió 
un programa

para poder jugar contra la computadora.

Jugó. Ganó.

Jugó. Ganó.

Jugó. Ganó,

porque el equipo solo sabía

lo que era un movimiento legal.

Arthur Samuel sabía algo más.

Arthur Samuel sabía estrategia.

Así que escribió un pequeño subprograma

operando en el fondo. 
Y todo lo que hizo

fue anotar la probabilidad

de que una configuración 
del tablero condujera

a un tablero ganador frente 
a un tablero perdedor

después de cada movimiento.

Él jugó contra el equipo. 
Él ganó.

Él jugó contra el equipo. 
Él ganó.

Él jugó contra el equipo. 
Él ganó.

Y luego Arthur Samuel dejó 
que la computadora

jugara sola.

Juega sola. Y recoge más datos.

Recoge más datos. 
Aumenta la precisión de su predicción.

Y luego Arthur Samuel vuelve al equipo

juega y pierde.

Y juega y pierde.

Y juega y pierde.

Y Arthur Samuel ha creado una máquina

que supera su capacidad 
en una tarea que él enseñó.

Y esta idea de aprendizaje automático

irá a todas partes.

¿Cómo creen que tenemos 
autos autodirigidos?

¿Estamos mejor como sociedad

almacenando todas las reglas 
de la carretera en un software?

No. La memoria es más barata. No.

Los algoritmos son más rápidos. No. 
Los procesadores son mejores. No.

Todas esas cosas importan, 
pero no es por eso.

Es porque hemos cambiado 
la naturaleza del problema.

Hemos cambiado 
el problema de uno

en el que intentábamos 
abierta y explícitamente

explicar a la computadora 
cómo conducir,

a uno en la que decimos,

"Aquí hay una gran cantidad 
de datos del vehículo.

Haz los números.

Te diste cuenta de que eso es un semáforo,

que está en rojo 
y no verde,

eso significa que tienes 
que detenerte

y no seguir".

El aprendizaje automático está en la base

de muchas cosas 
que hacemos en línea:

motores de búsqueda,

el algoritmo de personalización 
de Amazon,

la traducción automática 
por computadora,

los sistemas de reconocimiento de voz.

Recientemente, 
los investigadores han examinado

la cuestión de biopsias,

biopsias de cáncer,

y han usado la computadora 
para identificar,

mirando los datos y 
las tasas de supervivencia,

si las células son en realidad

cancerosas o no,

y claro, al trasferir 
los datos

por un algoritmo 
de aprendizaje automático,

la máquina fue capaz de identificar

los 12 signos reveladores 
que mejor predicen

si en esta biopsia de 
células de cáncer de mama,

hay, en efecto, cáncer.

El problema: la literatura médica

solo sabía nueve de ellos.

Tres de los rasgos eran de

los que las personas no buscan,

pero que la máquina descubrió.

También hay lados oscuros 
en los datos masivos.

Mejorará nuestras vidas, 
pero hay problemas

de los que tenemos que 
ser conscientes,

y el primero es la idea

de que podemos ser castigados 
por las predicciones,

que la policía puede utilizar 
datos masivos para sus fines,

un poco como "Minority Report".

Es un término conocido como 
policial predictiva,

o criminología algorítmica,

y la idea es que, 
con gran cantidad de datos,

por ejemplo, donde hubo 
crímenes antes,

sabremos dónde enviar 
a las patrullas.

Tiene sentido, pero, 
el problema, claro,

es que no solo se quedarán 
en los datos de ubicación,

irán al nivel del individuo.

¿Por qué no usamos 
los datos de personas

con un alto expediente académico?

Tal vez utilizar 
el hecho de que

estén sin empleo, 
su record crediticio,

su comportamiento en la web,

si están despiertos 
tarde en la noche.

Su controlador físico digital, 
cuando identifique datos bioquímicos,

mostrará si tienen 
pensamientos agresivos.

Podemos tener algoritmos 
que pueden predecir

lo que estamos a punto de hacer,

y podemos ser responsables

antes de que realmente 
hayamos actuado.

la privacidad era el desafío principal

en la era de los datos pequeños.

En la era de los datos masivos,

el reto será salvaguardar 
el libre albedrío,

la elección moral, 
la voluntad humana,

la acción humana.

Hay otro problema:

los datos masivos nos quitarán 
nuestros puestos de trabajo.

Los datos masivos y algoritmos desafiarán

los conocimientos profesionales de gestión

en el siglo XXI

de la misma manera que 
la automatización de las fábricas

y las cadenas de montaje

desafiaron el trabajo 
de los obreros en el siglo XX.

Piensen en un técnico de laboratorio

que mira en un microscopio

una biopsia de cáncer

para determinar si es cáncer o no.

La persona que fue a la universidad.

En el que compra propiedades.

Él o ella vota.

Él o ella es un constituyente 
de la sociedad.

Y el trabajo de esa persona,

así como toda una flota

de profesionales como esa persona,

se encontrará que sus puestos de trabajo 
han cambiado radicalmente

o, en realidad, se han eliminado 
completamente.

Ahora, nos gusta pensar

que la tecnología crea 
puestos de trabajo

después de un corto período 
de dislocación temporal,

y es cierto para el marco de referencia

de la Revolución Industrial, 
que vivimos,

porque eso es precisamente lo que ocurrió.

Pero nos olvidamos de algo en el análisis:

Hay algunas categorías de empleos

que simplemente se eliminan y 
no se crean nunca más.

La Revolución Industrial no era muy buena

si eras un caballo.

Así que tendremos 
que tener cuidado

y tomar datos masivos 
y ajustarlos a nuestras necesidades,

a nuestras necesidades muy humanas.

Tenemos que ser los dueños 
de esta tecnología,

no sus siervos.

Estamos justo en el comienzo 
de la era de los datos masivos,

y honestamente, 
no somos muy buenos

en el manejo de todos los datos 
que ahora podemos recoger.

No es solo un problema para 
la Agencia de Seguridad Nacional.

Las empresas recogen muchos datos, 
y también, hacen mal uso de ellos,

y tenemos que mejorar en esto, 
y esto tomará tiempo.

Es un poco como 
el desafío que enfrentó

el hombre primitivo y el fuego.

Es una herramienta, 
pero que,

a menos que seamos cuidadosos, 
nos va a quemar.

Los datos masivos transformarán 
la manera en que vivimos,

cómo trabajamos y 
cómo pensamos.

Nos ayudarán con nuestras carreras

y a llevar una vida de satisfacción 
y esperanza

y felicidad y salud,

pero en el pasado, frecuentemente, 
vimos esa tecnología

y nuestros ojos solo han visto la T

la tecnología, el hardware,

porque eso es físico.

Ahora tenemos que reformular 
nuestra mirada a la I,

la información,

que es menos tangible,

pero en algunos aspectos 
mucho más importante.

La humanidad finalmente 
puede aprender de la información

que puede recoger,

como parte de nuestra búsqueda eterna

para entender el mundo y 
nuestro lugar en él,

y por eso los datos masivos 
es un gran asunto.

(Aplausos)