USAs yndlingstærte er?
Publikum: Æble
Kenneth Cukier: Æble. Selvfølgelig er det det.
Hvordan ved vi det?
På grund af data.
Man kigger på supermarkedssalget.
Man kigger på salget af frosne 30-centimeter tærter
og her vinder æble-tærter, uden konkurrence.
Størstedelen af salget er æble.
Men så startede supermarkederne med at sælge
mindre 11-centimeter tærter,
og pludselig faldt æbletærter til 4. eller 5. pladsen.
Hvorfor? Hvad skete der?
Ok, tænk jer om.
Når man køber en en 30-centimeter tærte,
så er hele familien nødt til at enes,
og æble er alles anden-favorit.
(Latter)
Men når man køber en 11-centimeter
tærte til sig selv,
så kan man købe den, man helst vil have.
Man kan få sit førstevalg.
Man har mere data.
Man kan se noget,
som man ikke kunne se,
da man havde mindre mængder af det.
Pointen er her, at mere data,
ikke bare lader os se mere,
mere af det samme, som vi kiggede på.
Mere data tillader os at se noget nyt.
Det tillader os at se bedre.
Det tillader os at se anderledes.
I dette tilfælde tillader det os at se,
hvad USAs yndlingstærte er:
ikke æble.
I har formentlig alle hørt om begrebet "big data".
I er formentlig endda allerede trætte af
at høre om begrebet
"big data".
Det er sandt, at der er en masse hype
omkring begrebet,
hvilket er meget uheldigt,
fordi "big data" er et ekstremt vigtigt redskab
til at udvikle samfundet.
Indtil nu har vi analyseret på
mindre mængde data
og tænk på, hvad det har betydet
for at prøve at forstå verdenen,
og nu har vi meget mere af det,
kan vi forstå mere end nogensinde før.
Det vi opnår, når vi har
en stor mængde data er,
at vi grundlæggende kan gøre ting,
som vi ikke kunne, da vi havde
mindre mængder data.
"Big data" er vigtigt og "big data" er nyt,
og når man tænker over det,
så er den eneste måde
denne planet kan håndtere
med dens globale udfordringer -
at give folk mad, give dem lægebehandling,
levere energi, strøm
og sikre sig, at de ikke bliver forbrændte
pga. global opvarmning -
er pga. den effektive udnyttelse af data.
Så hvad er det det nye ved "big data"?
Hvad handler det om?
For at besvare dette spørgsmål,
så lad os huske på,
hvordan information så ud,
fysisk så ud i fortiden.
I 1908 på øen Kreta
opdagede arkæologer en skive ler.
De daterede den til 2000 år f.kr.,
så den er 4000 år gammel.
Der er inskriptioner på denne skive,
men vi aner faktisk ikke, hvad de betyder.
Det er et komplet mysterie, men pointen er,
at det var sådan information så ud
for 4000 år siden.
Det var sådan samfundet opbevarede
og overførte information.
Samfundet har egentlig ikke ændret sig så meget.
Vi gemmer stadig information på skiver,
men nu kan vi gemme meget mere information,
mere end nogensinde.
At søge i det er nemmere.
At kopiere det er nemmere.
At dele det er nemmere.
At bearbejde det er nemmere.
Og det vi kan gøre er,
at vi kan genbruge denne information
til ting vi aldrig havde forestillet os,
da vi først indsamlede de data.
I den henseende er data gået
fra at være fast til at være flydende,
fra noget der er stationært og statisk
til noget der er flydende og dynamisk.
Der er, om man vil,
en likviditet af information.
Den disk, der blev opdaget på Kreta,
der er 4000 år gammel, er tung,
den kan ikke opbevare meget information,
og informationen kan ikke ændres.
Omvendt, så kan alle de filer
som Edward Snowden tog
fra NSA i USA
være på et USB-stik
på størrelse med en fingernegl,
og de kan blive delt med lysets hastighed.
Mere data. Mere.
En af grundene til, at vi har så
meget data i verden i dag er,
at vi indsamler ting,
som vi altid har indsamlet information om,
men en anden grund hvorfor er, at vi tager ting,
der altid har været information,
men som aldrig har eksisteret som data
og vi omsætter det til data.
Tænke f.eks. på spørgsmålet om lokation.
Tag f.eks. Martin Luther.
Hvis vi ønskede at vide i 1500-tallet,
hvor Martin Luther var,
ville vi være nødt til at følge ham konstant,
eventuelt med en fjer og et blækhus
og nedfælde det,
men tænk på hvordan det foregår i dag.
Man ved at et eller andet sted,
formentlig i en telekommunikations-
virksomheds database,
er der et dataark eller i det mindste
en databaseindgang,
der optager ens information,
om hvor man har opholdt sig til hver en tid.
Hvis man har en mobiltelefon
og den telefon har GPS,
og selvom det ikke har GPS,
kan den optage den information.
I den henseende, så er ens lokation
blevet omsat til data.
Tænk f.eks. på emnet kropsholdning,
den måde I alle sidder på lige nu,
den måde du sidder på,
den måde du sidder på,
den måde du sidder på,
de er alle forskellige og er en
funktion af jeres benlængde,
jeres ryg og konturerne af jeres ryg
og hvis jeg skulle sætte, måske 100 censorer
på alle jeres stole lige nu,
så kunne jeg skabe et indeks,
der er ganske unikt for jer,
på en måde som et fingeraftryk,
men det det er ikke jeres finger.
Så hvad kan vi bruge dette til?
Forskere i Tokyo bruger det
som en potentiel tyverialarm i biler
Ideen er at biltyven sidder bag rattet
og forsøger at komme væk,
men bilen genkender,
at en ikke-godkendt chauffør sidder bag rattet
og måske stopper motoren medmindre
man indtaster et password i kontrolpanelet
for at sige: "Hej, jeg har godkendelse til at køre."
Fantastisk.
Hvad hvis hver eneste bil i Europa
havde denne teknologi indbygget?
Hvad kunne vi så gøre?
Måske, hvis vi aggregerede data,
kunne vi identificere afslørende tegn,
der bedst kan forudsige, at en ulykke
vil ske indenfor de næste fem sekunder.
Og så er det, som vi har omsat til data
chauffør-træthed
og servicen vil så være,
at når bilen registrerer,
at personen falder sammen i den postitur
vil den automatisk vide det og
sætte en intern alarm i gang,
der ville få rattet til at vibrere,
indvendigt dytte hornet
for at sige, "Hallo, vågn op,
være mere opmærksom på vejen."
Det er den slags ting, som vi kan gøre,
når vi får data på flere aspekter af vores liv.
Så hvad er værdien af "big data"?
Tænk over det.
Man har mere information.
Man kan gøre ting, man ikke kunne gøre før.
Et af de mest imponerende områder,
hvor dette koncept forekommer
er indenfor området for maskinindlæring.
Maskine-indlæring er en kategori
indenfor kunstig intelligens,
der i sig selv er en kategori
indenfor computervidenskab.
Den generelle ide er, at i stedet for
at instruere en computer i,
hvad den skal gøre,
vil vil ganske enkelt smide data efter problemet
og fortælle computeren,
at den selv skal finde ud af det.
Og den vil hjælpe en med at forstå det
ved at se dets oprindelse.
I 1950'erne var der er en datamatiker hos IBM,
der hed Arthur Samuel,
som kunne lide at spille dam,
så han skrev et computer program,
så han kunne spille mod computeren.
Han spillede. Han vandt.
Han spillede. Han vandt.
Han spillede. Han vandt,
fordi computeren vidste kun,
hvad der var et lovligt træk.
Arthur Samuel vidste mere end det.
Arthur Samuel kendte til strategi.
Så han skrev et mindre
under-program ved siden af,
der kørte i baggrunden og alt det gjorde,
var at udregne sandsynligheden for,
at en given stilling på
pladen formentlig ville føre
til et vindende spil i forhold
til et tabende spil
for hvert træk.
Han spiller mod computeren. Han vinder.
Han spiller mod computeren. Han vinder.
Han spiller mod computeren. Han vinder.
Og så lader Arthur Samuel computeren
spille mod sig selv.
Den spiller mod sig selv.
Den indsamler mere data.
Den indsamler mere data.
Den øger nøjagtigheden af sine forudsigelser.
Og så går Arthur Samuel tilbage til computeren
og han spiller mod den, og han taber,
og han spiller mod den, og han taber,
og han spiller mod den, og han taber.
Så Arthur Samuel har skabt en maskine,
der overgår hans evner for en opgave,
som han har lært den.
Og denne ide om maskine-indlæring
forekommer overalt.
Hvordan tror I vi har selv-kørende biler?
Er vi bedre stillet som samfund,
ved at programmere alle trafikregler
ind i noget software?
Nej. Hukommelse er billigere. Nej.
Algoritmer er hurtigere. Nej.
Processorer er bedre. Nej
Alle disse ting betyder noget,
men det er ikke derfor.
Det er fordi vi har ændret på
karakteren af problemet.
Vi ændrede problemets karakter fra et,
hvor vi tydeligt og eksplicit
forklarer computeren, hvordan man kører,
til et hvor vi siger:
Her er en masse data om køretøjet.
Regn det selv ud.
Regn selv ud, at det er et trafiklys,
at det trafiklys er rødt og ikke grønt,
at det betyder, at man er nødt til at stoppe
og ikke fortsætte fremad."
Maskinindlæring er grundlaget
for mange af de ting vi foretager os online:
søgemaskiner,
Amazons personaliserings-algoritme
computer-oversættelser
stemmegenkendelse-programmer
Forskere har for nyligt set på
spørgsmålet vedrørende biopsier,
kræft-biopsier,
og de har bedt en computer
om at identificere
ved at kigge på data og overlevelsesrater
for at afgøre, om celler rent faktisk er
kræft eller ej,
og ganske rigtigt, når man smider data efter det,
gennem en maskinlært algoritme,
var maskinen i stand til at identificere
de 12 indikatorer, der bedst kan forudsige
om denne biopsi af brystkræftceller
rent faktisk er kræft
Problemet: Den medicinske litteratur
kendte kun ni af dem.
Tre af disse træk var nogle,
som folk ikke behøvede at kigge efter,
men som maskinen identificerede.
Der er dog også skyggesider ved "big data".
Det vil forbedre vores liv,
men der er problemer,
som vi er nødt til at være bevidste omkring,
og den første er den ide,
at vi muligvis bliver straffet for forudsigelser,
at politiet måske vil benytte
"big data" til deres formål,
lidt som i "Minority Report".
Det er et begreb der kaldes
prædiktivt politiarbejde,
eller algoritmisk kriminalarbejde,
og ideen er,
at hvis vi tager en masse data,
f.eks. hvor tidligere forbrydelser
har fundet sted,
så ved vi, hvor vi skal sende patruljer hen.
Det giver mening,
men problemet er selvfølgelig,
at det ikke stopper ved data for lokation,
det vil komme helt ned på individ-niveau.
Hvorfor benytter vi ikke data om en persons
gymnasie-papirer?
Måske skulle vi benytte det faktum,
om de er arbejdsløse eller ej,
deres kreditværdighed
deres internet-adfærd,
om de er oppe sent om aftenen.
Deres Fitbit, når det er i stand til
at identificere biokemi,
vil afsløre, når de har aggressive tanker.
Vi vil muligvis have algoritmer,
der sandsynligt kan forudsige,
hvad vi skal til at foretage os,
og vi vil måske blive holdt ansvarlige,
før vi overhovedet handlede.
Privatlivet var en central udfordring
i æraen for "small data"
I "big data"-tidsalderen
vil udfordringen være at beskytte den frie vilje
moralske valg, menneskelig vilje,
menneskets evne til at tage beslutninger.
Der er et andet problem:
"Big data" vil komme til at stjæle vores jobs.
"Big data" og algoritmer vil udfordre
administrativt arbejde,
professionelt vidensarbejde
i det 21. århundrede
på samme måde som
automatisering af fabrikker
og samlebåndsteknikken
udfordrede det fysiske
arbejde i det 20. århundrede.
Tænk på en laborant,
der kigger i et mikroskop
på en kræft-biopsi
og skal afgøre om det er kræft eller ej.
Den person gik på universitetet.
Den person køber ejendom.
Han eller hun stemmer.
Han eller hun er en interessent i samfundet.
Og den persons arbejde,
så vel som en lang række andre
beskæftigede som den person,
vil opdage, at deres jobs vil ændre sig radikalt
eller simpelthen forsvinde.
Vi kan godt lide at tænke på,
at teknologi skaber jobs over tid
efter en kort midlertidig periode med uro,
og det skete også for reference-
rammen som vi alle
har, den industrielle revolution,
fordi det er præcis det, der skete.
Men vi glemte noget i den analyse:
Der er nogen kategorier af jobs
der simpelthen forsvinder og
aldrig kommer tilbage.
Den industrielle revolution var ikke særlig god,
hvis man var en hest.
Så vi er nødt til at være meget forsigtige
og tage "big data" og justere det til vores behov,
vores meget menneskelige behov.
Vi er nødt til at være herre over denne teknologi
ikke dens tjener.
Vi står lige på tærsklen til "big data"-æraen
og helt ærligt, så er vi ikke særligt gode til
at behandle alle disse data,
som vi nu kan indsamle.
Det er ikke kun et problem for NSA.
Forretningsverdenen indsamler
mange data og de bruger det også dårligt
og vi er nødt til at blive bedre til dette
og det vil tage tid.
Det er lidt ligesom udfordringen som
stenaldermanden havde med ild.
Det er et værktøj, men det er et værktøj der,
medmindre vi er forsigtige, vil brænde os.
"Big data" vil forandre, hvordan vi bor,
hvordan vi arbejder og hvordan vi tænker
Det vil hjælpe os med at styre vores karriere
og leve et liv med tilfredsstillelse, håb
glæde og sundhed
men tidligere har vi ofte set på
informationsteknologi
og vores øjne har kun set T'et
teknologien, hardwaren,
fordi den var fysisk.
Vi er nu nødt til at ændre vores syn på I'et
informationen,
der er mindre åbenlys,
men på nogle områder meget vigtigere.
Menneskeheden kan endelig
lære fra den information,
som den indsamler,
som del af en tidløs stræben efter
at forstå verden og vores rolle i den,
og det er derfor, at "big data" betyder så meget.
(Klapsalver)