Return to Video

Vremea încrederii oarbe în volumele mari de date (big data) trebuie să ia sfârșit

  • 0:01 - 0:03
    Algoritmii sunt pretutindeni.
  • 0:04 - 0:07
    Sortează și separă
    învingătorii de învinși.
  • 0:08 - 0:10
    Învingătorii obțin locul de muncă
  • 0:10 - 0:12
    sau oferta bună pentru cardul de credit.
  • 0:12 - 0:15
    Învinșii n-au parte nici măcar de interviu
  • 0:16 - 0:17
    sau plătesc mai mult pentru asigurare.
  • 0:18 - 0:22
    Suntem evaluați cu formule secrete
    pe care nu le înțelegem
  • 0:23 - 0:26
    și care, adesea, nu pot fi contestate.
  • 0:27 - 0:31
    Asta impune întrebarea:
    și dacă algoritmii conțin erori?
  • 0:33 - 0:37
    E nevoie de două lucruri pentru algoritmi:
    date, ce s-a întâmplat în trecut,
  • 0:37 - 0:41
    și o definiție a succesului,
    a ceea ce cauți și speri să obții.
  • 0:41 - 0:46
    Algoritmul se formează
    observând, descifrând.
  • 0:46 - 0:50
    Algoritmul deduce
    ce se asociază cu succesul,
  • 0:50 - 0:52
    care situație conduce către succes.
  • 0:53 - 0:57
    De fapt, toată lumea folosește algoritmi,
    dar nu formalizați în scris.
  • 0:57 - 0:58
    Vă dau un exemplu.
  • 0:58 - 1:02
    Folosesc zilnic un algoritm
    ca să pregătesc masa pentru familia mea.
  • 1:02 - 1:04
    Datele pe care le folosesc
  • 1:04 - 1:08
    sunt ingredientele din bucătărie,
    timpul disponibil,
  • 1:08 - 1:11
    ambiția pe care o am,
    apoi organizez datele.
  • 1:11 - 1:15
    Nu consider mâncare
    pachețelele de tăieței ramen.
  • 1:15 - 1:17
    (Râsete)
  • 1:17 - 1:19
    Definiția mea a succesului e:
  • 1:19 - 1:21
    o masă e reușită
    când copiii mei mănâncă legume.
  • 1:22 - 1:25
    E foarte diferită de a mezinului meu
    care, dacă ar fi după el,
  • 1:25 - 1:28
    ar zice că succesul înseamnă
    să mănânce multă Nutella.
  • 1:29 - 1:31
    Dar eu sunt cea care alege succesul.
  • 1:31 - 1:34
    Eu conduc. Părerea mea contează.
  • 1:34 - 1:37
    Asta e prima regulă a algoritmilor.
  • 1:37 - 1:40
    Algoritmii sunt păreri încorporate în cod.
  • 1:42 - 1:45
    E foarte diferit de ce credeți voi
    că majoritatea crede despre algoritmi.
  • 1:45 - 1:50
    Ei cred că algoritmii
    sunt obiectivi, adevărați și științifici.
  • 1:50 - 1:52
    Ăsta e un truc de marketing.
  • 1:53 - 1:55
    Și tot un truc al marketingului
  • 1:55 - 1:59
    e să vă intimideze cu algoritmi,
  • 1:59 - 2:02
    să vă încredeți
    și să vă temeți de algoritmi,
  • 2:02 - 2:05
    pentru că vă încredeți
    și vă temeți de matematică.
  • 2:06 - 2:10
    Pot apărea multe probleme când avem
    încredere oarbă în volume mari de date.
  • 2:12 - 2:15
    Ea e Kiri Soares, directoarea
    unui liceu din Brooklyn.
  • 2:15 - 2:18
    În 2011 mi-a zis că profesorii ei
    erau evaluați
  • 2:18 - 2:20
    cu un algoritm complex și secret,
  • 2:20 - 2:22
    numit „modelul valoare adăugată”.
  • 2:23 - 2:27
    I-am zis: „Află care e formula,
    arată-mi-o și ți-o explic.”
  • 2:27 - 2:31
    Ea a zis: „Am încercat să obțin formula,
    dar la Departamentul de Educație
  • 2:31 - 2:34
    mi s-a zis că e matematică
    și n-o să înțeleg.”
  • 2:35 - 2:37
    Se poate și mai rău.
  • 2:37 - 2:40
    New York Post a solicitat, conform
    Legii privind libertatea de informare,
  • 2:40 - 2:43
    și a obținut numele
    tuturor profesorilor și punctajele lor
  • 2:43 - 2:46
    și le-a publicat pentru a-i blama public.
  • 2:47 - 2:51
    Când am încercat să obțin formula,
    codul sursă, cu aceleași mijloace,
  • 2:51 - 2:53
    mi s-a zis că nu se poate.
  • 2:53 - 2:54
    Mi s-a refuzat.
  • 2:54 - 2:56
    Mai târziu am aflat
  • 2:56 - 2:58
    că nimeni din New York
    n-avea acces la acea formulă.
  • 2:58 - 3:00
    Nimeni n-o înțelegea.
  • 3:02 - 3:05
    Apoi s-a implicat cineva
    foarte inteligent: Gary Rubinstein.
  • 3:05 - 3:09
    A descoperit că 665 de profesori
    din datele de la New York Post
  • 3:09 - 3:11
    aveau, de fapt, două punctaje.
  • 3:11 - 3:13
    Asta se putea întâmpla dacă predau
  • 3:13 - 3:15
    matematică de clasa a șaptea și a opta.
  • 3:15 - 3:17
    A decis să facă un grafic.
  • 3:17 - 3:19
    Fiecare punct reprezintă un profesor.
  • 3:19 - 3:22
    (Râsete)
  • 3:22 - 3:23
    Ce-i asta?
  • 3:23 - 3:24
    (Râsete)
  • 3:24 - 3:28
    N-ar fi trebuit să fie niciodată
    folosit pentru evaluare personală.
  • 3:28 - 3:30
    E mai degrabă un generator
    de numere aleatorii.
  • 3:30 - 3:33
    (Aplauze)
  • 3:33 - 3:34
    Dar a fost.
  • 3:34 - 3:35
    Ea e Sarah Wysocki.
  • 3:35 - 3:37
    A fost concediată,
    împreună cu alți 205 profesori,
  • 3:37 - 3:40
    din districtul școlar al Washington DC,
  • 3:40 - 3:44
    deși avea recomandări excelente
    de la director și părinții copiilor.
  • 3:45 - 3:47
    Știu ce gândesc mulți dintre voi,
  • 3:47 - 3:50
    mai ales experții în date
    și inteligență artificială.
  • 3:50 - 3:54
    Vă ziceți: „N-aș face niciodată
    un algoritm așa de inconsecvent.”
  • 3:55 - 3:57
    Dar algoritmii pot da greș,
  • 3:57 - 4:01
    pot avea chiar efecte profund distructive
    în ciuda bunelor intenții.
  • 4:03 - 4:05
    Dar în timp ce un avion
    care e prost conceput
  • 4:05 - 4:07
    se prăbușește și poate fi văzut de toți,
  • 4:07 - 4:09
    un algoritm prost conceput
  • 4:10 - 4:14
    poate să funcționeze mult timp
    făcând ravagii pe ascuns.
  • 4:16 - 4:17
    El e Roger Ailes.
  • 4:17 - 4:19
    (Râsete)
  • 4:21 - 4:23
    A fondat Fox News în 1996.
  • 4:23 - 4:26
    Peste 20 de femei
    s-au plâns de hărțuire sexuală.
  • 4:26 - 4:29
    Au zis că nu li s-a permis
    să aibă succes la Fox News.
  • 4:29 - 4:32
    A fost demis anul trecut,
    dar am văzut recent
  • 4:32 - 4:35
    că problemele au persistat.
  • 4:36 - 4:37
    Asta impune întrebarea:
  • 4:37 - 4:40
    ce ar trebui să facă Fox News
    pentru a întoarce pagina?
  • 4:41 - 4:44
    Cum ar fi dacă ar înlocui
    procesul de recrutare
  • 4:44 - 4:46
    cu algoritmi de învățare automatizată?
  • 4:46 - 4:48
    Sună bine, nu?
  • 4:48 - 4:49
    Gândiți-vă la asta.
  • 4:49 - 4:51
    Care ar fi datele?
  • 4:51 - 4:56
    O alegere rezonabilă ar fi cererile
    de angajare din ultimii 21 de ani.
  • 4:56 - 4:58
    Rezonabilă.
  • 4:58 - 4:59
    Dar definiția succesului?
  • 5:00 - 5:01
    Alegerea rezonabilă ar fi...
  • 5:01 - 5:03
    păi, cine are succes la Fox News?
  • 5:03 - 5:07
    Presupun că cineva care, să zicem,
    a lucrat acolo patru ani
  • 5:07 - 5:09
    și a fost promovat cel puțin o dată.
  • 5:09 - 5:10
    Sună rezonabil.
  • 5:10 - 5:13
    Apoi algoritmul ar fi instruit.
  • 5:13 - 5:17
    Va fi instruit să caute oameni,
    ca să înțeleagă ce a condus la succes,
  • 5:17 - 5:22
    ce fel de cereri de angajare
    au condus de-a lungul timpului la succes,
  • 5:22 - 5:23
    conform definiției.
  • 5:24 - 5:26
    Acum gândiți-vă ce s-ar întâmpla
  • 5:26 - 5:29
    dacă am aplica asta
    unui grup actual de candidați.
  • 5:29 - 5:31
    Ar filtra femeile,
  • 5:32 - 5:36
    pentru că ele nu par genul
    care să fi avut succes în trecut.
  • 5:40 - 5:42
    Algoritmii nu fac lucrurile echitabile,
  • 5:42 - 5:45
    dacă-i aplici fără griji și discernământ.
  • 5:45 - 5:47
    Nu fac lucrurile echitabile.
  • 5:47 - 5:49
    Ei repetă procedeele noastre din trecut,
  • 5:49 - 5:50
    tiparele noastre.
  • 5:50 - 5:52
    Automatizează status quo-ul.
  • 5:53 - 5:56
    Asta ar fi minunat
    dacă am trăi într-o lume perfectă,
  • 5:56 - 5:57
    dar nu trăim.
  • 5:57 - 6:01
    Adaug că majoritatea companiilor
    n-au procese de judecată jenante,
  • 6:02 - 6:05
    dar specialiștilor în date
    din acele companii
  • 6:05 - 6:07
    li se spune să urmărească datele,
  • 6:07 - 6:09
    să se concentreze pe acuratețe.
  • 6:10 - 6:12
    Gândiți-vă ce înseamnă asta.
  • 6:12 - 6:15
    Pentru că toți avem prejudecăți,
    înseamnă că ar putea codifica
  • 6:15 - 6:18
    discriminarea sexuală
    sau orice alt fel de intoleranță.
  • 6:19 - 6:21
    Un experiment de gândire,
  • 6:21 - 6:22
    pentru că-mi plac:
  • 6:24 - 6:27
    o societate complet scindată,
  • 6:28 - 6:32
    divizată religios, toate orașele,
    toate cartierele,
  • 6:32 - 6:35
    și în care trimitem poliția
    doar în cartierele cu minorități
  • 6:35 - 6:36
    pentru a cerceta delicte.
  • 6:36 - 6:39
    Datele arestărilor
    ar fi foarte părtinitoare.
  • 6:40 - 6:42
    Ce-ar fi dacă, în plus,
    am găsi specialiștii în date
  • 6:42 - 6:47
    și i-am plăti ca să prezică
    unde ar avea loc următoarea infracțiune?
  • 6:47 - 6:49
    Cartierul cu minorități.
  • 6:49 - 6:52
    Sau să prezică cine ar fi
    următorul infractor?
  • 6:53 - 6:54
    Un cetățean minoritar.
  • 6:56 - 7:00
    Specialiștii în date s-ar lăuda
    cu cât de grozav și precis
  • 7:00 - 7:01
    ar fi modelul lor
  • 7:01 - 7:02
    și ar avea dreptate.
  • 7:04 - 7:09
    Realitatea nu-i așa de drastică,
    dar avem diviziuni profunde
  • 7:09 - 7:10
    în multe orașe și comune,
  • 7:10 - 7:12
    și avem destule dovezi
  • 7:12 - 7:15
    în acțiunile părtinitoare ale poliției
    și datele sistemului judiciar.
  • 7:16 - 7:18
    Și chiar prezicem punctele critice,
  • 7:18 - 7:20
    locurile unde se desfășoară infracțiunile.
  • 7:20 - 7:24
    Și chiar prezicem, de fapt,
    infracțiunile individuale,
  • 7:24 - 7:26
    infracțiunile indivizilor.
  • 7:27 - 7:31
    Organizația de știri ProPublica
    a analizat recent
  • 7:31 - 7:34
    unul din algoritmii
    „riscului de recidivă”, cum li se zice,
  • 7:34 - 7:37
    folosiți în Florida
    în sentințele judecătorești.
  • 7:38 - 7:42
    Bernard, în stânga, bărbatul de culoare,
    a obținut zece puncte din zece.
  • 7:43 - 7:45
    Dylan, în dreapta, trei din zece.
  • 7:45 - 7:48
    Zece din zece, risc ridicat.
    Trei din zece, risc scăzut.
  • 7:49 - 7:51
    Au fost acuzați de posesie de droguri.
  • 7:51 - 7:52
    Amândoi cu antecedente,
  • 7:52 - 7:55
    dar Dylan comisese o crimă,
  • 7:55 - 7:56
    iar Bernard nu.
  • 7:58 - 8:01
    Asta contează,
    deoarece cu cât ai scorul mai mare,
  • 8:01 - 8:04
    cu atât ai mai multe șanse
    să primești o sentință mai lungă.
  • 8:06 - 8:08
    Ce se întâmplă?
  • 8:09 - 8:10
    Spălare de date.
  • 8:11 - 8:15
    E un proces prin care tehnologii
    ascund adevăruri neplăcute
  • 8:15 - 8:17
    în algoritmi de tip cutie neagră,
  • 8:17 - 8:19
    pe care-i numesc obiectivi
  • 8:19 - 8:21
    și meritocratici.
  • 8:23 - 8:26
    Când sunt secreți,
    importanți și distructivi,
  • 8:26 - 8:28
    am inventat o denumire
    pentru algoritmii ăștia:
  • 8:28 - 8:30
    „arme de distrugere matematică”.
  • 8:30 - 8:32
    (Râsete)
  • 8:32 - 8:35
    (Aplauze)
  • 8:35 - 8:37
    Sunt peste tot și nu din greșeală.
  • 8:38 - 8:41
    Sunt companii private
    care construiesc algoritmi privați
  • 8:41 - 8:43
    pentru scopuri private.
  • 8:43 - 8:46
    Chiar și cei de care am vorbit,
    pentru profesori și poliție,
  • 8:46 - 8:51
    au fost construiți de companii private
    și vânduți instituțiilor guvernamentale.
  • 8:51 - 8:53
    Ei numesc asta „sosul lor secret”,
  • 8:53 - 8:55
    de asta nu ni-l pot dezvălui.
  • 8:55 - 8:57
    E și o putere privată.
  • 8:58 - 9:03
    Profită de faptul că exercită
    autoritatea impenetrabilă.
  • 9:05 - 9:08
    Acum o să vă gândiți
    că, din moment ce totul e privat,
  • 9:08 - 9:09
    și există concurență,
  • 9:09 - 9:12
    poate că piața liberă
    o să rezolve problema.
  • 9:12 - 9:13
    N-o s-o facă.
  • 9:13 - 9:16
    Sunt mulți bani de câștigat
    din inechitate.
  • 9:17 - 9:20
    În plus, nu suntem
    agenți economici raționali.
  • 9:21 - 9:22
    Toți suntem părtinitori.
  • 9:23 - 9:25
    Toți suntem rasiști și intoleranți
  • 9:25 - 9:28
    într-un fel în care ne dorim să nu fi fost
    și de care nici nu ne dăm seama.
  • 9:29 - 9:32
    Dar știm asta, în ansamblu,
  • 9:32 - 9:35
    pentru că sociologii
    au demonstrat-o constant
  • 9:35 - 9:37
    cu experimentele pe care le-au creat,
  • 9:37 - 9:40
    când trimit mai multe cereri
    la anunțurile de angajare,
  • 9:40 - 9:44
    cu aceleași calificări, dar unele
    au nume ca de albi și altele ca de negri,
  • 9:44 - 9:47
    iar rezultatele sunt mereu dezamăgitoare.
  • 9:48 - 9:49
    Deci noi suntem cei părtinitori,
  • 9:49 - 9:53
    și introducem acele prejudecăți
    în algoritmi,
  • 9:53 - 9:55
    alegând ce date să fie selectate,
  • 9:55 - 9:57
    așa cum aleg eu să nu mă gândesc
    la tăiețeii ramen,
  • 9:57 - 9:59
    am decis că nu-i relevant.
  • 9:59 - 10:05
    Dar având încredere în datele
    care reiau practicile din trecut
  • 10:05 - 10:07
    și alegând definiția succesului,
  • 10:07 - 10:11
    cum să ne putem aștepta
    ca algoritmii să fie neafectați?
  • 10:11 - 10:13
    Nu putem. Trebuie să-i verificăm.
  • 10:14 - 10:16
    Trebuie să le verificăm echitatea.
  • 10:16 - 10:19
    Vestea bună e
    că le putem verifica echitatea.
  • 10:19 - 10:22
    Algoritmii pot fi interogați
  • 10:22 - 10:24
    și ne vor spune adevărul de fiecare dată.
  • 10:24 - 10:27
    Și putem să-i reparăm.
    Putem să-i îmbunătățim.
  • 10:27 - 10:29
    Eu numesc asta un audit algoritmic
  • 10:29 - 10:31
    și o să vă explic ce presupune.
  • 10:31 - 10:33
    Mai întâi,
    verificarea integrității datelor.
  • 10:34 - 10:37
    Pentru algoritmul riscului de recidivă
    de care am vorbit,
  • 10:38 - 10:41
    o verificare a integrității datelor
    ar însemna să acceptăm faptul
  • 10:41 - 10:45
    că în SUA, albii și cei de culoare
    fumează canabis în egală măsură,
  • 10:45 - 10:47
    dar cei de culoare
    au mai multe șanse să fie arestați,
  • 10:47 - 10:50
    de patru sau cinci ori mai des,
    în funcție de regiune.
  • 10:51 - 10:54
    Cum arată prejudecata asta
    în alte categorii de infracțiuni
  • 10:54 - 10:56
    și cum o justificăm?
  • 10:56 - 11:01
    În al doilea rând, ar trebui să ne gândim
    la definiția succesului, să audităm asta.
  • 11:01 - 11:03
    Vă amintiți algoritmul pentru angajare?
    Am vorbit de el.
  • 11:03 - 11:07
    Cineva care lucrează patru ani
    și e promovat o dată?
  • 11:07 - 11:08
    Ăsta e un angajat de succes,
  • 11:08 - 11:11
    dar și unul
    care e susținut de cultura lor.
  • 11:12 - 11:14
    Dar și asta poate fi părtinitor.
  • 11:14 - 11:16
    Trebuie să separăm aceste două aspecte.
  • 11:16 - 11:20
    Ar trebui să luăm audiția pe nevăzute
    drept exemplu.
  • 11:20 - 11:23
    Presupune că cei care sunt audiați
    stau după un paravan.
  • 11:23 - 11:25
    În cazul ăsta vreau să mă gândesc
  • 11:25 - 11:30
    că cei care ascultă au decis
    ce-i important și ce nu
  • 11:30 - 11:32
    și nu li se distrage atenția de la asta.
  • 11:33 - 11:36
    Când s-a început cu audițiile pe nevăzute,
  • 11:36 - 11:39
    numărul femeilor în orchestre
    a crescut de cinci ori.
  • 11:40 - 11:42
    Mai departe,
    trebuie să examinăm acuratețea.
  • 11:43 - 11:47
    În cazul ăsta, modelul valorii adăugate
    pentru profesori ar eșua imediat.
  • 11:48 - 11:50
    Niciun algoritm nu e perfect, desigur,
  • 11:51 - 11:54
    deci trebuie să ne gândim
    la erorile fiecărui algoritm.
  • 11:55 - 11:59
    Cât de des apar erori
    și pentru cine nu funcționează modelul?
  • 12:00 - 12:02
    Care e costul acestui eșec?
  • 12:02 - 12:05
    Și, în sfârșit, trebuie să analizăm
  • 12:06 - 12:08
    efectele pe termen lung ale algoritmilor,
  • 12:09 - 12:11
    buclele de feedback care se generează.
  • 12:12 - 12:13
    Sună abstract,
  • 12:13 - 12:16
    dar imaginați-vă că tehnicienii Facebook
    s-ar fi gândit la asta
  • 12:16 - 12:21
    înainte să decidă să ne arate
    doar ce au publicat prietenii noștri.
  • 12:22 - 12:25
    Mai am două mesaje, unul e
    pentru specialiștii în date dintre voi.
  • 12:25 - 12:29
    Specialiști în date,
    nu trebuie să fim arbitrii adevărului.
  • 12:30 - 12:33
    Ar trebui să fim traducătorii
    discuțiilor etice care au loc
  • 12:33 - 12:35
    în societate la scară largă.
  • 12:36 - 12:38
    (Aplauze)
  • 12:38 - 12:39
    Iar pentru voi, ceilalți,
  • 12:40 - 12:41
    nespecializați în date:
  • 12:41 - 12:43
    ăsta nu-i un test de matematică.
  • 12:44 - 12:45
    E o luptă politică.
  • 12:47 - 12:50
    Trebuie să pretindem responsabilizarea
    suzeranilor noștri algoritmici.
  • 12:52 - 12:54
    (Aplauze)
  • 12:54 - 12:58
    Vremea încrederii oarbe în volumele mari
    de date trebuie să ia sfârșit.
  • 12:58 - 12:59
    Mulțumesc mult.
  • 12:59 - 13:04
    (Aplauze)
Title:
Vremea încrederii oarbe în volumele mari de date (big data) trebuie să ia sfârșit
Speaker:
Cathy O'Neil
Description:

Algoritmii decid cine primește un împrumut, cine obține un interviu pentru un loc de muncă, cine obține asigurare și multe alte lucruri, dar asta nu înseamnă și că, automat, decizia lor e corectă. Cathy O'Neil, matematician și specialist în știința datelor, a inventat o denumire pentru algoritmii care sunt secreți, importanți și dăunători: „arme de distrugere matematică”. Aflați mai multe despre agenda secretă din spatele formulelor.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:18

Romanian subtitles

Revisions