Return to Video

Епоха сліпої віри у великі дані має підійти до кінця

  • 0:01 - 0:03
    Алгоритми є повсюди.
  • 0:04 - 0:07
    Вони сортують і відрізняють
    переможців від переможених.
  • 0:08 - 0:10
    Переможці отримують роботу
  • 0:10 - 0:12
    чи вигідні умови
    оформлення кредитки.
  • 0:12 - 0:15
    Переможені не доходять
    навіть до співбесіди,
  • 0:16 - 0:17
    або платять більше за страхування.
  • 0:18 - 0:22
    Нас обчислюють секретними формулами,
    які ми не розуміємо,
  • 0:23 - 0:26
    і до яких часто не можна подати
    апеляційні скарги.
  • 0:27 - 0:29
    Тому виникає питання:
  • 0:29 - 0:31
    а якщо припустити,
    що алгоритми неправильні?
  • 0:33 - 0:35
    Для побудови алгоритму потрібні дві речі:
  • 0:35 - 0:37
    потрібні дані про те,
    що сталося у минулому,
  • 0:37 - 0:39
    і визначення успіху,
  • 0:39 - 0:41
    те, чого ви прагнете
    і на що часто сподіваєтеся.
  • 0:41 - 0:46
    Ви навчаєте алгоритм,
    розмірковуючи, з'ясовуючи.
  • 0:46 - 0:50
    Алгоритм з'ясовує,
    що асоціюється із успіхом.
  • 0:50 - 0:52
    Яка ситуація призводить до успіху?
  • 0:53 - 0:55
    Усі люди вживають алгоритми.
  • 0:55 - 0:57
    Вони просто не записують їх
    у вигляді коду.
  • 0:57 - 0:59
    Я наведу вам приклад.
  • 0:59 - 1:02
    Я щодня вживаю алгоритм,
    щоб приготувати їсти для сім'ї.
  • 1:02 - 1:04
    Дані, що я використовую,
  • 1:04 - 1:06
    це інгредієнти в мене на кухні,
  • 1:06 - 1:08
    скільки часу я маю,
  • 1:08 - 1:09
    наскільки я захоплена,
  • 1:09 - 1:11
    і я - куратор цих даних.
  • 1:11 - 1:15
    Я не зараховую маленькі пакетики
    локшини рамен до їжі.
  • 1:15 - 1:17
    (Сміх)
  • 1:17 - 1:19
    Ось моє визначення успіху:
  • 1:19 - 1:21
    страва успішна,
    якщо мої діти їдять овочі.
  • 1:22 - 1:25
    Дайте вирішувати моєму молодшому
    синові, і все буде інакше.
  • 1:25 - 1:28
    Для нього успіх - це якщо вдається
    з'їсти багато Нутелли.
  • 1:29 - 1:31
    Але я визначаю, що таке успіх.
  • 1:31 - 1:34
    Я вирішую. Моя точка зору має значення.
  • 1:34 - 1:37
    Ось таким є перше правило алгоритмів.
  • 1:37 - 1:40
    Алгоритми - це точки зору,
    вбудовані у код.
  • 1:42 - 1:45
    Це дуже відрізняється від того, що
    більшість людей думає про алгоритми.
  • 1:45 - 1:50
    Вони думають, що алгоритми об'єктивні,
    правдиві і науково обґрунтовані.
  • 1:50 - 1:52
    Це маркетингові хитрощі.
  • 1:53 - 1:55
    Це також будуть маркетингові хитрощі,
  • 1:55 - 1:59
    якщо вам будуть погрожувати алгоритмами,
  • 1:59 - 2:02
    будуть примушувати вас довіряти
    алгоритмам та боятися їх,
  • 2:02 - 2:04
    бо ви довіряєте математиці та боїтеся її.
  • 2:06 - 2:10
    Чимало речей може піти не так, як треба,
    коли ми сліпо довіряємо великим даним.
  • 2:12 - 2:15
    Це Кірі Соарс. Вона - директор
    школи старших класів у Брукліні.
  • 2:15 - 2:18
    У 2011 р. вона розповіла мені,
    що її вчителів оцінювали
  • 2:18 - 2:20
    за складним секретним алгоритмом
  • 2:20 - 2:23
    під назвою
    "модель з розширеними функціями".
  • 2:23 - 2:26
    Я сказала їй: "З'ясуй, що це за формула,
    покажи її мені.
  • 2:26 - 2:27
    Я тобі її поясню".
  • 2:27 - 2:29
    Вона сказала: "Я намагалася
    отримати формулу,
  • 2:29 - 2:32
    але моя знайома у міносвіти
    сказала мені, що то математика,
  • 2:32 - 2:34
    і що мені цього не зрозуміти".
  • 2:35 - 2:37
    Далі буде гірше.
  • 2:37 - 2:40
    "Нью-Йорк Пост" надіслала запит згідно
    із Законом про свободу інформації,
  • 2:40 - 2:43
    отримала імена усіх вчителів
    та усі їх оцінки,
  • 2:43 - 2:46
    і потім вони опублікували це
    задля присоромлення вчителів.
  • 2:47 - 2:51
    Коли я намагалася тими ж методами
    одержати формули, початковий код,
  • 2:51 - 2:53
    мені сказали, що я не можу цього зробити.
  • 2:53 - 2:54
    Мені відмовили.
  • 2:54 - 2:56
    Пізніше я дізналася,
  • 2:56 - 2:58
    що ніхто у місті Нью-Йорк
    не мав доступу до цієї формули.
  • 2:58 - 3:00
    Ніхто її не розумів.
  • 3:02 - 3:05
    Потім до цього долучилася
    одна мудра людина, Гері Рубінштейн.
  • 3:05 - 3:09
    Він знайшов 665 вчителів з тої статті
    у "Нью-Йорк Пост",
  • 3:09 - 3:11
    вчителів, що, власне, мали дві оцінки.
  • 3:11 - 3:13
    Так могло статися, якщо вони викладали
  • 3:13 - 3:15
    математику у сьомому класі
    і математику у восьмому.
  • 3:15 - 3:17
    Він вирішив відобразити їх дані.
  • 3:17 - 3:19
    Кожна крапка репрезентує вчителя.
  • 3:19 - 3:21
    (Сміх)
  • 3:22 - 3:23
    Що це таке?
  • 3:23 - 3:24
    (Сміх)
  • 3:24 - 3:28
    Це ніколи не слід було використовувати
    для індивідуальної оцінки.
  • 3:28 - 3:30
    Це майже як генератор випадкових чисел.
  • 3:30 - 3:33
    (Оплески)
  • 3:33 - 3:34
    Але це було використано.
  • 3:34 - 3:35
    Це - Сара Висоцкі.
  • 3:35 - 3:37
    Її звільнили, разом із
    205 іншими вчителями,
  • 3:37 - 3:40
    зі шкільного району м.Вашингтон
    в окрузі Колумбія,
  • 3:40 - 3:43
    хоча вона мала прекрасні рекомендації
    від її директора
  • 3:43 - 3:44
    та батьків її дітей.
  • 3:45 - 3:47
    Я знаю, про що зараз думає
    багато із вас,
  • 3:47 - 3:50
    зокрема фахівці з обробки даних
    і штучного інтелекту.
  • 3:50 - 3:54
    Ви думаєте: "Ну, я б ніколи не створив
    алгоритм з такими протиріччями".
  • 3:55 - 3:57
    Але алгоритми можуть піти не за планом,
  • 3:57 - 4:01
    навіть мати надзвичайно нищівні наслідки,
    незважаючи на добрі наміри.
  • 4:03 - 4:05
    В той час, як літак,
    що був погано спроектований,
  • 4:05 - 4:07
    врізається у землю, і всі це бачать,
  • 4:07 - 4:09
    алгоритм, що був погано розроблений,
  • 4:10 - 4:14
    може довго функціонувати
    і тихенько завдавати шкоди.
  • 4:16 - 4:17
    Це - Роджер Ейлс.
  • 4:17 - 4:19
    (Сміх)
  • 4:21 - 4:23
    Він заснував Fox News у 1996 р.
  • 4:23 - 4:26
    Понад 20 жінок поскаржилися
    на сексуальні домагання.
  • 4:26 - 4:29
    Вони казали, що їм не дозволяли
    досягати успіхів у Fox News.
  • 4:29 - 4:32
    Минулого року його вигнали,
    але ми нещодавно побачили,
  • 4:32 - 4:35
    що проблеми все одно існують.
  • 4:36 - 4:37
    Виникає питання:
  • 4:37 - 4:40
    що повинна зробити Fox News,
    щоб почати нову сторінку?
  • 4:41 - 4:44
    А якщо б вони замість свого процесу
    найму працівників вживали
  • 4:44 - 4:46
    алгоритм машинного навчання?
  • 4:46 - 4:48
    Непогана ідея, правда?
  • 4:48 - 4:49
    Подумайте про це.
  • 4:49 - 4:51
    Дані, які в нас були б дані?
  • 4:51 - 4:56
    Резонно розглянути відгуки на вакансії
    у Fox News за останній 21 рік.
  • 4:56 - 4:58
    Резонно.
  • 4:58 - 4:59
    А як ми визначимо успіх?
  • 5:00 - 5:01
    Резонно було б обрати,
  • 5:01 - 5:03
    ну, хто є успішним у Fox News?
  • 5:03 - 5:07
    Скажімо, та людина,
    що пробула там чотири роки,
  • 5:07 - 5:08
    і яка хоч раз отримала підвищення.
  • 5:09 - 5:10
    Резонне визначення.
  • 5:10 - 5:13
    А потім ми б навчали алгоритм.
  • 5:13 - 5:17
    Його б навчали шукати людей, вивчати,
    що призвело до успіху,
  • 5:17 - 5:22
    якого роду відгуки про вакансії
    призводили до успіху
  • 5:22 - 5:23
    за цим визначенням.
  • 5:24 - 5:26
    Подумайте, що сталося би
    по відношенню
  • 5:26 - 5:29
    до теперішнього
    банку даних про кандидатів.
  • 5:29 - 5:31
    Алгоритм відфільтрував би жінок,
  • 5:32 - 5:36
    бо вони не виглядають, як люди,
    що були успішними у минулому.
  • 5:40 - 5:42
    Алгоритми не забезпечують справедливість,
  • 5:42 - 5:45
    якщо ви застосовуєте алгоритми
    безтурботно і всліпу.
  • 5:45 - 5:47
    Це не гарантія справедливості.
  • 5:47 - 5:49
    Вони повторюють наші минулі
    методики роботи,
  • 5:49 - 5:50
    наші шаблони.
  • 5:50 - 5:52
    Вони автоматизують статус-кво.
  • 5:53 - 5:55
    Як було б добре, якщо б
    ми жили в ідеальному світі,
  • 5:56 - 5:57
    але ми в ньому не живемо.
  • 5:57 - 6:01
    Додам, що більшість компаній не має
    прикрих правових спорів,
  • 6:02 - 6:05
    але науковцям з даних у тих компаніях
  • 6:05 - 6:07
    кажуть слідкувати за даними,
  • 6:07 - 6:09
    концентруватися на точності.
  • 6:10 - 6:12
    Подумайте, що це означає.
  • 6:12 - 6:16
    Оскільки усі ми маємо упередження,
    вони можуть кодувати сексизм
  • 6:16 - 6:18
    чи інший вид нетерпимості.
  • 6:19 - 6:21
    Інтелектуальний експеримент,
  • 6:21 - 6:22
    бо вони мені подобаються:
  • 6:24 - 6:27
    повністю сегреговане суспільство -
  • 6:28 - 6:32
    расова сегрегація в усіх містах,
    усіх кварталах,
  • 6:32 - 6:35
    і поліцію посилають лиш до
    кварталів, де проживає меншість,
  • 6:35 - 6:36
    щоб шукати там злочинців.
  • 6:36 - 6:39
    Дані про арешти були б дуже упередженими.
  • 6:40 - 6:42
    А якщо, окрім того,
    ми знайшли б науковців з даних
  • 6:42 - 6:47
    і платили б науковцям за передбачення,
    де буде скоєно наступний злочин?
  • 6:47 - 6:49
    У кварталі, де проживає меншість.
  • 6:49 - 6:52
    Чи передбачити, хто буде
    наступним злочинцем?
  • 6:53 - 6:54
    Людина з меншості.
  • 6:56 - 6:59
    Науковці хвалилися б про те,
    наскільки чудовою і точною
  • 7:00 - 7:01
    є їх модель,
  • 7:01 - 7:02
    і вони були б праві.
  • 7:04 - 7:09
    В реальному житті немає таких крайнощів,
    але ми маємо суттєву сегрегацію
  • 7:09 - 7:10
    у великих і малих містах,
  • 7:10 - 7:12
    і маємо досить доказів
  • 7:12 - 7:15
    щодо упередженості поліції
    і судової системи.
  • 7:16 - 7:18
    І ми справді передбачаємо гарячі точки,
  • 7:18 - 7:20
    місця, де буде скоєно злочини.
  • 7:20 - 7:24
    І це факт, що ми передбачаємо
    індивідуальні злочинні дії,
  • 7:24 - 7:26
    злочинність окремих людей.
  • 7:27 - 7:31
    Інформагентство ProPublica нещодавно
    провело розслідування щодо
  • 7:31 - 7:33
    одного з алгоритмів
    "ризику рецидивізму",
  • 7:33 - 7:34
    так вони називаються,
  • 7:34 - 7:37
    що використовують судді у Флориді,
    коли виносять вирок.
  • 7:38 - 7:42
    Бернард, зліва, темношкірий,
    отримав рейтинг 10 з 10.
  • 7:43 - 7:45
    Ділан, справа, 3 з 10.
  • 7:45 - 7:48
    10 з 10, високий ризик.
    3 з 10, низький ризик.
  • 7:49 - 7:51
    Їх обох заарештували за
    зберігання наркотиків.
  • 7:51 - 7:52
    В них кримінальне минуле,
  • 7:52 - 7:55
    але Ділан скоїв тяжкий злочин,
  • 7:55 - 7:56
    а Бернард - ні.
  • 7:58 - 8:01
    Це має значення, бо
    чим вищий в тебе ризик,
  • 8:01 - 8:04
    тим ймовірніше, що ти отримаєш
    довший термін покарання.
  • 8:06 - 8:08
    Що ж відбувається?
  • 8:09 - 8:10
    Відмивання даних.
  • 8:11 - 8:15
    Це процес, коли технологи ховають
    неприємну правду
  • 8:15 - 8:17
    всередині алгоритмів типу "чорний ящик"
  • 8:17 - 8:19
    і називають їх об'єктивними;
  • 8:19 - 8:21
    називають їх меритократичними.
  • 8:23 - 8:26
    Коли ці алгоритми секретні,
    важливі та нищівні,
  • 8:26 - 8:28
    я створила для них термін:
  • 8:28 - 8:30
    "зброя математичного знищення".
  • 8:30 - 8:32
    (Сміх)
  • 8:32 - 8:35
    (Оплески)
  • 8:35 - 8:37
    Вони повсюди,
    і це не помилково.
  • 8:38 - 8:41
    Це приватні компанії,
    що будують приватні алгоритми
  • 8:41 - 8:43
    для приватного зиску.
  • 8:43 - 8:46
    Навіть приклади, що я навела,
    для вчителів і державної поліції,
  • 8:46 - 8:48
    приватні компанії побудували їх
  • 8:48 - 8:51
    і продали державним установам.
  • 8:51 - 8:52
    Вони кажуть, що це їх
    "секретний соус",
  • 8:52 - 8:55
    тому вони не можуть
    розповісти нам про нього.
  • 8:55 - 8:57
    Це також вплив приватних інтересів.
  • 8:58 - 9:03
    Вони отримують зиск, маючи владу
    над незбагненним.
  • 9:05 - 9:08
    Позаяк це все приватні компанії,
    ви можете припустити,
  • 9:08 - 9:09
    що існує конкуренція,
  • 9:09 - 9:12
    можливо, вільний ринок
    вирішить цю проблему.
  • 9:12 - 9:13
    Ні, не вирішить.
  • 9:13 - 9:16
    На несправедливості можна заробити
    чимало грошей.
  • 9:17 - 9:20
    До того ж, ми не є
    економічними раціональними агентами.
  • 9:21 - 9:22
    У нас у всіх є упередження.
  • 9:23 - 9:26
    Ми всі до певної міри нетерпимі расисти,
    хоч нам це і не подобається,
  • 9:26 - 9:28
    ми самі не знаємо, до якої міри.
  • 9:29 - 9:32
    Однак ми знаємо, що так
    загалом і є,
  • 9:32 - 9:36
    бо соціологи систематично
    демонструють це
  • 9:36 - 9:37
    у експериментах, що вони проводять,
  • 9:37 - 9:40
    коли вони надсилають низку
    відгуків на вакансії,
  • 9:40 - 9:42
    однакові кваліфікації, але у деяких
    "білі" імена,
  • 9:43 - 9:44
    а в інших імена, як у темношкірих,
  • 9:44 - 9:47
    і результати завжди невтішні,
    завжди.
  • 9:48 - 9:49
    Отже, ми маємо упередження,
  • 9:49 - 9:53
    і ми вбудовуємо ці упередження
    в алгоритми,
  • 9:53 - 9:55
    обираючи, які дани потрібно збирати,
  • 9:55 - 9:57
    так само, як я вирішила
    не думати про локшину рамен -
  • 9:57 - 9:59
    я вирішила, що це малозначуще.
  • 9:59 - 10:05
    Але коли ми довіряємо даним,
    що вловлюють практику, що склалася,
  • 10:05 - 10:07
    і обираємо визначення успіху,
  • 10:07 - 10:11
    як ми можемо очікувати, що алгоритми
    будуть без несправностей?
  • 10:11 - 10:13
    Не можемо. Ми повинні перевіряти їх.
  • 10:14 - 10:16
    Перевіряти їх на справедливість.
  • 10:16 - 10:19
    На щастя, ми можемо
    перевіряти їх на справедливість.
  • 10:19 - 10:22
    Алгоритми можна розпитувати,
  • 10:22 - 10:24
    і вони щоразу казатимуть
    нам правду.
  • 10:24 - 10:27
    І ми можемо виправити їх.
    Ми можемо покращити їх.
  • 10:27 - 10:29
    Я називаю це "алгоритмічним аудитом",
  • 10:29 - 10:31
    і я вам зараз його поясню.
  • 10:31 - 10:33
    По-перше, перевірка цілісності даних.
  • 10:34 - 10:37
    Повертаючись до алгоритму
    риску рецидивізму,
  • 10:38 - 10:41
    перевірка цілісності даних означала б,
    що нам довелося б змиритися із фактом,
  • 10:41 - 10:45
    що у США білі і темношкірі
    обкурені однаково,
  • 10:45 - 10:47
    однак темношкірих заарештовують
    набагато частіше -
  • 10:47 - 10:50
    у чотири-п'ять разів частіше,
    залежно від району.
  • 10:51 - 10:54
    Як ця упередженість виглядає
    в інших кримінальних категоріях,
  • 10:54 - 10:56
    і як ми приймаємо її до уваги?
  • 10:56 - 10:59
    По-друге, нам слід подумати про
    визначення успіху,
  • 10:59 - 11:01
    проводити аудит визначення.
  • 11:01 - 11:03
    Пригадуєте алгоритм
    щодо прийняття на роботу?
  • 11:03 - 11:07
    Той, хто утримується на роботі чотири роки
    і раз отримує підвищення?
  • 11:07 - 11:08
    Ну так, це успішний працівник,
  • 11:08 - 11:11
    але це також працівник, котрого підтримує
    організаційна культура.
  • 11:12 - 11:14
    Однак і тут може бути
    багато упередження.
  • 11:14 - 11:16
    Нам треба розрізняти тих дві речі.
  • 11:16 - 11:19
    Давайте брати приклад
    з прослуховування всліпу
  • 11:19 - 11:20
    на роль в окрестрі,
  • 11:20 - 11:23
    Це коли люди на прослуховуванні
    є за листом паперу.
  • 11:23 - 11:25
    На чому я хочу тут зосередитись:
  • 11:25 - 11:28
    люди, котрі прослуховують кандидатів,
    вирішили, що важливе,
  • 11:28 - 11:30
    і вирішили, що неважливе,
  • 11:30 - 11:32
    і їх це не відволікає.
  • 11:33 - 11:36
    Коли розпочалися прослуховування вліпу,
  • 11:36 - 11:39
    кількість жінок в оркестрах
    зросла у п'ять разів.
  • 11:40 - 11:42
    Потім нам потрібно розглянути точність.
  • 11:43 - 11:47
    Ось тут модель з розширеними функціями
    для вчителів одразу б провалилася.
  • 11:48 - 11:50
    Звісно, що не існує ідеальних алгоритмів,
  • 11:51 - 11:54
    тому нам треба приймати до уваги помилки
    у кожному алгоритмі.
  • 11:55 - 11:59
    Як часто там трапляються помилки,
    і кого підведе ця модель?
  • 12:00 - 12:02
    Якою є ціна цього провалу?
  • 12:02 - 12:05
    І наприкінці, нам потрібно
    прийняти до уваги
  • 12:06 - 12:08
    довготермінові ефекти алгоритмів,
  • 12:09 - 12:11
    ланцюги зворотного зв'язку, що виникають.
  • 12:12 - 12:13
    Звучить абстрактно,
  • 12:13 - 12:16
    але уявіть, якщо інженери Facebook
    прийняли б це до уваги,
  • 12:16 - 12:21
    перш ніж вони вирішили показувати нам
    лише те, що постять наші друзі.
  • 12:22 - 12:25
    В мене є ще дві думки, що я хочу донести,
    одна для науковців з даних.
  • 12:25 - 12:29
    Науковці з даних: нам не слід бути
    арбітрами правди.
  • 12:30 - 12:33
    Нам слід бути перекладачами
    етичних дискусій, що відбуваються
  • 12:33 - 12:35
    у ширшому суспільстві.
  • 12:36 - 12:38
    (Оплески)
  • 12:38 - 12:39
    А щодо решти з вас,
  • 12:40 - 12:41
    не-науковців з даних:
  • 12:41 - 12:43
    це не тест з математики.
  • 12:44 - 12:45
    Це політична боротьба.
  • 12:47 - 12:50
    Ми повинні вимагати підзвітності
    від наших алгоритмічних можновладців.
  • 12:52 - 12:54
    (Оплески)
  • 12:54 - 12:58
    Епоха сліпої віри у великі дані
    має підійти до кінця.
  • 12:58 - 12:59
    Дуже вам дякую.
  • 12:59 - 13:04
    (Оплески)
Title:
Епоха сліпої віри у великі дані має підійти до кінця
Speaker:
Кеті О'Ніл
Description:

Алгоритми вирішують, хто отримає позику, хто отримає співбесіду на роботу, хто отримає страхування та багато чого іншого - але вони автоматично не забезпечують справедливість. Математик і науковець з даних Кеті О'Ніл створила термін, що описує секретні, важливі та шкідливі алгоритми: "зброя математичного знищення". Дізнайтеся більше про наміри, що приховані за формулами.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:18

Ukrainian subtitles

Revisions