Алгоритми є повсюди. Вони сортують і відрізняють переможців від переможених. Переможці отримують роботу чи вигідні умови оформлення кредитки. Переможені не доходять навіть до співбесіди, або платять більше за страхування. Нас обчислюють секретними формулами, які ми не розуміємо, і до яких часто не можна подати апеляційні скарги. Тому виникає питання: а якщо припустити, що алгоритми неправильні? Для побудови алгоритму потрібні дві речі: потрібні дані про те, що сталося у минулому, і визначення успіху, те, чого ви прагнете і на що часто сподіваєтеся. Ви навчаєте алгоритм, розмірковуючи, з'ясовуючи. Алгоритм з'ясовує, що асоціюється із успіхом. Яка ситуація призводить до успіху? Усі люди вживають алгоритми. Вони просто не записують їх у вигляді коду. Я наведу вам приклад. Я щодня вживаю алгоритм, щоб приготувати їсти для сім'ї. Дані, що я використовую, це інгредієнти в мене на кухні, скільки часу я маю, наскільки я захоплена, і я - куратор цих даних. Я не зараховую маленькі пакетики локшини рамен до їжі. (Сміх) Ось моє визначення успіху: страва успішна, якщо мої діти їдять овочі. Дайте вирішувати моєму молодшому синові, і все буде інакше. Для нього успіх - це якщо вдається з'їсти багато Нутелли. Але я визначаю, що таке успіх. Я вирішую. Моя точка зору має значення. Ось таким є перше правило алгоритмів. Алгоритми - це точки зору, вбудовані у код. Це дуже відрізняється від того, що більшість людей думає про алгоритми. Вони думають, що алгоритми об'єктивні, правдиві і науково обґрунтовані. Це маркетингові хитрощі. Це також будуть маркетингові хитрощі, якщо вам будуть погрожувати алгоритмами, будуть примушувати вас довіряти алгоритмам та боятися їх, бо ви довіряєте математиці та боїтеся її. Чимало речей може піти не так, як треба, коли ми сліпо довіряємо великим даним. Це Кірі Соарс. Вона - директор школи старших класів у Брукліні. У 2011 р. вона розповіла мені, що її вчителів оцінювали за складним секретним алгоритмом під назвою "модель з розширеними функціями". Я сказала їй: "З'ясуй, що це за формула, покажи її мені. Я тобі її поясню". Вона сказала: "Я намагалася отримати формулу, але моя знайома у міносвіти сказала мені, що то математика, і що мені цього не зрозуміти". Далі буде гірше. "Нью-Йорк Пост" надіслала запит згідно із Законом про свободу інформації, отримала імена усіх вчителів та усі їх оцінки, і потім вони опублікували це задля присоромлення вчителів. Коли я намагалася тими ж методами одержати формули, початковий код, мені сказали, що я не можу цього зробити. Мені відмовили. Пізніше я дізналася, що ніхто у місті Нью-Йорк не мав доступу до цієї формули. Ніхто її не розумів. Потім до цього долучилася одна мудра людина, Гері Рубінштейн. Він знайшов 665 вчителів з тої статті у "Нью-Йорк Пост", вчителів, що, власне, мали дві оцінки. Так могло статися, якщо вони викладали математику у сьомому класі і математику у восьмому. Він вирішив відобразити їх дані. Кожна крапка репрезентує вчителя. (Сміх) Що це таке? (Сміх) Це ніколи не слід було використовувати для індивідуальної оцінки. Це майже як генератор випадкових чисел. (Оплески) Але це було використано. Це - Сара Висоцкі. Її звільнили, разом із 205 іншими вчителями, зі шкільного району м.Вашингтон в окрузі Колумбія, хоча вона мала прекрасні рекомендації від її директора та батьків її дітей. Я знаю, про що зараз думає багато із вас, зокрема фахівці з обробки даних і штучного інтелекту. Ви думаєте: "Ну, я б ніколи не створив алгоритм з такими протиріччями". Але алгоритми можуть піти не за планом, навіть мати надзвичайно нищівні наслідки, незважаючи на добрі наміри. В той час, як літак, що був погано спроектований, врізається у землю, і всі це бачать, алгоритм, що був погано розроблений, може довго функціонувати і тихенько завдавати шкоди. Це - Роджер Ейлс. (Сміх) Він заснував Fox News у 1996 р. Понад 20 жінок поскаржилися на сексуальні домагання. Вони казали, що їм не дозволяли досягати успіхів у Fox News. Минулого року його вигнали, але ми нещодавно побачили, що проблеми все одно існують. Виникає питання: що повинна зробити Fox News, щоб почати нову сторінку? А якщо б вони замість свого процесу найму працівників вживали алгоритм машинного навчання? Непогана ідея, правда? Подумайте про це. Дані, які в нас були б дані? Резонно розглянути відгуки на вакансії у Fox News за останній 21 рік. Резонно. А як ми визначимо успіх? Резонно було б обрати, ну, хто є успішним у Fox News? Скажімо, та людина, що пробула там чотири роки, і яка хоч раз отримала підвищення. Резонне визначення. А потім ми б навчали алгоритм. Його б навчали шукати людей, вивчати, що призвело до успіху, якого роду відгуки про вакансії призводили до успіху за цим визначенням. Подумайте, що сталося би по відношенню до теперішнього банку даних про кандидатів. Алгоритм відфільтрував би жінок, бо вони не виглядають, як люди, що були успішними у минулому. Алгоритми не забезпечують справедливість, якщо ви застосовуєте алгоритми безтурботно і всліпу. Це не гарантія справедливості. Вони повторюють наші минулі методики роботи, наші шаблони. Вони автоматизують статус-кво. Як було б добре, якщо б ми жили в ідеальному світі, але ми в ньому не живемо. Додам, що більшість компаній не має прикрих правових спорів, але науковцям з даних у тих компаніях кажуть слідкувати за даними, концентруватися на точності. Подумайте, що це означає. Оскільки усі ми маємо упередження, вони можуть кодувати сексизм чи інший вид нетерпимості. Інтелектуальний експеримент, бо вони мені подобаються: повністю сегреговане суспільство - расова сегрегація в усіх містах, усіх кварталах, і поліцію посилають лиш до кварталів, де проживає меншість, щоб шукати там злочинців. Дані про арешти були б дуже упередженими. А якщо, окрім того, ми знайшли б науковців з даних і платили б науковцям за передбачення, де буде скоєно наступний злочин? У кварталі, де проживає меншість. Чи передбачити, хто буде наступним злочинцем? Людина з меншості. Науковці хвалилися б про те, наскільки чудовою і точною є їх модель, і вони були б праві. В реальному житті немає таких крайнощів, але ми маємо суттєву сегрегацію у великих і малих містах, і маємо досить доказів щодо упередженості поліції і судової системи. І ми справді передбачаємо гарячі точки, місця, де буде скоєно злочини. І це факт, що ми передбачаємо індивідуальні злочинні дії, злочинність окремих людей. Інформагентство ProPublica нещодавно провело розслідування щодо одного з алгоритмів "ризику рецидивізму", так вони називаються, що використовують судді у Флориді, коли виносять вирок. Бернард, зліва, темношкірий, отримав рейтинг 10 з 10. Ділан, справа, 3 з 10. 10 з 10, високий ризик. 3 з 10, низький ризик. Їх обох заарештували за зберігання наркотиків. В них кримінальне минуле, але Ділан скоїв тяжкий злочин, а Бернард - ні. Це має значення, бо чим вищий в тебе ризик, тим ймовірніше, що ти отримаєш довший термін покарання. Що ж відбувається? Відмивання даних. Це процес, коли технологи ховають неприємну правду всередині алгоритмів типу "чорний ящик" і називають їх об'єктивними; називають їх меритократичними. Коли ці алгоритми секретні, важливі та нищівні, я створила для них термін: "зброя математичного знищення". (Сміх) (Оплески) Вони повсюди, і це не помилково. Це приватні компанії, що будують приватні алгоритми для приватного зиску. Навіть приклади, що я навела, для вчителів і державної поліції, приватні компанії побудували їх і продали державним установам. Вони кажуть, що це їх "секретний соус", тому вони не можуть розповісти нам про нього. Це також вплив приватних інтересів. Вони отримують зиск, маючи владу над незбагненним. Позаяк це все приватні компанії, ви можете припустити, що існує конкуренція, можливо, вільний ринок вирішить цю проблему. Ні, не вирішить. На несправедливості можна заробити чимало грошей. До того ж, ми не є економічними раціональними агентами. У нас у всіх є упередження. Ми всі до певної міри нетерпимі расисти, хоч нам це і не подобається, ми самі не знаємо, до якої міри. Однак ми знаємо, що так загалом і є, бо соціологи систематично демонструють це у експериментах, що вони проводять, коли вони надсилають низку відгуків на вакансії, однакові кваліфікації, але у деяких "білі" імена, а в інших імена, як у темношкірих, і результати завжди невтішні, завжди. Отже, ми маємо упередження, і ми вбудовуємо ці упередження в алгоритми, обираючи, які дани потрібно збирати, так само, як я вирішила не думати про локшину рамен - я вирішила, що це малозначуще. Але коли ми довіряємо даним, що вловлюють практику, що склалася, і обираємо визначення успіху, як ми можемо очікувати, що алгоритми будуть без несправностей? Не можемо. Ми повинні перевіряти їх. Перевіряти їх на справедливість. На щастя, ми можемо перевіряти їх на справедливість. Алгоритми можна розпитувати, і вони щоразу казатимуть нам правду. І ми можемо виправити їх. Ми можемо покращити їх. Я називаю це "алгоритмічним аудитом", і я вам зараз його поясню. По-перше, перевірка цілісності даних. Повертаючись до алгоритму риску рецидивізму, перевірка цілісності даних означала б, що нам довелося б змиритися із фактом, що у США білі і темношкірі обкурені однаково, однак темношкірих заарештовують набагато частіше - у чотири-п'ять разів частіше, залежно від району. Як ця упередженість виглядає в інших кримінальних категоріях, і як ми приймаємо її до уваги? По-друге, нам слід подумати про визначення успіху, проводити аудит визначення. Пригадуєте алгоритм щодо прийняття на роботу? Той, хто утримується на роботі чотири роки і раз отримує підвищення? Ну так, це успішний працівник, але це також працівник, котрого підтримує організаційна культура. Однак і тут може бути багато упередження. Нам треба розрізняти тих дві речі. Давайте брати приклад з прослуховування всліпу на роль в окрестрі, Це коли люди на прослуховуванні є за листом паперу. На чому я хочу тут зосередитись: люди, котрі прослуховують кандидатів, вирішили, що важливе, і вирішили, що неважливе, і їх це не відволікає. Коли розпочалися прослуховування вліпу, кількість жінок в оркестрах зросла у п'ять разів. Потім нам потрібно розглянути точність. Ось тут модель з розширеними функціями для вчителів одразу б провалилася. Звісно, що не існує ідеальних алгоритмів, тому нам треба приймати до уваги помилки у кожному алгоритмі. Як часто там трапляються помилки, і кого підведе ця модель? Якою є ціна цього провалу? І наприкінці, нам потрібно прийняти до уваги довготермінові ефекти алгоритмів, ланцюги зворотного зв'язку, що виникають. Звучить абстрактно, але уявіть, якщо інженери Facebook прийняли б це до уваги, перш ніж вони вирішили показувати нам лише те, що постять наші друзі. В мене є ще дві думки, що я хочу донести, одна для науковців з даних. Науковці з даних: нам не слід бути арбітрами правди. Нам слід бути перекладачами етичних дискусій, що відбуваються у ширшому суспільстві. (Оплески) А щодо решти з вас, не-науковців з даних: це не тест з математики. Це політична боротьба. Ми повинні вимагати підзвітності від наших алгоритмічних можновладців. (Оплески) Епоха сліпої віри у великі дані має підійти до кінця. Дуже вам дякую. (Оплески)