Return to Video

Эра слепой веры в «большие данные» должна закончиться

  • 0:01 - 0:03
    Алгоритмы повсюду.
  • 0:04 - 0:07
    Они сортируют людей, отделяя
    победителей от проигравших.
  • 0:08 - 0:10
    Победители получают желаемую работу
  • 0:10 - 0:12
    или выгодное кредитное предложение.
  • 0:12 - 0:15
    Неудачники даже не получают
    шанса на собеседование
  • 0:16 - 0:17
    или платят больше за страхование.
  • 0:18 - 0:22
    Нас «считывают» по секретным формулам,
    которые мы зачастую не понимаем,
  • 0:23 - 0:26
    без возможности обжалования решения.
  • 0:27 - 0:29
    Назревает вопрос:
  • 0:29 - 0:31
    что, если эти алгоритмы ошибочны?
  • 0:33 - 0:35
    Для построения алгоритма
    вам нужны две вещи:
  • 0:35 - 0:37
    вам нужны данные о прошлых событиях
  • 0:37 - 0:39
    и определение понятия «успех» —
  • 0:39 - 0:41
    того, к чему вы стремитесь
    и на что надеетесь.
  • 0:41 - 0:46
    Вы обучаете алгоритм,
    наблюдая за результатом.
  • 0:46 - 0:50
    Алгоритм вычисляет всё то,
    что связано с успехом.
  • 0:50 - 0:52
    Какая ситуация приводит к успеху?
  • 0:53 - 0:55
    Каждый из нас использует алгоритмы.
  • 0:55 - 0:57
    Мы просто не записываем их
    в виде формул и кодов.
  • 0:57 - 0:59
    Приведу пример.
  • 0:59 - 1:02
    Я использую алгоритм каждый день,
    когда готовлю еду для своей семьи.
  • 1:02 - 1:04
    Данные, которые я использую, —
  • 1:04 - 1:06
    это ингредиенты у меня на кухне,
  • 1:06 - 1:08
    моё время,
  • 1:08 - 1:09
    мои цели,
  • 1:09 - 1:11
    и я организовываю эти данные.
  • 1:11 - 1:15
    Я не считаю эти пакетики лапши пищей.
  • 1:15 - 1:17
    (Смех)
  • 1:17 - 1:19
    Вот моё определение успеха:
  • 1:19 - 1:21
    блюдо удалось, если мои дети едят овощи.
  • 1:22 - 1:25
    Мой младший сын думает по-другому.
  • 1:25 - 1:28
    Для него успех — это если он
    получит много Нутеллы.
  • 1:29 - 1:31
    Но определяю успех я.
  • 1:31 - 1:34
    Я главная. Именно моё мнение
    имеет значение.
  • 1:34 - 1:37
    Это первое правило алгоритмов.
  • 1:37 - 1:40
    Алгоритмы — это мнения, встроенные в код.
  • 1:42 - 1:45
    Это отличается от того, как большинство
    людей воспринимают алгоритмы.
  • 1:45 - 1:50
    Алгоритмы для них объективны,
    истинны и научны.
  • 1:50 - 1:52
    Это маркетинговый трюк.
  • 1:53 - 1:55
    Этот трюк используют
  • 1:55 - 1:59
    для того, чтобы запугать вас алгоритмами,
  • 1:59 - 2:02
    чтобы вы доверяли им и боялись их,
  • 2:02 - 2:04
    как вы доверяете математике и боитесь еë.
  • 2:06 - 2:10
    Опасно вкладывать слепую веру
    в «большие данные».
  • 2:12 - 2:15
    Это Кири Соареш.
    Она директор средней школы в Бруклине.
  • 2:15 - 2:18
    В 2011 году она рассказала,
    что её учителей оценивали
  • 2:18 - 2:20
    с помощью сложного секретного алгоритма —
  • 2:20 - 2:22
    «модели добавленной стоимости».
  • 2:23 - 2:26
    Я сказала ей: «Выясни-ка,
    что это за формула и покажи мне,
  • 2:26 - 2:27
    я попробую объяснить еë тебе».
  • 2:27 - 2:29
    Она сказала: «Ну, я хотела
    получить формулу,
  • 2:29 - 2:32
    но в отделе образования мне сказали,
    что это математика,
  • 2:32 - 2:34
    и я не ничего пойму».
  • 2:35 - 2:37
    Ситуация ухудшается.
  • 2:37 - 2:40
    Газета «Нью-Йорк Пост», согласно
    Закона о свободе информации,
  • 2:40 - 2:43
    опубликовала инфо с именами
    всех учителей и их баллами
  • 2:43 - 2:46
    в попытке пристыдить их.
  • 2:47 - 2:51
    Когда я сама попыталась получить формулы
    и исходный код,
  • 2:51 - 2:53
    мне их не дали.
  • 2:53 - 2:54
    Мне отказали.
  • 2:54 - 2:56
    Позже я узнала,
  • 2:56 - 2:58
    что никто в Нью-Йорке
    не имеет доступа к этой формуле.
  • 2:58 - 3:00
    Никто её не понимал.
  • 3:02 - 3:05
    Пока за дело не взялся кто-то
    умный — Гари Рубинштейн.
  • 3:05 - 3:09
    Он обнаружил, что 665 учителей
    в базе данных Нью-Йорка
  • 3:09 - 3:11
    имели две оценки.
  • 3:11 - 3:13
    Это могло бы быть, если они преподают
  • 3:13 - 3:15
    математику в седьмом и восьмом классах.
  • 3:15 - 3:17
    Он решил создать график.
  • 3:17 - 3:19
    Каждая точка представляет собой учителя.
  • 3:19 - 3:21
    (Смех)
  • 3:22 - 3:23
    Что это?
  • 3:23 - 3:24
    (Смех)
  • 3:24 - 3:28
    Это нельзя было использовать
    для индивидуального оценивания.
  • 3:28 - 3:30
    Это почти что генератор случайных чисел.
  • 3:30 - 3:33
    (Аплодисменты)
  • 3:33 - 3:34
    Однако так и было.
  • 3:34 - 3:35
    Это Сара Высоцки.
  • 3:35 - 3:37
    Её уволили вместе с 205 другими учителями
  • 3:37 - 3:40
    из школы в Вашингтоне округа Колумбия,
  • 3:40 - 3:43
    даже не смотря на отличные рекомендации
    от директора её школы
  • 3:43 - 3:44
    и родителей учеников.
  • 3:45 - 3:47
    Я знаю, о чём думают многие из вас,
  • 3:47 - 3:50
    особенно специалисты ИТ, ИИ-эксперты.
  • 3:50 - 3:54
    Вы думаете: «Ну, я бы никогда не создал
    такой непоследовательный алгоритм».
  • 3:55 - 3:57
    Но алгоритм может не сработать,
  • 3:57 - 4:01
    и даже благие намерения могут иметь
    глубоко разрушительный эффект.
  • 4:03 - 4:05
    И в то время как самолёт
    с ошибками в проекте
  • 4:05 - 4:07
    упадëт на землю, и все это увидят,
  • 4:07 - 4:09
    алгоритм с ошибками
  • 4:10 - 4:14
    может работать долгое время,
    бесшумно давая волю хаосу.
  • 4:16 - 4:17
    Это Роджер Айлз.
  • 4:17 - 4:19
    (Смех)
  • 4:21 - 4:23
    Он основал Fox News в 1996 году.
  • 4:23 - 4:26
    Более 20 женщин жаловались
    на сексуальные домогательства.
  • 4:26 - 4:29
    Они сказали, что им не дали возможности
    преуспеть в Fox News.
  • 4:29 - 4:32
    Его сняли и в прошлом году, но понятно,
  • 4:32 - 4:35
    что проблемы так и остались нерешёнными.
  • 4:36 - 4:37
    Это вызывает вопрос:
  • 4:37 - 4:40
    что должны делать Fox News,
    чтобы начать всё сначала?
  • 4:41 - 4:44
    Что, если бы они заменили процесс найма
  • 4:44 - 4:46
    машинным алгоритмом?
  • 4:46 - 4:48
    Неплохо, не так ли?
  • 4:48 - 4:49
    Подумайте об этом.
  • 4:49 - 4:51
    Данные, какими будут данные?
  • 4:51 - 4:56
    Разумно было бы проанализировать 21 год
    опыта приёма на работу в Fox News.
  • 4:56 - 4:58
    Разумно.
  • 4:58 - 4:59
    Как насчёт определения успеха?
  • 5:00 - 5:01
    Разумным было бы выбрать
  • 5:01 - 5:03
    тех, кто преуспевает в Fox News?
  • 5:03 - 5:07
    Я думаю, тех, кто скажем,
    проработал там четыре года
  • 5:07 - 5:08
    и получил продвижение хотя бы один раз.
  • 5:09 - 5:10
    Звучит разумно.
  • 5:10 - 5:13
    А затем алгоритм
    можно было бы натренировать.
  • 5:13 - 5:17
    Он мог бы искать людей,
    которые способны достичь успеха,
  • 5:17 - 5:22
    узнать, какие из претендентов на должность
    были успешными в прошлом.
  • 5:22 - 5:23
    По этому определению.
  • 5:24 - 5:26
    Подумайте о том, что произошло бы,
  • 5:26 - 5:29
    если применить эту формулу
    ко всем претендентам.
  • 5:29 - 5:31
    Женщин можно сразу исключить,
  • 5:32 - 5:36
    потому что среди них немного тех,
    кто достиг успеха в прошлом.
  • 5:40 - 5:42
    Алгоритмы не обеспечивают справедливости.
  • 5:42 - 5:45
    Если вы безропотно,
    слепо применяете алгоритмы,
  • 5:45 - 5:47
    они не обеспечат честность.
  • 5:47 - 5:49
    Они повторяют наш прошлый опыт,
  • 5:49 - 5:50
    наши шаблоны.
  • 5:50 - 5:52
    Они автоматизируют статус-кво.
  • 5:53 - 5:55
    Было бы здорово, если бы
    у нас был идеальный мир,
  • 5:56 - 5:57
    но у нас его нет.
  • 5:57 - 6:01
    Кстати, большинство компаний
    обошлись без судебных процессов,
  • 6:02 - 6:05
    но учёным в данных компаниях
  • 6:05 - 6:07
    велено следить за данными,
  • 6:07 - 6:09
    чтобы сосредоточиться на их точности.
  • 6:10 - 6:12
    Подумайте, что это значит.
  • 6:12 - 6:16
    Поскольку все мы не лишены предвзятости,
    данные могут кодифицировать сексизм
  • 6:16 - 6:18
    или другие формы дискриминации.
  • 6:19 - 6:21
    Вот мысленный эксперимент,
  • 6:21 - 6:22
    потому что мне они нравятся:
  • 6:24 - 6:27
    общество с полной сегрегацией —
  • 6:28 - 6:32
    расовое разделение во всех
    городах, всех районах.
  • 6:32 - 6:35
    Мы отправляем полицию только
    в окрестности меньшинств
  • 6:35 - 6:36
    расследовать преступления.
  • 6:36 - 6:39
    Данные об аресте будут очень предвзятыми.
  • 6:40 - 6:42
    А что, если, мы нашли бы специалистов
  • 6:42 - 6:47
    и заплатили им за прогноз
    места следующего преступления?
  • 6:47 - 6:49
    Окрестность меньшинств.
  • 6:49 - 6:52
    Или же за прогнозирование
    следующего преступника?
  • 6:53 - 6:54
    Кто-то из меньшинств.
  • 6:56 - 6:59
    Специалисты обработки данных хвалятся тем,
    насколько гениальны и точны
  • 7:00 - 7:01
    их модели,
  • 7:01 - 7:02
    и они правы.
  • 7:04 - 7:09
    Теперь реальность не настолько радикальна,
    но у нас есть серьёзное разделение
  • 7:09 - 7:10
    во многих городах,
  • 7:10 - 7:12
    и у нас есть много доказательств
  • 7:12 - 7:15
    предвзятости
    в политической и судебной системах.
  • 7:16 - 7:18
    И мы прогнозируем горячие точки —
  • 7:18 - 7:20
    места преступлений.
  • 7:20 - 7:24
    И мы на самом деле предсказываем
    преступления отдельных лиц,
  • 7:24 - 7:26
    преступные действия индивидов.
  • 7:27 - 7:31
    Новостной ресурс ProPublica
    недавно рассмотрел
  • 7:31 - 7:33
    один из алгоритмов — «риск рецидива»,
  • 7:33 - 7:34
    как его называют,
  • 7:34 - 7:37
    который используется во Флориде
    при вынесения приговора судьями.
  • 7:38 - 7:42
    Бернар, чернокожий человек слева,
    получил 10 из 10.
  • 7:43 - 7:45
    Дилан, справа, — 3 из 10.
  • 7:45 - 7:48
    10 из 10 — это высокий риск.
    3 из 10 — низкий риск.
  • 7:49 - 7:51
    Они оба были привлечены
    за хранение наркотиков.
  • 7:51 - 7:52
    Они оба имели аресты,
  • 7:52 - 7:55
    но у Дилана было уголовное преступление,
  • 7:55 - 7:56
    а у Бернарда нет.
  • 7:58 - 8:01
    Это имеет значение, потому
    что чем выше оценка,
  • 8:01 - 8:04
    тем больше вероятность того, что вам
    дадут более длительный срок.
  • 8:06 - 8:08
    Что происходит?
  • 8:09 - 8:10
    «Отмывание» данных.
  • 8:11 - 8:15
    Это процесс сокрытия правды
  • 8:15 - 8:17
    в «чёрном ящике» алгоритмов,
  • 8:17 - 8:19
    алгоритмов объективных
  • 8:19 - 8:21
    и заслуживающих одобрения.
  • 8:23 - 8:26
    Они секретны, важны и разрушительны.
  • 8:26 - 8:28
    Я придумала термин для них:
  • 8:28 - 8:30
    «оружие математического уничтожения».
  • 8:30 - 8:32
    (Смех)
  • 8:32 - 8:35
    (Аплодисменты)
  • 8:35 - 8:37
    Они повсюду, и это не ошибка.
  • 8:38 - 8:41
    Частные компании строят
  • 8:41 - 8:43
    частные алгоритмы для себя.
  • 8:43 - 8:46
    Даже алгоритмы для учителей и полиции
  • 8:46 - 8:48
    были построены частными компаниями
  • 8:48 - 8:51
    и проданы государственным учреждениям.
  • 8:51 - 8:52
    Они называют это своим «секретом» —
  • 8:52 - 8:55
    вот почему они не рассказывают ничего.
  • 8:55 - 8:57
    Это также частная власть.
  • 8:58 - 9:03
    Они пользуются преимуществом,
    обеспеченным секретностью.
  • 9:05 - 9:08
    Так как всё частное
  • 9:08 - 9:09
    и присутствует конкуренция,
  • 9:09 - 9:12
    свободный рынок — это выход.
  • 9:12 - 9:13
    Но это не так.
  • 9:13 - 9:16
    В этой несправедливости — куча денег.
  • 9:17 - 9:20
    И мы не рациональны
    с точки зрения экономики.
  • 9:21 - 9:22
    Мы все предвзяты.
  • 9:23 - 9:26
    Мы все расисты и фанатики, к сожалению,
  • 9:26 - 9:28
    часто подсознательно.
  • 9:29 - 9:32
    Мы это знаем, но, в совокупности,
  • 9:32 - 9:36
    социологи демонстрируют это
  • 9:36 - 9:37
    своими экспериментами.
  • 9:37 - 9:40
    Они рассылают заявки
    квалифицированных работников,
  • 9:40 - 9:42
    и по их именам можно понять,
  • 9:43 - 9:44
    белые они или чернокожие.
  • 9:44 - 9:47
    И результаты всегда разочаровывают.
  • 9:48 - 9:49
    Мы предвзяты
  • 9:49 - 9:53
    и внедряем предубеждения в алгоритмы,
  • 9:53 - 9:55
    отбирая данные.
  • 9:55 - 9:57
    Вот я решила не думать о лапше,
  • 9:57 - 9:59
    я решила, что это неприемлемо.
  • 9:59 - 10:05
    Но, доверяя собранным ранее данным
  • 10:05 - 10:07
    и выбирая своё определение успеха,
  • 10:07 - 10:11
    можно ли ожидать, что алгоритмы
    окажутся непредвзятыми?
  • 10:11 - 10:13
    Нет. Мы должны их проверять.
  • 10:14 - 10:16
    Мы должны проверять их на справедливость.
  • 10:16 - 10:19
    Хорошей новостью является то,
    что мы можем это сделать.
  • 10:19 - 10:22
    Алгоритмы можно допросить,
  • 10:22 - 10:24
    и они всегда скажут нам правду.
  • 10:24 - 10:27
    И мы можем их исправить.
    Мы можем их улучшить.
  • 10:27 - 10:29
    Это алгоритмический аудит,
  • 10:29 - 10:31
    и я вам сейчас объясню.
  • 10:31 - 10:33
    Во-первых — проверка целостности данных.
  • 10:34 - 10:38
    Для алгоритма определения риска
    рецидива, о котором я говорила ранее,
  • 10:38 - 10:41
    проверка целостности данных
    означает принятие факта о том,
  • 10:41 - 10:45
    что в США белые и чёрные курят
    марихуану одинаково,
  • 10:45 - 10:47
    но чернокожих чаще задерживают.
  • 10:47 - 10:50
    Вероятность ареста в 4–5 раз выше,
    в зависимости от района.
  • 10:51 - 10:54
    Как это выглядит в других сферах права,
  • 10:54 - 10:56
    и как это можно объяснить?
  • 10:56 - 10:59
    Во-вторых — успех,
  • 10:59 - 11:01
    проверьте его.
  • 11:01 - 11:03
    Помните? Алгоритм принятия на работу?
  • 11:03 - 11:07
    У кого стаж четыре года
    и одно продвижение?
  • 11:07 - 11:08
    Это — успешный сотрудник,
  • 11:08 - 11:11
    но это и тот, кого поддерживает
    культура компании.
  • 11:12 - 11:14
    И это может быть довольно предвзятым.
  • 11:14 - 11:16
    Нам нужно разделять эти две вещи.
  • 11:16 - 11:19
    Вот слепое cобеседование
  • 11:19 - 11:20
    для примера.
  • 11:20 - 11:23
    Прослушивают людей, не видя их.
  • 11:23 - 11:25
    Я думаю о том,
  • 11:25 - 11:28
    что прослушивающие люди решили, что важно
  • 11:28 - 11:30
    для них, а что нет.
  • 11:30 - 11:32
    И больше они не отвлекаются на эту тему.
  • 11:33 - 11:36
    Когда начались «слепые оркестровые
    прослушивания»,
  • 11:36 - 11:39
    число женщин в оркестрах
    выросло в пять раз.
  • 11:40 - 11:42
    Затем мы должны учитывать точность.
  • 11:43 - 11:47
    Тут модель добавленной стоимости
    для учителей провалилась бы сразу.
  • 11:48 - 11:50
    Конечно, нет идеальных алгоритмов,
  • 11:51 - 11:54
    поэтому мы должны учитывать
    ошибки всех алгоритмов.
  • 11:55 - 11:59
    Когда бывают ошибки,
    к кому эта модель не подходит?
  • 12:00 - 12:02
    Какова цена этой неудачи?
  • 12:02 - 12:05
    И, наконец, мы должны рассмотреть
  • 12:06 - 12:08
    долгосрочные эффекты алгоритмов,
  • 12:09 - 12:11
    петли обратной связи.
  • 12:12 - 12:13
    Это звучит абстрактно,
  • 12:13 - 12:16
    но представьте, если бы об этом
    подумали творцы Facebook,
  • 12:16 - 12:21
    прежде чем они решили показать нам
    публикации наших друзей.
  • 12:22 - 12:25
    У меня есть ещё два сообщения,
    одно для ИТ специалистов.
  • 12:25 - 12:29
    Ребята, мы не должны быть судьями правды,
  • 12:30 - 12:33
    мы должны передавать этику
  • 12:33 - 12:35
    широкой общественности.
  • 12:36 - 12:38
    (Аплодисменты)
  • 12:38 - 12:39
    А для остальных,
  • 12:40 - 12:41
    не специалистов ИТ:
  • 12:41 - 12:43
    это не математический тест.
  • 12:44 - 12:45
    Это политическая борьба.
  • 12:47 - 12:50
    Нужна отчётность собственников алгоритмов.
  • 12:52 - 12:54
    (Аплодисменты)
  • 12:54 - 12:58
    Эре слепой веры в «большие данные» конец!
  • 12:58 - 12:59
    Спасибо большое.
  • 12:59 - 13:04
    (Аплодисменты)
Title:
Эра слепой веры в «большие данные» должна закончиться
Speaker:
Кэти О'Нил
Description:

Алгоритмы решают, кто получает кредит, кто идёт на собеседование, кто получает страховку и многое другое, но они не делают ситуацию автоматически справедливой. Математик и специалист по обработке данных Кэти О'Нил придумала термин для секретных, важных и пагубных алгоритмов: «оружие математического уничтожения». Узнайте больше о мотивах, которые скрыты за формулами.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:18

Russian subtitles

Revisions