알고리즘은 어디나 있죠.
그걸로 승자와 패자가 갈리고 나뉘어
승자는 직장을 구하거나
신용카드 조건도 좋아지지만
패자는 면접기회조차 없거나
보험료도 더 부담하죠.
이해도 못하는 은밀한 공식으로
점수 매겨지지만
보통은 거기에 이견을 제시할
기회조차 없습니다.
이러면 질문이 생깁니다:
알고리즘이 잘못됐다면
어떤 일이 발생할까요?
알고리즘 개발엔
두 가지가 필요합니다.
과거에 있었던 일에 대한 자료와
우리가 찾고 종종 원하는
성공이란 것에 대한 정의죠.
저희는 이걸 들여다보고 분석해서
알고리듬을 훈련시킵니다
알고리즘은 성공과 관련된 게
뭔지 알아내죠.
어떤 상황이면 성공하게 될까요?
실제 우리 모두는
알고리즘을 사용합니다.
그저 이걸 코드로 형식화하지
않았을 뿐인데
예를 들어 볼게요.
저는 매일 가족들의 식사를
준비할 때 알고리즘을 이용합니다.
제가 이용하는 자료는
주방에 있는 재료
제게 주어진 시간
하고 싶은 요리 등으로
제가 직접 관리하는 것들이죠.
개인적으로 저는 라면같은 즉석 식품은
요리로 치지 않습니다.
(웃음)
제가 정의하는 성공은 이겁니다.
아이들이 채소를 먹는다면
성공한 식사가 되는 건데
제 막내 아들이 차렸다면 생각했을
성공과는 아주 다르죠.
막내는 누텔라 초코잼만 듬뿍 먹어도
성공이라 했을 테니까요.
하지만 성공은
제가 선택하는 겁니다.
제가 차리는 거니까요.
제 의견이 중요한 거죠.
이것이 알고리즘의
첫 번째 규칙입니다.
알고리즘이란 코드에 담긴
의견입니다.
여러분과 대부분의 사람들이 생각하는
알고리즘과는 매우 다르죠.
사람들은 알고리즘이 객관적이며
사실이고 과학적이라고 생각하지만
이건 마케팅 상술일 뿐입니다.
이것은 또한 그 알고리즘으로
여러분을 위협하고 여러분이 알고리즘을
신뢰하고 두려워하게 만들려는
마케팅 상술인데
왜냐하면 여러분들이 수학을 믿고
두려워하니까요.
빅 데이터를 맹신하면
많은 것이 잘못될 수 있습니다.
이분은 브룩클린의 어느 고등학교
교장인 키리 소어스 씨인데
2011년에 저에게
교사들의 인사 고과 평가에
복잡하고 비밀스런 알고리즘인
"가치-부가 모델"을 쓴다고 했죠.
제가 그랬죠. "음, 공식이 뭔지
파악하고 보여주세요.
제가 설명해 드릴게요."
그랬더니
"음, 공식을 구하려고 했지만
교육부 담당자가 그러는데 그건 수학이라
제가 봐도 모를 겁니다"라고 했대요.
설상가상인 건
뉴욕포스트지에서 정보자유법에 따라
정보공개를 신청한 후
모든 선생님의 이름과 점수를 입수해서
일종의 선생님 망신 주기로
기사화 했어요.
제가 같은 방법으로 이 공식과
소스코드를 찾으려고 했더니
허가할 수 없다고 하더라고요.
거부 당한 겁니다.
그 후 알게된 건데
뉴욕의 어느 누구도 그 공식은
접근할 수 없었어요.
아는 사람도 없었죠.
그러다 게리 루빈스타인이라는 아주
똑똑한 사람이 여기 관여하게 됩니다.
그가 뉴욕 포스트 자료에서
665명의 선생님을 찾아내 봤더니
점수가 두 가지였어요.
한 분이 7학년 수학과 8학년 수학을
함께 가르치면 생기는 일입니다.
게리가 이걸로 그림을 그려봤어요.
점 하나 하나가 선생님 한 분입니다.
(웃음)
저건 뭡니까?
(웃음)
개인 인사 고과에 정말 이용하지
말았어야 할 프로그램이었던 겁니다.
거의 난수 생성기네요.
(박수)
하지만 실제로 활용됐습니다.
이분은 사라 와이사키 선생님입니다.
다른 205명의 선생님과 함께
워싱턴 DC 학군에서 해직되셨죠.
교장이나 학생들 학부모로부터
높은 평가를 받았음에도
어쩔 수 없었어요.
여러분들, 특히 여기 데이터 과학자,
인공지능 과학자분들이
무슨 생각들 하시는지 압니다.
이렇게 생각하시겠죠.
"음, 난 저런 일관성 없는
알고리즘은 절대 안 만들어."
하지만 알고리즘도 잘못될 수 있고
좋은 의도에도 심각히 파괴적인
결과로 이끌 수 있습니다.
설계가 잘못된 비행기는
땅으로 추락하고 그러면
모두가 알 수 있지만
설계가 잘못된 알고리즘은
오랜 시간에 걸쳐 조용히
우리를 파멸시킵니다.
이분은 로저 에일즈씨입니다.
(웃음)
1996년 폭스 뉴스를 세웠죠.
20명 이상의 여성들이
성희롱을 당했다고 했습니다.
그들에 따르면 여자들은 폭스 뉴스에서
성공할 수 없었다고 해요.
그는 작년에 쫓겨 났지만
우리는 최근에도
그 문제가 여전하다는 걸
접하고 있습니다.
여기서 의문이 떠오릅니다.
분위기를 쇄신하려면 폭스 뉴스는
뭘 해야 할까요?
음, 거기 고용 절차를
기계 학습 알고리즘으로
바꾸면 어떨까요?
괜찮은 생각이죠? 안 그래요?
생각해 보세요.
자료, 자료는 어떤 거면 될까요?
지난 21년간 팍스 뉴스 지원자의
자료면 합당하겠죠.
합리적입니다.
성공에 대한 정의는 어떨까요?
합리적인 선택이라면
음, 폭스 뉴스에서 성공한 사람
정도면 어때요?
제 생각에 예를 들어
4년 정도 근무하면서
적어도 한 번쯤 승진한 거면
될 듯한데.
그럴 듯합니다.
이제 알고리즘은 학습할 수 있습니다.
무엇이 성공의 원인인가를 학습해
이 정의에 따라
과거에 어떤 지원자가 성공했는지
찾아내도록 훈련한
알고리즘이 생기겠죠.
이제 그걸 지금의
지원자들에게 적용하면
어떤 일이 발생할지 생각해 봅시다.
여성은 배제될 겁니다.
과거에 성공한 경력이
있을 것 같지 않기 때문이죠.
아무 생각 없이 맹목적으로 이용한다고
알고리즘으로 세상이
공평해지진 않습니다.
그걸로 세상이 공정해지진 않아요.
단지 과거의 관행과 우리
행동의 유형을 따라할 뿐입니다.
현상태를 자동화하는 거죠.
우리의 현재가 완벽하다면
훌륭한 알고리즘이겠지만
현실은 완벽하지 않습니다.
그리고 여기에 대부분의 기업이
난처한 소송에 휘말리진 않아도
그런 기업의 데이터 과학자들은
그 데이터에 따라 일하도록
정확성에 집중하도록
요구받고 있습니다.
무슨 뜻일지 생각해 보세요.
우리는 모두 편견이 있기 때문에
성차별이나 다른 어떤 편견을
코드에 넣을 수 있습니다.
사고 실험 해봅시다.
제가 좋아하니까
완벽하게 분리된 사회
인종으로도 분리되고, 각 도시도
이웃도 분리되고
사회적 약자의 거주지역에만
경찰을 보내 범죄를 조사한다고 해보죠.
그 검거율 자료는
아주 편향되었을 겁니다.
거기에, 만약 데이터 과학자들과
고용된 데이터 분석가들에게
다음 번엔 어디서 범죄가 생길지
예측하게 한다면 어떻게 될까요?
사회적 약자의 거주 지역일 겁니다.
혹은 다음 번 범죄자가 누구일지
예측케 한다면 누가 될까요?
사회적 약자겠죠.
그 데이터 과학자는 자신의 모델이
얼마나 대단하고 정확한지
자랑할 것이고
그게 맞겠죠.
지금 현실은 저렇게 극단적이진 않아도
우리는 많은 도시와 마을에서
심각한 인종차별이 있고
차별적인 경찰 활동과
법 집행에 대한 증거는 차고 넘칩니다.
그리고 우범지역, 바로 범죄가
발생할 것 같은 장소를
실제로도 예측합니다.
또한 우리는 실제로 개인의
범죄 가능성을 예측하죠.
개인적 범죄성이라고 합니다.
뉴스 조직인 프로 퍼블리카는 최근
어느 "재범 위험성 평가"
알고리즘을 살펴 봤습니다.
전문가들은 그렇게 부르더군요.
플로리다주에서 판사가 형을
선고하는 동안 사용하고 있죠.
왼쪽의 흑인 버너드는
10점 만점에 10점을 받았습니다.
오른쪽 딜런은
10점 만점에 3점을 받았고요.
10점 만점에 10점, 고위험군.
10점 만점에 3점, 저위험군.
둘 다 불법약물 소지혐의로
재판 중이었습니다.
둘 다 전과가 있었지만
딜런은 중범죄 전과자였고
버너드는 그렇지 않았죠.
이게 중요한데 왜냐하면
점수가 높으면 높을수록
더 긴 형기를 선고받을 수
있기 때문입니다.
도대체 무슨 일이 벌어지고 있죠?
데이터 세탁이죠.
바로 기술자들이 추악한 진실을
블랙 박스 알고리즘 속에 숨겨버리고
그것을 객관적이라 능력주의적이라
부르는 과정입니다.
그 알고리즘이 비밀이고,
중요하면서 파괴적이기 때문에
저는 이런 알고리즘에
새 이름을 지었습니다.
"대량 수학 살상 무기."
(웃음)
(박수)
어느 곳에나 퍼져 있고
그게 실수가 아닙니다.
이들이 자신들의 목적을 위해
자신들만의 알고리즘을 만든 사기업입니다.
심지어 제가 언급한 교직원이나
경찰관 고과평가 프로그램도
개인 기업이 만들고
정부가 돈을 들여 산 겁니다.
그들은 이 알고리즘을
"비법"이라고 하고
그래서 공개 못한다는 건데
그게 사기업의 힘이죠.
그들은 "불가해"라는 권력을 휘둘러
이익을 챙기고 있죠.
여러분들 중에는 이 모든 게
사적인 문제이고
경쟁이 있으니까
자유 시장이 다 해결할 거라고
생각하실 수도 있습니다.
절대로 그렇지 않습니다.
불공정한 세상에서는
많은 돈을 벌 수 있습니다.
또한 우리는 경제적으로
이성적 참여자가 아닙니다.
우리에겐 편견이 있죠.
우리는 원하지 않고
심지어 알지도 못하는 방식으로
모두 인종차별주의자이고
편견에 사로잡혀 있습니다.
전체적으로 우리는 전부
이걸 알고 있습니다.
왜냐하면 많은 사회학자들이
자신들만의 실험으로
끊임없이 이걸 증명했기 때문이죠.
자격은 똑같았지만 백인일 것
같은 이름을 적은 지원서와
흑인일 것 같은 이름을 적은
지원서를 여러 장 기업에 제출했는데
언제나 실망적이었습니다.
결과는, 늘 그랬어요.
그래서 우리는 편견을 가진
동물이라는 겁니다.
그리고 우리는 이런 편견을
알고리즘에 투영합니다.
예를 들면 라면을
배제하기로 한다던지 하는 식으로
수집할 자료를 선별하고
저는 이것이 전혀 관계가
없다고 생각했죠.
하지만 실제로 생긴 과거의 사례에서
수집된 자료를 신뢰하거나
성공의 정의를 선택할 때
어떻게 알고리즘이
아무탈 없기를 기대하겠습니까?
불가능합니다.
그들의 유효성을 검증해야 합니다.
공정성을 위해 반드시
검증이 필요합니다.
좋은 소식은 우리가 공정성을
검증할 수 있다는 것입니다.
알고리즘은 조사할 수 있고
그러면 알고리즘은 매번 우리에게
진실을 말해 줄 겁니다.
그러면 우리는 수정할 수 있죠.
알고리즘을 개선할 수 있습니다.
저는 이걸 알고리즘 감사라고 합니다.
어떻게 하는지 알려드리죠.
첫 번째는 자료 진실성 검사입니다.
제가 말씀드린
재범 위험도 알고리즘에서
자료 진실성 확인은 미국에서
흑인과 백인 모두 같은 비율로
대마초를 피우고 있지만
체포율은 흑인이 훨씬 높음을
인정해야 한다는 겁니다.
지역마다 다르지만 세 배에서
네 배까지 높죠.
다른 범죄에서는 이런 편견이
과연 어떨까요?
또 이걸 어떻게 반영해야 할까요?
두 번째, 우리는 성공에 대한
정의를 다시 생각하고 따져봐야 합니다.
고용문제 알고리즘 기억하세요?
아까 얘기했는데요.
4년 근무하면 1번 승진을 한 사람을
찾는 알고리즘 말입니다.
이건 성공한 직장인이긴 합니다만
또한 그 문화에 잘 동화된
직원이기도 합니다.
이렇게 말하면 이 알고리즘 또한
너무 한쪽으로 치우져 있죠.
우리는 이 둘을 분리할
필요가 있습니다.
예로 블라인드 오케스트라 오디션을
참고할 필요가 있습니다.
심사자들이 커튼 뒤에 있는 거죠.
제가 여기서 찾는 것은
무엇이 중요한지를 결정을 하고
또 덜 중요한가를 결정하는 게
듣는 사람이라는 거죠
그 어떤 것에도 간섭받지 않는 거죠.
블라인드 오케스트라 오디션이 시작되면서
오케스트라의 여성 단원 수가
5배 정도 증가했습니다.
다음으로 정확성도 생각해봐야 합니다.
바로 여기서 선생님들에게 적용한
가치 증강 모델이 금방 탈락합니다.
물론 어느 알고리즘도
완벽하지 않습니다.
그래서 모든 알고리즘의 오류를
고려해야 합니다.
얼마나 자주 오류가 발생하고
이 모델이 안 맞는 사람은 누군가요?
그 오류의 댓가는 얼마나 되나요?
그리고 마지막으로
반드시 고려해야 하는 것은
알고리즘의 장기적 영향과
여기서 생겨나는 피드백 고리죠.
구체적으로 와닿진 않겠지만
페이스북 엔지니어가 친구들이
올린 글만 보여주도록 결정하기 전에
이 점을 먼저 생각해 봤다면
과연 어땠을까요?
제가 드릴 메세지가 둘 있는데
하나는 데이터 과학자분들 겁니다.
데이터 과학자 여러분, 우리는
진실의 결정권자가 아닙니다.
우리는 더 큰 사회에서 벌어지는
윤리적 토론을 번역하는 사람에 불과합니다.
(박수)
나머지 비데이터 과학자
여러분
이 문제는 수학 시험이 아닙니다.
이것은 정치적 투쟁입니다.
알고리즘을 지배하는 이들에게
책임을 요구할 필요가 있습니다.
(박수)
빅 데이터에 대한 맹신의 시기는
반드시 끝나야 합니다.
대단히 감사합니다
(박수)