1 00:00:06,636 --> 00:00:09,077 統計には説得力があります 2 00:00:09,077 --> 00:00:12,541 それはそれは強力なので 人々や組織 そして国が 3 00:00:12,541 --> 00:00:17,747 最も重要な決定を下すときには データを参考にします 4 00:00:17,747 --> 00:00:19,484 でもここに ある問題があります 5 00:00:19,484 --> 00:00:23,301 どんな統計でも その中に潜んでいるものが 6 00:00:23,301 --> 00:00:27,251 結果を全く逆に してしまうことがあるのです 7 00:00:27,251 --> 00:00:30,920 例えば 年をとった親戚の手術のため 8 00:00:30,920 --> 00:00:33,737 2つの病院から1つを 選ばねばならないとしましょう 9 00:00:33,737 --> 00:00:36,434 各病院の直近1000人の患者のうち 10 00:00:36,434 --> 00:00:39,612 A病院では900人が生存していましたが 11 00:00:39,612 --> 00:00:43,021 B病院では800人だけでした 12 00:00:43,021 --> 00:00:46,170 するとA病院を選ぶのが 良いように見えます 13 00:00:46,170 --> 00:00:47,843 でも決断する前に 14 00:00:47,843 --> 00:00:51,411 思い出してください 来院する患者の健康度は 15 00:00:51,411 --> 00:00:53,811 全員が同一ではありません 16 00:00:53,811 --> 00:00:56,703 各病院の直近1000人の患者を 17 00:00:56,703 --> 00:01:01,132 健康状態が良い者と 悪い者とに分けてみると 18 00:01:01,132 --> 00:01:03,772 見えてくる状況は 大きく変わってきます 19 00:01:03,772 --> 00:01:07,849 A病院では 健康状態が悪い患者は たった100人しか来ておらず 20 00:01:07,849 --> 00:01:10,325 そのうち30人が生存していますが 21 00:01:10,325 --> 00:01:14,852 B病院には状態の悪い患者が400人来て 210人を救うことができました 22 00:01:14,852 --> 00:01:17,169 だから健康状態が悪い患者の場合は 23 00:01:17,169 --> 00:01:20,741 B病院を選ぶ方が良いんです 24 00:01:20,741 --> 00:01:24,526 生存率は52.5%です 25 00:01:24,526 --> 00:01:28,445 ではその親戚の健康状態が 受診時に良好だったとしたら? 26 00:01:28,445 --> 00:01:32,271 不思議なことに B病院の方が やはり良い選択なんです 27 00:01:32,271 --> 00:01:35,676 生存率は98%です 28 00:01:35,676 --> 00:01:38,733 ではどちらのグループの生存率も B病院が勝っているのに 29 00:01:38,733 --> 00:01:44,830 どうしてA病院の生存率の方が 総計では上になるのでしょう? 30 00:01:44,830 --> 00:01:48,589 私たちが陥っているのは 「シンプソンのパラドックス」です 31 00:01:48,589 --> 00:01:51,899 同一のデータでも グループの分け方によって 32 00:01:51,899 --> 00:01:54,664 逆の傾向を示すことがあるんです 33 00:01:54,664 --> 00:01:58,744 これがよく起きるのは 集められたデータが ある条件変数を隠し持っているときです 34 00:01:58,744 --> 00:02:01,377 それはときに 潜伏変数と言われるもので 35 00:02:01,377 --> 00:02:06,584 結果に重要な影響を与えるような 隠れた別の要因のことです 36 00:02:06,584 --> 00:02:10,023 ここでの隠れた要因とは 訪れる患者の健康状態に関する 37 00:02:10,023 --> 00:02:13,264 相対的な比率です 38 00:02:13,264 --> 00:02:16,544 シンプトンのパラドックスは 単なる仮説ではありません 39 00:02:16,544 --> 00:02:18,924 現実の世界にときどき 現れているんです 40 00:02:18,924 --> 00:02:22,132 重要な場面でも起こっています 41 00:02:22,132 --> 00:02:24,130 英国でのある研究では 42 00:02:24,130 --> 00:02:27,600 喫煙者が非喫煙者よりも 43 00:02:27,600 --> 00:02:29,846 20年間にわたり 高い生存率を示しました 44 00:02:29,846 --> 00:02:33,307 しかし対象者を 年齢で区分してみると 45 00:02:33,307 --> 00:02:37,823 非喫煙者の平均年齢が 明らかに高いことが分かりました 46 00:02:37,823 --> 00:02:40,930 したがって 研究期間中に 死亡する確率がより高いわけです 47 00:02:40,930 --> 00:02:44,438 そもそも長く生きていますからね 48 00:02:44,438 --> 00:02:47,286 ここでは年齢が潜伏変数であり 49 00:02:47,286 --> 00:02:50,176 それに基づくグループ分けは 正確なデータ解釈に不可欠です 50 00:02:50,176 --> 00:02:51,559 別の例は 51 00:02:51,559 --> 00:02:54,281 フロリダの死刑に関する分析です 52 00:02:54,281 --> 00:02:58,265 殺人で有罪となった被告が 黒人か白人かで 53 00:02:58,265 --> 00:03:01,581 死刑宣告について人種の偏りは 全く見られませんでした 54 00:03:01,581 --> 00:03:06,396 しかし被害者の人種でグループ分けすると 別の結果が見えてきました 55 00:03:06,396 --> 00:03:07,969 被害者がどちらの場合でも 56 00:03:07,969 --> 00:03:11,091 黒人の被告の方が 死刑宣告の確率が高かったのです 57 00:03:11,091 --> 00:03:15,066 白人被告の死刑宣告率が 総計するとわずかに高かったのは 58 00:03:15,066 --> 00:03:18,692 被害者が白人の場合 59 00:03:18,692 --> 00:03:21,359 被害者が黒人の場合よりも 60 00:03:21,359 --> 00:03:24,091 死刑判決が下されやすく 61 00:03:24,091 --> 00:03:28,483 大半の殺人は同じ人種間で 起きていたからです 62 00:03:28,483 --> 00:03:31,319 ではこのパラドックスに陥るのを どうすれば避けられるでしょう? 63 00:03:31,319 --> 00:03:34,686 あいにく万能の答えはありません 64 00:03:34,686 --> 00:03:38,504 データはどのようにも グループ化 または分割できるうえ 65 00:03:38,504 --> 00:03:42,106 誤解を招く あるいは恣意的な形で カテゴリ化されたデータより 66 00:03:42,106 --> 00:03:46,638 総計の方が正確である場合もあります 67 00:03:46,638 --> 00:03:52,089 私たちにできることは その統計が示す現実の状況を慎重に調べ 68 00:03:52,089 --> 00:03:55,977 潜伏変数が存在する可能性を 検討することです 69 00:03:55,977 --> 00:03:59,378 そうでないとデータで他人を操って 70 00:03:59,378 --> 00:04:02,649 自分の方針を通そうとする人たちに対し 私たちは無防備になってしまいます