0:00:06.636,0:00:09.077 統計には説得力があります 0:00:09.077,0:00:12.541 それはそれは強力なので[br]人々や組織 そして国が 0:00:12.541,0:00:17.747 最も重要な決定を下すときには[br]データを参考にします 0:00:17.747,0:00:19.484 でもここに ある問題があります 0:00:19.484,0:00:23.301 どんな統計でも [br]その中に潜んでいるものが 0:00:23.301,0:00:27.251 結果を全く逆に[br]してしまうことがあるのです 0:00:27.251,0:00:30.920 例えば 年をとった親戚の手術のため 0:00:30.920,0:00:33.737 2つの病院から1つを[br]選ばねばならないとしましょう 0:00:33.737,0:00:36.434 各病院の直近1000人の患者のうち 0:00:36.434,0:00:39.612 A病院では900人が生存していましたが 0:00:39.612,0:00:43.021 B病院では800人だけでした 0:00:43.021,0:00:46.170 するとA病院を選ぶのが[br]良いように見えます 0:00:46.170,0:00:47.843 でも決断する前に 0:00:47.843,0:00:51.411 思い出してください[br]来院する患者の健康度は 0:00:51.411,0:00:53.811 全員が同一ではありません 0:00:53.811,0:00:56.703 各病院の直近1000人の患者を 0:00:56.703,0:01:01.132 健康状態が良い者と[br]悪い者とに分けてみると 0:01:01.132,0:01:03.772 見えてくる状況は[br]大きく変わってきます 0:01:03.772,0:01:07.849 A病院では 健康状態が悪い患者は[br]たった100人しか来ておらず 0:01:07.849,0:01:10.325 そのうち30人が生存していますが 0:01:10.325,0:01:14.852 B病院には状態の悪い患者が400人来て[br]210人を救うことができました 0:01:14.852,0:01:17.169 だから健康状態が悪い患者の場合は 0:01:17.169,0:01:20.741 B病院を選ぶ方が良いんです 0:01:20.741,0:01:24.526 生存率は52.5%です 0:01:24.526,0:01:28.445 ではその親戚の健康状態が[br]受診時に良好だったとしたら? 0:01:28.445,0:01:32.271 不思議なことに B病院の方が[br]やはり良い選択なんです 0:01:32.271,0:01:35.676 生存率は98%です 0:01:35.676,0:01:38.733 ではどちらのグループの生存率も[br]B病院が勝っているのに 0:01:38.733,0:01:44.830 どうしてA病院の生存率の方が[br]総計では上になるのでしょう? 0:01:44.830,0:01:48.589 私たちが陥っているのは[br]「シンプソンのパラドックス」です 0:01:48.589,0:01:51.899 同一のデータでも[br]グループの分け方によって 0:01:51.899,0:01:54.664 逆の傾向を示すことがあるんです 0:01:54.664,0:01:58.744 これがよく起きるのは 集められたデータが[br]ある条件変数を隠し持っているときです 0:01:58.744,0:02:01.377 それはときに[br]潜伏変数と言われるもので 0:02:01.377,0:02:06.584 結果に重要な影響を与えるような[br]隠れた別の要因のことです 0:02:06.584,0:02:10.023 ここでの隠れた要因とは[br]訪れる患者の健康状態に関する 0:02:10.023,0:02:13.264 相対的な比率です 0:02:13.264,0:02:16.544 シンプトンのパラドックスは[br]単なる仮説ではありません 0:02:16.544,0:02:18.924 現実の世界にときどき[br]現れているんです 0:02:18.924,0:02:22.132 重要な場面でも起こっています 0:02:22.132,0:02:24.130 英国でのある研究では 0:02:24.130,0:02:27.600 喫煙者が非喫煙者よりも 0:02:27.600,0:02:29.846 20年間にわたり[br]高い生存率を示しました 0:02:29.846,0:02:33.307 しかし対象者を[br]年齢で区分してみると 0:02:33.307,0:02:37.823 非喫煙者の平均年齢が[br]明らかに高いことが分かりました 0:02:37.823,0:02:40.930 したがって 研究期間中に[br]死亡する確率がより高いわけです 0:02:40.930,0:02:44.438 そもそも長く生きていますからね 0:02:44.438,0:02:47.286 ここでは年齢が潜伏変数であり 0:02:47.286,0:02:50.176 それに基づくグループ分けは[br]正確なデータ解釈に不可欠です 0:02:50.176,0:02:51.559 別の例は 0:02:51.559,0:02:54.281 フロリダの死刑に関する分析です 0:02:54.281,0:02:58.265 殺人で有罪となった被告が[br]黒人か白人かで 0:02:58.265,0:03:01.581 死刑宣告について人種の偏りは[br]全く見られませんでした 0:03:01.581,0:03:06.396 しかし被害者の人種でグループ分けすると[br]別の結果が見えてきました 0:03:06.396,0:03:07.969 被害者がどちらの場合でも 0:03:07.969,0:03:11.091 黒人の被告の方が [br]死刑宣告の確率が高かったのです 0:03:11.091,0:03:15.066 白人被告の死刑宣告率が[br]総計するとわずかに高かったのは 0:03:15.066,0:03:18.692 被害者が白人の場合 0:03:18.692,0:03:21.359 被害者が黒人の場合よりも 0:03:21.359,0:03:24.091 死刑判決が下されやすく 0:03:24.091,0:03:28.483 大半の殺人は同じ人種間で[br]起きていたからです 0:03:28.483,0:03:31.319 ではこのパラドックスに陥るのを[br]どうすれば避けられるでしょう? 0:03:31.319,0:03:34.686 あいにく万能の答えはありません 0:03:34.686,0:03:38.504 データはどのようにも[br]グループ化 または分割できるうえ 0:03:38.504,0:03:42.106 誤解を招く あるいは恣意的な形で[br]カテゴリ化されたデータより 0:03:42.106,0:03:46.638 総計の方が正確である場合もあります 0:03:46.638,0:03:52.089 私たちにできることは[br]その統計が示す現実の状況を慎重に調べ 0:03:52.089,0:03:55.977 潜伏変数が存在する可能性を[br]検討することです 0:03:55.977,0:03:59.378 そうでないとデータで他人を操って 0:03:59.378,0:04:02.649 自分の方針を通そうとする人たちに対し[br]私たちは無防備になってしまいます