統計には説得力があります それはそれは強力なので 人々や組織 そして国が 最も重要な決定を下すときには データを参考にします でもここに ある問題があります どんな統計でも その中に潜んでいるものが 結果を全く逆に してしまうことがあるのです 例えば 年をとった親戚の手術のため 2つの病院から1つを 選ばねばならないとしましょう 各病院の直近1000人の患者のうち A病院では900人が生存していましたが B病院では800人だけでした するとA病院を選ぶのが 良いように見えます でも決断する前に 思い出してください 来院する患者の健康度は 全員が同一ではありません 各病院の直近1000人の患者を 健康状態が良い者と 悪い者とに分けてみると 見えてくる状況は 大きく変わってきます A病院では 健康状態が悪い患者は たった100人しか来ておらず そのうち30人が生存していますが B病院には状態の悪い患者が400人来て 210人を救うことができました だから健康状態が悪い患者の場合は B病院を選ぶ方が良いんです 生存率は52.5%です ではその親戚の健康状態が 受診時に良好だったとしたら? 不思議なことに B病院の方が やはり良い選択なんです 生存率は98%です ではどちらのグループの生存率も B病院が勝っているのに どうしてA病院の生存率の方が 総計では上になるのでしょう? 私たちが陥っているのは 「シンプソンのパラドックス」です 同一のデータでも グループの分け方によって 逆の傾向を示すことがあるんです これがよく起きるのは 集められたデータが ある条件変数を隠し持っているときです それはときに 潜伏変数と言われるもので 結果に重要な影響を与えるような 隠れた別の要因のことです ここでの隠れた要因とは 訪れる患者の健康状態に関する 相対的な比率です シンプトンのパラドックスは 単なる仮説ではありません 現実の世界にときどき 現れているんです 重要な場面でも起こっています 英国でのある研究では 喫煙者が非喫煙者よりも 20年間にわたり 高い生存率を示しました しかし対象者を 年齢で区分してみると 非喫煙者の平均年齢が 明らかに高いことが分かりました したがって 研究期間中に 死亡する確率がより高いわけです そもそも長く生きていますからね ここでは年齢が潜伏変数であり それに基づくグループ分けは 正確なデータ解釈に不可欠です 別の例は フロリダの死刑に関する分析です 殺人で有罪となった被告が 黒人か白人かで 死刑宣告について人種の偏りは 全く見られませんでした しかし被害者の人種でグループ分けすると 別の結果が見えてきました 被害者がどちらの場合でも 黒人の被告の方が 死刑宣告の確率が高かったのです 白人被告の死刑宣告率が 総計するとわずかに高かったのは 被害者が白人の場合 被害者が黒人の場合よりも 死刑判決が下されやすく 大半の殺人は同じ人種間で 起きていたからです ではこのパラドックスに陥るのを どうすれば避けられるでしょう? あいにく万能の答えはありません データはどのようにも グループ化 または分割できるうえ 誤解を招く あるいは恣意的な形で カテゴリ化されたデータより 総計の方が正確である場合もあります 私たちにできることは その統計が示す現実の状況を慎重に調べ 潜伏変数が存在する可能性を 検討することです そうでないとデータで他人を操って 自分の方針を通そうとする人たちに対し 私たちは無防備になってしまいます