統計には説得力があります
それはそれは強力なので
人々や組織 そして国が
最も重要な決定を下すときには
データを参考にします
でもここに ある問題があります
どんな統計でも
その中に潜んでいるものが
結果を全く逆に
してしまうことがあるのです
例えば 年をとった親戚の手術のため
2つの病院から1つを
選ばねばならないとしましょう
各病院の直近1000人の患者のうち
A病院では900人が生存していましたが
B病院では800人だけでした
するとA病院を選ぶのが
良いように見えます
でも決断する前に
思い出してください
来院する患者の健康度は
全員が同一ではありません
各病院の直近1000人の患者を
健康状態が良い者と
悪い者とに分けてみると
見えてくる状況は
大きく変わってきます
A病院では 健康状態が悪い患者は
たった100人しか来ておらず
そのうち30人が生存していますが
B病院には状態の悪い患者が400人来て
210人を救うことができました
だから健康状態が悪い患者の場合は
B病院を選ぶ方が良いんです
生存率は52.5%です
ではその親戚の健康状態が
受診時に良好だったとしたら?
不思議なことに B病院の方が
やはり良い選択なんです
生存率は98%です
ではどちらのグループの生存率も
B病院が勝っているのに
どうしてA病院の生存率の方が
総計では上になるのでしょう?
私たちが陥っているのは
「シンプソンのパラドックス」です
同一のデータでも
グループの分け方によって
逆の傾向を示すことがあるんです
これがよく起きるのは 集められたデータが
ある条件変数を隠し持っているときです
それはときに
潜伏変数と言われるもので
結果に重要な影響を与えるような
隠れた別の要因のことです
ここでの隠れた要因とは
訪れる患者の健康状態に関する
相対的な比率です
シンプトンのパラドックスは
単なる仮説ではありません
現実の世界にときどき
現れているんです
重要な場面でも起こっています
英国でのある研究では
喫煙者が非喫煙者よりも
20年間にわたり
高い生存率を示しました
しかし対象者を
年齢で区分してみると
非喫煙者の平均年齢が
明らかに高いことが分かりました
したがって 研究期間中に
死亡する確率がより高いわけです
そもそも長く生きていますからね
ここでは年齢が潜伏変数であり
それに基づくグループ分けは
正確なデータ解釈に不可欠です
別の例は
フロリダの死刑に関する分析です
殺人で有罪となった被告が
黒人か白人かで
死刑宣告について人種の偏りは
全く見られませんでした
しかし被害者の人種でグループ分けすると
別の結果が見えてきました
被害者がどちらの場合でも
黒人の被告の方が
死刑宣告の確率が高かったのです
白人被告の死刑宣告率が
総計するとわずかに高かったのは
被害者が白人の場合
被害者が黒人の場合よりも
死刑判決が下されやすく
大半の殺人は同じ人種間で
起きていたからです
ではこのパラドックスに陥るのを
どうすれば避けられるでしょう?
あいにく万能の答えはありません
データはどのようにも
グループ化 または分割できるうえ
誤解を招く あるいは恣意的な形で
カテゴリ化されたデータより
総計の方が正確である場合もあります
私たちにできることは
その統計が示す現実の状況を慎重に調べ
潜伏変数が存在する可能性を
検討することです
そうでないとデータで他人を操って
自分の方針を通そうとする人たちに対し
私たちは無防備になってしまいます