シンプソンのパラドックス

シンプソンのパラドックス（英: Simpson's paradox）もしくはユール＝シンプソン効果（英: Yule–Simpson effect）は1951年にイギリスの統計学者エドワード・H・シンプソン（英語版）によって記述された統計学的なパラドックスである^[1]。母集団での相関と、母集団を分割した集団での相関は、異なっている場合があるという逆説。つまり集団を分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがある。

統計学者にとっては1世紀以上前からこの現象は常識であったが、哲学者、コンピュータを扱う科学者、疫学者、経済学者らは最近でもこのパラドックスに対する議論を行っている。

例

AとBが2回試験を受けた。1回目では、Aは100問中60問正解し、Bは10問中9問正解した。2回目では、Aは10問中1問正解し、Bは100問中30問正解した。AとBどちらが優秀か？

正解率と優劣の一覧表
	A	B	優劣の判断
1回目	0.60 (= 60/100)	0.90 (= 9/10)	A < B
2回目	0.10 (= 1/10)	0.30 (= 30/100)	A < B
合計	0.55 (= 61/110)	0.35 (= 39/110)	A > B

上記の表から次のことが言える。

1回目では、Bのほうが正解率が高い。
2回目でも、Bのほうが正解率が高い。
ところが、2回の試験を合わせた合計（総得点）でみると、Aのほうが正解率が高い。

多くの人の直感に反するが、実際にA > Bとなってしまう。この点で、この例は「シンプソンのパラドックス」の一例である。

1回目と2回目それぞれの試験では、両者が回答した問題数が異なる。総得点では、AとBそれぞれにとって多く出題された回での正解率が強く影響する。そのため、総得点の優劣は個々の試験での優劣と直接には連動しない。2回目では両者ともに正解率が著しく低いが、Bのほうが問題数が多いため、総得点で優劣を評価するとBが不利になる。

両者が同じ難易度分布の110問を解いた場合、総得点に基づいてAの方が優秀だと考えられる。この場合、Aが多く回答した1回目ではBのほうで簡単な問題が抽出され、Bが多く回答した2回目ではAのほうで難しい問題が抽出されたと推測できる。

一方で、1回目と2回目で難易度が異なり、かつ同じ回で両者が同じ難易度の試験を受けていた場合、公正に評価するには、AとBそれぞれで各試験の重みが異なってはならず、総得点での比較は不当である。

これを受験成績ではなく医師の治療成績に置き換えて考えると、以下のようになる。

医師Cと医師Dは、病院で治療を行っている。中等症患者と重症患者の2群に対する治療で、各々合計110名の治療成績をテストした。Dは両群でそれぞれCより高い治療成績であったが、全体の治療成績は低かった。これは、Cの患者のうち100人が中等症であり、Dの患者のうち100人が重症であったためである。よって、Cのほうが優秀であるという結論は論理的に誤っている。

上の話では、AとBの状況を先ほどの受験の話から何も改変していない。

なお、例えば従業員1人あたり110人の顧客対応に対するリピート率や顧客満足アンケートへの回答の集計など、現実的な統計処理においては、各従業員の顧客は同一の顧客ではないのが普通であるから、上記のような単純な評価は難しくなる。

シンプソン自身が提示した例

シンプソン自身が提示した例では、関連性の逆転はみられない^[1]。

トランプの52枚のカードについて、絵札か数札か（JとQとKは絵札、Aと2〜10は数札）と色（スペードとクラブは黒、ハートとダイヤは赤）との関連を考える。

赤ん坊がトランプで遊んた後、52枚のうち20枚ほどが汚れていた。汚れたカードだけみても汚れてないカードだけみても、数札の方が、赤いカードである可能性が高いと分かった。

カードの内訳
	汚れた		汚れてない
	絵札	数札	絵札	数札
赤 ♦︎♥︎	4枚	8枚	2枚	12枚
黒 ♣︎♠︎	3枚	5枚	3枚	15枚

赤の比率の比較
	絵札	数札	比較
汚れた	0.57 (= 4/7)	0.62 (= 8/13)	絵札 < 数札
汚れてない	0.40 (= 2/5)	0.44 (= 12/27)	絵札 < 数札
合計	0.50 (= 6/12)	0.50 (= 20/40)	絵札 = 数札

では「数札の方が、赤いカードである可能性が高い」と結論付けてよいだろうか。カード全体を見渡して考えることで「分別のある解答」（sensible answer）を得られる。すなわち、そのような関係はない。これは汚れた絵札と汚れてない数札の重みによる。

ある治療の有無と生存の関連を、男女別に検討する。出てくる数字はトランプの例と全く同じである。男女別で調べると、治療した方が生存率が高い。しかし、男女を合わせると治療の有無と生存との関連がなくなる。「分別のある解釈」（sensible interpretation）はどうなるだろうか。この治療が無効とされることはまずないだろう。

患者の内訳
	男性		女性
治療	なし	あり	なし	あり
生存	4人	8人	2人	12人
死亡	3人	5人	3人	15人

生存率の比較
	治療なし	治療あり	比較
男性	0.57 (= 4/7)	0.62 (= 8/13)	なし < あり
女性	0.40 (= 2/5)	0.44 (= 12/27)	なし < あり
合計	0.50 (= 6/12)	0.50 (= 20/40)	なし = あり

合計の比較において効果がないと判断してしまうも、治療を受けなかった男性と、治療を受けた女性の重みによる。

この例に対し、Miguel Hernán（英語版）は、Simpson 自身の記述の曖昧さを指摘しつつも、以下のような解釈を与えている^[2]。

トランプの例では、汚れの有無 (C) は絵札か否か (A) とカードの色 (B) の共通の結果、すなわち合流点である。

A\rightarrow C\leftarrow B

治療の例では、性別 (C) は治療の有無 (A) と生死 (B) の共通の原因、すなわち交絡因子である。

A\leftarrow C\rightarrow B

トランプの例では、合流点による選択バイアスを避けるためにカード全体を見渡すべきだし、治療の例では、交絡を避けるために性別で層別化して考えるべきだ。ただし、CがAと関係せずにBの原因となるとき、例えば無作為割付がなされた場合には、層別化する必要はない。因果関係の方向性に基づいて解析手法を検討するが、因果関係の方向についてはそのテーマに関する因果構造の知識が必要である。トランプのカードが汚れたから（C）といって絵札になったり（A）赤のカードになったり（B）することはないし、治療したから（A）とか生存したから（B）といって男性になる（C）ようなことはない。

そして、次のように結論づけている^[3]。

同じデータであっても異なる因果構造に起因するものであれば異なる解析が必要である。
実りのある因果推論を行うためには、統計学だけではなく、主題に関する因果関係の知識が必要だ。

脚注

出典

^ ^a ^b Simpson, Edward H. (1951). “The Interpretation of Interaction in Contingency Tables.” (English). Journal of the Royal Statistical Society. Series B (Methodological) 13 (2): 238-241. JSTOR 2984065 2020年10月17日閲覧。.
^ Hernán, Miguel A (31 March 2011). “The Simpson's paradox unraveled”. International Journal of Epidemiology 40 (3): 780-785. doi:10.1093/ije/dyr041. PMID 21454324. https://doi.org/10.1093/ije/dyr041 2020年10月17日閲覧。.
^ Hernán, Miguel [@_MiguelHernan] (2017年5月5日). "I thought I understood Simpson's paradox until I read Simpson's paper. Turn out to be more interesting than expected". X（旧Twitter）より2021年8月12日閲覧。

外部リンク

岡部恒治 (2013年3月). “シンプソンのパラドックス”. 情報・知識＆オピニオン imidas. 2021年8月23日閲覧。
Miquel Porta 編著、日本疫学会訳『疫学辞典』（第5版）日本公衆衛生協会、2010年、297–298頁。ISBN 978-4-8192-0222-0。https://jeaweb.jp。「シンプソンの逆説」

例

シンプソン自身が提示した例

脚注

出典

外部リンク

関連項目