面白い擬似相関の例 | ニコラス・ケイジ出演で溺死者増?

データ分析がビジネスや研究に欠かせない今、「データに基づいた判断」が重要視されています。しかし、データを見て「Aが増えるとBも増える」という関係(相関関係)を見つけたとき、すぐに「Aが原因でBが起きたんだ!」と結論づけてしまうのは非常に危険です。
もしかすると、それは「擬似相関(ぎじそうかん)」かもしれません。
この記事では、データ分析の有名な落とし穴である「擬似相関」について、かの有名な「ニコラス・ケイジの例」をはじめとした面白い事例を交えながら、その仕組みと見抜き方を分かりやすく解説します。
この記事の内容(目次)
有名な擬似相関:「ニコラス・ケイジ」の呪いとは?
「擬似相関」と聞いて、多くの人が真っ先に思い浮かべる(あるいは検索する)のが、ハリウッド俳優ニコラス・ケイジにまつわる奇妙なデータです。
それは、「ニコラス・ケイジの年間映画出演本数」と「アメリカ国内のプールでの年間溺死者数」のデータです。
この2つのデータをグラフにすると、驚くほど似たような動き(強い正の相関)を示します。「ニコラス・ケイジがたくさん映画に出た年は、プールでの溺死者も多い」ように見えてしまうのです。
では、ニコラス・ケイジが映画に出演することが、何らかの超常的な力で人々をプールで溺れさせているのでしょうか?もちろん、そんなはずはありません。
他の例ではGoogleでの「Nicolas Cage」の検索回数と金価格にも擬似相関があるようです。

出典: TylerVigen.com
これは、擬似相関の典型的な例です。2つの事象の間には「因果関係(原因と結果の関係)」は一切なく、まったくの偶然、あるいは裏に隠れた別の要因によって、たまたま似たような動きをしているに過ぎません。
まだまだある!思わず笑ってしまう「面白い擬似相関」の例
ニコラス・ケイジの例は極端ですが、世の中には一見「おっ?」と思ってしまうような、面白い擬似相関の例がたくさんあります。
アイスクリームの売上と水難事故の件数
「アイスクリームが売れる日(A)ほど、水難事故(B)が多い」という相関関係があります。では、アイスクリームの食べ過ぎが水難事故を引き起こすのでしょうか?違いますね。
[画像:アイスクリームの売上と水難事故件数の相関を示すグラフ]海賊の数と地球の平均気温
「海賊の数が減る(A)ほど、地球の平均気温(B)が上昇している」という負の相関関係が(データ上)見られます。では、海賊を増やせば地球温暖化は止まるのでしょうか?そんなわけはありません。一世帯あたりのトースター保有台数と出生率
ある地域で「トースターの保有台数(A)が多い家庭ほど、子どもの数(B)も多い」というデータがあったとします。これは、トースターが子宝に恵まれるアイテムだからでしょうか?違いますね。
これらの例は笑い話のように聞こえますが、もし私たちが「相関関係=因果関係」と勘違いしてしまうと、「水難事故を減らすためにアイスの販売を禁止しよう」とか「温暖化対策に海賊を支援しよう」といった、とんでもない意思決定につながりかねません。
「擬似相関」とは?なぜ起こるのか
擬似相関(Spurious Correlation)とは、2つの事象の間に「相関関係」はあるように見えるものの、「因果関係」は存在しない状態を指します。
では、なぜこのような「見せかけの相関」が起こるのでしょうか?主な原因は「第三の変数(交絡因子)」の存在です。
先ほどの「アイスクリーム(A)と水難事故(B)」の例で考えてみましょう。
この2つに共通する原因、すなわち「第三の変数(C)」が存在します。それは「気温の高さ」です。
.png&w=3840&q=75)
気温が高い(C)から、アイスクリームが売れ(A)ます。
気温が高い(C)から、プールや海で泳ぐ人が増え、結果として水難事故も増え(B)ます。
A(アイス)とB(水難事故)の間には直接的な因果関係はありませんが、共通の原因であるC(気温)によって、あたかもAとBが連動しているかのように見えてしまうのです。
「トースター(A)と子どもの数(B)」の例では、「世帯人数(あるいは家の広さ)」が第三の変数(C)と考えられます。大家族(C)であれば、トースターも複数台必要になる(A)可能性があり、当然ながら子どもの数(B)も多い、というわけです。
.png&w=3840&q=75)
ニコラス・ケイジの例のように、第三の変数すら存在せず、まったくの偶然によって相関があるように見えてしまうケースもあります。
※擬似相関の統計的な背景について、より詳しくは「擬似相関(Spurious Correlation)とは?意味や具体例、見分け方を解説」の記事もご覧ください。
「相関関係」と「因果関係」はまったくの別物
ここで、データ分析において最も重要な概念である「相関関係」と「因果関係」の違いをはっきりさせておきましょう。
相関関係 (Correlation)
2つの事象が「連動している」状態。
一方が増えれば他方も増える(正の相関)、または一方が増えれば他方は減る(負の相関)。
あくまで「動きが似ている」だけで、原因と結果の関係は問いません。
「相関関係とは?相関係数の見方や散布図との関係をわかりやすく解説」でも詳しく説明しています。
因果関係 (Causation)
2つの事象が「原因と結果の関係」にある状態。
一方が「原因」となって、他方の「結果」を引き起こしている。
例:「勉強時間(原因)が増えれば、テストの点数(結果)が上がる」
データ分析で見つけやすいのは「相関関係」です。しかし、私たちが本当に知りたいのは「因果関係」であることが多いはずです。「売上を上げる(結果)ための施策(原因)は何か?」といった具合です。
「相関関係があるからといって、因果関係があるとは限らない」
これは、データを扱う上で絶対に忘れてはならない鉄則です。
.png&w=3840&q=75)
擬似相関にだまされないためには?
私たちは、相関関係を見つけると、無意識のうちにそこにストーリー(因果関係)を見出そうとしてしまう癖があります。では、どうすれば擬似相関にだまされずに、データを正しく読み解くことができるのでしょうか。
1. 散布図でデータを可視化する
まずは、2つの変数の関係を「散布図」で可視化してみましょう。散布図は、2つの量の関係性を見るのに最適なグラフです。
xGrapherのようなグラフ作成ツールを使えば、データ(Excelやスプレッドシートなど)をコピー&ペーストするだけで、誰でも簡単に散布図を作成できます。

散布図にすることで、データが本当に直線的な関係(相関)があるのか、それとも一部の外れ値によってそう見えているだけなのかを視覚的に確認できます。
※散布図の詳しい見方や作り方は「散布図とは?見方や書き方、相関関係がわかるグラフ作成方法」や「Excel(エクセル)での散布図の作り方|グラフ作成方法と回帰直線の追加」でも解説しています。
2. 「第三の変数」を疑う
相関関係を見つけたら、すぐに因果関係と決めつけず、「他に共通の原因(第三の変数)はないか?」と立ち止まって考える癖をつけましょう。
「広告費(A)と売上(B)に相関がある」
→ 本当に広告(A)が売上(B)を伸ばしたのか?
→ もしかして、季節的な要因(C)(例:ボーナス時期)が、広告予算(A)と売上(B)の両方を押し上げているだけではないか?
3. 因果関係を「証明」するのは難しいと知る
相関関係は「相関係数」という指標で簡単に計算できますが、因果関係を統計的に証明するのは非常に困難です。「A/Bテスト」や「ランダム化比較試験(RCT)」といった専門的な分析手法が必要になります。
私たちは、まず「これは擬似相関かもしれない」と疑うことから始めるのが重要です。
まとめ
データは多くのことを教えてくれますが、同時に私たちを勘違いさせることもあります。
擬似相関とは、因果関係がないのに、相関関係があるように見える「見せかけの相関」です。
「ニコラス・ケイジの映画出演数と溺死者数」のように、まったくの偶然で起こることもあれば、「アイスの売上と水難事故」のように「第三の変数(気温)」によって引き起こされることもあります。
データ分析の鉄則は「相関関係は、因果関係を意味しない」ことです。
擬似相関にだまされないためには、データを散布図で可視化したり、「第三の変数」の存在を疑ったりすることが重要です。
xGrapherのようなツールでデータを視覚化する習慣をつけ、面白い相関関係を見つけつつも、その裏にある本当の意味を見抜けるようになりましょう。
擬似相関に関するQ&A
Q1: 「擬似相関」と「相関関係なし(無相関)」はどう違うのですか?
A1: 擬似相関は、データ上は「相関がある(ように見える)」状態です。グラフにすると右上がりや右下がりになります。しかし、その関係が見せかけ(=因果関係がない)という点がポイントです。一方、無相関は、データ上も「相関がない」状態を指し、散布図にすると点がバラバラに散らばります。
.jpg&w=3840&q=75)
Q2: ニコラス・ケイジの例は、本当にただの偶然ですか?
A2: はい、統計学的には「ただの偶然」の一致とされています。世の中には無数のデータがあるため、2つの無関係なデータがたまたま似た動きをすることは、確率的に起こり得ます。この例は、そうした「偶然の一致」がいかに強い相関に見えるかを示す有名な事例です。
Q3: 擬似相関は、ビジネスの現場でも起こりますか?
A3: はい、頻繁に起こります。例えば「特定のWeb広告(A)を出稿した月と、売上(B)に相関があった」場合、本当に広告(A)のおかげでしょうか?もしかすると「給料日後(C)」という第三の変数が、広告のクリック率(A)と売上(B)の両方に影響していただけかもしれません。これを間違うと、効果のない広告に予算を使い続けることになります。
Q4: 相関関係が強い場合、擬似相関である可能性は低いですか?
A4: いいえ、相関の強さ(相関係数が1や-1に近いこと)と、それが擬似相関であるかどうかは別問題です。ニコラス・ケイジの例のように、偶然でも非常に強い相関が観測されることはあります。相関が強いほど因果関係を期待してしまいますが、そこが落とし穴です。
Q5: 擬似相関かどうかを見分ける、簡単な方法はありますか?
A5: 決定的な簡単な方法はありませんが、第一歩は「常識(専門知識)で考える」ことです。「ニコラス・ケイジの映画出演」と「溺死」の間に、論理的なつながり(メカニズム)を説明できるでしょうか?説明できない場合、それは擬似相関である可能性が非常に高いです。その上で、隠れた「第三の変数」を探すことが重要です。
&w=3840&q=75)
&w=3840&q=75)
&w=3840&q=75)
&w=3840&q=75)
&w=3840&q=75)
&w=3840&q=75)
&w=3840&q=75)
&w=3840&q=75)
&w=3840&q=75)
&w=3840&q=75)
&w=3840&q=75)