ピアソンの積率相関係数とは?公式や目安、データの可視化までわかりやすく解説

Cover Photo

「2つのデータの間に関係があるのかを知りたい」と思ったとき、最も一般的に使われる指標がピアソンの積率相関係数(Pearson correlation coefficientです。単に「相関係数」と言った場合、通常はこのピアソンの積率相関係数を指します。

身長と体重、気温とアイスクリームの売上など、2つの変数が「直線的な関係」にあるかどうかを数値で表したものです。統計学の教科書で見ると難しそうに見えますが、基本を押さえればデータの分析に非常に役立つツールとなります。

この記事では、ピアソンの積率相関係数の意味や計算の仕組み、そしてなぜ計算するだけでなくグラフ(散布図)で見る必要があるのかについて、詳しく解説していきます。


相関係数rの見方と基準

ピアソンの積率相関係数は、通常 rr という記号で表され、1-1 から+1+1までの値をとります。この数値を見ることで、2つのデータがどのような関係にあるかがわかります。

  • r=1r = 1 に近い(正の相関): 片方の値が増えると、もう片方の値も増える関係。

  • r=1r = -1 に近い(負の相関): 片方の値が増えると、もう片方の値は減る関係。

  • r=0r = 0 に近い(無相関): 2つのデータの間に直線的な関係が見られない。

正の相関から負の相関の散布図の例

どれくらいの数値なら「相関がある」と言える?

0.70.7 なら強い?」「0.40.4 だと弱いの?」という疑問を持つ方は多いでしょう。分野によって基準は異なりますが、一般的な目安については以下の記事で詳しく解説しています。自分のデータがどの程度当てはまるか確認してみてください。

あわせて読みたい: 相関係数の目安は?0.7なら強い?弱い?判断基準と根拠


ピアソンの積率相関係数の公式と計算の仕組み

少し専門的な話になりますが、ピアソンの積率相関係数 rr は以下の数式で求められます。

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}

ここで、xˉ\bar{x}yˉ\bar{y} はそれぞれの変数の平均値です。
この式は、「共分散(2つの変数の偏差の積の平均)」を「それぞれの標準偏差の積」で割ったものと言い換えることができます。

なぜこのように複雑な式になるのか、具体的な計算手順はどうなっているのかを知りたい方は、以下の記事でステップごとに解説しています。

あわせて読みたい: 相関係数の計算方法を解説


使用する前の注意点:データは「正規分布」しているか?

ピアソンの積率相関係数は万能ではありません。実は、この手法を使うためにはデータがパラメトリック(正規分布に従っている)であり、かつ線形(直線)の関係であることが前提となります。

パラメトリック(正規分布に従っている)であり、かつ線形(直線)の関係

もし、データが正規分布していない場合や、順位データ(ランキングなど)を扱いたい場合は、ピアソンではなく別の相関係数を使う必要があります。

データが正規分布していない場合

データが正規分布に従わない場合(ノンパラメトリックなデータ)は、順位に基づいた相関係数を使用します。


数値だけを信じるのは危険!散布図で可視化しよう

ここが最も重要なポイントです。相関係数 rr の値だけを見て結論を出してはいけません。

例えば、「外れ値(極端な値)」が一つあるだけで、本当は相関がないのに rr が高く出たり、逆に相関があるのにrが低くなったりすることがあります。必ず散布図(Scatter Plot)を作成して、目で見てデータの形を確認しましょう。

xGrapherで簡単にグラフを作成する

当サイト xGrapher では、ブラウザ上でデータを入力(またはExcelからコピペ)するだけで、美しいグラフを即座に作成できます。

グラフを作成することで、「数値上は相関が高いけれど、実は一部のデータに引っ張られているだけだった」といったミスを防ぐことができます。


相関分析で陥りやすい「罠」

相関係数が高いからといって、すぐに「Aが原因でBが起きた」と結論づけるのは早計です。分析の際には以下の点に注意してください。

1. 相関関係と因果関係は違う

「夏の気温が高い」と「アイスが売れる」には相関がありますが、「ビールが売れる」とも相関があります。しかし、アイスが売れたからビールが売れたわけではありません。

あわせて読みたい: 相関関係と因果関係の違い

2. 擬似相関(見せかけの相関)

全く関係のないデータ同士でも、偶然あるいは第三の要因によって相関が高く見えることがあります。これを擬似相関と呼びます。

あわせて読みたい: 擬似相関(見せかけの相関・偽相関)とは?

3. p値の確認

得られた相関係数が、統計的に意味のあるもの(有意)なのか、それとも偶然の産物なのかを確認するために「p値」をチェックすることも重要です。

あわせて読みたい: 相関係数とp値の関係や意味とは?


まとめ

ピアソンの積率相関係数は、2つのデータの関係性を知るための強力な指標です。しかし、単に数式に当てはめて rr を出すだけでは不十分です。

  1. データの性質(正規分布か?)を確認する。

  2. 相関係数を計算する。

  3. 必ず散布図を描いて視覚的に確認する。

  4. 外れ値や擬似相関の可能性を考慮する。

正しい手順で分析を行えば、データから価値ある洞察を得ることができます。まずは手元のデータをxGrapherに入れて、どのような形をしているか見てみましょう。

xGrapher紹介画像

Q&A:ピアソンの積率相関係数に関するよくある質問

Q1. Excelやスプレッドシートでピアソンの積率相関係数を求める関数は?

A1: Excel(スプレッドシートでも同様)では =CORREL(配列1, 配列2) または =PEARSON(配列1, 配列2) 関数を使用することで簡単に計算できます。どちらも結果は同じになります。

Q2. サンプルサイズ(データ数)はどれくらい必要ですか?

A2: 一般的に、データ数が少なすぎると相関係数の信頼性は低くなります。少なくとも20〜30程度のサンプルはあることが望ましいですが、p値を確認して統計的有意性を判断することをお勧めします。

参考記事: 相関係数とp値の関係や意味とは?

Q3. 曲線的な関係(U字型など)がある場合、この相関係数は使えますか?

A3: いいえ、使えません。ピアソンの積率相関係数はあくまで「直線的な関係」の強さを測るものです。U字型のような非線形な関係がある場合、数値は0に近くなることがありますが、関係がないわけではありません。だからこそ散布図での確認が必須なのです。

線形関係と単調関係の散布図の例

Q4. 外れ値がある場合はどうすればいいですか?

A4: ピアソンの相関係数は外れ値の影響を強く受けます。散布図を描いて明らかに測定ミスと思われる外れ値がある場合は除外するか、外れ値の影響を受けにくい「スピアマンの順位相関係数」の使用を検討してください。

Q5. 質的データ(男女、血液型など)にも使えますか?

A5: いいえ、基本的には量的データ(身長、体重、テストの点数など)に使用します。質的データ同士の関連を見たい場合は、連関係数(クラメールの連関係数など)を使用するのが一般的です。

コラム著者・編集者

xGrapher編集チーム

xGrapher編集チームは、オンラインチャート作成ツールの開発者、技術ライターからなる専任チームです。グラフやチャートに関する実務経験から得た知識を活かし、ユーザーにとって価値のある情報を提供することに努めています。

関連記事