決定係数 (R2) とは?相関係数 (r) との違いや散布図との関係性をわかりやすく解説

Cover Photo

データ分析をしていると、「決定係数 (R2R^2)」や「相関係数 (rr)」という言葉をよく目にします。特に回帰分析(予測モデル)を作った際、そのモデルがどれだけ良いかを示す指標として決定係数が登場します。

でも、「相関係数と何が違うの?」「R2R^2 の値が0.7だったけど、これって良いの?」と疑問に思う方も多いのではないでしょうか。

この記事では、データ分析の初心者の方にもわかりやすく、決定係数の基本的な意味から、相関係数との違い、そして両者の関係性について、グラフのイメージを交えながら解説していきます。

決定係数と相関係数の決定的な違い

決定係数と相関係数は、どちらもデータ間の関係性を示す指標ですが、その「役割」が根本的に異なります。まずはそれぞれの役割を明確にしましょう。

相関係数(r)とは?

相関係数(ピアソンの積率相関係数、rr)は、「2つのデータ(変数)間の『直線的な』関係の強さと向き」 を示す指標です。

  • 値の範囲: -1から+1までです。

  • +1に近い: 強い「正の相関」があります。(例:身長が高い人ほど、体重も重い傾向)

  • -1に近い: 強い「負の相関」があります。(例:気温が低い日ほど、暖房費が高い傾向)

  • 0に近い: 2つのデータ間に「直線的な」関係はほとんどありません。

正の相関から負の相関の散布図の例

あくまで「直線的な関係」を見ている点がポイントです。もしデータがきれいなU字型になっていても、直線的な関係ではないため相関係数は0近くになることがあります。
>> 相関係数の目安やその根拠についての解説

相関係数について詳しくは、こちらの記事「相関係数とは?意味と目安、計算方法をわかりやすく解説」もご覧ください。

決定係数 (R2) とは?

決定係数 (R2R^2、R-squared、アールスクエアとも呼ばれます)は、「予測モデルの『当てはまりの良さ』」 を示す指標です。一般的に回帰分析で使われます。

もう少し具体的に言うと、「予測したいデータ(目的変数)の変動のうち、どれくらいの割合を予測モデル(説明変数)で『説明』できているか」 を示します。

  • 値の範囲: 基本的に0から1までです。(%で表すこともあります)

  • 1に近い (例: 0.9): モデルがデータの変動をほぼ完璧に説明できている(当てはまりが非常に良い)。予測精度が高いと言えます。

  • 0に近い (例: 0.1): モデルがデータの変動をほとんど説明できていない(当てはまりが悪い)。そのモデルは予測に使えない可能性が高いです。

例えば、決定係数 R2=0.7R^2 = 0.7 だった場合、「予測したいデータのバラツキの70%は、この予測モデルで説明できていますよ」という意味になります。

相関係数と違い、「向き(プラスかマイナスか)」の情報はなく、純粋に「どれだけ説明できているか(当てはまりの良さ)」だけを示します。

決定係数と相関係数の「関係」とは?(R2 = r2?)

「決定係数 相関係数」と検索する方が最も知りたいのが、この2つの関係性でしょう。

結論から言うと、「単回帰分析(説明変数が1つだけの予測モデル)の場合」においてのみ、

決定係数 (R2R^2) = 相関係数 (rr) の2乗

という関係が成り立ちます。

例:

  • 「気温」だけから「アイスの売上」を予測する(単回帰分析)

  • 気温とアイスの売上の相関係数 r=0.8r = 0.8 だった場合

  • 予測モデルの決定係数 R2=0.8×0.8=0.64R^2 = 0.8 \times 0.8 = 0.64 となります。

例 (負の相関の場合):

  • 「広告費」だけから「競合の売上」を予測する(単回帰分析)

  • 広告費と競合の売上の相関係数 r=0.7r = -0.7 だった場合

  • 予測モデルの決定係数 R2=(0.7)×(0.7)=0.49R^2 = (-0.7) \times (-0.7) = 0.49 となります。

相関係数が r=0.8r = 0.8 でも r=0.8r = -0.8 でも、2乗すれば同じ R2=0.64R^2 = 0.64r=0.7r=-0.7 なら R2=0.49R^2=0.49)になりますね。
これは、相関係数のプラス・マイナスは「向き」を示しているだけで、「直線的な関係の強さ」自体は同じだからです。そのため、その直線を予測モデルとして使った場合の「当てはまりの良さ(説明できる割合)」も同じになる、とイメージすると分かりやすいでしょう。

注意点: 重回帰分析の場合は R2=r2R^2 = r^2 ではない

この R2=r2R^2 = r^2 の関係が成り立つのは、あくまで変数が1対1の「単回帰分析」の時だけです。

予測に使う説明変数が2つ以上ある場合(例:「気温」と「湿度」から「アイスの売上」を予測する)を「重回帰分析」と呼びます。
この場合、相関係数は2変数間でしか計算できないため、「相関係数の2乗 = 決定係数」という単純な関係は成り立ちません

重回帰分析で出てくる R2R^2 は、あくまで「モデル全体で、目的変数をどれだけ説明できているか」を示す指標となります。

決定係数 (R2) を使う際の目安と注意点

では、決定係数 R2R^2 の値はどれくらいあれば「良い」のでしょうか?

目安は分野によって全く異なる

よく「R2R^2 が0.5以上なら意味がある」「0.8以上なら強い」と言われることがありますが、これは間違いです。決定係数の目安は、分析する分野によって大きく異なります。

  • 物理学や化学の実験データ:
    非常に精密な測定が可能なため、決定係数が R2=0.99R^2 = 0.99 でも「当てはまりが悪い」とされる場合があります。

  • 経済学や心理学(人間の行動):
    多くの要因が複雑に絡み合うため、決定係数が R2=0.3R^2 = 0.3 であっても「非常に重要な発見」とされる場合があります。

絶対的な基準はありません。その分野の過去の研究と比較したり、予測の目的(高精度な予測が必要か、大まかな傾向が知りたいだけか)に応じて判断する必要があります。

注意点: 自由度調整済み決定係数

決定係数 (R2R^2) には、「予測に使う説明変数を増やせば増やすほど、値が(当てはまりが良く見えて)高くなってしまう」という弱点があります。
たとえ予測に全く関係ない変数を適当に追加したとしても、R2R^2 はわずかに上昇してしまう傾向があるのです。

これでは、本当に良いモデル(説明変数の組み合わせ)なのか判断できません。

そこで、モデルの「複雑さ(使った変数の数)」も考慮してペナルティを課した指標が「自由度調整済み決定係数(Adjusted R2R^2)」です。

複数の説明変数を使う重回帰分析で、どのモデル(変数の組み合わせ)が良いかを比較する際は、通常の R2R^2 ではなく、この自由度調整済み決定係数を見るのが一般的です。

決定係数と相関係数をグラフ(散布図)で確認しよう

決定係数も相関係数も、元は2つのデータの関係性を見ています。これらの指標を正しく理解するのに最適なグラフが「散布図」です。

散布図に「近似曲線(回帰直線)」を追加すると、データ全体の傾向が掴みやすくなります。そして、この近似曲線がデータ(点)にどれだけフィットしているかを示す数値が「決定係数 (R2R^2)」です。

散布図の基本的な見方や作り方は、「散布図とは?見方や作成時のポイントを解説」や「散布図の見方を徹底解説!」で詳しく解説しています。

Excelやスプレッドシートでの表示方法

ExcelやGoogleスプレッドシートでも、散布図を作成し、グラフオプションから「近似曲線」を追加し、「R2R^2 値をグラフに表示する」にチェックを入れることで簡単に確認できます。

詳しい手順は以下の記事も参考にしてください。

xGrapherで簡単に散布図を作成

もっと手軽に、Web上でデータを貼り付けるだけで美しい散布図や近似曲線、相関係数を確認したい場合は、xGrapher が便利です。

オンライングラフ作成ツールの xGrapher なら、データを入力するだけですぐに散布図を作成できます。

xGrapherで散布図にrとR2を表示する


xGrapherの散布図作成ツール」では、オプションで近似曲線や決定係数 (R2R^2) をグラフ上に表示することも可能です。

xGrapherの散布図作成画面

xGrapherを使った相関係数の計算や散布図の活用については、以下の記事でも紹介しています。

まとめ

最後に、決定係数と相関係数のポイントをおさらいしましょう。

  • 相関係数 (rr):
    2つのデータの「直線的な関係の強さ」と「向き(+/-)」を示す。-1〜+1の値をとる。

  • 決定係数 (R2R^2):
    予測モデルの「当てはまりの良さ(説明できる割合)」を示す。0〜1の値をとる。

  • 関係性:
    単回帰分析(説明変数が1つ)」の場合のみ、R2=r2R^2 = r^2 が成り立つ。

  • 活用:
    決定係数 R2R^2 の目安は分野による。重回帰分析では「自由度調整済み決定係数」を見る。

  • 視覚化:
    どちらも「散布図」と「近似曲線」を使って視覚的に理解するのがおすすめです。xGrapherなどのツールを活用して、データ分析に役立てましょう。

xGrapher紹介画像

決定係数・相関係数に関するQ&A

Q1: 決定係数がマイナスになることはありますか?

A1: 通常の(最小二乗法による)単回帰分析や重回帰分析では、決定係数 R2R^2 は0から1の間の値をとります。しかし、予測モデルが「平均値で予測する」よりも当てはまりが悪いという特殊なケース(例えば、切片を強制的に0にするモデルなど)では、理論上マイナスになることもあり得ます。また、「自由度調整済み決定係数」は、モデルに意味のない変数が多く含まれる場合などにマイナスになることがあります。

Q2: 決定係数と相関係数、どちらが重要ですか?

A2: 目的によります。単に「2つのデータに関係があるか(強さ・向き)」を知りたいだけなら相関係数が便利です。一方、「片方のデータを使って、もう片方のデータを予測するモデルを作りたい」場合、そのモデルの精度評価として決定係数が重要になります。

Q3: 相関係数が高い(例: 0.9)のに、決定係数が低いことはありますか?

A3: いいえ、単回帰分析(変数が1つ)の場合はありえません。上記で説明した通り、R2=r2R^2 = r^2 の関係があるため、相関係数が高ければ決定係数も高くなります(r=0.9r=0.9 なら R2=0.81R^2=0.81)。

Q4: 相関係数が低い(例: 0.2)のに、決定係数が高いことはありますか?

A4: Q3と同じ理由で、単回帰分析の場合はありえません(r=0.2r=0.2 なら R2=0.04R^2=0.04)。ただし、データがU字型のような「直線的ではないが強い関係」を持つ場合、相関係数 rr は0に近くなりますが、非線形な予測モデル(多項式回帰など)を使えば高い決定係数 R2R^2 が得られる可能性はあります。

Q5: 決定係数が1になるのはどんな時ですか?

A5: 予測モデルが、実際のデータを完璧に予測できた時です。散布図で言えば、すべてのデータ(点)が、引かれた近似曲線(回帰直線)の上にピッタリと乗っている状態です。現実のデータ分析では滅多に起こりませんが、物理法則などではあり得ます。

r=1の散布図の例(一直線に点が並ぶ)

コラム著者・編集者

xGrapher編集チーム

xGrapher編集チームは、オンラインチャート作成ツールの開発者、技術ライターからなる専任チームです。グラフやチャートに関する実務経験から得た知識を活かし、ユーザーにとって価値のある情報を提供することに努めています。

関連記事