COLUMN | 2022.5.25
共分散と相関

共分散は、2種類のデータ間の関係性を表す指標です。共分散を計算することで、データ間の関係を定量的に表現することができます。また、相関係数や相関と呼ばれるものは、共分散をもとに計算された指標です。共分散と相関係数の計算や考え方を、具体的な例を用いてご紹介します。
CONTENTS
2種類のデータの関係性を考える
あるコンビニでのアイスクリームの売上数と、その日の気温が表のようになったとします。気温とアイスクリームの売上数にはどんな関係があるでしょうか。
データ | 気温(℃) | アイスクリーム(個) |
① | 37 | 39 |
② | 36 | 35 |
③ | 36 | 32 |
④ | 34 | 33 |
⑤ | 34 | 30 |
⑥ | 33 | 27 |
⑦ | 32 | 35 |
⑧ | 31 | 24 |
⑨ | 29 | 25 |
⑩ | 28 | 20 |
気温が高い日にはアイスクリームの売上数も増えていそうです。散布図を描いてみると下のようになります。

散布図を見ても、気温が上がるとアイスクリームの売上数が増える傾向がありそうです。
共分散は、このような2種類のデータの関係性を数値として表現します。共分散には次のような意味があります。
共分散の値が正(プラス)のとき:一方のデータの値が増加すると、もう一方のデータの値が増加する傾向がある
共分散の値が負(マイナス)のとき:一方のデータの値が増加すると、もう一方のデータの値が減少する傾向がある
共分散の値が0(ゼロ)のとき:2種類のデータに関係性は無い
先ほどのアイスクリームの例では、気温が上がると、アイスクリームの売上数も増えたので、共分散が正になっていると言えます。
共分散
共分散は、2種類のデータのばらつきを同時に考えることで、それらの関係性を数字にしたものです。一方、分散は1種類のデータのばらつき度合を表す数字です(分散や標準偏差の具体的な計算方法は「標準偏差とリスク」の記事をご覧ください)。
上記の気温とアイスクリームの例で、共分散が正になっていることを実際に計算して確かめてみます。
共分散の計算
共分散の計算は、分散の計算方法と似ています。分散の計算と異なる点は、共分散の計算では2種類のデータを同時に考えていく、という点です。
共分散の計算手順は、(1)2つのデータの偏差を計算、(2)一方の偏差×もう一方の偏差を計算、(3)共分散を計算、となります。
データ | 気温(℃) | アイスクリーム(個) | (1) 気温の偏差(℃) | (1) アイスクリームの偏差(個) | (2) 偏差(℃)×偏差(個) |
① | 37 | 39 | 37-33=4 | 39-30=9 | 4×9=36 |
② | 34 | 33 | 34-33=1 | 33-30=3 | 1×3=3 |
③ | 36 | 35 | 36-33=3 | 35-30=5 | 3×5=15 |
④ | 34 | 30 | 34-33=1 | 30-30=0 | 1×0=0 |
⑤ | 32 | 35 | 32-33=-1 | 35-30=5 | (-1)×5=-5 |
⑥ | 29 | 25 | 29-33=-4 | 25-30=-5 | (-4)×(-5)=20 |
⑦ | 28 | 20 | 28-33=-5 | 20-30=-10 | (-5)×(-10)=50 |
⑧ | 31 | 24 | 31-33=-2 | 24-30=-6 | (-2)×(-6)=12 |
⑨ | 33 | 27 | 33-33=0 | 27-30=-3 | 0×(-3)=0 |
⑩ | 36 | 32 | 36-33=3 | 32-30=2 | 3×2=6 |
合計 | 330 | 300 | 137 | ||
平均 | 33 | 30 | (3) 共分散 137/10=13.7 |
(1)2つのデータの偏差の計算
気温とアイスクリームの個数について、それぞれの偏差を計算します。これにより、各データが平均からどれだけ離れているかが分かります。偏差は、データの値-平均値 で計算できます。
例えばデータ①(気温37℃、アイスクリーム39個)については、気温の平均値は33℃、アイスクリームの売上数の平均値は30個なので、
気温の偏差 = 37-33 = +4℃
アイスクリームの偏差 = 39-30 = +9個
と計算できます。

(2)一方の偏差×もう一方の偏差を計算
(1)で計算した偏差を使って、気温の偏差(℃)×アイスクリームの偏差(個)を計算します。偏差(平均からの乖離)どうしの積を計算し、その符号と数字の大きさを見ることで、①~⑩のデータそれぞれについて、気温とアイスクリームの関係を計算していきます。
例えば、気温が平均よりも高く(気温の偏差がプラス)、アイスクリームの個数も平均よりも高い(アイスクリームの偏差がプラス)場合、偏差どうしの積はプラスになります。

(3)共分散の計算
(2)で計算した値の平均をとることで、共分散が計算できます。
$$137÷10 =13.7(℃×個)$$
偏差どうしの積の平均的な値(つまり共分散)が13.7となったので、データ①~⑩の全体を平均的にみると、偏差どうしの積がプラスになっていることが確認できました。
今回計算した共分散の単位である「℃×個」の部分は、元データの単位に応じて変わります。
相関係数
共分散の単位
共分散の単位についてもう少し考えてみます。以下のような10人の身長と体重のデータがあります。
データ | 身長(cm) | 体重(kg) |
A | 154 | 48 |
B | 157 | 55 |
C | 160 | 58 |
D | 163 | 61 |
E | 164 | 57 |
F | 168 | 60 |
G | 170 | 68 |
H | 172 | 63 |
I | 177 | 72 |
J | 185 | 78 |
平均 | 167 | 62 |

共分散を計算する際には、さきほどと同様の手順で計算すれば良いのですが、用いる単位により共分散の値の大きさが変わってしまいます。
例1) 身長の単位をcm、体重の単位をkgとしたまま共分散を計算する場合
共分散は、70.8(cm×kg)となります。
データ | 身長(cm) | 体重(kg) | 身長の偏差(cm) | 体重の偏差(kg) | 偏差(cm)×偏差(kg) |
A | 154 | 48 | -13 | -14 | 182 |
B | 157 | 55 | -10 | -7 | 70 |
C | 160 | 58 | -7 | -4 | 28 |
D | 163 | 61 | -4 | -1 | 4 |
E | 164 | 57 | -3 | -5 | 15 |
F | 168 | 60 | 1 | -2 | -2 |
G | 170 | 68 | 3 | 6 | 18 |
H | 172 | 63 | 5 | 1 | 5 |
I | 177 | 72 | 10 | 10 | 100 |
J | 185 | 78 | 18 | 16 | 288 |
平均 | 167 | 62 | 70.8(cm×kg) |
例2) 身長の単位をcm、体重の単位をkgからgに変換して共分散を計算する場合
共分散は、70,800(cm×g)となります。
データ | 身長(cm) | 体重(g) | 身長の偏差(cm) | 体重の偏差(kg) | 偏差(cm)×偏差(kg) |
A | 154 | 48,000 | -13 | -14,000 | 182,000 |
B | 157 | 55,000 | -10 | -7,000 | 70,000 |
C | 160 | 58,000 | -7 | -4,000 | 28,000 |
D | 163 | 61,000 | -4 | -1,000 | 4,000 |
E | 164 | 57,000 | -3 | -5,000 | 15,000 |
F | 168 | 60,000 | 1 | -2,000 | -2,000 |
G | 170 | 68,000 | 3 | 6,000 | 18,000 |
H | 172 | 63,000 | 5 | 1,000 | 5,000 |
I | 177 | 72,000 | 10 | 10,000 | 100,000 |
J | 185 | 78,000 | 18 | 16,000 | 288,000 |
平均 | 167 | 62,000 | 70,800(cm×g) |
共分散は、70.8(cm×kg)と70,800(cm×g)となりました。このように、単位によって共分散の大きさが大きく変わってしまうことがあります。
相関係数の計算
相関係数は、共分散から単位の影響をうまく取り除いた数値です。一般的に、単位の影響を取り除くには、同じ単位を持つ数値で割ればよいです。相関係数の計算では、共分散を、2つの元データの標準偏差で割ることで、単位の影響を取り除きます。
上記の例の場合、共分散を、身長の標準偏差(cm)と体重の標準偏差(kgまたはg)の両方で割ることになります。
データ | 身長(cm) | 体重(kg) | 偏差(cm)×偏差(kg) |
A | 154 | 48 | 182 |
B | 157 | 55 | 70 |
C | 160 | 58 | 28 |
D | 163 | 61 | 4 |
E | 164 | 57 | 15 |
F | 168 | 60 | -2 |
G | 170 | 68 | 18 |
H | 172 | 63 | 5 |
I | 177 | 72 | 100 |
J | 185 | 78 | 288 |
平均 | 167 | 62 | 共分散 70.8(cm×kg) |
標準偏差 | 9.0(cm) | 8.3(kg) | |
相関係数 | \(\frac{70.8(cm×kg)}{9.0(cm)×8.3(kg)}=0.956\) |
身長の標準偏差が9.0(cm)、体重の標準偏差が8.3(kg)なので、共分散70.8(cm×kg)をこれらで割ると、
$$70.8(cm×kg)÷9.0(cm)÷8.27(kg) = 0.956(単位無し)$$
となり、相関係数が0.956となりました。ここでの相関とは、一方のデータの値が上昇すると、もう一方のデータの値がどう動くかについての関係を表します。ちなみに、相関係数のように、単位の無い数を無次元量と呼びます。共分散を、相関係数という無次元量に変換することで、単位による数字の大きさに依存することなく、データ間の相関関係を表すことができます。
体重の単位をgにして相関係数を計算した場合は、
$$70,800(cm×g)÷9.0(cm)÷8,270(g) = 0.956(単位無し)$$
となり、相関係数の値はこちらの場合も0.956となります。
相関係数の数字とその意味
一般に、相関係数とは、ピアソンの積率相関係数のことを指します。相関係数には次のような性質があります。
相関係数は、-1~1の間におさまる
相関係数が1に近いほど、強い正の相関がある…一方の値が上昇するともう一方も増える
相関係数が0に近いほど、相関が弱い
相関係数が-1に近いほど、強い負の相関がある…一方の値が上昇するともう一方は減る


このような性質があり、共分散よりもデータ間の関係を解釈しやすいことからも、相関係数はとてもよく使用されます。
ただし、注意すべき点として、相関係数が1や-1に近い数字となったとしても、扱うデータによっては必ずしも因果関係があるわけではありません。データの意味を十分に理解した上で関係を解釈する必要があります。
金融資産の相関とその活用
例えば、相関を計算すると、2つ以上の金融資産がどのように連動して動くのかが分かります。次の表のように、1年ごとに資産A,Bのリターンを記録し、5年間の平均と標準偏差が表のようになったとします。資産Aと資産Bのリターンにはどのような関係があるでしょうか。
リターン | 1年目 | 2年目 | 3年目 | 4年目 | 5年目 | 平均 | 標準偏差 |
資産A | -4% | 2% | 6% | -3% | 4% | 1.0% | 3.9% |
資産B | 30% | 20% | -15% | 20% | -10% | 9.0% | 18.0% |
計算過程は省きますが、相関係数を計算すると約-0.90となります。相関係数が-1に近いので、資産A,Bの間には強い負の相関があるということになります。つまり、資産Aのリターンと資産Bのリターンは逆の動きをする傾向があると言えます。

ちなみに、資産Aは標準偏差が小さいので低リスク、資産Bは標準偏差が大きいので高リスクと考えることができます。標準偏差とリスクの考え方については、「標準偏差とリスク」の記事をご覧ください。
さらなる活用例
金融では、複数の資産に投資をすることで、元の資産よりもリスクを低下できることがあります。特に、相関係数がマイナスである(リターンの動き方が逆になるような)複数の資産に同時に投資する場合には、顕著に表れる傾向があります。
例えば、100万円を使って、資産Aに83.2%(83.2万円)、資産Bに16.8%(16.8万円)投資していたとします。
リターン | 1年目 | 2年目 | 3年目 | 4年目 | 5年目 | 平均 | 標準偏差 |
資産A | -4% | 2% | 6% | -3% | 4% | 1.0% | 3.9% |
資産B | 30% | 20% | -15% | 20% | -10% | 9.0% | 18.0% |
資産Aに83.2%, 資産Bに16.8% | 1.7% | 5.0% | 2.5% | 0.9% | 1.6% | 2.3% | 1.4% |
例えば、1年目のリターンは、「1年目の資産Aのリターン×資産Aの配分比率 + 1年目の資産Bのリターン×資産Bの配分比率」で計算できます。
$$ -4\%×83.2\% + 30\%×16.8\% ≒ 1.7\% $$

資産A(リスク3.9%)と資産B(リスク18.0%)に、適当な配分で同時に投資することで、リスクが1.4%となりました。元の資産A, Bのどちらよりも低いリスクとなっています。つまり、元の資産単体に投資をするよりも、資産A,Bの両方に投資をすることで、リスクを抑えることができたということが分かります。
ちなみに、リスクを低下させるための資産Aと資産Bの配分割合は、何でも良いというわけではなく、うまく決めなければなりません。この驚くべき現象は、金融のポートフォリオ理論の話ですが、具体的には別の記事でご紹介予定です。
まとめ
・共分散は、2種類のデータの関係を表した数値だが、単位による数値の大きさの影響を受けやすい
・相関係数は、共分散から単位の影響をうまく取り除いた数値なので、元データの数値の大きさに依存しない
・相関係数は、-1~1の値を取り、データ間の相関関係を表す
・相関関係があるからと言って、必ずしもデータ間に因果関係があるわけではない
(ご参考)数式での表現
2種類のデータ\(x, y\)について、\(i\)番目のデータをそれぞれ\(x_i, y_i\)、平均をそれぞれ\(\overline{x}, \overline{y}\)とすると、各値は以下のように計算できます。
\(x\)の分散:\(\sigma_x^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2\)
\(=\frac{1}{n}\{(x_1-\overline{x})^2 + (x_2-\overline{x})^2 +…+ (x_n-\overline{x})^2\}\)
\(y\)の分散:\(\sigma_y^2=\frac{1}{n}\sum_{i=1}^{n}(y_i-\overline{y})^2\)
\(=\frac{1}{n}\{(y_1-\overline{y})^2 + (y_2-\overline{y})^2 +…+ (y_n-\overline{y})^2\}\)
\(x\)と\(y\)の共分散:\(\sigma_{xy}=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})\)
\(=\frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y}) + (x_2-\overline{x})(y_2-\overline{y}) +…+ (x_n-\overline{x})(y_n-\overline{y})\}\)
\(x\)と\(y\)の相関係数:\(\rho_{xy}=\frac{\sigma_{xy}}{\sigma_{x}×\sigma_{y}}\)