協調フィルタリング(ピアソン相関)

結果は、下記のように表示される。

O 1.0
G 0.9808680821138367
E 0.9484536082474225
K 0.9408299662818367
H 0.8827613485576769
D 0.6252910738779192
L 0.49037436997675116
C -0.2540244987629046
F -0.2553208668685789
I -0.3101395942331776
J -0.31251695558993137
B -0.3242687382284557
M -0.5561279983200484
N -0.8262633124961081

標準偏差・相関係数

算術平均

合計を個数で割るやつ

$$\bar{x} = \frac{\displaystyle \sum_{i=1}^n x_i}{n}$$

偏差

データの値から算術平均を引いたやつ

$$x_i – \bar{x}$$

分散

偏差の2乗の合計をデータ数で割ったもの

$$s^2 = \frac{\displaystyle \sum_{i=1}^n (x_i – \bar{x})^2}{n}$$

標準偏差

分散の平方根

$$s = \sqrt{\frac{\displaystyle \sum_{i=1}^n (x_i – \bar{x})^2}{n}}$$

変動係数

象とミジンコは大きさが全然違うので、標準偏差を比べても絶対に象が大きくなる。これではバラツキ具合が象とミジンコとどっちが激しいのかはわからない。そこで、大きさが全然違う等があってもバラツキ具合が比較できるようにするには、標準偏差を算術平均で割ればいい。平均値に対して何倍くらいのバラツキがあるかがわかる。

$$C.V. = \frac{s}{\bar{x}}$$

相関係数

2つの変量に相関がどの程度あるかを表す係数。-1〜1までの値をとり、-1に近ければ負の相関が強く、+1に近ければ正の相関が強い。0であれば相関がない(直線的相関はない)。カール・ピアソンがまとめたので、ピアソンの積率相関係数とも呼ばれる。

$$r = \frac{\displaystyle \sum_{i=1}^n (x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\displaystyle \sum_{i=1}^n (x_i – \bar{x})^2}\sqrt{\displaystyle \sum_{i=1}^n (y_i – \bar{y})^2}}$$