0%
共分散/共變異/Covariance
- 可用來表示兩變數的關係,缺點是會受單位影響,因此需要相關係數
- \(s_{xy}=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)
- \(s_{xy}=\sum_{i=1}^{n}x_iy_i - n\bar{x}\bar{y}\) \[\begin{eqnarray*}
\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})&=&\sum_{i=1}^{n}(x_iy_i-x_i\bar{y}-\bar{x}y_i+\bar{x}\bar{y})\\\\
&=&\sum_{i=1}^{n}x_iy_i-\bar{y}\sum_{i=1}^{n}x_i-\bar{x}\sum_{i=1}^{n}y_i+ \sum_{i=1}^{n}\bar{x}\bar{y}\\\\
&=&\sum_{i=1}^{n}x_iy_i-\bar{y}n\bar{x}-\bar{x}n\bar{y}+ n\bar{x}\bar{y}\\\\
&=&\sum_{i=1}^{n}x_iy_i - n\bar{x}\bar{y}
\end{eqnarray*}\]
相関係数/相關係數/Correlation Coefficient
- \(r=\frac{s_{xy}}{s_xs_y}=\frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y} )}{\sqrt[]{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2} \sqrt[]{\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar{y})^2}}\)
- 備註: \(s_{xy}\)是共分散,\(s_x, s_y\)是標準偏差
- -1\(\le\)相關係數\(\le\) 1,但越正或越負不代表絕對有關係
- \(x, y\)軸的變數互換 \(r\) 也不會變
- \(x\)或\(y\)的每個值各加/乘個定值 \(r\) 也不會變
擬相関/偽關係/Spurious Correlation
- 例如醫院的數量跟病人數有正相關,但背後的原因是因為: