0%

雙變數分析

共分散/共變異/Covariance

  • 可用來表示兩變數的關係,缺點是會受單位影響,因此需要相關係數
  • \(s_{xy}=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)
  • \(s_{xy}=\sum_{i=1}^{n}x_iy_i - n\bar{x}\bar{y}\) \[\begin{eqnarray*} \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})&=&\sum_{i=1}^{n}(x_iy_i-x_i\bar{y}-\bar{x}y_i+\bar{x}\bar{y})\\\\ &=&\sum_{i=1}^{n}x_iy_i-\bar{y}\sum_{i=1}^{n}x_i-\bar{x}\sum_{i=1}^{n}y_i+ \sum_{i=1}^{n}\bar{x}\bar{y}\\\\ &=&\sum_{i=1}^{n}x_iy_i-\bar{y}n\bar{x}-\bar{x}n\bar{y}+ n\bar{x}\bar{y}\\\\ &=&\sum_{i=1}^{n}x_iy_i - n\bar{x}\bar{y} \end{eqnarray*}\]

相関係数/相關係數/Correlation Coefficient

  • \(r=\frac{s_{xy}}{s_xs_y}=\frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y} )}{\sqrt[]{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2} \sqrt[]{\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar{y})^2}}\)
    • 備註: \(s_{xy}\)是共分散,\(s_x, s_y\)是標準偏差
  • -1\(\le\)相關係數\(\le\) 1,但越正或越負不代表絕對有關係
  • \(x, y\)軸的變數互換 \(r\) 也不會變
  • \(x\)\(y\)的每個值各加/乘個定值 \(r\) 也不會變

擬相関/偽關係/Spurious Correlation

  • 例如醫院的數量跟病人數有正相關,但背後的原因是因為:
    • 人口多導致醫院多
    • 人口多導致病人多