0%

單變數分析

平均値/平均值/Mean

\(\bar{x} = \frac{x_1+x_2+...+x_n}{n}= \frac{\sum_{i=1}^{n}x_i}{n}\) \((\sum_{i=1}^{n}x_i=n\bar{x})\)

中央值/中位數/Median

  • 特性: 不受外れ値(離群值)影響
  • 奇數個觀測值: \(x_{(n+1)/2}\)
  • 偶數個觀測值: \(\frac{x_{n/2}+x_{(n/2+1)}}{2}\)

偏差/誤差/Deviation

  • 定義: 觀測值 - 平均值 = \(x_i - \bar{x}\)
  • 意義: 值越大表示散らばり越大
  • 偏差的總和為0: \(\sum_{i=1}^{n} {(x_i-\bar{x})}=\sum_{i=1}^{n} {x_i-n\bar{x}}= n\bar{x}-n\bar{x}=0\) (\(x_i\)的總和=\(n\bar{x}\))
  • 因為偏差的和=0,偏差的平均也=0,所以會取絕對值或用平方~

平均偏差

  • 定義: \(\frac{1}{n}\sum_{i=1}^{n}\left | x_i-\bar{x} \right |\)

分散/變異數/Variance

  • 通常記為\(s^2\)
  • 定義: \(s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\)
  • 因為\(\sum_{i=1}^{n}(x_i-\bar{x})^2=\sum_{i=1}^{n}x_i^2-n\bar{x}^2\)
  • \(s^2\)又= \(\sum_{i=1}^{n}\frac{x_i^2}{n}-\bar{x}^2\) \[\begin{eqnarray*} \sum_{i=1}^{n}(x_i-\bar{x})^2&=&\sum_{i=1}^{n}(x_i^2-2x_i\bar{x}+\bar{x}^2)\\\\ &=&\sum_{i=1}^{n}x_i^2-2\bar{x}\sum_{i=1}^{n}x_i+ \sum_{i=1}^{n}\bar{x}^2\\\\ &=&\sum_{i=1}^{n}x_i^2-2\bar{x}\times n\bar{x} + n\bar{x}^2\\\\ &=&\sum_{i=1}^{n}x_i^2 - n\bar{x}^2 \end{eqnarray*}\]

標準偏差/標準差/Standard Deviation

  • 通常記為\(s\)\(\sigma\),就是分散開根號取正
  • \(s=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}\)

標準化/Standardization

  • 例如想比較某群體身高跟體重的離散程度,但單位不同時。
  • 標準化後: 平均值=0,標準差=1
  • \(z_i=\frac{觀測值-平均值}{標準差}=\frac{x_i-\bar{x}}{s}\)
  • 偏差值
    • \(50 + 10\times\frac{分數-平均分數}{分數的標準差}=50+10{z_i}\)

変動係数/變異係數/Coefficient of Variation

  • \(cv=s/\bar{x}\)
  • 雖然說標準差越大資料越離散,但有時候不是標準差大資料就比較離散。
    舉例:某公司主管平均年收2000萬,標準差200萬;基層平均年收100萬,標準差30萬。
    單看標準差會覺得是主管年收的離散程度較大。
    實際用cv算一次:
    主管=200/2000=0.1
    基層=30/100=0.3
    結果發現基層的年收更離散~

練習題