平均値/平均值/Mean
\(\bar{x} = \frac{x_1+x_2+...+x_n}{n}= \frac{\sum_{i=1}^{n}x_i}{n}\) \((\sum_{i=1}^{n}x_i=n\bar{x})\)
中央值/中位數/Median
- 特性: 不受外れ値(離群值)影響
- 奇數個觀測值: \(x_{(n+1)/2}\)
- 偶數個觀測值: \(\frac{x_{n/2}+x_{(n/2+1)}}{2}\)
偏差/誤差/Deviation
- 定義: 觀測值 - 平均值 = \(x_i - \bar{x}\)
- 意義: 值越大表示散らばり越大
- 偏差的總和為0: \(\sum_{i=1}^{n} {(x_i-\bar{x})}=\sum_{i=1}^{n} {x_i-n\bar{x}}= n\bar{x}-n\bar{x}=0\) (\(x_i\)的總和=\(n\bar{x}\))
- 因為偏差的和=0,偏差的平均也=0,所以會取絕對值或用平方~
平均偏差
- 定義: \(\frac{1}{n}\sum_{i=1}^{n}\left | x_i-\bar{x} \right |\)
分散/變異數/Variance
- 通常記為\(s^2\)
- 定義: \(s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\)
- 因為\(\sum_{i=1}^{n}(x_i-\bar{x})^2=\sum_{i=1}^{n}x_i^2-n\bar{x}^2\)
- \(s^2\)又= \(\sum_{i=1}^{n}\frac{x_i^2}{n}-\bar{x}^2\) \[\begin{eqnarray*} \sum_{i=1}^{n}(x_i-\bar{x})^2&=&\sum_{i=1}^{n}(x_i^2-2x_i\bar{x}+\bar{x}^2)\\\\ &=&\sum_{i=1}^{n}x_i^2-2\bar{x}\sum_{i=1}^{n}x_i+ \sum_{i=1}^{n}\bar{x}^2\\\\ &=&\sum_{i=1}^{n}x_i^2-2\bar{x}\times n\bar{x} + n\bar{x}^2\\\\ &=&\sum_{i=1}^{n}x_i^2 - n\bar{x}^2 \end{eqnarray*}\]
標準偏差/標準差/Standard Deviation
- 通常記為\(s\) 或 \(\sigma\),就是分散開根號取正
- \(s=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}\)
標準化/Standardization
- 例如想比較某群體身高跟體重的離散程度,但單位不同時。
- 標準化後: 平均值=0,標準差=1
- \(z_i=\frac{觀測值-平均值}{標準差}=\frac{x_i-\bar{x}}{s}\)
- 偏差值
- \(50 + 10\times\frac{分數-平均分數}{分數的標準差}=50+10{z_i}\)
変動係数/變異係數/Coefficient of Variation
- \(cv=s/\bar{x}\)
- 雖然說標準差越大資料越離散,但有時候不是標準差大資料就比較離散。
舉例:某公司主管平均年收2000萬,標準差200萬;基層平均年收100萬,標準差30萬。
單看標準差會覺得是主管年收的離散程度較大。
實際用cv算一次:
主管=200/2000=0.1
基層=30/100=0.3
結果發現基層的年收更離散~
練習題
