回歸/Regression
\(y=\alpha +\beta x\),\(\alpha , \beta\) 稱為回歸係數 假設 \(x,y\) 有某種因果關係的前提下,
從\(x\)來預測\(y\)值稱為回歸分析 (不能用\(y\)倒推回\(x\))
- \(x\): 説明変数
- \(y\): 非説明変数/目的変数
推定値/估計值/Estimated Value
\(\alpha , \beta\) 的推定值為 \(\hat{\alpha} , \hat{\beta}\), 而用\(\hat{\alpha} , \hat{\beta}\)算出來的\(\hat{y}\)就是\(y\)的預測值。
那要怎麼求得 \(\hat{\alpha} , \hat{\beta}\) 呢?
最小2乗法/最小平方法/The Method of Least Square (LS)
對於每個觀測值\((x_i, y_i)\)而言,預測值\(\hat{y_i}=\hat{\alpha }+\hat{\beta}x_i\)。
\((y_i-\hat{y_i})\)稱為殘差,把每個殘差取平方算總和就稱為殘差平方和(S)。
殘差平方和: \(\sum_{i=1}^{n}(y_i-\hat{y_i})^2\)
\(\hat{y_i}=\hat{\alpha }+\hat{\beta}x_i\)代入此式得出\(S(\hat{\alpha}, \hat{\beta}) = \sum_{i=1}^{n}(y_i-\hat{\alpha}-\hat{\beta}x_i)^2\)
求殘差平方和的最小值就是求 \(\hat{\alpha}, \hat{\beta}\) (94最小平方法啦!)
證明

- 從上面的證明可以得出聯立的正規方程式
- \(\hat{\beta}=\frac{s_{xy}}{s_{x^2}}=r_{xy}\frac{s_y}{s_x}\)
- \(\hat{\alpha}=\bar{y}-\hat{\beta}\bar{x}\)
這樣就可以求回歸方程式了~ (以下表的數據舉例)
| 次數 | 秤砣重量x(g) | 彈簧長度y(mm) |
|---|---|---|
| 1 | 6 | 119 |
| 2 | 8 | 145 |
| 3 | 12 | 175 |
| 4 | 14 | 191 |
| 5 | 18 | 204 |
| 6 | 20 | 209 |
| 7 | 24 | 244 |
| 8 | 26 | 233 |
| 9 | 30 | 272 |
| 10 | 32 | 268 |
\(\hat{\beta}=401/73=5.5\)
\(\hat{\alpha}=206-5.5\times 19=101.5\)
因此回歸方程式為: \(y=101.5+5.5x\)
\(x=20\)時,\(\hat{y}=101.5+5.5\times 20=211.5\)
備註: 不是預測值剛好是211.5,這其實是平均的結果。
決定係数/決定係數/Coefficient of Determination
- 総平方和: \(y\)的離散程度
\(S_T=\sum_{i=1}^{n}(y_i-\bar{y})^2\) - 回帰による平方和: 回歸直線能說明的部分(多次抽樣的樣本平均可以當作母平均) \(S_R=\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2\)
- 残差平方和: 回歸直線不能說明的部分(因為實際值沒人知道,所以回歸直線無法說明) \(S_e=\sum_{i=1}^{n}(y_i-\hat{y_i})^2\)
\(S_T=S_R+Se\)
決定係數\(R^2=\frac{S_R}{S_T}\)
- 在回歸直線的情況下: \(R^2=r^2\) (決定係數平方=相關係數平方)
- 二次曲線之類的就沒有上述的特性
重相関係数/多重相關係數/Multiple Correlation Coefficient
- 由來: 決定係數的正平方根\(R\)
- 意義: 觀測值\(y_i\)跟預測值\(\hat{y_i}\)的相關係數