0%

回歸直線與預測

回歸/Regression

\(y=\alpha +\beta x\)\(\alpha , \beta\) 稱為回歸係數 假設 \(x,y\) 有某種因果關係的前提下,
\(x\)來預測\(y\)值稱為回歸分析 (不能用\(y\)倒推回\(x\))

  • \(x\): 説明変数
  • \(y\): 非説明変数/目的変数

推定値/估計值/Estimated Value

\(\alpha , \beta\) 的推定值為 \(\hat{\alpha} , \hat{\beta}\), 而用\(\hat{\alpha} , \hat{\beta}\)算出來的\(\hat{y}\)就是\(y\)的預測值。

那要怎麼求得 \(\hat{\alpha} , \hat{\beta}\) 呢?

最小2乗法/最小平方法/The Method of Least Square (LS)

對於每個觀測值\((x_i, y_i)\)而言,預測值\(\hat{y_i}=\hat{\alpha }+\hat{\beta}x_i\)
\((y_i-\hat{y_i})\)稱為殘差,把每個殘差取平方算總和就稱為殘差平方和(S)
殘差平方和: \(\sum_{i=1}^{n}(y_i-\hat{y_i})^2\)
\(\hat{y_i}=\hat{\alpha }+\hat{\beta}x_i\)代入此式得出\(S(\hat{\alpha}, \hat{\beta}) = \sum_{i=1}^{n}(y_i-\hat{\alpha}-\hat{\beta}x_i)^2\)
求殘差平方和的最小值就是求 \(\hat{\alpha}, \hat{\beta}\) (94最小平方法啦!)

  • 證明

  • 從上面的證明可以得出聯立的正規方程式
    • \(\hat{\beta}=\frac{s_{xy}}{s_{x^2}}=r_{xy}\frac{s_y}{s_x}\)
    • \(\hat{\alpha}=\bar{y}-\hat{\beta}\bar{x}\)

這樣就可以求回歸方程式了~ (以下表的數據舉例)

次數 秤砣重量x(g) 彈簧長度y(mm)
1 6 119
2 8 145
3 12 175
4 14 191
5 18 204
6 20 209
7 24 244
8 26 233
9 30 272
10 32 268

\(\hat{\beta}=401/73=5.5\)
\(\hat{\alpha}=206-5.5\times 19=101.5\)

因此回歸方程式為: \(y=101.5+5.5x\)
\(x=20\)時,\(\hat{y}=101.5+5.5\times 20=211.5\)
備註: 不是預測值剛好是211.5,這其實是平均的結果。

決定係数/決定係數/Coefficient of Determination

  • 総平方和: \(y\)的離散程度
    \(S_T=\sum_{i=1}^{n}(y_i-\bar{y})^2\)
  • 回帰による平方和: 回歸直線能說明的部分(多次抽樣的樣本平均可以當作母平均) \(S_R=\sum_{i=1}^{n}(\hat{y_i}-\bar{y})^2\)
  • 残差平方和: 回歸直線不能說明的部分(因為實際值沒人知道,所以回歸直線無法說明) \(S_e=\sum_{i=1}^{n}(y_i-\hat{y_i})^2\)

\(S_T=S_R+Se\)
決定係數\(R^2=\frac{S_R}{S_T}\)

  • 在回歸直線的情況下: \(R^2=r^2\) (決定係數平方=相關係數平方)
  • 二次曲線之類的就沒有上述的特性

重相関係数/多重相關係數/Multiple Correlation Coefficient

  • 由來: 決定係數的正平方根\(R\)
  • 意義: 觀測值\(y_i\)跟預測值\(\hat{y_i}\)的相關係數