讀古今文學網 > 機器學習實戰 > 8.7 本章小結 >

8.7 本章小結

與分類一樣,回歸也是預測目標值的過程。回歸與分類的不同點在於,前者預測連續型變量,而後者預測離散型變量。回歸是統計學中最有力的工具之一。在回歸方程裡,求得特徵對應的最佳回歸係數的方法是最小化誤差的平方和。給定輸入矩陣X,如果XTX的逆存在並可以求得的話,回歸法都可以直接使用。數據集上計算出的回歸方程並不一定意味著它是最佳的,可以使用預測值yHat和原始值y的相關性來度量回歸方程的好壞。

當數據的樣本數比特徵數還少時候,矩陣XTX的逆不能直接計算。即便當樣本數比特徵數多時,XTX的逆仍有可能無法直接計算,這是因為特徵有可能高度相關。這時可以考慮使用嶺回歸,因為當XTX的逆不能計算時,它仍保證能求得回歸參數。

嶺回歸是縮減法的一種,相當於對回歸係數的大小施加了限制。另一種很好的縮減法是lasso。Lasso難以求解,但可以使用計算簡便的逐步線性回歸方法來求得近似結果。

縮減法還可以看做是對一個模型增加偏差的同時減少方差。偏差方差折中是一個重要的概念,可以幫助我們理解現有模型並做出改進,從而得到更好的模型。

本章介紹的方法很有用。但有些時候數據間的關係可能會更加複雜,如預測值與特徵之間是非線性關係,這種情況下使用線性的模型就難以擬合。下一章將介紹幾種使用樹結構來預測數據的方法。