讀古今文學網 > 機器學習實戰 > 9.8 本章小結 >

9.8 本章小結

數據集中經常包含一些複雜的相互關係,使得輸入數據和目標變量之間呈現非線性關係。對這些複雜的關係建模,一種可行的方式是使用樹來對預測值分段,包括分段常數或分段直線。一般採用樹結構來對這種數據建模。相應地,若葉節點使用的模型是分段常數則稱為回歸樹,若葉節點使用的模型是線性回歸方程則稱為模型樹。

CART算法可以用於構建二元樹並處理離散型或連續型數據的切分。若使用不同的誤差準則,就可以通過CART算法構建模型樹和回歸樹。該算法構建出的樹會傾向於對數據過擬合。一棵過擬合的樹常常十分複雜,剪枝技術的出現就是為了解決這個問題。兩種剪枝方法分別是預剪枝(在樹的構建過程中就進行剪枝)和後剪枝(當樹構建完畢再進行剪枝),預剪枝更有效但需要用戶定義一些參數。

Tkinter是Python的一個GUI工具包。雖然並不是唯一的包,但它最常用。利用Tkinter,我們可以輕鬆繪製各種部件並靈活安排它們的位置。另外,可以為Tkinter構造一個特殊的部件來顯示Matplotlib繪出的圖。所以,Matplotlib和Tkinter的集成可以構建出更強大的GUI,用戶可以以更自然的方式來探索機器學習算法的奧妙。

本章是回歸的最後一章,希望讀者沒有錯過。接下來我們將離開監督學習的島嶼,駛向無監督學習的未知港灣。在回歸和分類(監督學習)中,目標變量的值是已知的。在後面的章節將會看到,無監督學習中上述條件將不再成立。下一章的主要內容是k均值聚類算法。