讀古今文學網 > 機器學習實戰 > 3.5 本章小結 >

3.5 本章小結

決策樹分類器就像帶有終止塊的流程圖,終止塊表示分類結果。開始處理數據集時,我們首先需要測量集合中數據的不一致性,也就是熵,然後尋找最優方案劃分數據集,直到數據集中的所有數據屬於同一分類。ID3算法可以用於劃分標稱型數據集。構建決策樹時,我們通常採用遞歸的方法將數據集轉化為決策樹。一般我們並不構造新的數據結構,而是使用Python語言內嵌的數據結構字典存儲樹節點信息。

使用Matplotlib的註解功能,我們可以將存儲的樹結構轉化為容易理解的圖形。Python語言的pickle模塊可用於存儲決策樹的結構。隱形眼鏡的例子表明決策樹可能會產生過多的數據集劃分,從而產生過度匹配數據集的問題。我們可以通過裁剪決策樹,合併相鄰的無法產生大量信息增益的葉節點,消除過度匹配問題。

還有其他的決策樹的構造算法,最流行的是C4.5和CART,第9章討論回歸問題時將介紹CART算法。

本書第2章、第3章討論的是結果確定的分類算法,數據實例最終會被明確劃分到某個分類中。下一章我們討論的分類算法將不能完全確定數據實例應該劃分到某個分類,或者只能給出數據實例屬於給定分類的概率。