讀古今文學網 > 機器學習實戰 > 7.8 本章小結 >

7.8 本章小結

集成方法通過組合多個分類器的分類結果,獲得了比簡單的單分類器更好的分類結果。有一些利用不同分類器的集成方法,但是本章只介紹了那些利用同一類分類器的集成方法。

多個分類器組合可能會進一步凸顯出單分類器的不足,比如過擬合問題。如果分類器之間差別顯著,那麼多個分類器組合就可能會緩解這一問題。分類器之間的差別可以是算法本身或者是應用於算法上的數據的不同。

本章介紹的兩種集成方法是bagging和boosting。在bagging中,是通過隨機抽樣的替換方式,得到了與原始數據集規模一樣的數據集。而boosting在bagging的思路上更進了一步,它在數據集上順序應用了多個不同的分類器。另一個成功的集成方法就是隨機森林,但是由於隨機森林不如AdaBoost流行,所以本書並沒有對它進行介紹。

本章介紹了boosting方法中最流行的一個稱為AdaBoost的算法。AdaBoost以弱學習器作為基分類器,並且輸入數據,使其通過權重向量進行加權。在第一次迭代當中,所有數據都等權重。但是在後續的迭代當中,前次迭代中分錯的數據的權重會增大。這種針對錯誤的調節能力正是AdaBoost的長處。

本章以單層決策樹作為弱學習器構建了AdaBoost分類器。實際上,AdaBoost函數可以應用於任意分類器,只要該分類器能夠處理加權數據即可。AdaBoost算法十分強大,它能夠快速處理其他分類器很難處理的數據集。

非均衡分類問題是指在分類器訓練時正例數目和反例數目不相等(相差很大)。該問題在錯分正例和反例的代價不同時也存在。本章不僅考察了一種不同分類器的評價方法——ROC曲線,還介紹了正確率和召回率這兩種在類別重要性不同時,度量分類器性能的指標。

本章介紹了通過過抽樣和欠抽樣方法來調節數據集中的正例和反例數目。另外一種可能更好的非均衡問題的處理方法,就是在訓練分類器時將錯誤的代價考慮在內。

到目前為止,我們介紹了一系列強大的分類技術。本章是分類部分的最後一章,接下來我們將進入另一類監督學習算法——回歸方法,這也將完善我們對監督方法的學習。回歸很像分類,但是和分類輸出標稱型類別值不同的是,回歸方法會預測出一個連續值。