機器學習實戰：第7章利用AdaBoost元算法提高分類性能_Peter Harrington

本章內容

組合相似的分類器來提高分類性能

應用AdaBoost算法

處理非均衡分類問題

當做重要決定時，大家可能都會考慮吸取多個專家而不只是一個人的意見。機器學習處理問題時又何嘗不是如此？這就是元算法（meta-algorithm）背後的思路。元算法是對其他算法進行組合的一種方式。接下來我們將集中關注一個稱作AdaBoost的最流行的元算法。由於某些人認為AdaBoost是最好的監督學習的方法，所以該方法是機器學習工具箱中最強有力的工具之一。

本章首先討論不同分類器的集成方法，然後主要關注boosting方法及其代表分類器Adaboost。再接下來，我們就會建立一個單層決策樹（decision stump）分類器。實際上，它是一個單節點的決策樹。AdaBoost算法將應用在上述單層決策樹分類器之上。我們將在一個難數據集上應用AdaBoost分類器，以瞭解該算法是如何迅速超越其他分類器的。

最後，在結束分類話題之前，我們將討論所有分類器都會遇到的一個通用問題：非均衡分類問題。當我們試圖對樣例數目不均衡的數據進行分類時，就會遇到這個問題。信用卡使用中的欺詐檢測就是非均衡問題中的一個極好的例子，此時我們可能會對每一個正例樣本都有1000個反例樣本。在這種情況下，分類器將如何工作？讀者將會瞭解到，可能需要利用修改後的指標來評價分類器的性能。而就這個問題而言，並非AdaBoost所獨用，只是因為這是分類的最後一章，因此到了討論這個問題的最佳時機。