讀古今文學網 > 機器學習實戰 > 第7章 利用AdaBoost元算法提高分類性能 >

第7章 利用AdaBoost元算法提高分類性能

本章內容

  • 組合相似的分類器來提高分類性能
  • 應用AdaBoost算法
  • 處理非均衡分類問題

當做重要決定時,大家可能都會考慮吸取多個專家而不只是一個人的意見。機器學習處理問題時又何嘗不是如此?這就是元算法(meta-algorithm)背後的思路。元算法是對其他算法進行組合的一種方式。接下來我們將集中關注一個稱作AdaBoost的最流行的元算法。由於某些人認為AdaBoost是最好的監督學習的方法,所以該方法是機器學習工具箱中最強有力的工具之一。

本章首先討論不同分類器的集成方法,然後主要關注boosting方法及其代表分類器Adaboost。再接下來,我們就會建立一個單層決策樹(decision stump)分類器。實際上,它是一個單節點的決策樹。AdaBoost算法將應用在上述單層決策樹分類器之上。我們將在一個難數據集上應用AdaBoost分類器,以瞭解該算法是如何迅速超越其他分類器的。

最後,在結束分類話題之前,我們將討論所有分類器都會遇到的一個通用問題:非均衡分類問題。當我們試圖對樣例數目不均衡的數據進行分類時,就會遇到這個問題。信用卡使用中的欺詐檢測就是非均衡問題中的一個極好的例子,此時我們可能會對每一個正例樣本都有1000個反例樣本。在這種情況下,分類器將如何工作?讀者將會瞭解到,可能需要利用修改後的指標來評價分類器的性能。而就這個問題而言,並非AdaBoost所獨用,只是因為這是分類的最後一章,因此到了討論這個問題的最佳時機。