機器學習實戰：第一部分分類_Peter Harrington

本書前兩部分主要探討監督學習（supervised learning）。在監督學習的過程中，我們只需要給定輸入樣本集，機器就可以從中推演出指定目標變量的可能結果。

監督學習相對比較簡單，機器只需從輸入數據中預測合適的模型，並從中計算出目標變量的結果。監督學習一般使用兩種類型的目標變量：標稱型和數值型。標稱型目標變量的結果只在有限目標集中取值，如真與假、動物分類集合{ 爬行類、魚類、哺乳類、兩棲類} ；數值型目標變量則可以從無限的數值集合中取值，如0.100、42.001、1000.743 等。數值型目標變量主要用於回歸分析，將在本書的第二部分研究，第一部分主要介紹分類。

本書的前七章主要研究分類算法，第2 章講述最簡單的分類算法：k- 近鄰算法，它使用某種距離計算方法進行分類；第3 章引入了決策樹，它比較直觀，容易理解，但是相對難於實現；第4 章將討論如何使用概率論建立分類器；第5 章將討論Logistic 回歸，如何使用最優參數正確地分類原始數據，在搜索最優參數的過程中，將使用幾個經常用到的優化算法；第6 章介紹了非常流行的支持向量機；第一部分最後的第7 章將介紹元算法——AdaBoost，它由若干個分類器構成，此外還總結了第一部分探討的分類算法在實際使用中可能面對的非均衡分類問題，一旦訓練樣本某個分類的數據多於其他分類的數據，就會產生非均衡分類問題。