機器學習實戰：第5章 Logistic回歸_Peter Harrington

本章內容

Sigmoid函數和Logistic回歸分類器

最優化理論初步

梯度下降最優化算法

數據中的缺失項處理

這會是激動人心的一章，因為我們將首次接觸到最優化算法。仔細想想就會發現，其實我們日常生活中遇到過很多最優化問題，比如如何在最短時間內從A點到達B點？如何投入最少工作量卻獲得最大的效益？如何設計發動機使得油耗最少而功率最大？可見，最優化的作用十分強大。接下來，我們介紹幾個最優化算法，並利用它們訓練出一個非線性函數用於分類。

讀者不熟悉回歸也沒關係，第8章起會深入介紹這一主題。假設現在有一些數據點，我們用一條直線對這些點進行擬合（該線稱為最佳擬合直線），這個擬合過程就稱作回歸。利用Logistic回歸進行分類的主要思想是：根據現有數據對分類邊界線建立回歸公式，以此進行分類。這裡的「回歸」一詞源於最佳擬合，表示要找到最佳擬合參數集，其背後的數學分析將在下一部分介紹。訓練分類器時的做法就是尋找最佳擬合參數，使用的是最優化算法。接下來介紹這個二值型輸出分類器的數學原理。

Logistic回歸的一般過程

收集數據：採用任意方法收集數據。

準備數據：由於需要進行距離計算，因此要求數據類型為數值型。另外，結構化數據格式則最佳。

分析數據：採用任意方法對數據進行分析。

訓練算法：大部分時間將用於訓練，訓練的目的是為了找到最佳的分類回歸係數。

測試算法：一旦訓練步驟完成，分類將會很快。

使用算法：首先，我們需要一些輸入數據，並將其轉換成對應的結構化數值；接著，基於訓練好的回歸係數就可以對這些數值進行簡單的回歸計算，判定它們屬於哪個類別；在這之後，我們就可以在輸出的類別上做一些其他分析工作。

本章首先闡述Logistic回歸的定義，然後介紹一些最優化算法，其中包括基本的梯度上升法和一個改進的隨機梯度上升法，這些最優化算法將用於分類器的訓練。本章最後會給出一個Logistic回歸的實例，預測一匹病馬是否能被治癒。