讀古今文學網 > 機器學習實戰 > 第5章 Logistic回歸 >

第5章 Logistic回歸

本章內容

  • Sigmoid函數和Logistic回歸分類器
  • 最優化理論初步
  • 梯度下降最優化算法
  • 數據中的缺失項處理

這會是激動人心的一章,因為我們將首次接觸到最優化算法。仔細想想就會發現,其實我們日常生活中遇到過很多最優化問題,比如如何在最短時間內從A點到達B點?如何投入最少工作量卻獲得最大的效益?如何設計發動機使得油耗最少而功率最大?可見,最優化的作用十分強大。接下來,我們介紹幾個最優化算法,並利用它們訓練出一個非線性函數用於分類。

讀者不熟悉回歸也沒關係,第8章起會深入介紹這一主題。假設現在有一些數據點,我們用一條直線對這些點進行擬合(該線稱為最佳擬合直線),這個擬合過程就稱作回歸。利用Logistic回歸進行分類的主要思想是:根據現有數據對分類邊界線建立回歸公式,以此進行分類。這裡的「回歸」一詞源於最佳擬合,表示要找到最佳擬合參數集,其背後的數學分析將在下一部分介紹。訓練分類器時的做法就是尋找最佳擬合參數,使用的是最優化算法。接下來介紹這個二值型輸出分類器的數學原理。

Logistic回歸的一般過程

  1. 收集數據:採用任意方法收集數據。
  2. 準備數據:由於需要進行距離計算,因此要求數據類型為數值型。另外,結構化數據格式則最佳。
  3. 分析數據:採用任意方法對數據進行分析。
  4. 訓練算法:大部分時間將用於訓練,訓練的目的是為了找到最佳的分類回歸係數。
  5. 測試算法:一旦訓練步驟完成,分類將會很快。
  6. 使用算法:首先,我們需要一些輸入數據,並將其轉換成對應的結構化數值;接著,基於訓練好的回歸係數就可以對這些數值進行簡單的回歸計算,判定它們屬於哪個類別;在這之後,我們就可以在輸出的類別上做一些其他分析工作。

本章首先闡述Logistic回歸的定義,然後介紹一些最優化算法,其中包括基本的梯度上升法和一個改進的隨機梯度上升法,這些最優化算法將用於分類器的訓練。本章最後會給出一個Logistic回歸的實例,預測一匹病馬是否能被治癒。