讀古今文學網 > 機器學習實戰 > 4.3 使用條件概率來分類 >

4.3 使用條件概率來分類

4.1節提到貝葉斯決策理論要求計算兩個概率p1(x, y)p2(x, y)

  • 如果p1(x, y) > p2(x, y),那麼屬於類別1;
  • 如果p2(x, y) > p1(x, y),那麼屬於類別2。

但這兩個準則並不是貝葉斯決策理論的所有內容。使用p1( )p2( )只是為了盡可能簡化描述,而真正需要計算和比較的是p(c₁|x, y)p(c₂|x, y)。這些符號所代表的具體意義是:給定某個由x、y表示的數據點,那麼該數據點來自類別c₁的概率是多少?數據點來自類別c₂的概率又是多少?注意這些概率與剛才給出的概率p(x, y|c₁)並不一樣,不過可以使用貝葉斯準則來交換概率中條件與結果。具體地,應用貝葉斯準則得到:

使用這些定義,可以定義貝葉斯分類準則為:

  • 如果P(c₁|x, y) > P(c₂|x, y),那麼屬於類別c₁
  • 如果P(c₁|x, y) < P(c₂|x, y),那麼屬於類別c₂

使用貝葉斯準則,可以通過已知的三個概率值來計算未知的概率值。後面就會給出利用貝葉斯準則來計算概率並對數據進行分類的代碼。現在介紹了一些概率理論,你也瞭解了基於這些理論構建分類器的方法,接下來就要將它們付諸實踐。下一節會介紹一個簡單但功能強大的貝葉斯分類器的應用案例。