讀古今文學網 > 機器學習實戰 > 第4章 基於概率論的分類方法:樸素貝葉斯 >

第4章 基於概率論的分類方法:樸素貝葉斯

本章內容

  • 使用概率分佈進行分類
  • 學習樸素貝葉斯分類器
  • 解析RSS源數據
  • 使用樸素貝葉斯來分析不同地區的態度

前兩章我們要求分類器做出艱難決策,給出 「該數據實例屬於哪一類」這類問題的明確答案。不過,分類器有時會產生錯誤結果,這時可以要求分類器給出一個最優的類別猜測結果,同時給出這個猜測的概率估計值。

概率論是許多機器學習算法的基礎,所以深刻理解這一主題就顯得十分重要。第3章在計算特徵值取某個值的概率時涉及了一些概率知識,在那裡我們先統計特徵在數據集中取某個特定值的次數,然後除以數據集的實例總數,就得到了特徵取該值的概率。我們將在此基礎上深入討論。

本章會給出一些使用概率論進行分類的方法。首先從一個最簡單的概率分類器開始,然後給出一些假設來學習樸素貝葉斯分類器。我們稱之為「樸素」,是因為整個形式化過程只做最原始、最簡單的假設。不必擔心,你會詳細瞭解到這些假設。我們將充分利用Python的文本處理能力將文檔切分成詞向量,然後利用詞向量對文檔進行分類。我們還將構建另一個分類器,觀察其在真實的垃圾郵件數據集中的過濾效果,必要時還會回顧一下條件概率。最後,我們將介紹如何從個人發佈的大量廣告中學習分類器,並將學習結果轉換成人類可理解的信息。