機器學習實戰：第4章基於概率論的分類方法：樸素貝葉斯_Peter Harrington

本章內容

使用概率分佈進行分類

學習樸素貝葉斯分類器

解析RSS源數據

使用樸素貝葉斯來分析不同地區的態度

前兩章我們要求分類器做出艱難決策，給出「該數據實例屬於哪一類」這類問題的明確答案。不過，分類器有時會產生錯誤結果，這時可以要求分類器給出一個最優的類別猜測結果，同時給出這個猜測的概率估計值。

概率論是許多機器學習算法的基礎，所以深刻理解這一主題就顯得十分重要。第3章在計算特徵值取某個值的概率時涉及了一些概率知識，在那裡我們先統計特徵在數據集中取某個特定值的次數，然後除以數據集的實例總數，就得到了特徵取該值的概率。我們將在此基礎上深入討論。

本章會給出一些使用概率論進行分類的方法。首先從一個最簡單的概率分類器開始，然後給出一些假設來學習樸素貝葉斯分類器。我們稱之為「樸素」，是因為整個形式化過程只做最原始、最簡單的假設。不必擔心，你會詳細瞭解到這些假設。我們將充分利用Python的文本處理能力將文檔切分成詞向量，然後利用詞向量對文檔進行分類。我們還將構建另一個分類器，觀察其在真實的垃圾郵件數據集中的過濾效果，必要時還會回顧一下條件概率。最後，我們將介紹如何從個人發佈的大量廣告中學習分類器，並將學習結果轉換成人類可理解的信息。