讀古今文學網 > 機器學習實戰 > 4.8 本章小結 >

4.8 本章小結

對於分類而言,使用概率有時要比使用硬規則更為有效。貝葉斯概率及貝葉斯準則提供了一種利用已知值來估計未知概率的有效方法。

可以通過特徵之間的條件獨立性假設,降低對數據量的需求。獨立性假設是指一個詞的出現概率並不依賴於文檔中的其他詞。當然我們也知道這個假設過於簡單。這就是之所以稱為樸素貝葉斯的原因。儘管條件獨立性假設並不正確,但是樸素貝葉斯仍然是一種有效的分類器。   利用現代編程語言來實現樸素貝葉斯時需要考慮很多實際因素。下溢出就是其中一個問題,它可以通過對概率取對數來解決。詞袋模型在解決文檔分類問題上比詞集模型有所提高。還有其他一些方面的改進,比如說移除停用詞,當然也可以花大量時間對切分器進行優化。

本章學習到的概率理論將在後續章節中用到,另外本章也給出了有關貝葉斯概率理論全面具體的介紹。接下來的一章將暫時不再討論概率理論這一話題,介紹另一種稱作Logistic回歸的分類方法及一些優化算法。