讀古今文學網 > 機器學習實戰 > 12.6 本章小結 >

12.6 本章小結

FP-growth算法是一種用於發現數據集中頻繁模式的有效方法。FP-growth算法利用Apriori原則,執行更快。Apriori算法產生候選項集,然後掃瞄數據集來檢查它們是否頻繁。由於只對數據集掃瞄兩次,因此FP-growth算法執行更快。在FP-growth算法中,數據集存儲在一個稱為FP樹的結構中。FP樹構建完成後,可以通過查找元素項的條件基及構建條件FP樹來發現頻繁項集。該過程不斷以更多元素作為條件重複進行,直到FP樹只包含一個元素為止。

可以使用FP-growth算法在多種文本文檔中查找頻繁單詞。Twitter網站為開發者提供了大量的API來使用他們的服務。利用Python模塊Python-Twitter可以很容易訪問Twitter。在Twitter源上對某個話題應用FP-growth算法,可以得到一些有關該話題的摘要信息。頻繁項集生成還有其他的一些應用,比如購物交易、醫學診斷及大氣研究等。

下面幾章會介紹一些附屬工具。第13章和第14章會介紹一些降維技術,使用這些技術可以提煉數據中的重要信息並且移除噪聲。第14章會介紹Map Reduce技術,當數據量超過單台機器的處理能力時,將會需要這些技術。