機器學習實戰：11.7 本章小結_Peter Harrington

關聯分析是用於發現大數據集中元素間有趣關係的一個工具集，可以採用兩種方式來量化這些有趣的關係。第一種方式是使用頻繁項集，它會給出經常在一起出現的元素項。第二種方式是關聯規則，每條關聯規則意味著元素項之間的「如果⋯⋯那麼」關係。

發現元素項間不同的組合是個十分耗時的任務，不可避免需要大量昂貴的計算資源，這就需要一些更智能的方法在合理的時間範圍內找到頻繁項集。能夠實現這一目標的一個方法是Apriori算法，它使用Apriori原理來減少在數據庫上進行檢查的集合的數目。Apriori原理是說如果一個元素項是不頻繁的，那麼那些包含該元素的超集也是不頻繁的。Apriori算法從單元素項集開始，通過組合滿足最小支持度要求的項集來形成更大的集合。支持度用來度量一個集合在原始數據中出現的頻率。

關聯分析可以用在許多不同物品上。商店中的商品以及網站的訪問頁面是其中比較常見的例子。關聯分析也曾用於查看選舉人及法官的投票歷史。

每次增加頻繁項集的大小，Apriori算法都會重新掃瞄整個數據集。當數據集很大時，這會顯著降低頻繁項集發現的速度。下一章會介紹FP-growth算法1，和Apriori算法相比，該算法只需要對數據庫進行兩次遍歷，能夠顯著加快發現繁項集的速度。

1. H. Li, Y. Wang, D. Zhang, M. Zhang, and E. Chang, 「PFP: Parallel FP-Growth for Query Recommendation,」 RecSys 2008, Proceedings of the 2008 ACM Conference on Recommender Systems; http://portal.acm.org/citation.cfm?id=1454027.