讀古今文學網 > 機器學習實戰 > 11.7 本章小結 >

11.7 本章小結

關聯分析是用於發現大數據集中元素間有趣關係的一個工具集,可以採用兩種方式來量化這些有趣的關係。第一種方式是使用頻繁項集,它會給出經常在一起出現的元素項。第二種方式是關聯規則,每條關聯規則意味著元素項之間的「如果⋯⋯那麼」關係。

發現元素項間不同的組合是個十分耗時的任務,不可避免需要大量昂貴的計算資源,這就需要一些更智能的方法在合理的時間範圍內找到頻繁項集。能夠實現這一目標的一個方法是Apriori算法,它使用Apriori原理來減少在數據庫上進行檢查的集合的數目。Apriori原理是說如果一個元素項是不頻繁的,那麼那些包含該元素的超集也是不頻繁的。Apriori算法從單元素項集開始,通過組合滿足最小支持度要求的項集來形成更大的集合。支持度用來度量一個集合在原始數據中出現的頻率。

關聯分析可以用在許多不同物品上。商店中的商品以及網站的訪問頁面是其中比較常見的例子。關聯分析也曾用於查看選舉人及法官的投票歷史。

每次增加頻繁項集的大小,Apriori算法都會重新掃瞄整個數據集。當數據集很大時,這會顯著降低頻繁項集發現的速度。下一章會介紹FP-growth算法1,和Apriori算法相比,該算法只需要對數據庫進行兩次遍歷,能夠顯著加快發現繁項集的速度。

1. H. Li, Y. Wang, D. Zhang, M. Zhang, and E. Chang, 「PFP: Parallel FP-Growth for Query Recommendation,」 RecSys 2008, Proceedings of the 2008 ACM Conference on Recommender Systems; http://portal.acm.org/citation.cfm?id=1454027.