讀古今文學網 > 機器學習實戰 > 第11章 使用Apriori算法進行關聯分析 >

第11章 使用Apriori算法進行關聯分析

本章內容

  • Apriori算法
  • 頻繁項集生成
  • 關聯規則生成
  • 投票中的關聯規則發現

在去雜貨店買東西的過程,實際包含了許多機器學習的當前及未來應用,這包括物品的展示方式、購物之後優惠券的提供以及用戶忠誠度計劃,等等。它們都離不開對大量數據的分析。商店希望從顧客身上獲得盡可能多的利潤,所以他們必然會利用各種技術來達到這一目的。

忠誠度計劃是指顧客使用會員卡可以獲得一定的折扣,利用這種計劃,商店可以瞭解顧客所購買的商品。即使顧客不使用會員卡,商店也會查看顧客購買商品所使用的信用卡記錄。如果顧客不使用信用卡而使用現金付款,商店則可以查看顧客一起購買的商品(如果想知道商店所使用的更多技術,請參考Stephen Baker寫的The Numerati一書)。

通過查看哪些商品經常在一起購買,可以幫助商店瞭解用戶的購買行為。這種從數據海洋中抽取的知識可以用於商品定價、市場促銷、存貨管理等環節。從大規模數據集中尋找物品間的隱含關係被稱作關聯分析(association analysis)或者關聯規則學習(association rule learning)。這裡的主要問題在於,尋找物品的不同組合是一項十分耗時的任務,所需的計算代價很高,蠻力搜索方法並不能解決這個問題,所以需要用更智能的方法在合理的時間範圍內找到頻繁項集。本章將介紹如何使用Apriori算法來解決上述問題。

下面首先詳細討論關聯分析,然後討論Apriori原理,Apriori算法正是基於該原理得到的。接下來創建函數頻繁項集高效發現的函數,然後從頻繁項集中抽取出關聯規則。本章最後給出兩個例子,一個是從國會投票記錄中抽取出關聯規則,另一個是發現毒蘑菇的共同特徵。