讀古今文學網 > 機器學習實戰 > 10.5 本章小結 >

10.5 本章小結

聚類是一種無監督的學習方法。所謂無監督學習是指事先並不知道要尋找的內容,即沒有目標變量。聚類將數據點歸到多個簇中,其中相似數據點處於同一簇,而不相似數據點處於不同簇中。聚類中可以使用多種不同的方法來計算相似度。

一種廣泛使用的聚類算法是k均值算法,其中k是用戶指定的要創建的簇的數目。k均值聚類算法以k個隨機質心開始。算法會計算每個點到質心的距離。每個點會被分配到距其最近的簇質心,然後緊接著基於新分配到簇的點更新簇質心。以上過程重複數次,直到簇質心不再改變。這個簡單的算法非常有效但是也容易受到初始簇質心的影響。為了獲得更好的聚類效果,可以使用另一種稱為二分k均值的聚類算法。二分k均值算法首先將所有點作為一個簇,然後使用k均值算法(k = 2)對其劃分。下一次迭代時,選擇有最大誤差的簇進行劃分。該過程重複直到k個簇創建成功為止。二分k均值的聚類效果要好於k均值算法。

k均值算法以及變形的k均值算法並非僅有的聚類算法,另外稱為層次聚類的方法也被廣泛使用。下一章將介紹在數據集中查找關聯規則的Apriori算法。