機器學習實戰：10.5 本章小結_Peter Harrington

聚類是一種無監督的學習方法。所謂無監督學習是指事先並不知道要尋找的內容，即沒有目標變量。聚類將數據點歸到多個簇中，其中相似數據點處於同一簇，而不相似數據點處於不同簇中。聚類中可以使用多種不同的方法來計算相似度。

一種廣泛使用的聚類算法是k均值算法，其中k是用戶指定的要創建的簇的數目。k均值聚類算法以k個隨機質心開始。算法會計算每個點到質心的距離。每個點會被分配到距其最近的簇質心，然後緊接著基於新分配到簇的點更新簇質心。以上過程重複數次，直到簇質心不再改變。這個簡單的算法非常有效但是也容易受到初始簇質心的影響。為了獲得更好的聚類效果，可以使用另一種稱為二分k均值的聚類算法。二分k均值算法首先將所有點作為一個簇，然後使用k均值算法（k = 2）對其劃分。下一次迭代時，選擇有最大誤差的簇進行劃分。該過程重複直到k個簇創建成功為止。二分k均值的聚類效果要好於k均值算法。

k均值算法以及變形的k均值算法並非僅有的聚類算法，另外稱為層次聚類的方法也被廣泛使用。下一章將介紹在數據集中查找關聯規則的Apriori算法。