機器學習實戰：第2章 k-近鄰算法_Peter Harrington

本章內容

k近鄰分類算法

從文本文件中解析和導入數據

使用Matplotlib創建擴散圖

歸一化數值

眾所周知，電影可以按照題材分類，然而題材本身是如何定義的?由誰來判定某部電影屬於哪個題材?也就是說同一題材的電影具有哪些公共特徵?這些都是在進行電影分類時必須要考慮的問題。沒有哪個電影人會說自己製作的電影和以前的某部電影類似，但我們確實知道每部電影在風格上的確有可能會和同題材的電影相近。那麼動作片具有哪些共有特徵，使得動作片之間非常類似，而與愛情片存在著明顯的差別呢？動作片中也會存在接吻鏡頭，愛情片中也會存在打鬥場景，我們不能單純依靠是否存在打鬥或者親吻來判斷影片的類型。但是愛情片中的親吻鏡頭更多，動作片中的打鬥場景也更頻繁，基於此類場景在某部電影中出現的次數可以用來進行電影分類。本章第一節基於電影中出現的親吻、打鬥出現的次數，使用k近鄰算法構造程序，自動劃分電影的題材類型。我們首先使用電影分類講解k近鄰算法的基本概念，然後學習如何在其他系統上使用k近鄰算法。

本章介紹第一個機器學習算法：k近鄰算法，它非常有效而且易於掌握。首先，我們將探討k近鄰算法的基本理論，以及如何使用距離測量的方法分類物品；接著，我們將使用Python從文本文件中導入並解析數據；然後，本書討論了當存在許多數據來源時，如何避免計算距離時可能碰到的一些常見錯誤；最後，利用實際的例子講解如何使用k近鄰算法改進約會網站和手寫數字識別系統。