讀古今文學網 > 機器學習實戰 > 第四部分 其他工具 >

第四部分 其他工具

本書第四部分即是最後一部分,主要介紹在機器學習實踐時常用的一些其他工具,它們可以應用於前三部分的算法上。這些工具還包括了可以對前三部分中任一算法的輸入數據進行預處理的降維技術。這一部分還包括了在上千台機器上分配作業的Map Reduce技術。

降維的目標就是對輸入的數目進行削減,由此剔除數據中的噪聲並提高機器學習方法的性能。第13章將介紹按照數據方差最大方向調整數據的主成分分析降維方法。第14章解釋奇異值分解,它是矩陣分解技術中的一種,通過對原始數據的逼近來達到降維的目的。

第15章是本書的最後一章,主要討論了在大數據下的機器學習。大數據(big data)指的就是數據集很大以至於內存不足以將其存放。如果數據不能在內存中存放,那麼在內存和磁盤之間傳輸數據時就會浪費大量的時間。為了避免這一點,我們就可以將整個作業進行分片,這樣就可以在多機下進行並行處理。Map Reduce就是實現上述過程的一種流行的方法,它將作業分成了Map任務和Reduce任務。第15章將介紹Python中Map Reduce實現的一些常用工具,同時也介紹了將機器學習轉換成滿足Map Reduce編程範式的方法。