讀古今文學網 > 機器學習實戰 > 13.4 本章小結 >

13.4 本章小結

降維技術使得數據變得更易使用,並且它們往往能夠去除數據中的噪聲,使得其他機器學習任務更加精確。降維往往作為預處理步驟,在數據應用到其他算法之前清洗數據。有很多技術可以用於數據降維,在這些技術中,獨立成分分析、因子分析和主成分分析比較流行,其中又以主成分分析應用最廣泛。

PCA可以從數據中識別其主要特徵,它是通過沿著數據最大方差方向旋轉坐標軸來實現的。選擇方差最大的方向作為第一條坐標軸,後續坐標軸則與前面的坐標軸正交。協方差矩陣上的特徵值分析可以用一系列的正交坐標軸來獲取。

本章中的PCA將所有的數據集都調入了內存,如果無法做到,就需要其他的方法來尋找其特徵值。如果使用在線PCA分析的方法,你可以參考一篇優秀的論文」Incremental Eigenanalysis for Classification」1。下一章要討論的奇異值分解方法也可以用於特徵值分析。

1. P. Hall, D. Marshall, and R. Martin, 「Incremental Eigenanalysis for Classification,」 Department of Com- puterScience, Cardiff University, 1998 British Machine Vision Conference, vol. 1, 286–95; [http:// citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.40.4801.](http:// citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.40.4801.)