讀古今文學網 > 機器學習實戰 > 第13章 利用PCA來簡化數據 >

第13章 利用PCA來簡化數據

本章內容

  • 降維技術
  • 主成分分析(PCA)
  • 對半導體數據進行降維處理

想像這樣一種場景:我們正通過電視而非現場觀看體育比賽,在電視的純平顯示器上有一個球。顯示器大概包含了100萬像素,而球則可能是由較少的像素組成的,比如說一千個像素。在大部分體育比賽中,我們關注的是給定時刻球的位置。人的大腦要想瞭解比賽的進展,就需要瞭解球在運動場中的位置。對於人來說,這一切顯得十分自然,甚至都不需要做任何思考。在這個場景當中,人們實時地將顯示器上的百萬像素轉換成為了一個三維圖像,該圖像就給出了運動場上球的位置。在這個過程中,人們已經將數據從一百萬維降至了三維。

在上述體育比賽的例子中,人們面對的原本是百萬像素的數據,但是只有球的三維位置才最重要,這就被稱為降維(dimensionality reduction)。剛才我們將超百萬的數據值降到了只有三個相關值。在低維下,數據更容易進行處理。另外,其相關特徵可能在數據中明確地顯示出來。通常而言,我們在應用其他機器學習算法之前,必須先識別出其相關特徵。

本章是涉及降維主題的兩章中的第一章。在降維中,我們對數據進行了預處理。之後,採用其他機器學習技術對其進行處理。本章一開始對降維技術進行了綜述,然後集中介紹一種應用非常普遍的稱為主成分分析的技術。最後,我們就通過一個數據集的例子來展示PCA的工作過程。經過PCA處理之後,該數據集就從590個特徵降低到了6個特徵。