讀古今文學網 > 機器學習實戰 > 1.1 何謂機器學習 >

1.1 何謂機器學習

除卻一些無關緊要的情況,人們很難直接從原始數據本身獲得所需信息。例如,對於垃圾郵件的檢測,偵測一個單詞是否存在並沒有太大的作用,然而當某幾個特定單詞同時出現時,再輔以考察郵件長度及其他因素,人們就可以更準確地判定該郵件是否為垃圾郵件。簡單地說,機器學習就是把無序的數據轉換成有用的信息。

機器學習橫跨計算機科學、工程技術和統計學等多個學科,需要多學科的專業知識。稍後你就能瞭解到,它也可以作為實際工具應用於從政治到地質學的多個領域,解決其中的很多問題。甚至可以這麼說,機器學習對於任何需要解釋並操作數據的領域都有所裨益。

機器學習用到了統計學知識。在多數人看來,統計學不過是企業用以炫耀產品功能的一種詭計而已。(Darell Huff曾寫過一本《如何使用統計學說謊》(How to Lie With Statistics)的書,頗具諷刺意味的是,它也是有史以來賣得最好的統計學書。)那麼我們這些人為什麼還要利用統計學呢?拿工程實踐來說,它要利用科學知識來解決具體問題,在該領域中,我們常會面對那種解法確鑿不變的問題。假如要編寫自動售貨機的控制軟件,那就最好能讓它在任何時候都能正確運行,而不必讓人們再考慮塞進的錢或按下的按鈕。然而,在現實世界中,並不是每個問題都存在確定的解決方案。在很多時候,我們都無法透徹地理解問題,或者沒有足夠的計算資源為問題精確建立模型,例如我們無法給人類活動的動機建立模型。為了解決這些問題,我們就需要使用統計學知識。

在社會科學領域,正確率達60%以上的分析被認為是非常成功的。如果能準確地預測人類當下60%的行為,那就很棒了。這怎麼可以呢?難道我們不應該一直都保持完美地預測嗎?如果真的達不到,是否意味著我們做錯了什麼?

人類對自身的極樂有著必然的追求。由此生發,我們為何不能準確地預測人們所參與事件的結果呢?」瞧!這些問題就十分經典。我們不可能對它們建立一種精確模型。如何能讓眾生以同樣的方式獲得幸福?很難,因為大家對幸福的理解都是迥異不同的。因此,即使人們能達到極樂境地這一假定是成立的,但如此複雜的幸福也使得我們很難對其建立正確的模型。除了人類行為,現實世界中存在著很多例子,我們無法為之建立精確的數學模型,而為了解決這類問題,我們就需要統計學工具。

1.1.1 傳感器和海量數據

雖然我們已從互聯網上獲取了大量的人為數據,但最近卻湧現了更多的非人為數據。傳感器技術並不時髦,但如何將它們接入互聯網確實是新的挑戰。有預測表明,在本書出版後不久,20%的互聯網非視頻流量都將由物理傳感器產生1。

地震預測就是一個很好的例子,傳感器收集了海量的數據,如何從這些數據中抽取出有價值的信息是一個非常值得研究的課題。1989年,洛馬·普列埃塔地震襲擊了北加利福尼亞州,63人死亡,3757人受傷,成千上萬人無家可歸;然而,相同規模的地震2010年襲擊了海地,死亡人數卻超過23萬。洛馬·普列埃塔地震後不久,一份研究報告宣稱低頻磁場檢測可以預測地震2, 但後續的研究顯示,最初的研究並沒有考慮諸多環境因素,因而存在著明顯的缺陷3-4。如果我們想要重做這個研究,以便更好地理解我們這個星球,尋找預測地震的方法,避免災難性的後果,那麼我們該如何入手才能更好地從事該研究呢?我們可以自己掏錢購買磁力計,然後再買一些地來安放它們,當然也可以尋求政府的幫助,讓他們來處理這些事。但即便如此,我們也無法保證磁力計沒有受到任何干擾,另外,我們又該如何獲取磁力計的讀數呢?這些都不是理想的解決方法,使用移動電話可以低成本的解決這個問題。

現今市面上銷售的移動電話和智能手機均帶有三軸磁力計,智能手機還有操作系統,可以運行我們編寫的應用軟件,十幾行代碼就可以讓手機按照每秒上百次的頻率讀取磁力計的數據。此外,移動電話上已經安裝了通信系統,如果可以說服人們安裝運行磁力計讀取軟件,我們就可以記錄下大量的磁力計數據,而附帶的代價則是非常小的。除了磁力計,智能電話還封裝了很多其他傳感器,如偏航率陀螺儀、三軸加速計、溫度傳感器和GPS接收器,這些傳感器都可以用於測量研究。

移動計算和傳感器產生的海量數據意味著未來我們將面臨著越來越多的數據,如何從海量數據中抽取到有價值的信息將是一個非常重要的課題。

1. 參見http://www.gartner.com/it/page.jsp?id=876512,2010年7月29日早晨4點36分檢索到的數據。

2. Fraser-Smith et al., 「Low-frequency magnetic field measurements near the epicenter of the Ms 7.1 Loma Prieta earthquake,」 Geophysical Research Letters 17 ,no. 9 (August 1990), 1465–68.

3. W. H. Campbell, 「Natural magnetic disturbance fields, not precursors, preceding the Loma Prieta earthquake,」 Journal of Geophysical Research 114, A05307, doi:10.1029/2008JA013932 (2009).

4. J. N. Thomas, J. J. Love, and M. J. S. Johnston, 「On the reported magnetic precursor of the 1989 Loma Prieta earthquake,」 Physics of the Earth and Planetary Interiors 173, no. 3–4 (2009), 207–15.

1.1.2 機器學習非常重要

在過去的半個世紀裡,發達國家的多數工作崗位都已從體力勞動轉化為腦力勞動。過去的工作基本上都有明確的定義,類似於把物品從A處搬到B處,或者在這裡打個洞,但是現在這類工作都在逐步消失。現今的情況具有很大的二義性,類似於「最大化利潤」,「最小化風險」、「找到最好的市場策略」......諸如此類的任務要求都已成為常態。雖然可從互聯網上獲取到海量數據,但這並沒有簡化知識工人的工作難度。針對具體任務搞懂所有相關數據的意義所在,這正成為基本的技能要求。正如谷歌公司的首席經濟學家Hal Varian所說的那樣:

「我不斷地告訴大家,未來十年最熱門的職業是統計學家。很多人認為我是開玩笑,誰又能想到計算機工程師會是20世紀90年代最誘人的職業呢?如何解釋數據、處理數據、從中抽取價值、展示和交流數據結果,在未來十年將是最重要的職業技能,甚至是大學,中學,小學的學生也必需具備的技能,因為我們每時每刻都在接觸大量的免費信息,如何理解數據、從中抽取有價值的信息才是其中的關鍵。這裡統計學家只是其中的一個關鍵環節,我們還需要合理的展示數據、交流和利用數據。我確實認為,能夠從數據分析中領悟到有價值信息是非常重要的。職業經理人尤其需要能夠合理使用和理解自己部門產生的數據。」

——McKinsey Quarterly,2009年1月

大量的經濟活動都依賴於信息,我們不能在海量的數據中迷失,機器學習將有助於我們穿越數據霧靄,從中抽取出有用的信息。在開始學習這方面的知識之前,我們必須掌握一些基本的術語,以方便後續章節的討論。