讀古今文學網 > 人工智能的進化 > 自適應機器學習 >

自適應機器學習

當下,人工智能在科技領域受到普遍關注。各大報紙、雜誌的科技和商業版塊,幾乎每個星期都會談到人工智能,它們告訴我們,諸如微軟、IBM(國際商用機器公司)、谷歌和蘋果等大型科技公司都在人工智能的研發領域大量投入,其他公司也都競相效仿。2015年11月,豐田公司宣佈在人工智能領域投資10億美元;2015年12月,埃隆·馬斯克(Elon Musk)宣佈新成立一家名為OpenAI的非營利性企業,研究人工智能,並對其另外注資10億美元。

資本市場為何會出現這樣的喧囂?如果仔細研究一下投資者對於這數十億美元的預期,你會發現,這裡的人工智能技術似乎與科幻小說和電影中想像的人工智能大相逕庭。基本沒人談論諸如電影《銀翼殺手》(Blade Runner)中所看到的人形智能機器人,或者電影《2001:太空漫遊》中的高能無形智能機器(哈爾9000計算機)。

當下,眾多科技公司摩拳擦掌準備開發的這種人工智能,更應該被稱為「自適應機器學習」(adaptive machine learning),即AML。廣義來說,AML的設計理念是讓計算機系統通過對大量數據進行分析,掌握智能行為方式。確切地說,目前人們對於人工智能的興奮點主要在於挖掘並應用我們通常所說的「大數據」。

在此,我們不去深究任何AML技術如何開展工作這樣的細節問題,只討論其背後的理念。

出於論證的需要,假設我們想讓計算機系統對貓進行識別。那麼,該系統的工作就是將給定的眾多圖像分成兩類:一類圖像上有貓的樣子,另一類圖像上沒有。接下來的問題就是如何建立這樣一個系統。過去,人工智能程序員往往會編寫出一款程序,在圖像中搜尋貓的一些具體特徵。例如,搜索貓的臉:泛綠色或泛黃色的眼睛、杏仁狀的豎直瞳孔、倒置的粉色三角形一樣的鼻子、鬍鬚等;也可能會搜索貓的輪廓:小小的腦袋、三角形的耳朵、四條腿和向上翹起的尾巴,還可能會搜索貓身上毛皮的獨特顏色。如果該程序在某個圖像當中發現了足夠多的上述特徵,就會將該圖像標記為一隻貓;如果沒有,則會將其忽略。

但是AML提出了一種完全不同的理念。首先,你向系統提供大量數字圖像,其中一些是貓的圖像,另一些不是。然後告訴系統通過某種方式壓縮所有圖像數據,即在眾多圖像的眾多補丁當中搜索一組「特徵」。這種特徵可能是某一特定顏色和亮度,也可能是某個區域,區域的邊緣在亮度和顏色上明顯與其他部分不同。這一理念的目的是通過找到這樣一組特徵,進行重新組合併構建與原始圖像相似的內容。然後,你讓系統根據這些特徵繼續進行抽像分析,在這些特徵當中尋找普遍性,隨後如此繼續進行幾個層次的分析。

這一切都是在不告知系統具體要搜索什麼的情況下完成的。如果原始圖像裡有很多貓的圖像,那麼系統就很可能會在更高層面上分析出一些與貓相關的特徵。而且重要的是,這些特徵全部由原始圖像決定,而非人工智能程序員決定如何在圖像中識別貓。正如斯坦福大學的吳恩達(Andrew Ng)所說:「你將海量數據輸入程序,讓數據說話,讓軟件自動從數據中學習。」

人們發現,AML在這種所謂「無監督」的環境下運轉極其良好,完全超出幾十年前人工智能研究人員做出的預測。AML的成功可以歸結於以下三點:擁有可供分析處理的海量數據(通過在線、專業存儲設備或傳感裝置獲取),掌握功能強大的能夠處理這些數據的計算技術,以及高速計算機。而這些條件,在30年前並不具備。

當然,不會有人願意斥資數十億美元,僅僅是為了識別貓。但是你想一下,如果這些不是貓而是乳腺的影像,其中一些還藏有醫生難以發現的腫瘤,結果會怎樣?或者假設這些根本就不是可視數據,而是一段段錄音,其中包含有關人士所說的幾句話?或者假設這是銀行的交易數據,其中還涉及欺詐或洗錢?或者是人們在線購物過程中瀏覽和購買商品的歷史記錄,抑或是與汽車前風擋玻璃處視覺數據相對應的腳踏板和方向盤運動軌跡?計算機系統能夠自動分析這些海量數據,從中獲得規律,並應用於極具經濟和社會效益的領域。