讀古今文學網 > 人工智能的進化 > 留給我們的困難 >

留給我們的困難

在結束這個話題之前,我們仍然需要進一步搞清為什麼不能從心理學和神經科學等領域找到我們想要的答案,即人腦究竟是如何工作的。為了說明這一點,我們先用一台簡易設備做個思想實驗,便於我們進行分析。

假設有一台簡易設備連接著發聲器、燈泡和鍵盤。只要有人通過鍵盤輸入一個兩位數的數字,這台設備就會嘟嘟作響,並發出亮光。我們把這個機器稱作M。我們暫且將M視為一個簡單的大腦,鍵盤是其唯一的感知器官,發聲器和燈泡是其唯一的效應器。假設你的工作就是搞清該設備為何能以這種方式發聲、閃光。這個實驗能夠讓我們很好地理解智能行為背後的意義,因此非常重要。

現在,我們假設在鍵盤上按順序輸入數字37、42、53、16和37,M與之對應的行為如下所示:

那麼為什麼會出現這樣的結果呢?

我先給出答案再解釋原理。M是一台連接鍵盤、發聲器和燈泡的小型數字計算機:不斷地通過鍵盤接收數字,作為輸入;同時根據一款微型計算機程序,發出聲音和閃光,作為輸出。

控制M的整個程序如下文所示(不想瞭解該微型電腦程序的讀者可以跳過代碼後一段內容)。

若想弄清其工作原理,就要注意其使用的是整數運算,Mod指的是除法之後所得的餘數。所以37除以10所得的值應該是3,而37與10的Mod值是7。例如,第一次在鍵盤上輸入37的時候,M發出一次響聲並閃爍6次。原因在於:根據下文所示,W被設為37,X被設為3,Y被設為3×3+7=16,16除以10等於1,而16與10的Mod值為6。當第二次在鍵盤上輸入37時(第5組數字),結果就是3次響聲和2次閃爍,因為這時的U是5(第3組數字),並且因為5>3,Y就被設為5×5+7=32。

所以秘密就在這裡。瞭解這些之後,現在假設對於上文中的程序一無所知,而你的任務就是搞清M的工作原理。

我們現在假設自己是心理學家,對M進行實驗,並觀察其行為。雖然可能的輸入方式不過100種,但即使在這種相對簡單的情況下,若M擁有記憶,而且能夠根據自己看到的最後一個數字及其他信息決定下一步行動,我們的生活也會變得相當複雜。

為了真正模擬心理學家的工作,我們必須假設參與測試的輸入方式要比實際可以輸入機器的輸入方式少得多。假設進行一場閱讀理解測試(第4章將會詳細談到),現在將該測試中的句子數量和被試者一生當中會讀到的句子數量進行對比。心理學必須符合行為空間中一個個瑣碎細節所組成的證據。

舉個例子,我們先將M擴大,使之可以接收10位數字作為輸入,不再接收兩位數字的輸入。那麼現在,我們就有1010種(100億種)輸入方式,而不是102種(100種)。我們發現,由於機器有記憶,我們還需考慮機器在上一步和上上一步獲得的數據,這樣我們就必須考慮到1030種輸入方式。如果機器的記憶可以繼續向前追溯,那麼根據最近的10組輸入方式,將有10100個序列樣本,遠遠超過了宇宙中已知原子的數量。

由此可見,我們可以毫不費力地排除大部分可能的刺激和反應。雖然M的感知環境簡單,記憶也不複雜,但是卻能壓垮各種綜合測試。

簡而言之,這就是心理學的困難所在。

設計出一種通過有效控制各種變量,進而得到有效結果的測試非常困難。假設我的研究對象是張三和李四,他們有著截然不同的生活,看到過截然不同的事物,帶著截然不同的信念和目的參與這項測試,那麼我該如何控制測試中的變量?眾所周知,能夠有所啟示的心理學試驗往往涉及知覺任務,需要在毫秒之內做出反應。由於速度太快,長時記憶這種在張三和李四身上會截然不同的因素,就不那麼重要了。如果被試者能悠閒地坐著,並沉思幾秒,那麼再想要控制所有變量就難如登天了。

由於心理學大多僅能從外部觀察研究對象,因此在研究過程中受到極大的限制。雖然其能夠呈現外部刺激,並觀察到由此帶來的外部反應,但也就僅此而已,因為他們認為將活人的腦顱打開,植入電極,觀察大腦的反應是極不道德的行為。我們對於大腦功能較為深入的認識主要來自開顱手術——例如切斷胼胝體以控制癲癇症的手術——會要求患者描述在大腦某些部位受到刺激時的感受。

不過如今,我們擁有了諸如功能性磁共振成像(fMRI)等新技術,通過微創的方式,不用開顱手術,就能呈現出較為完整的大腦功能畫面。我們可以看到,當研究對像在思考身體活動的時候,大腦參與運動控制的部分就會被激活。我們還可以看到,人在說髒話罵人時,其大腦活躍的部分與在談吐有禮時大腦活躍的部分不一樣。神經科學的這些發展令人矚目,同時也告訴我們,只要給予充足的時間,人類就一定能搞清思維當中的信念與目標是如何決定行為的。

但要解釋清楚為何還要對此保持懷疑,我們就要回到M上來。假設神經科學家想要搞清楚M的行為方式,那麼和上文提到的心理學相同,他並不知道前文中所示的程序。但是與上文提到的心理學家不同的是,神經科學家可以像使用新技術觀察大腦一樣,觀察M內部的運行方式。

M在實驗室裡被拆解研究時,神經科學家就會發現M實際上由一些標準電子元件組裝而成,依靠電池供電。實驗人員輸入數字時,M中的一些元件會被激活,其他元件則仍然處於休眠狀態,基本不會發光。隨著在鍵盤上輸入更多的數字,會開始出現一些奇妙的現象。那麼問題來了:神經科學家能夠破解M的行為之謎嗎?

誠然,M不過就是幾個電子元件的組合,其任何行為都取決於這些元件所處的不同狀態。如果M是大腦,我們就可以說大腦的狀態決定我們的行為;我們所談論的其他任何話題(信念、目標、情感、心智等)都必須依靠大腦的某種狀態才能實現。

但問題是,我們能否通過研究組成M的元件的屬性找到M的行為規律。比如,我們可能想得到M的第一位數字,而不是第二位數字的平方。但我們能在這些電子元件中看到嗎?

我們有充足的理由相信,不能。我們假設這位神經科學家不但才華橫溢,而且非常幸運,他通過長期研究組成M的這些電子元件的狀態,提取出了M的整個運行程序。

那麼問題又來了。根據上文中程序的第8行和第9行,可以求得M的第一位數字(或者上一個數的第一位數字)的平方,但是該程序可能並不存在於M的內存(記憶)當中。通常,計算機程序總是先被轉化成另一種易於硬件執行的形式,用計算機術語來說,上文中的程序叫作源代碼。儲存在M內存中的轉化版本叫作目標代碼。即使這位神經系統學家再怎麼才華橫溢,也只可能獲得目標代碼。即使有了目標代碼,也完全沒有可能恢復其源代碼。

比如通常來說,在計算機系統中求一個數字的平方並非單一操作,在目標代碼的操作過程中可能會大量出現乘法運算。(但是,這要比我們在小學裡學的一個數字乘以一個數字的運算高級得多。)

更麻煩的是,對數字進行編碼無法像處理電子元件那樣簡單。操作可能會需要多個元件共同參與,但是並不需要它們在物理位置上彼此相近。實際上,在所謂分佈式表徵(常用於大腦神經網絡模型)當中,我們需要觀察眾多電子元件的狀態,發現其所代表的單個數字的值。但最麻煩的問題是,在分佈式表徵當中,單個元件有可能代表多個數值。

由此可見,雖然將源代碼轉化成目標代碼相當容易,但是把目標代碼轉化為源代碼就相當於破解一個加密的謎語,難似登天。所以軟件公司為保護自己的知識產權,只會出售軟件產品的目標代碼,因為他們相信,獲取源代碼這種「反向工程」在技術上非常困難,經濟成本也一般令人難以承受。(「開放源代碼」的軟件產品則恰恰相反,其源代碼都被公之於眾。)

所以,即使擁有電子探針等最先進的測試設備,神經科學家依然無法還原M的原始程序。雖然能夠不受限制地接觸所有相關元件,甚至對這些元件的構成瞭如指掌,但這依然不能保證我們弄清像M的行為方式一樣看似簡單的事情。

簡而言之,這就是神經科學的困難所在。

即使我們能夠獲取構成人腦的1 000億個神經元,即使我們能夠將這些神經元視為理想的無噪聲數字元件,我們也仍然無法搞清自己行為方式背後的原因。如果神經科學家處理的是真正的神經系統的組成,而非電子元件,就會看到大量正在進行當中的化學和生物反應,它們錯綜複雜、難以梳理。比如,我們是如何記住某種現象的?我們如何根據這些現象得出新的結論?我們如何根據這些結論確定自己的行為?顯而易見,這些問題都要比搞清M為何發出三次響聲複雜得多。在神經科學領域(即使是最尖端的神經科學),尋求這些問題的答案確實是勉為其難了。

我們只能另尋他法。