讀古今文學網 > 心智社會:從細胞到人工智能,人類思維的優雅解讀 > 7.5 學習與記憶 >

7.5 學習與記憶

只有得到獎勵我們才會學習,這是一個古老而盛行的理念。一些心理學家聲稱,人類的學習完全是以獎勵的「強化」為基礎的:就算訓練自己不需要外部激勵,我們仍然是為了獎勵而學習,只不過這種獎勵是來自我們內部的信號而已。但是如果一個論據的前提假設正是它要證明的內容,那麼它並不可信。而且無論如何,當我們試圖用這一理念來解釋人們為什麼學習解決困難的問題時,就會進入一個死循環。你首先必須有能力做某件事,才能因為做這件事得到獎勵!

一個世紀前,伊萬·巴甫洛夫研究條件反射的時候,這種死循環並不是什麼大問題。因為在他的實驗中,動物從不需要產生某些新行為,它們只需把新刺激與舊行為相聯繫就可以了。幾十年後,哈佛心理學家B.F.斯金納擴展了巴甫洛夫的研究,他發現更高級的動物有時確實會展示出新的行為,並將其稱為「操作」。斯金納的實驗證實,如果某個特定的操作之後伴隨著一個獎勵的話,之後這個行為更有可能經常出現。他還發現,如果動物無法預測獎勵將會在何時出現,這種學習的效果更好。斯金納的發現被稱為「操作性條件反射」或「行為調節」,這在心理學和教育學中產生了很大的影響力,但還是沒能解釋頭腦究竟如何產生新行為。此外,這些動物實驗也很少能說明人類是如何學會制訂和執行複雜計劃的,因為問題在於,那些動物幾乎無法學會這樣的事。獎勵/成功和懲罰/失敗,這些成對出現的理念不足以解釋這一點:人類如何學會產生新的理念,讓他們可以解決困難的問題。這些問題如果沒有多年徒勞無益地試錯是無法解決的。

答案一定是:學習更好的學習方法。為了討論這些事,我們要開始使用一些普通的詞彙,比如目標、獎勵、學習、思考、識別、喜歡、想要、想像和記憶,所有這些詞都基於古老而模糊的理念。我們會發現這裡面的許多詞都要用新的特性和理念來替換。但它們之間仍然有一些共性:要解決任何一個難題,我們都必須利用各種類型的記憶。在每個時刻,我們都要記錄剛剛做了什麼,否則可能會把同樣的步驟重複一遍又一遍。此外,在某種程度上,我們還必須維持自己的目標,否則最終可能做的是無用功。最後,一旦問題得到解決,我們需要提取如何完成這件事的記錄,當未來出現類似的問題就可以拿出來用。

本書中有很多內容都會涉及記憶,也就是對過去思維的記錄。為什麼、如何以及什麼時候做這種記錄呢?人類的頭腦解決一個困難的問題時,好幾百萬的智能體和程序都參與其中。哪些智能體足夠聰明,可以猜到那時需要做出什麼改變呢?高級的智能體無法知道這種事,它們幾乎不知道存在哪些低層級的程序。低層級的智能體也不知道自己的哪些行動幫助我們實現了高層級的目標,它們也幾乎不知道高級目標的存在。負責移動我們腿部的智能組並不關心我們是往家走還是往工作場所走,負責目的地的智能體也完全不知道怎樣控制肌肉單元。那麼是思維中的哪個部分來判斷哪些智能體應該表揚,哪些應該批評呢?