心智社會：從細胞到人工智能，人類思維的優雅解讀：7.6 強化與獎勵_馬文·明斯基

要想達到學習的目的，每次玩遊戲的時候都必須產生多得多的信息。這可以通過把問題拆分成若幹部分來實現。成功的單元就是目標。如果目標實現，它的子目標就得到了強化；如果沒實現，就受到抑制。

——艾倫·紐厄爾

有一件事可以確定：做以前我們做過的事總是會比較容易一些。我們的思維中發生了什麼才會這樣呢？有這樣一種設想：在解決問題的過程中，特定的智能體一定是喚醒了某些特定的其他智能體。如果智能體A的工作是喚醒智能體B，那麼讓A喚醒B更容易或者讓A喚醒其他智能體更困難，在這裡就是一種「獎勵」。我有一段時間特別癡迷這個理念，所以設計了一台稱為Snarc機器，它就是根據這個原則進行學習的。它由40個智能體組成，每個智能體都通過一個「獎勵系統」和若干個其他智能體相連，數量隨機。這個獎勵系統會在每次完成任務時激活，它可以讓每個智能體以後更有可能去喚醒它們的接收對象。

我們向這台機器呈現的問題類似這樣：學習在迷宮中找到一條路徑，同時還要躲避充滿敵意的追捕者。它很快就學會了解決簡單的問題，但從來沒有學會解決困難的問題，比如建塔或者下棋。很明顯，要解決複雜的問題，任何一台尺寸有限的機器都必須能在不同的環境中用不同的方式來重新利用它的智能體，比如「看見」必須同時參與到兩個任務中去。但是Snarc試圖學習在一個複雜的迷宮中找到路徑的時候，一個典型的智能體可能會在某一時刻建議朝一個不錯的方向移動，然後又在另一時刻建議朝一個較差的方向走。之後，當我們因為它做了我們喜歡的事而獎勵它時，兩種決策的可能性都增加了，而且那些好的方向和差的方向都傾向於抵消對方！

在設計通過「強化」兩個智能體之間的聯結而進行學習的機器時，上述問題就製造了一個兩難困境。在解決難題的過程中，人們通常都會先嘗試一些錯的方向，然後才能找到正確的道路，實際上這也正是我們將其稱為「難」題的原因。為了避免學習那些錯誤的步驟，我們可以設計一台機器，只強化快要成功之前的最後幾步。但這種機器只能學會解決那些只需要幾步就能解決的問題。或者我們也可以把獎勵設計成在更寬泛的時間範圍內起作用，但這樣的話，不僅會同時獎勵好的和不好的決策，而且會抹殺之前學會的其他事。通過不加區分地強化智能體之間的聯結，我們是無法學會解決難題的。對於需要許多步驟的問題或者需要同樣的智能組完成不同工作的問題，為什麼在所有動物中，只有那些有強大頭腦的人類近親才能學會解決呢？我們要在智能組完成目標時所採用的策略中尋找答案。

你可能會提出海狸要通過許多步驟才能建堤壩，一群白蟻在建造複雜的巢穴城堡時也是如此。但是這些奇妙的動物並不是靠個體學習到這些成就的，它們只是遵循一些經歷了幾百萬年已經刻入它們基因的程序。你無法訓練一隻海狸去建造白蟻的巢穴，或者教授白蟻建堤壩的方法。