讀古今文學網 > 心智社會:從細胞到人工智能,人類思維的優雅解讀 > 7.7 本地責任 >

7.7 本地責任

設想一家批發商店的老闆愛麗絲要求她的經理比爾增加銷售額,比爾指導他的銷售員查爾斯多賣一些收音機,查爾斯弄到了一個可以獲利的大單,但是之後公司因為供應緊缺無法交付這些收音機。應該責怪誰呢?愛麗絲有理由懲罰比爾,因為他的工作是確認存貨。問題是,查爾斯應該得到獎勵嗎?從愛麗絲的角度來看,查爾斯的行為讓公司蒙羞了。但是從比爾的角度,查爾斯成功地完成了他的銷售任務,而且這件事導致他主管的目標沒能完成也並不是查爾斯的錯。我們可以從兩個方面來看這個例子,我們稱為「本地獎勵」和「全球獎勵」。

本地(local) 方案會獎勵每個有助於完成主管目標的智能體。所以比爾會獎勵查爾斯,儘管查爾斯的行動沒能助力實現更高層級的目標。

全球(global) 方案只有在智能體有助於完成最高目標時才給予獎勵。所以查爾斯沒有得到任何獎勵。

發明一台機器體現本地學習方案是很容易的,因為每項任務所獲得的獎勵只取決於這個智能體與其主管之間的關係。要實施一個全球學習方案就比較困難一些,因為這要求機器找出哪些智能體通過不間斷地完成子目標,自始至終都與原始目標保持聯繫。本地方案對查爾斯比較慷慨,只要他完成了讓他去做的事就會得到獎勵。全球方案就比較吝嗇。雖然查爾斯是按照上級的要求去做的,但除非他的行動同樣有助於完成高層級的事業,否則就沒有任何功勞。在這樣的方案中,智能體往往無法從過去的經驗中學到任何東西。也因此,全球方案的學習過程會更慢一些。

兩種方案有不同的優勢。當發生錯誤會非常危險或系統時間充裕的時候,使用謹慎的全球方案比較合適。這樣會產生更多的「負責」行為,因為它會讓查爾斯在一定時間後學會自己檢查存貨,而不是像奴隸一樣遵守比爾的命令。如果出現了錯誤行動,全球方案不會因為「我只是在遵守主管的命令」而給予諒解。另一方面,本地方案可以一次學到更多不同的東西,因為一個智能體可以不斷證明自己達成本地目標的能力,不論它們與思維其他部分的關係如何。當然,我們的智能組有若干個這樣的選項。不同的時刻,要採用哪個選項,取決於其他智能組的狀態,那些智能組的工作就是向自己學習,要使用哪種學習策略取決於環境。

全球方案不僅要求以某種方式區分哪些智能體的行動幫助解決了問題,還要區分哪些智能體幫助解決了哪些子問題。舉例而言,在建塔的過程中,你可能會發現推開某塊積木為另一塊積木騰出空間很有用。於是你想要記住推開行為有助於建塔,但是如果要以此得出結論,認為一般情況下推開就是一個有用的動作,那你就再也建不成另一座塔了。我們要解決一個困難的問題時,只說某個特定的智能體所做的事對整個事業「有益」還是「無益」是不夠的。在某種程度上,人們必須根據本地的環境來判斷是好是壞,也就是說,要根據每個智能體所做的工作是如何幫助或阻礙其他相關智能體的工作來判斷。獎勵一個智能體要產生的效果,應該是讓這個智能體的反應在不太妨礙其他更重要的目標的同時,有助於完成某些具體的目標。所有這些都是簡單的常識,但是為了更進一步研究,必須澄清我們的語言。我們都經歷過追求目標,但經驗和理解不是一回事。什麼是目標?機器如何獲得目標?