讀古今文學網 > 如何做出正確決定 > 情緒體驗與買股票 >

情緒體驗與買股票

雙陸棋是世界上最古老的棋類遊戲,最早出現於古老的美索不達米亞平原,始於公元前3000年左右,是古羅馬比較受歡迎的娛樂活動,深受波斯人的推崇,卻遭到法國國王路易九世的封殺(因為很多人使用雙陸棋非法聚賭)。到17世紀,伊麗莎白的臣子們將雙陸棋的規則整理成法典,自那以後,雙陸棋的規則幾乎沒有什麼變化。但是雙陸棋的玩家卻有了很大變化,現在世界上最著名的雙陸棋玩家之一是一個軟件程序。

20世紀90年代初,IBM公司的一名計算機程序員傑拉爾德·特索羅開始開發一種新的人工智能(artificial intelligence,簡稱AI)。當時,多數AI程序憑借的是芯片強大的計算能力。1997年,IBM大型機「深藍」就是依靠這種策略打敗國際象棋大師加裡·卡斯帕羅夫(Gary Kasparov)的。深藍每秒能分析兩億種可能的走法,因此它能不斷選擇最佳下棋策略(而卡斯帕羅夫的大腦每秒只能評估五步)。但這種運算需要消耗大量能量:下棋時,深藍成了火災隱患,需要特殊的散熱設備才不至於起火。與之形成鮮明對比的是,卡斯帕羅夫幾乎沒有出汗。這是因為人腦堪稱高效節能的典範,即使陷入沉思,大腦皮層消耗的能量也抵不上一個燈泡。

「機器打敗了世界上最厲害的象棋大師!」正當新聞界慶祝深藍的驚人戰績時,特索羅卻在思考深藍的局限。儘管深藍的思考速度比人類快百萬倍,可是它才勉強戰勝對手,問題在哪裡呢?特索羅認識到所有傳統的AI程序,即使聰明如深藍,都有一個問題,那就是「死板」。深藍的智力大部分來自其他像棋大師,是通過精心編製的軟件程序將大師的智慧移植過來的(IBM的程序員還研究過卡斯帕羅夫以前的國際象棋比賽,找到他常犯的錯誤,並寫進程序,加以利用)。機器本身是不會學習的,相反,它通過預測幾百萬種不同走法的可能結果做決定,找到預期「價值」最大的走法後,它就會結束運算。對深藍來說,下棋不過是不停解答數學題。

當然,這種人工智能和人類智能還是有差別的。儘管思考速度遠遠不及深藍,卡斯帕羅夫仍然能夠與深藍抗衡。特索羅發現卡斯帕羅夫的神經元之所以如此有效,是因為它們進行了自我訓練。經過幾十年的修煉,這些神經元能迅速檢測出棋局的微妙差異。不像深藍需要分析每種可能的走法,卡斯帕羅夫能立即優化選擇,集中評估幾種最有效的走法。

於是,特索羅著手創造一個像加裡·卡斯帕羅夫一樣思考的AI程序。他選擇雙陸棋作為範例,並給程序取名為TD-Gammon(TD代表「暫時差異」,Gammon是「雙陸棋」英文單詞「Backgammon」的後半部分)。深藍預先安裝了象棋程序,與之不同的是,TDGammon絕對是從零開始。剛開始,TD-Gammon下棋時完全亂走,每場必輸,犯了許多愚蠢的錯誤。但是,沒多久,它就不像一個新手了,因為特索羅將TD-Gammon設計成具有從自身經驗中學習的能力。TD-Gammon夜以繼日地同自己下棋,耐心琢磨每步怎麼走最有效。下了幾十萬次雙陸棋之後,TD-Gammon便能夠打敗世界上最棒的人類棋手了。

這台機器是怎麼把自己變成專家的?儘管特索羅的軟件的內部數學運算極為複雜,但基本設計思想卻相當簡單。[1]任何時刻,TD-Gammon都會生成一套關於棋局將會怎樣展開的預測。TD-Gammon並不像深藍一樣篩選各種可能走法,而是像加裡·卡斯帕羅夫一樣,根據自己以往的經驗生成幾種預測,然後將這些預測同實際的棋局相比較。比較所得差異就是TD-Gammon的學習材料,因為它被設計成能夠不斷縮小這種差異,也就是減少「誤差信號」(error signal)。結果,它的預測越來越準確,意味著它的策略選擇越來越有效、越來越聰明。

最近幾年,TD-Gammon的設計思想被用來解決各種難題,從摩天大樓的電梯調度到機場的航班調度。蒙塔古說:「每當你碰到一個看似有著無數可能的問題,都可以求助於這種學習程序。」這類「強化學習」(reinforcement-learning)程序與傳統程序的關鍵區別在於前者能夠自己找到最佳解決辦法,沒人告訴計算機怎麼調度電梯,但是它卻能系統地自學。它不斷嘗試,不斷犯錯,不斷從錯誤中學習,一定次數之後,看似不可避免的錯誤消失了,電梯已能高效運行了。

這種編程方法嚴格模仿了多巴胺神經元的活動模式。腦細胞也測量預測和結果之間的差距,它們通過不可避免地犯錯來提高成績,失敗最終轉化為成功。下面以神經學家安東尼奧·達馬西奧和安托萬·貝沙拉(Antoine Bechara)的著名實驗愛荷華賭博任務(Iowa Gambling Task)為例說明一下。

遊戲規則:

給玩家四副牌,兩副紅的、兩副黑的和2000美元遊戲幣,每張牌都會寫著「贏多少錢」或「輸多少錢」,提示音告訴玩家從四副牌中翻出一張牌,盡最大可能贏錢。

牌並不是隨意擺放的,而是經過精心設計的。其中兩副風險較高,贏得多(每張最多贏100美元),輸得也多(每張最多輸1250美元);另外兩副相對比較保險,儘管贏得少(每張最多贏50美元),但幾乎不會輸,如果只從這兩副牌裡抽牌,保證只賺不賠。

剛開始,玩家選擇哪張牌完全出於偶然,因為沒有理由偏向任何一副牌,所以多數玩家會嘗試每副牌,從中尋找贏錢最多的牌。玩家要平均翻出50張牌之後才會鎖定某副牌,但是要平均翻出80張牌之後才能解釋為什麼自己偏向這副牌,邏輯慢了半拍。

但是達馬西奧對邏輯不感興趣,他對情緒感興趣。實驗玩家玩遊戲的過程中,一直有儀器測量他們的皮膚導電水平。一般來說,皮膚導電水平越高,意味著越緊張焦慮。研究發現,翻出僅僅10張牌之後,玩家的手伸向不好的那副牌時都會「緊張」。儘管玩家仍然對哪副牌最賺錢一無所知,他們的情緒腦已經產生精確的恐懼感了。情緒腦知道哪副牌危險,玩家的情緒率先破解了遊戲。

研究證明,不能體驗任何情緒的神經受損患者——通常是因為OFC受損——不能選擇好牌。實驗中,多數人都能贏一大筆錢,但這些純粹理性的人經常輸得一分錢都不剩,不得不另外向實驗研究者「貸款」。因為這些病人不能將不好的那副牌與消極情緒聯繫起來——他們的手從來沒有顯示出緊張跡象,所以他們一直一會兒翻這副牌,一會兒翻那副牌,沒有特別偏向哪一副。如果輸錢不能讓大腦產生痛苦情緒,它也不會贏錢。

情緒腦怎樣變得如此精確?它是如何這麼迅速地認出最有賺頭的那副牌的?要找到答案,我們還是要回到多巴胺,回到情緒情感的細胞基礎。愛荷華大學和加州理工大學的科學家們讓正在接受癲癇手術的病人(手術過程中,病人保持清醒)完成愛荷華賭博任務,實時觀察了多巴胺神經元的學習過程。結果發現,多巴胺神經元的學習過程就像TD-Gammon一樣,預測接下來會發生什麼,對比預測與實際結果,如果預測錯誤(選擇了不好的那副牌),多巴胺神經元就會立即停止放電。病人體驗到消極情緒,學會不再從那副牌裡抽牌(失望是有教育意義的)。然而,如果預測正確(選擇了最有賺頭的牌,獲得獎賞),病人就會感到快樂:「我對了!」這一特定連接被強化,他的神經元很快就學會了怎樣贏錢。在玩家能夠明白並說出所以然之前,他的神經元已經破解了賭博遊戲。

這是一項重要的認知能力。多巴胺神經元能夠自動地檢測到我們注意不到的細節,還能夠吸收所有意識腦無法理解的信息。然後,一旦它們精煉出一套有關世界如何運作的預測模式,就會將之轉化成情緒。比如,當有人向你呈現大量信息,告訴你20只股票前段時間的走勢(就像美國全國廣播公司財經頻道在電視機屏幕下端滾動播出股票價格一樣),你很快就會發現自己難以記住所有數據。如果有人問你哪只股票表現最好,你可能回答不上來。但是如果有人問你對哪只股票最有感覺——這時被提問的是你的情緒腦,你突然能認出最好的股票。這個巧妙的小實驗是心理學家蒂爾曼·貝奇(Tilmann Betsch)做的。他說,情緒腦對各種股票的實際表現「異常敏感」,升值的股票與積極情緒相聯繫,而貶值的股票讓人隱隱感到一絲不安。這種不可言喻的情緒是一種智慧,是決定過程不可或缺的一部分。即使我們認為自己什麼都不知道,但我們的大腦實際上知道一些,這就是我們的情緒試圖告訴我們的東西。

[1] 特索羅使用的TD學習模型以計算機科學家裡奇·薩頓(Rich Sutton)和安德魯·巴爾托(Andrew Barto)的開創性工作為基礎。20世紀80年代早期,阿默斯特(Amherst)、薩頓和巴爾托在曼徹斯特大學讀研究生時,希望開發一種人工智能模型。這種人工智能模型能夠學習簡單的規則和行為,並應用習得的規則和行為達到目標。他們的導師勸他們說,試都不要試。但是,這三個年輕的科學家很固執。薩頓說:「在計算機科學領域,這個目標一直不可實現,馬文·明斯基在他的碩士論文裡研究過強化學習,但是基本上放棄了,他說這不可能實現,然後離開了該領域。我們很幸運,實現了這個目標。我們知道連最簡單的動物都能這樣學習——沒人教小鳥怎麼找蟲子——我們就是不知道怎麼做。」