讀古今文學網 > 狡猾的情感:為何憤怒、嫉妒、偏見讓我們的決策更理性 > 第五章 重複互動中的囚徒困境 >

第五章 重複互動中的囚徒困境

利刃出鞘是否能促進世界合作?

自發性、自動回應和反應迅速是情感反應最重要的特徵。實際上,在很多情況下,反應敏捷正是情感反應優於深思熟慮之處。看到蛇在草叢中爬行就會本能地閃躲,這讓我們免於潛在的危險,遠比對形勢做認知分析有效。

我們的社會性反應具有快速性和自動性的特點。事實證明,這兩點至關重要。本章將說明情感行為如何在理性行為失效的情況下促成合作。弔詭的是,原因正在於其自動性。

我們將重新審視囚徒困境,但這次的重點是參與者在同一種博弈中多次對壘的情況。意即,參與者需要考慮長期的策略謀劃。

前一章指出,在單次囚徒困境中,理性、自私的個體不會合作,因為不合作符合所謂的「優勢策略」——無論另一名參與者作何選擇,這一策略均可確保所得收益更高。接下來,請設想這種博弈連續進行兩輪會出現什麼情況。在這兩輪博弈中,每名參與者每輪均須決定是合作(「分享」)還是不合作(「拿走」)。兩輪博弈結束後,參與者所獲得的收益總額即為兩輪博弈的所得總和。

為了分析該重複博弈中的理性行為,我們首先著重分析一下第二輪博弈。在第二輪,原本的囚徒困境相當於只進行一輪——既然沒有下一輪,這一輪的行為就不會受到懲罰或獎勵。因此,其策略分析等同於單次囚徒困境的分析。對此,前文得出的結論是,唯一的理性行為就是兩名參與者均不合作。

既然已經知道理性的參與者在第二輪中會作何選擇,我們即可嘗試預測參與者在第一輪博弈中會有何表現。參與者在第一輪的行為對第二輪博弈的所得毫無影響,因此第一輪實際上也相當於單次博弈。在第一輪,參與者也會雙雙選擇不合作。

不難看出,只要兩名參與者知道博弈究竟進行多少輪,同樣的邏輯就適用於任意輪次的重複博弈,一輪、三輪還是十萬輪均無差別。具體而言,若兩名參與者知道雙方進行的是最後一輪博弈,則無論此前的輪次是何狀況,均不存在理性的原因會讓他們選擇合作。但也由此可見,在倒數第二輪中,他們也不會合作。以此類推。這種推理名為歸納論證,常用於博弈論分析。

須注意,這一論證的前提是,兩名參與者在最後一輪選擇不合作。但假如參與者不知道什麼時候是最後一輪,即便真到了最後一輪也不知情,情況會如何?實際上,人類交往大多都是這種情況。例如,你同普通汽車修理工、公司同事乃至配偶之間的交往,你基本上從不知道未來還會與他們有多少次交集,這理所當然地引出了以下問題:假設參與者不知道重複博弈何時進行到最後一輪,對其理性行為應如何預測?

羅伯特·奧曼解答了這一至關重要的問題,這堪稱他對博弈論做出的最重要貢獻之一。奧曼利用數學模型,證明了在此種情形下,即便參與者是理性的,合作也可能達成均衡狀態,這一模型及奧曼的驗算有著奧妙之極的結構。原原本本地對其進行詳細解釋需對形式數學有較深的造詣,而這超出了本書的範圍。因此,姑且讓我嘗試用較為淺顯的語言予以解釋。

試想你處於重複進行的囚徒困境中,每一輪過後,你都有99%的概率會再次和同一名對手重新進行同樣的博弈,只有1%的概率再也不會見到此人。這一描述有些不切實際——很可能誇大了你在較長時期內與任何人產生交集的次數,但這卻有助於描述多數互動的短視思維。因此,這一異議暫且擱置。

我們需要思考一下這種情況下的「策略」為何意。在單次博弈中,策略即指是否合作的決定。在重複博弈中,策略的概念則要複雜得多。實際上,這種策略指的是一長串決定,每次決定的內容就是根據此前輪次的博弈情況選擇要採取的行動。以下是這種策略的一個例子:第700輪之前,無論對手怎麼選,我都選擇合作;從第700輪開始,一旦對手選擇不合作,我就會在其後兩輪也選不合作,以牙還牙。

如果你覺得這一策略看起來十分複雜,我的回答是,這實際上已經是非常簡單的策略了——須注意,我在兩句話之內便將其描述完畢。有些策略繁複之極,單是前幾輪要寫下來,整座國會圖書館的紙(包括衛生間的紙)都找來也不夠用。然而,最複雜的策略往往也是最乏味的策略。實際上,本章要描述的兩個策略簡單明瞭,卻很有意思:

冷酷觸發策略。在第一輪,我會選擇「分享」,且只要對方也選「分享」,我會一直這樣選下去。然而,如果對方在某一輪選了「拿走」(即便對方只選過這一次拿走),這之後的每一輪,我都會一直選「拿走」。

針鋒相對策略。每一輪,我的選擇都和對手上一輪的選擇相同。

兩名理性參與者(唯一的目的就是謀求個人的物質利益)如均使用冷酷觸發策略,會一直處於雙方均選合作(即均選「分享」)的均衡態勢。對此的解釋相當簡單,首先請注意,兩名參與者都使用冷酷觸發策略的話,他們在第一輪就會選合作。二者知道對方選了合作後,在這一策略的指導下,第二輪會再次雙雙選擇合作,同理第三輪也會選合作,以此類推。每一輪,雙方選擇合作,每人的總獎金都會增加50%。

只要對方堅持使用冷酷觸發策略,兩人選擇其他任何策略都無法增加所得。誠然,如果一名參與者在某一輪選擇「拿走」,而另一名參與者仍然使用冷酷觸發策略,則選擇「拿走」的參與者本輪可得100美元,比他選擇「分享」的所得多50美元。但這樣一來,他會觸發對方的「懲罰措施」:在其後每一輪中(此後還有許多輪),對方無論如何都會堅定不移地選「拿走」,他每輪都會少拿50美元,而不是多拿50美元。須注意,這種情況下穩定的合作態勢之所以能夠形成,是因為不合作行為一旦出現,即會立即招來對方的報復,讓對方也選擇不合作,從而對不合作行為形成有效的震懾。

* * *

在瑞典斯德哥爾摩市發表諾貝爾獎獲獎感言時,羅伯特·奧曼談到了一個博弈論觀點,內容與前幾章提出的觀點大同小異。他甚至斷言,這一觀點闡述了幾乎所有國際衝突的本質,包括巴以衝突。其觀點是,為預防流血衝突,人類需利用強硬戰略,建立威懾機制,如美國和蘇聯在冷戰時期採取的戰略。該觀點認為,唯有強大的威懾力才能防止人們在種種誘因之下訴諸武力衝突。

奧曼參加諾貝爾獎頒獎典禮後不久,幾名媒體評論員聯繫了我,請我對此觀點做出回應。我認為,雖然奧曼提出的觀點奧妙之極,我也找不出哪個人拿諾貝爾獎能比他更實至名歸,但這一領域那些天衣無縫的數據計算結果與適用於國際衝突的具體結論之間鮮有直接聯繫。威懾本身就是一種缺乏穩定性的局勢,以此作為維護和平、預防流血衝突的基礎並不可靠——任何風吹草動都可能激活「冷酷觸發」。雖然理論模型表明,在建立威懾的情況下,合作可構成均衡態勢,但一旦均衡態勢被打破,和平與合作所仰仗的龐大體系就會轟然倒塌,因為構成威懾力的威脅因素很可能會引發全球規模的災難(美國和蘇聯在冷戰期間經常相互挑釁威脅。試想一下,假如兩國真的言出必行,會發生什麼事?)。

僅有威懾力還不夠,除了以威脅為基礎的威懾政策之外,我們還需構建體系,對雙方進行正面誘導,如共同的經濟利益可成為國際關係中的另一大穩定因素。與之同理的是,調動個人的積極性,要用恩威並施的措施。

奧曼在諾貝爾獎獲獎感言中提出的某些觀點招來了某些人的異議,這些人的行為遠比我過火。一群以色列左翼分子正式向諾貝爾委員會發出申請,以奧曼的政見和他從科學研究中得出的政治教訓為由,要求撤銷頒給他的諾貝爾獎。這讓我火冒三丈(這可能是非理性的情感反應)。假如對科學的管制不能偏離嚴格的政治正確路線,行業翹楚獲獎與否僅以政見為依據,人類發展會停留在黑暗時代[1],止步不前。

針鋒相對策略力度不及冷酷觸發策略,但仍然能確保均衡狀態的形成。針鋒相對策略也會懲罰一方的不合作行為,但在此情況下,對不合作行為的懲罰僅限一輪,比冷酷觸發策略的懲罰措施更加寬鬆。如果不合作者其後一輪重新選擇合作,懲罰即告終止,雙方會重新回到每輪都相互合作的態勢。

事實證明,針鋒相對策略會促成合作均衡態勢的形成。兩名參與者單方面選擇不合作,都不會有好處。如果一方在幾輪內選擇不合作,然後重新選擇合作,此後的博弈會重新回到合作路線上,但在此之前,其暫時不合作的行為造成的損失要大於所得。(得出這一結論須稍加計算,但各位願意的話,可以自己試一試。一方僅有一輪選擇不合作,會發生什麼狀況?他在這一輪的所得為多少?其後的損失又為多少?)

在我們目前所探討的重複互動中,每一輪過後,雙方都認為博弈繼續下一輪的概率很高。其他情形會是什麼狀況?請思考兩個具體例子。假設你要在西班牙馬拉加市度假一周,假期第一天,你走進一家餐館,對餐館的美食讚不絕口,於是決定之後的整個假期,每天都去那裡吃飯。你每次在餐館入座,都是同一名服務生招待你,在這種情況下,你與這名服務生的交往實際上相當於重複6輪的囚徒困境(說6輪是因為假期還剩6天)。

合作,即服務生為你提供周到的服務,而你多付小費予以酬謝,這在這種情形中至關重要。須注意,在假期的每一天——除了最後一天,你都認為再次遇到這名服務生的概率很高。然而,在最後一天,你會認為在可預見的未來再也不會回到這家餐館的概率很高,因為這是你假期的最後一天,機票早已訂妥,第二天就得重新上班了。

冷酷觸發策略能確保假期每一天都形成合作均衡嗎?顯然不能(此處仍然採取理性思維,唯一目的僅為從自私角度出發,最大程度地優化自己的物質條件)。即便服務生以為你會在這個城市長住,歸期未定,也不可能確保你假期的每一天都能維持合作狀態。原因很簡單,在假期最後一天,(從自私角度來講)你毫無理由付小費給服務生。你第二天回到同一家餐館的概率微乎其微(航班可能會取消,所以我們姑且可以假設,這種概率雖然很低,但也不是不存在)。由此可見,如果你沒有付小費就揚長而去,服務生在將來能以服務不周的方式懲罰你的概率微乎其微。

如果這名服務生足夠理性、聰明且「自私而現實」,他會明白,即便他的服務無微不至,也總有一天你會不給小費就離開餐館。僅這一點,或許就可以讓他失去必須每天都待你周到的動力:

他明白無誤地知道,總有一天沒有小費可拿,只是不知道這一天究竟什麼時候到來。

這樣描述馬拉加的度假者與本地服務生之間的奇特關係,或許看起來有些誇大其詞,但實際上,這種情況的出現頻率或許遠高於各位的認知。眾所周知,人們在經常光顧的本地餐館所付的小費往往要多於偶然發現且以後不大可能再度光顧的外國餐館,以本地居民為常客的餐館所提供的服務也往往要優於敲遊客竹槓的地方。

儘管如此,我們仍然經常付小費,即便付小費不會為我們帶來任何實惠。我們為何要這樣做?我們為何沒有見縫插針地自私而為,抓住每一次利用「最後一天效應」的機會?(實際上,有人喜歡在假期最後一天多給小費,以對幾天來享受到的周到服務表示感謝。)

不足為奇的是,答案在於我們的情感。請記住,在現實世界中,我們反反覆覆、不止一次地經歷類似囚徒困境的情形。為了便於理解這一觀點,請容許我介紹一下自動機的概念。

計算機科學家發明了自動機,但這一概念卻廣泛用於經濟學和博弈論的諸多模型。我對其研究的綿薄貢獻是,我認為儘管自動機指的是機器,情感也可以說是利用了自動機的原理。

自動機的定義由(且僅由)以下部分組成:

1.一組狀態。

2.一組行為。

3.結果函數:通過指定的一對狀態與行為生成一種新的狀態。

4.行為函數:將每種狀態與行為進行匹配。

5.初始狀態。

可複印一百張的複印機就是自動機的一個絕佳例子。

其狀態組包括從0到100的所有整數(即101種狀態)。

其行為組包括兩種行為,即「複印」和「停止」。

其結果函數接受任意狀態x(從0到100),如行為為「複印」,則返回狀態x+1。如行為為「停止」,函數則返回狀態x,即狀態不變。

如狀態小於100,則其行為函數返回「複印」,狀態為100,則返回「停止」。

其初始狀態為0。

可見,從定義方式來看,自動機從狀態0開始,再到狀態1,其後是狀態2,以此類推。在每種狀態下,自動機都會複印一份文件,直到狀態100為止。(如果這樣描述讓你想起了計算機程序,這樣想是很有道理的,自動機本質上就是簡單的計算機程序。)

你或許以為自動機(和計算機)與情感動物截然相反,但二者至少有一點是相似的:如條件已知,二者皆可預測。如果我對所處情況會做出情感反應,且受到侮辱就會拔出刀子,則可以說我的行為僅使用兩種狀態:(1)我受到了侮辱;(2)我沒有受到侮辱。在(且僅在)我受到侮辱的情況下,我的行為函數會讓我拔出刀子。實際上,我就是一台自動機,甚至算不上是多複雜的自動機。

相反,假如我是個完全理性的人,我的行為會變得更為複雜。僅僅是受到侮辱或許並不足以讓我拔出刀子。或許只有在我受到侮辱且相信侮辱我的人事後無法在法庭上證明我確實對他拔刀相向過的情況下,我才會這麼做。無法證明我有用刀情形這種次級情況,本身又可以分為許多其他次級情況(都有誰在場且可以做證,是否有監控錄像可成為庭審證據等)。可見,描述理性之人的行為需用到多種狀態,數量遠多於描述感性之人的行為所需的狀態。因此,用自動機為理性行為建立模型的難度也要大得多。(請記住,情感利於建立承諾——在受到侮辱或感到憤怒的情況下,對是否有刑事證人在場這種細節,我們理會的可能性較低。)

因此,理性反應與情感反應的關鍵區別在於,後者受條件的影響較少。這並不是說感性之人對侮辱行為做出的回應一成不變,而是說理性之人的反應受事件條件的影響較多。(與之相通的一點是,理性思考與較高程度的自制力有關。)

情感「自動機」的說法聽起來較為貼近現實生活,不是嗎?對上文的「拔刀子」例子,你或許會感到有些費解。畢竟,拔刀相向不可能促成有益的合作。非也,導致拔刀相向的情感行為是促成合作的積極因素。更加確切且不事誇張地說,可以這樣解釋:適度的報復行為可以成為促成合作的積極因素。優柔寡斷、心慈手軟的情感行為不會促成合作,而且會導致各謀其利,因為在任何行為都會得到寬恕的世界裡,人人都存在損人利己的動機。

假設你以如下的自動機狀態參與博弈:

1.代表你情感狀態的狀態組:要麼憤怒,要麼平靜。

2.行為組則為「合作」或「不合作」。

3.結果函數接受前一輪的對手所選擇的行為,並確定你在本輪的狀態:如對手選擇「合作」,你本輪則處於平靜狀態;如對手選擇「不合作」,你本輪則處於憤怒狀態。

4.行為函數參考你的狀態,按如下方式確定你選擇的行為:處於平靜狀態則選擇「合作」,處於憤怒狀態則選擇「不合作」。

5.你的初始狀態是「平靜」。

如果兩名參與者均處於上述的自動機狀態,他們無疑肯定會在每一輪博弈中都選擇合作。這是因為,二者最初均處於平靜狀態,因此都會選擇合作,進而繼續保持平靜狀態。以此類推,二者永遠不會進入憤怒狀態。

我們需要確定一名參與者若以不同的自動機狀態行事,是否能增加所得(假設其對手仍處於上述自動機狀態)。例如,我們可以假設一名參與者無論發生何事,永遠處於憤怒狀態,或永遠處於平靜狀態。

要想增加所得,即便是一時的所得,「偏離」這一模式的參與者均至少有一輪選擇「不合作」,從而得到200美元,而非150美元(因對手會選擇「合作」)。但這一行為卻會對其後幾輪博弈產生影響。這名偏離者選擇「不合作」之後,其對手會處於憤怒狀態,從而在下一輪選擇「不合作」。如果偏離者在這一輪選擇「合作」,其所得即為0美元,而非150美元。因此,其損失要大於偏離一次的所得。如繼續選擇「不合作」,在其後幾輪,偏離者每次這樣選都會損失100美元(相對於他一直選「合作」的所得)。

偏離者增加所得的唯一機會就是其行為對未來毫無影響的情況,即博弈中不存在未來的情況,也即博弈的最後一輪。但如果偏離者是只有兩個狀態的自動機,其狀態完全取決於對手的行為(意即他會表現出情感行為),其行為就不取決於博弈進行到了哪一輪。我們的結論是,感性的參與者若行為方式有異於上述自動機狀態,所得總額不會增加。由此可見,合作可在每一輪形成均衡狀態。

這裡的有趣之處在於,在此情況下,兩名感性參與者在均衡狀態下每人的所得都要多於兩名理性參與者在同類博弈中的所得。從這個角度看,在重複的囚徒困境博弈中,即便雙方明確知道博弈會進行多少輪,情感行為也更有利於保持合作狀態。

接下來回到西班牙服務生與你為什麼給他小費的話題上來。在你與服務生的交往中,你們兩人的行為方式均類似只有兩個行為選項的自動機:對你來說,是「給小費」和「不給小費」;對服務生來說,則是「服務周到」和「服務不周」。每一天,你們每人均由以下情感狀態之一所控制:「憤怒」和「高興」。狀態則取決於對方的近期行為。你得到周到的服務就會高興,服務生則是得到小費才會高興。最後,高興的狀態會讓你給小費,讓服務生提供周到的服務。這一切表明,在這種互動方式下,日期(即是否假期為最後一天)毫無影響。你和服務生只是自動機而已,模式單一,無法將日期計算在內。如果你也像我們許多人一樣,是情感自動機,你會按照當天的服務質量給小費,而他會按照你上一次就餐留下的小費數額,為你提供相應質量的服務。當天是你在西班牙的最後一天這一點並無影響,你只會懲罰服務不周的行為。

如果你覺得這一說法有辱於你,大可不必。你的神志和智力正常,知道當天日期,也知道那是不是你在西班牙度假的最後一天,但你的情感狀態阻止你將這一信息與是否給小費的決定聯繫起來。

假如你們中的一人——比如你自己——是個完全理性(且自私)的人,而對方如上所述是個情感自動機,情況會如何?你仍然會每天都給服務生小費,唯有最後一天例外。不給小費,第二天你就會得到不周到的服務,但第二天你人已經不在了。但假如你們兩人都是完全理性的人,服務生會料想到你在最後一天不會給小費,因此本來就會服務不周。如前文所述,在囚徒困境的狀況下,你們的合作行為注定會失敗。在整個假期的每一天,你都不會給小費,也只能得到惡劣的服務。

本章所有分析所得出的主要實用啟示相當出人意料:有利於合作形成並最終讓雙方從交往中得益而歸的,是簡單明瞭的模式,而非深奧玄妙的機制。

[1]黑暗時代,指歐洲中世紀前期。——譯者注