讀古今文學網 > 石頭剪刀布博弈心理學 > Chapter 4 第四章 囚徒困境 >

Chapter 4 第四章 囚徒困境

「囚徒困境」是博弈論中具有代表性的一個博弈模型。我們一起來分析一下在囚徒困境中,局中人為什麼只盯著眼前的利益不放,不願與對手協作,最終錯過更大收益的原因。與此同時也思考一下這個博弈的解決方案。

「坦白」還是「抗拒」?囚徒們的困境

~囚徒困境1~

在博弈論中,有一個非常著名的模型——「囚徒困境」。這裡的「囚徒」,準確地說是指被逮捕的兩名犯罪嫌疑人。兩個人都想獲得更高的收益,結果兩人不願協作獲得相對較高的收益,而是在警察的說服下選擇了背叛對方。最終,兩人只能獲得較低的收益。這是一個殘酷的博弈。

◎例題4-1囚徒困境

有兩名一起行竊的盜賊被警察抓住了。但是,警方手上暫時缺乏有效的證據,如果兩名犯罪嫌疑人始終保持沉默的話,警方因為證據不足,就無法對他們進行起訴。那樣一來,兩人最多只能被監禁1年。為了讓他們招供,警察和兩名犯罪嫌疑人說了同樣一番話:「如果你把犯罪的經過原原本本地供出來,我可以減輕對你的懲罰,甚至說你是被他人脅迫犯罪的,進而免予懲罰。但是,如果你拒不招供,而你的同夥坦白了,把你供出來的話,你可能要被判5年。如果你們倆都坦白的話,那麼都會被判3年。」假設你是犯罪嫌疑人A的話,此時你會怎麼選擇呢?是繼續保持沉默,還是按照警察說的坦白罪行?

在這個博弈中,局中人是犯罪嫌疑人A和B,策略是「坦白」或「沉默」。局中人的收益如表4-1所示。

作為犯罪嫌疑人A,你可能會這樣分析:「如果我們倆都保持沉默的話,最多也就被監禁1年。1年時間,忍忍也就過去了。所以,我還是不能坦白,要繼續保持沉默。等等!不對!B那個傢伙可靠不住,他膽小怕事,只顧自己,又愛背叛。如果他禁不住警察的威逼利誘,為了自己的自由把我供出來的話,我可要被判5年。那傢伙絕對會坦白招供的!我可不想吃5年的牢飯!好,還是我先坦白吧!」

結果,你先向警方坦白了。而你的同夥——犯罪嫌疑人B,也經歷了和你類似的心理鬥爭,他也坦白了。結果,你們兩個都坦白了,都被判了3年。

~囚徒困境2~

我們用博弈論來分析一下這個博弈。首先,來尋找犯罪嫌疑人A的最優反應。當犯罪嫌疑人B選擇「沉默」策略的時候,A選擇「坦白」的收益最高,可以獲得自由。如果B選擇「坦白」策略的話,那麼A也只有「坦白」才能獲得相對較高的收益。也就是說,對於犯罪嫌疑人A來說,「坦白」策略強支配著「沉默」策略(表4-2)。

我們再來看看犯罪嫌疑人B的最優反應。同樣的道理,對於B來說,「坦白」策略強支配著「沉默」策略(表4-3)。

由此可見,不管是犯罪嫌疑人A還是B,都是選擇「坦白」可以獲得較高的收益。在這個博弈中,局中人的最優反應,也就是納什均衡只有一個,就是「坦白」對「坦白」的策略組合(表4-4)。

但是,通過分析收益表,也許有朋友感覺「坦白」對「坦白」的組合併不是最優反應。他們認為,如果犯罪嫌疑人A和B都保持沉默的話,雙方的收益會更高一些。如果犯罪嫌疑人A和B是在同一間審訊室受審的話,沒準兒他們倆可以趁警察不注意用眼神交流,達成「誰也不許招供」的攻守同盟。但是,警察不會蠢到在同一間審訊室中審訊他們,肯定會對犯罪嫌疑人進行單獨審訊。這樣一來,犯罪嫌疑人就無從知曉同夥會選擇「坦白」還是「沉默」了,只能根據自己的經驗進行推測,而且一般都會認為對方會選擇更有利於他自己的策略。因為在這個博弈中,存在著強支配策略,而且這個策略還是最優反應,所以,最終兩人都會選擇對自己最為有利的策略,那就是「坦白」。

~囚徒困境3~

在博弈論中,局中人不會產生誤解,他們會合理地思考問題,採取的行動都是為了讓自己的收益最大化。一個局中人通過合理地分析能夠認識到,對方不會選擇「沉默」,肯定會「坦白」。在這種情況下,就不能期待「1年監禁」的懲罰了,相對較高的收益應該是「3年監禁」。如果兩個人建立攻守聯盟的話,雙方都可以得到較高的收益,但是,在沒有條件進行合謀的情況下,就只有選擇背叛對方。結果,雙方都只能得到較低的收益。這便是「囚徒困境」的原理。

下面我們再來仔細分析一下「囚徒困境」這個博弈的特徵。表4-1是囚徒困境的收益表。表3-2是第三章中(第87頁)介紹鬥雞博弈時使用的一個收益表。這兩個收益表中的數字有相似的地方,但是策略的關係、收益的大小、納什均衡的位置等都存在差異。在鬥雞博弈中,如果對方強硬地選擇「直行」,那麼自己妥協,選擇「轉向」的收益更大。但是,在囚徒困境的博弈中,不管對方選擇「沉默」還是「坦白」,自己選擇「坦白」的收益都相對較大。

我們再把兩個收益表的數字簡化一些,然後進行比較,兩個博弈在結構上的差別就更加明顯了(表4-5、表4-6)。

囚徒困境這樣的博弈類型,在現實生活中經常能夠見到。比如,企業之間的價格競爭,也屬於囚徒困境的博弈。企業採取「高價格」策略就相當於「沉默」,而採取「低價格」策略就相當於「坦白」。最後,存在競爭的企業就陷入了競相降價的囚徒困境之中。再有,國家與國家的軍備競賽也屬於囚徒困境類型的博弈,削減軍備相當於「沉默」,擴充軍備相當於「坦白」。結果,競爭國之間就陷入了無休止的軍備擴充競賽之中。

註:1為了方便比較,我們將第87頁的表3-2中「轉向」和「直行」的順序進行了調換。

水門事件中的「囚徒困境」

~囚徒困境的現實案例~

1972年6月,在美國總統大選期間,共和黨候選人尼克松為了贏得連任,其競選團隊成員潛入了位於華盛頓水門大廈的民主黨全國委員會總部辦公室,準備安裝竊聽裝置並偷拍文件,以竊取民主黨的競選策略等情報。然而,這些人被當場抓獲。以此為開端,揭開了一個由白宮指揮、多名政府高官參與的情報竊取計劃,這便是美國歷史上著名的政治醜聞——「水門事件」。在對這個事件進行調查的過程中,就可以看到囚徒困境的身影。

據說,華盛頓聯邦地方法院的法官塞爾伯特為了獲得總統助手喬治·G.李迪和總統法律顧問約翰·迪安的協助,和他們倆分別做了交易。塞爾伯特分別告訴他們倆,只要他們願意指證水門事件背後的黑幕,就可以減輕自己的罪行。一開始,李迪和迪安都不打算認罪,也不準備指證背後黑幕和對方。由於迪安對事件的參與度相對較低,於是塞爾伯特準備先以迪安為突破口,對他做了一些工作。首先,塞爾伯特告訴迪安,自己已經和李迪進行了密談,謊稱李迪已經準備當證人。然後,又假裝向李迪的律師講述李迪的打算。看到這些後迪安開始感到不安,據他判斷,李迪很快就要坦白了,於是打算搶先一步坦白。

如果李迪和迪安始終保持沉默的話,事件背後的指使者就可能因為證據不足而逍遙法外。但是,擔心對方會先坦白的迪安,結果比李迪更早地選擇了「背叛」。於是,事件的整個黑幕都被揭發了出來,很多人被捕,尼克松總統也被迫辭職。

職員為什麼會自願義務加班?

~職員陷入的囚徒困境~

有的時候,職員為公司做了很多貢獻,但不一定能得到應有的報酬和評價。就拿義務加班來說,雖然職員們都知道義務加班沒有加班費,而且即使加班,也不一定能得到上司的褒獎。可是,為什麼還是有那麼多職員願意義務加班呢?經過合理的思考,職員們都知道應該停止義務加班,馬上回家。但是,義務加班總讓人「欲罷不能」,這也是上班族的一種悲哀。其實,我們可以用囚徒困境的理論來解釋為什麼很多職員會不自覺地義務加班,而且陷入其中難以自拔。

A先生和B先生同在一家公司上班。如果A、B兩個人都只做分內工作不加班的話,公司對兩人的評價差不多,每月都只能拿固定的薪水。所以,兩人的收益都是1。如果A或B有一方義務加班,那麼加班的人獲得的評價會比較高,薪水上漲,收益是5;而不加班的一方會得到較低的評價,又難以加薪,因此收益是-5。如果A、B兩人都義務加班的話,雖然兩人得到的評價都比較高,但沒有差距,公司難以給兩人都加薪,這樣一來,辛苦的付出得不到薪水上的回報,因此兩人的收益都是-3。在這種情況下,職員到底應該選擇加班還是不加班呢?從收益表中我們可以看出,雙方都加班是強支配策略,所以兩人都會選擇加班。結果,兩個人的收益都是-3。雖然大家心裡都清楚,誰也不加班,每個人的收益最高,但是又擔心別人加班的話,會使自己的收益變低,因此就會陷入自願加班的囚徒困境。

大家都加班,所以沒有突出與落後的差別,因此,公司對大家的評價都差不多,不會給任何人加薪。所以,大家都是在為公司義務勞動。

三得利的銷售戰略

~價格設定的囚徒困境~

囚徒困境在經濟領域也非常多見。比如,很多企業都陷入了價格競爭的囚徒困境。第一章中的例題1(第38頁),快餐店的價格競爭博弈中就存在強支配策略,符合囚徒困境的結構。企業之間競相降價,結果形成螺旋式通貨緊縮,就是由囚徒困境引起的。

曾經也有企業以這種囚徒困境為武器,把握住了機遇,進而取得了巨大的成功。2008年,日本啤酒的銷量統計數據顯示,原來處於業界第四位的三得利成功超越了原來第三位的札幌啤酒。這是日本自1992年開始統計啤酒銷量數據以來,三得利首次超越札幌啤酒。其中最大的原因就是三得利採取了「零售價不變」的策略。

當時,因為原油、原材料的價格高漲,食品企業的成本隨之增加,為了確保利潤,很多企業都想提高商品售價。但是,由於囚徒困境作怪,他們又不敢貿然漲價。

不過,如果各家公司串通一氣,合謀共同漲價的話,大家都能獲得不錯的收益。所以,一些壟斷行業的大企業開始合謀漲價的計劃。拿啤酒行業來說,朝日、麒麟、札幌啤酒這幾家大公司幾乎同時提高了各自全部商品的價格。可就在這股漲價風潮中,三得利卻採取了不同的策略。雖然三得利的部分商品也提高了零售價格,但是罐裝啤酒卻保持原來的價格不變。由於三得利忠實於博弈論的理論,選擇了「價格不變」,結果受到了廣大消費者的青睞,在市場份額上成功超越了札幌啤酒。不要忘記,廣大消費者對於價格是非常敏感的。

從骯髒的選舉中看囚徒困境

~第41屆美國總統選舉/政治世界的囚徒困境1~

在政治的世界中,我們也能看到囚徒困境的現實體現。在選舉中,揭露、批判競爭對手人格上的問題、過去的污點等,會使其失去民眾的信任。這種負面宣傳戰術,就是囚徒困境的一個典型例子。本來,總統候選人應該通過政策的論戰,以治國政策的優劣分勝負。但是,在現實中,競選者會通過打擊民眾對對手的信任程度,相對地提高對自己的信任,從而贏得選舉。表面上看起來,這種行為十分愚蠢、不合常理,卻是選舉中常用的手段,不僅其他國家會用,日本人在選舉的時候也常使用這一招。我們可以用囚徒困境來解釋這種戰術被頻繁應用於選舉中的背景。

1988年,邁克爾·杜卡基斯和喬治·布什競選第41屆美國總統,那次選戰被稱為「最為骯髒的選戰」。杜卡基斯曾任馬薩諸塞州州長,可謂履歷耀眼,相比之下,布什的履歷就沒有那麼顯著的功績了。然而,布什的選舉陣營在電視台反覆放出「杜卡基斯擔任州長期間,曾經對波士頓灣的非法排放置之不理,造成了嚴重的環境污染」「杜卡基斯州長徇私枉法,讓很多原本不該獲得假釋的犯人獲得了假釋,結果很多人又走上了搶劫、強姦的犯罪道路」等負面消息。這樣的負面報道對群眾造成了巨大的影響,讓民眾認為杜卡基斯在環境保護和犯罪問題上缺乏手腕,從而給杜卡基斯陣營帶來了沉重的打擊。到了選舉的後期,杜卡基斯陣營也拋出了針對布什的負面宣傳,可是內容大多是針對布什進行單純的人身攻擊,缺乏衝擊性。雙方都進行了負面宣傳,使選戰看起來很骯髒。只不過,杜卡基斯陣營的負面宣傳拋出的時機太晚,而且內容也缺乏衝擊性,於是,最終布什獲得了選戰的勝利。

~第41屆美國總統選舉/政治世界的囚徒困境2~

我們來詳細分析一下那屆總統選舉中囚徒困境的構造。我們設定選舉中有兩個玩家,每個玩家可選擇的戰略有兩個——「只論政策」和「負面宣傳」。假設雙方採取「只論政策」對「只論政策」的戰略,那麼雙方可以各得5萬張選票。如果政策論戰非常活躍、充分,選民投票踴躍,那麼最終雙方累計可以獲得10萬張選票。如果自己選擇「只論政策」戰略,而對方採用「負面宣傳」戰略,那麼選民對自己的信任度降低,自己只能獲得1萬張選票,而對方可以獲得6萬張選票。因為對方採取了「負面宣傳」戰略,關於政策的論戰並不充分,所以選民投票熱情也不飽滿,最終只有7萬人投票。如果雙方都採用「負面宣傳」戰略,那麼雙方只能分別獲得3萬張選票,因為這樣相互做負面宣傳的選舉,導致選民的投票熱情低落,最終只有6萬人投票。

在這樣的設定中,我們來分析一下雙方玩家應該採取的最合適的行動。其實,雙方都應該採取「只論政策」的戰略,讓選民投票熱情高漲,最終雙方來分得那最多的10萬張選票。至於勝負,就取決於玩家在論戰中的水平了。可是,在現實中這是不可能的。根據囚徒困境的理論,雙方都只能選擇「負面宣傳」,然後來瓜分那最少的6萬張選票。如果還有一名候選人,而且他獲得了4萬張選票的話,那麼前兩名候選人就只有落選的份兒了。

一開始,杜卡基斯的理念是不攻擊對手,對於布什的攻擊,他本來打算不予理睬。可是,當他看到自己的支持率大幅下降之後,不得已之下只好也採用了「負面宣傳」的戰略。這是他在困境中不得已的選擇。

黑手黨成員為什麼不會背叛組織?

~有些犯罪嫌疑人會「抗拒」到底~

在我們之前看到的囚徒困境模型中,局中人會為了自己的收益而出賣對方。但是,據一些刑事案件的律師和警官介紹,在審訊室中,犯罪嫌疑人出賣同伴的比例並不高。特別是那些跨國作案的犯罪嫌疑人,審訊起來難度很大,他們坦白的概率只有40%~60%。而且,如果是非常重大的案件,犯罪嫌疑人坦白的可能性會更低。如果犯罪嫌疑人屬於某個犯罪組織,他們幾乎不會坦白,更不會出賣組織。這是為什麼呢?難道是囚徒困境的模型存在錯誤?

其實不然。這個問題的答案也很簡單,上面說的案例與之前介紹的囚徒困境相比,局中人的收益存在很大的差異。我們先來看看囚徒困境的基本模型(表4-1),接下來再看看黑手黨成員被捕後所陷入的囚徒困境模型(表4-7)。非常明顯,黑手黨成員的囚徒困境與基本的囚徒困境有很大的差別。其中非常關鍵的一點就是,作為黑手黨成員,如果協助警察出賣組織的話,毫無疑問日後他肯定會被組織殺掉。黑手黨成員心裡都很清楚出賣組織的下場,因此他們拒絕與警察合作,會一直保持沉默。其實,這也是他們合理思考的結果,他們肯定會選擇收益相對較高的策略。這並不是他們戰勝了囚徒困境,而是「坦白」的代價太大,即要付出生命。

不過,對於這種情況,警察也不會束手無策。在盛行「司法交易」的美國,就有「證人保護計劃」,該計劃就是為了防止證人日後遭到報復而建立的證人保護體系。政府可以幫證人改變身份,讓他在一個陌生的地方或國家隱秘地生活,以防他被犯罪組織找到。這樣做的目的就是鼓勵他們站出來做證,指證犯罪組織的罪行。

如果反覆進行囚徒困境博弈,結果會怎樣?

~反覆進行的囚徒困境博弈~

這次,我們稍微改變一下視角。如果將囚徒困境的博弈反覆進行,會得到什麼樣的結果呢?被捕的犯罪嫌疑人,如果只給他們一次選擇的機會,即只進行一次囚徒困境博弈的話,他們當然容易選擇坦白,出賣同夥。但是,如果告知他們可以反覆進行多次選擇,那麼他們是否願意相信同夥,而選擇沉默呢?

非常遺憾的是,不管進行多少次囚徒困境的博弈,局中人都不會選擇相信同夥。我們將表4-8中的博弈模型反覆進行100次。我們將「沉默」換成了「協作」,「坦白」換成了「背叛」。如果兩個人都背叛對方,並且相互背叛100次的話,那他們各自的最終收益只有1。但是,如果一直相互協作的話,那麼每次的收益都是3。說到這裡,也許你會認為,如果兩個人從相互協作開始,也許他們會一直協作下去,一共協作100次,因為只有如此,兩人的收益才最大。但是,事情並不會發展得那麼順利。

如果兩個局中人的思維都很正常,會合理地進行思考,那麼,他們肯定會把注意的焦點放在最後一次博弈上。最後一次,與選擇協作相比,選擇背叛的收益會更高一些。因此,第100次博弈的最優反應應當是背叛。那麼,第99次博弈呢?對第99次博弈的思考和第100次一樣,所以,局中人還是會選擇背叛。之所以前面的博弈有可能選擇協作,是因為在局中人心中懷有一種淡淡的期待,他們心裡想的是:也許下一次對方會選擇協作。但是,他們知道第100次博弈時,自己和對方確實都會選擇背叛。於是,第99次博弈就沒有選擇協作的理由了。也就是說,第99次博弈時選擇背叛是最優反應。那麼,第98次博弈呢?這樣一次一次往前推導,結果就是第一次博弈時就應該選擇背叛。由此可見,單純增加博弈的次數,人也是難以逃出囚徒困境的。

~無限反覆的囚徒困境博弈~

這次,我們不限定囚徒困境反覆的次數,讓它無限反覆下去,結果又會怎樣呢?在有限次數的反覆中,局中人可能會在最後一次選擇背叛。那麼,如果沒有最後一次的話,局中人會不會一直選擇協作呢?即使我們無法讓囚徒困境無限反覆下去,但只要不明確設定最後一次就可以了。會合理思考的局中人願意選擇協作,是因為他們心中期待對方在下一次博弈中也選擇協作。

我們將囚徒困境的模型以「協作」對「協作」的策略組合重複三次,看看會出現什麼樣的結果。在這3次囚徒困境的博弈中,A和B的累計收益都是9。但是,A突然在第4次博弈中選擇了「背叛」,那麼,非常生氣的B在第5次博弈中也會選擇「背叛」。結果,從第5次博弈開始,雙方就以「背叛」對「背叛」的策略組合持續博弈下去,一共進行了10次博弈之後,雙方就不願再繼續了。此時,A的累計收益是20,B的累計收益是15。如果雙方在10次博弈中都選擇「協作」,那麼他們各自的累計收益都是30。如果一方中途選擇了「背叛」,那麼下一次對方肯定也會選擇「背叛」,接下來的博弈就只能是「背叛」對「背叛」了。這樣一來,也許就沒有第11次博弈了。但是,如果雙方一直選擇「協作」,不僅各自的收益更高,而且還會有第11次、12次博弈,並且一直持續下去。也就是說,長遠來說,只追求眼前利益,中途選擇「背叛」,並不能讓自己獲得更高的收益。

不過,還有一種情況是我們不得不考慮的,那就是中途選擇「背叛」會讓局中人獲得特別高的收益。這種情況下,一開始一方為了讓對方感到安心,會故意選擇「協作」,等對方放鬆警惕的時候,突然選擇「背叛」讓自己獲得巨大的收益。這種例子在商業活動中很常見。比如,商品採購方和供貨方之間的博弈中,有些圖謀不軌的採購方一開始會小批量採購貨物,並按時支付貨款,以騙取供貨方的信任。結果,突然有一次大量訂貨,待收到貨物之後便消失得無影無蹤了。在商業欺詐案件中,經常能見到類似的例子。所以,和不太熟悉的客戶進行交易時一定要小心,尤其是對方突然下大額訂單的時候,更要提高警惕。

在不斷反覆的囚徒困境中獲得勝利的策略——「以牙還牙」

~第一屆囚徒困境大賽~

美國密歇根州州立大學有一位政治學教授——羅伯特·艾克斯羅德,他在博弈論方面的研究非常深入。關於囚徒困境,他曾經做過一個非常有趣的實驗。羅伯特·艾克斯羅德組織了一場囚徒困境大賽,他想在眾多策略中找出一種能夠在不斷重複的囚徒困境中獲得勝利的策略。

他請社會學、經濟學、數學等眾多領域中對博弈論有研究的專家提出自己的制勝策略,最終一共收集到14組策略,再加上一組隨機策略,參賽的總共有15組策略。其實,每一組策略就是一種規則或一種程序,它們會在不斷重複的200次囚徒困境博弈中選擇「協作」或者「背叛」。而每一次囚徒困境博弈就如下一頁表4-9所示,是非常簡單的囚徒困境模型。A、B相互協作的話,就各得3分;相互背叛的話,就各得1分。比賽結束後,按照累計收益得分為15組策略排名。

結果,這次比賽的第一名並不是什麼複雜的策略,而是名為「Tit for Tat」的簡單策略,翻譯過來就是「以牙還牙」的策略。這個策略一開始選擇「協作」,然後在下一次博弈中模仿對方上一次的策略。如果上次對方選擇「背叛」,這次自己也選擇「背叛」;上次對方選擇「協作」,這次自己也選擇「協作」,所以叫作「以牙還牙」的策略。

後來,羅伯特·艾克斯羅德還對得分高的策略與得分低的策略進行了對比。結果發現,得分高的策略有一個很明顯的特徵,那就是「自己不先背叛對方」。也就是說,自己絕不先於對方選擇「背叛」,只有對方「背叛」我們之後,我們才能「背叛」對方。

~第二屆囚徒困境大賽~

在得到前一小節介紹的結果之後,羅伯特·艾克斯羅德又舉辦了第二次囚徒困境大賽。這次一共徵集到六個國家的62組策略。在學科領域上,除了參加第一屆大賽的那些專業領域之外,還吸引了進化生物學、物理學、計算機學等專業的教授、專家參與。主辦者羅伯特·艾克斯羅德向所有參賽者詳細介紹了第一屆大賽的情況和結果,在此基礎上,讓參賽者設計自己的策略。

結果,獲得第二屆大賽勝利的還是「以牙還牙」策略。當然,「以牙還牙」的策略能夠勝出,可能跟主辦方提供的這個囚徒困境模型的收益分配(5、3、1、0)存在很大的關係。如果把收益分值改動一下,也許其他策略就能獲得更好的成績。但是,這樣的一個結果給我們帶來了很多啟發。

1.自己絕不能先「背叛」;

2.雖然自己不先「背叛」,但如果對方「背叛」,我們就應該馬上採取「背叛」策略作為懲罰。如果對方改回「協作」策略的話,我們千萬不要記仇,也應該迅速選擇「協作」。雖然從感情上講,我們總希望對方「加倍補償」,但那樣做並不能讓自己獲得更高的收益;

3.要努力向對方說明,選擇「背叛」是不好的策略,會給雙方帶來損失,並積極採取行動。說話不要繞圈子,行動不要曖昧不明。

「以牙還牙」的策略並不能消除或者解決囚徒困境的難題,說到底它只不過是一種在囚徒困境中獲得更高收益的思維模式。在我們現實社會中,人與人的交往就在不斷重複著「協作」與「背叛」,因此,「以牙還牙」的思維模式也許能給我們的生活帶來一些有益的啟發。

相親的必勝之法

~相親中的囚徒困境1~

在序章中我們介紹了「相親時絕對不能做的事」(第10~13頁),在那個案例中,你和小王之間的博弈,和囚徒困境的模型具有相同的構造。

我們來看看你和小王的策略與收益的關係。如果你和小王相互在背後說對方的壞話,那麼女生對你們倆的評價都會降低,以致你們倆的收益都是-2。如果你說了小王的壞話,但小王沒有說你的壞話,那麼女生就會對小王產生不好的印象,因此小王的收益是-3,而你的收益是1。反過來,你沒有說小王的壞話,但小王說了你的壞話,那麼你的收益是-3,小王的收益是1。如果你和小王都沒有說對方的壞話,那麼兩人的收益都是0。

從這個收益表中,我們找一找雙方的最優反應,結果會發現,兩人都說對方的壞話是唯一的納什均衡。兩人只能選擇說對方的壞話。

但是,如果兩人都說對方的壞話,這場博弈就變成了消耗戰。結果只能是兩人都得到較低的收益。這個世界上好男人多的是,這裡沒有合適的,女生會去其他地方找。所以,相互說壞話的行為,損人也不利己。

剛才是把你和小王的博弈當作靜態博弈來分析的,如果我們把這場博弈改成動態博弈的話,結果又會怎樣呢?假設你先說了小王的壞話,那麼小王就面臨兩種選擇,一是不說你的壞話,二是說你的壞話。可是在這場博弈中,對他來說,說你的壞話是最佳選擇。也就是說,小王陷入了一種囚徒困境。因此,要想從囚徒困境中擺脫出來,一定不能先說對方的壞話。

~相親中的囚徒困境2~

接下來,我們將策略和收益稍微修改一下,讓它變成另外一個博弈。策略是「讚美對方」和「不讚美對方」。如果雙方相互讚美,則每個人的收益都是2(表4-10)。如果你讚美小王,但小王沒有讚美你,那麼你的收益是1,小王的收益是3。因為讚美別人的人,一般也會受到女性的好評,當然,被讚美的人更能給女性留下好印象,所以被讚美的人收益更高。如果雙方都不去讚美對方,那麼彼此的收益都是0。這樣一來,這個博弈中就出現了兩個納什均衡。一是你「讚美」小王,但小王「不讚美」你;二是你「不讚美」小王,但小王「讚美」你。這樣來改變博弈形式,至少可以將相親的成功率稍微提高一點兒。

下面要考慮的問題就是到底該選哪個納什均衡。最簡單的方法就是在多次相親活動中,兩個人輪流讚美對方,這次我讚美你,下次換你讚美我,或者使用「相關策略」(請參見第78頁)。舉例來說,當你在會場門口等小王的時候,可以根據眼前經過的第一個人的衣服顏色來決定是否「讚美」小王。比如,經過的第一個人的衣服是紅色的,那就「讚美」小王;如果衣服是藍色的,就「不讚美」小王,而是讓小王「讚美」自己。這是一種借助於偶然現象的決定法,免去了做決定的煩惱。也可以兩個人私下做好約定,比如上次小王「讚美」了你,那麼這次就該你「讚美」他了。當然,如果相親只有這一次的話,這種約定不僅沒有意義,也是難以成立的。不過,如果你和小王經常一起參加相親活動,相信小王一定會欣然接受這樣的約定,因為畢竟這能讓他得到很大的好處。這也就是相親活動中的必勝之法。

換句話說,你和同伴應該從相互說壞話的囚徒困境中擺脫出來,通過私下約定,在之後的相親活動中輪流讚美對方,只有這樣才能讓雙方都得到很好的收益。博弈論告訴我們,囚徒困境不能反覆多次進行下去,肯定會有破裂的一天。而且我們沒有辦法強制博弈無限次地重複下去,那就只有改變博弈的形式,從而讓局中人獲得相對較高的收益。

社會性困境

~什麼是社會性困境?~

在一個隆重的節日,政府組織了一場規模盛大的煙火大會。你和家人也想去現場觀看,可是去到現場一看,你被現場的混亂狀況震驚了。最佳的觀看場所有人數限制,目前已經滿員,而且現場有警員在維持秩序,外面的人一律不得入內。你心裡會想:「裡面有那麼多人,再進去我們這幾個人,就像一顆小石頭丟進大海裡,不會有什麼影響吧。」於是你跟警員說:「就讓我們一家人進去吧,也佔不了多大地方。」可結果還是被拒之門外。如果放你們一家人進去,對你們來說是得到了很大的好處。對於已經在裡面的人,影響也不是很大。雖然多了幾個人,「會變得更擁擠」「發生踩踏事故的危險性增加了」因為總體人數眾多,影響並不明顯。像這樣,對於個人來說合理的選擇和全社會的最優策略相矛盾的情況,就叫作「社會性困境」。

其實,社會性困境在我們身邊比比皆是。由於大量排放二氧化碳而造成的地球溫室效應,就是一個典型的社會性困境的例子。大家都清楚,自己也好,他人也罷,都應該減少開車出行、節約用電,但是,由於每個人製造或排放的二氧化碳量非常少,大家對於自己給地球家園帶來的壞影響並沒有切實的感受。所以,雖然我們心裡都清楚應該減少開車出行、節約用電,但仍總是給自己開脫,認為自己多開一天車、多用一度電也沒什麼大不了的。我們隨意開車、用電,自己的收益很高,給地球造成的危害很小,這種誘惑是每個人都難以抵擋的。

對於個人來說,「使用」汽車、電器的策略,佔有支配性的地位,所以,每個人都選擇了「使用」。結果,地球的環境就越來越糟糕了。

為什麼上司會偷懶不工作?

~社會性困境/搭便車的人1~

拿著高薪卻不幹活的上司、假裝工作卻在偷著玩遊戲的同事、只有在開會發言時才表現出幾分領袖氣質的前輩……你的公司裡是不是也存在這樣的人?近些年來,這樣的人似乎越來越多,這類人被稱為「搭便車的人」。不僅公司裡存在「搭便車的人」,社會上更是比比皆是。比如,不繳納稅金卻享受公共服務的人、不規規矩矩地排隊喜歡加塞的人,都屬於「搭便車的人」。簡單地說,就是讓別人承擔費用、讓別人出勞力,自己坐享其成的人。職場中如果存在很多這樣的人,會給公司造成很大的危害。為什麼這麼說呢?因為「搭便車的人」不僅不創造價值,還會製造出很多新的「搭便車的人」。那麼,「搭便車的人」是如何在公司中不斷增多的呢?

我們把公司中「搭便車的上司」和「其他職員」看作一個博弈中的兩個局中人。我們來為這個博弈製作一張收益表。如果上司選擇「幹活」,其他職員也「幹活」的話,那麼職員的收益是2,上司的收益是3(職員的1.5倍)。如果雙方都選擇「不幹活」的話,那麼雙方的收益都是0。如果上司「幹活」而其他職員「不幹活」,那麼上司就必須把其他職員的工作都做了,在此情況下,上司要付出更多的勞動力,因此上司的收益是-5。對於其他職員來說,有上司替自己幹活,當然輕鬆愉快,因此其他職員的收益是3。如果上司「不幹活」而其他職員「幹活」的話,那麼上司落得輕鬆愉快,收益是5(公司中大多數人都在幹活,所以收益比較大)。其他職員替上司把工作做了,所以職員的收益是1(不幹活的只有上司一人,因此對整個公司來說損害比較小)。於是,這個博弈的收益表就如表4-11所示。從收益表中我們可以看出,對於上司來說,「不幹活」這個策略處於支配地位,所以上司會選擇這個策略。

~社會性困境/搭便車的人2~

對於上司來說,「不幹活」是支配性策略,但是對於其他職員來說,「不幹活」並非支配性策略。如果上司和職員都選擇「不幹活」,那估計這家公司用不了多久就會倒閉。如果上司「不幹活」,那麼職員必須幹活。如果上司「幹活」,那麼對於職員來說,「不幹活」的收益要高一點兒。

請注意,在這個博弈中,上司和職員的收益是存在差別的。先從上司的角度看,「幹活」與「不幹活」的收益差很大。因為公司中肯定是職員多、上司少,一名上司領導多名職員,所以上司「不幹活」的時候收益高,而上司「幹活」的時候收益極其低(5與-5的差別)。但是,職員「幹活」與「不幹活」的收益差就小很多(1和3的差別)。也就是說,如果公司中非得有一方「幹活」的話,那麼是職員「幹活」的收益更高。再加上上司手中握有權力,所以,很多上司都會偷懶不幹活。

但是,也有一些上司會做兩倍於職員的工作。我們剛才看到的收益表是無能的上司的收益表,而能力強的上司的收益表又是另外一番景象。有能力的上司能夠很好地推動下屬工作,他們能讓職員「幹活」的收益比「不幹活」的收益高,結果,就讓「幹活」成了職員的支配性策略。和這樣的上司一起工作,職員也會得到很大的好處,「幹活」成為他們的支配性策略。為了防止「搭便車的人」在公司內不斷增多,公司需要推出一些「激勵」方法,讓管理者和普通職員都得到好處。由此可見,企業一味地用大棒去驅使員工幹活,反倒得不到很好的效果,有的時候需要給他們幾塊糖果,才能讓他們幹勁十足。

利己主義者的未來

~社會性困境/共有地的悲劇~

話說有一個村子的村民在郊外發現了一塊水草豐美的牧草地。於是,這塊地成了這個村子的共有地,村民們都去那裡放牛。整塊牧草地總共可以餵養100頭牛。村裡共有10個村民,每人有10頭牛,因此這塊共有地剛好夠喂村裡所有的牛,這樣就達到了一種均衡狀態。吃飽了草的牛體格健壯,每頭可以賣到100萬日元。可是,如果增加1頭牛,平均每頭牛吃的草就會減少,於是體重下降,牛的售價也隨之減少1萬日元。也就是說,共有地中每增加一頭牛,每頭牛的售價就會減少1萬日元。那麼,在這個案例中,是維持100頭牛的數量不變好呢,還是寧可讓每頭牛的單價下降也要增加牛的數量?

如果維持現狀的話,對於每一位村民來說,他所擁有的牛的價值是100萬日元×10頭=1000萬日元。如果增加1頭牛,他所擁有的牛的價值就變成99萬日元×11頭=1089萬日元。由此看來,增加牛的數量更加划算。

村民通過合理的思考,認為增加自己飼養的牛的數量,對自己更有好處。

看到有人增加飼養的牛的數量之後,其他村民都紛紛效仿。10個村民每人增加了1頭牛。結果,每個村民的牛的總價值為90萬日元×11頭=990萬日元。而維持100頭牛的時候,每個村民所擁有的牛的總價值是1000萬日元。由此可見,增加牛的數量之後,每個村民的牛的總價值反而縮水了。第一個增加牛的數量的村民一看這種情況,就著急了,趕緊又增加了1頭牛,這樣一來,他的牛的總價值就變成了89萬日元×12頭=1068萬日元。之後,其他村民也紛紛效仿,結果牧草地就被超出負荷的牛啃光了,變成了沙地,誰也無法繼續養牛了。

這種博弈模型被稱為「共有地的悲劇」。在一個集體中,如果所有人能相互協調後再採取行動,那麼可以保證全體人員都受益。但是如果大家都抱有利己主義思想,只為追求個人利益而採取行動的話,那麼最終所有人都會無利可圖。

註:1出自漫畫《進擊的巨人》。

什麼是帕累托最優?

~囚徒困境中的帕累托最優1~

在博弈論中,還有「帕累托支配」和「帕累托最優」兩個術語。它們是很重要的概念,但也比較複雜。在這裡,我想對這兩個概念稍微多講幾句。

在囚徒困境的博弈中,兩個局中人「坦白」對「坦白」的策略組合是納什均衡,也是兩個人的最優反應。可是,採取「坦白」對「坦白」的策略組合,雙方的收益都只有1。而如果採取「沉默」對「沉默」的策略組合,則兩個局中人的收益都是3,明顯要高於「坦白」對「坦白」的策略組合。這種情況下,我們就稱「沉默」對「沉默」的策略組合帕累托支配著「坦白」對「坦白」的策略組合。

如果沒有哪個策略組合可以超越帕累托支配策略組合Z,那麼,策略組合Z就叫作帕累托最優,或者叫作帕累托效率。換句話說,就是「為了讓某人的狀態變得更好,就不得不犧牲其他人的狀態」。

雖然帕累托支配和帕累托效率說的是一回事,但這兩種說法都容易招致誤解。帕累托是著名經濟學家,所以有關帕累托的一些術語在經濟領域應用比較多。一提到「最優」,我們就能想到「最好」「最合適」等概念,但是,帕累托最優並不是對所有參與者來說都是最好的選擇。雖然名叫帕累托最優,但並不是對其他所有策略都處於帕累托支配地位。另外,帕累托最優也叫作帕累托效率,不過,這裡的「效率」和「生產效率」「勞動效率」等「效率」存在較大的差異。帕累托效率主要是在考慮個人的需求、利益時使用的工具。

註:1日語中「調色盤」和「帕累托」同音。

~囚徒困境中的帕累托最優2~

下面我們一起來仔細分析一下囚徒困境中的帕累托最優。在囚徒困境的博弈中,「沉默」對「沉默」的策略組合支配著「坦白」對「坦白」的策略組合。那麼,「沉默」對「沉默」的策略組合是不是帕累托最優呢?我們試著將「沉默」對「沉默」的策略組合轉換成其他策略組合,結果發現,轉換之後至少有一個局中人的收益下降了。比如,將「沉默」對「沉默」轉換成「沉默」對「坦白」的時候,局中人B的收益從3變成了5,是變好了,可是局中人A的收益從3變成了0,變差了(犧牲了A的利益)。同樣的道理,如果將「沉默」對「沉默」轉換成「坦白」對「沉默」,那麼這次B的收益就會變差。由此可見,「沉默」對「沉默」的策略組合是帕累托最優。

再來分析一下「沉默」對「坦白」的策略組合。如果將「沉默」對「坦白」的策略組合轉換成「沉默」對「沉默」的策略組合,那麼A的收益從0變成了3,是變好了,可是B的收益從5變成了3,是變差了。如果轉換成「坦白」對「沉默」,那麼A的收益從0變成了5,而B的收益則從5變成了0。如果轉換成「坦白」對「坦白」的話,A的收益從0變成了1,而B的收益從5變成了1。換句話說,「沉默」對「坦白」的策略組合,可以說是「為了讓某人的狀態變得更好,就不得不犧牲其他人的狀態」。也就是說,「沉默」對「坦白」的策略組合也是帕累托最優。同樣的道理,「坦白」對「沉默」的策略組合如果轉換成其他策略組合的話,也會犧牲某人的利益,因此這個策略組合也是帕累托最優。

綜上所述,在囚徒困境的博弈中存在三個帕累托最優,分別是「沉默」對「沉默」的策略組合、「坦白」對「沉默」的策略組合以及「沉默」對「坦白」的策略組合。說到這裡,可能大家已經對「最優」感到困惑了,怎麼會同時有好幾個最優呢?在博弈的世界裡,最優確實不一定只有一個。

~囚徒困境中的帕累托最優3~

我們來看一個具體的例子。有一位祖父給了兩個孫子1萬日元,叫他們自己去分這筆錢。如果兄弟二人平均分配,那就是a=(5000日元,5000日元)。括號裡左邊是哥哥分到的錢,右邊是弟弟分到的錢。如果哥哥恃強凌弱,宣佈自己獨吞那1萬日元的話,分配方案就是b=(1萬日元,0日元)。如果哥哥心疼弟弟,知道弟弟缺錢,想多分他一點兒,那麼分配方案就是c=(4000日元,6000日元)。上述這些分配方案,都是帕累托最優。帕累托最優中沒有平等的概念。因此,方案b也是帕累托最優。但是,如果這樣分配,z=(4000日元,4000日元),1萬日元沒有分完,那這種分配方案就不是帕累托最優。兄弟二人分1萬日元,假設哥哥分得的錢用y表示,弟弟分得的錢用x表示,那麼,只要符合如下等式的分配方案,就都可以稱為帕累托最優。

y=1萬日元-x

帕累托最優(帕累托效率)經常被人與納什均衡混為一談。其實二者存在較大差別。簡單地說,帕累托最優是最大限度地發揮整體效益的狀態,而納什均衡是個人滿意度最大的狀態。在有些博弈中,帕累托最優和納什均衡是一致的,但也有些博弈中,兩者是不一致的,比如囚徒困境的博弈。在下一小節中,我就詳細講一講帕累托最優和納什均衡的差別。

帕累托最優與納什均衡

~兩者一致的案例與兩者不一致的案例~

假設有一對情侶A和B,他們住在一起。星期六,他們都不用上班,很想出去玩,可是天公不作美,偏偏下起了雨。雖然兩人都想出去玩,可是下雨天出去的話,也玩不開心。如果一個人單獨出去玩,收益是-3。如果一個人單獨在家的話,收益就是1。不過,只要兩個人在一起,不管出去玩還是宅在家,都會很開心,所以兩人同時行動的時候,收益值要在原來的基礎上再加3。

我們來分析一下這個博弈中的納什均衡和帕累托最優。局中人是A和B,策略是「出去玩」和「宅在家」。通過收益表我們可以看出,這個博弈的納什均衡是「宅在家」對「宅在家」的策略組合。因為外面下雨,所以兩人一起宅在家裡要比出去玩開心些。在這種情況下,「宅在家」對「宅在家」的策略組合也是帕累托最優。因為不管轉換成其他哪種策略組合,都有人的收益會降低。

第二天星期日,天晴了。單獨出去玩的收益是3,單獨宅在家的收益是1。如果兩人同時行動,會更開心,所以收益會在單獨行動收益的基礎上再加3。這種情況下,納什均衡就有兩個,分別是「出去玩」對「出去玩」的策略組合和「宅在家」對「宅在家」的策略組合。不過,「出去玩」對「出去玩」的策略組合帕累托支配著「宅在家」對「宅在家」的策略組合。因此,帕累托最優只有「出去玩」對「出去玩」的策略組合。

通過前面的例子,我們發現,在有些博弈中,納什均衡和帕累托最優是一致的,而在有些博弈中,兩者是不同的。不僅如此,有些博弈中雖然存在多個納什均衡,但帕累托最優只有一個。

第四章 總結

●在囚徒困境中,局中人相互協作可以獲得較高的收益,但是,局中人會合理地考慮自己的利益,放棄協作而選擇背叛,以追求個人更高的收益。

●在不斷重複的囚徒困境中,自己不應該先選擇「背叛」,但當對方選擇「背叛」之後,我們應該馬上「背叛」。而當對方回心轉意,選擇「協作」之後,我們應該摒棄前嫌,也選擇「協作」。

●為了減少公司中「搭便車的人」,公司應該制定有效的「激勵」制度。

●「共有地的悲劇」和「進擊的共有地」沒有任何關係。