讀古今文學網 > 博弈論的詭計:日常生活中的博弈策略 > 以牙還牙,以眼還眼 >

以牙還牙,以眼還眼

        一天半夜,某教授正在熟睡之際,電話鈴突然響了起來。他睡眼惺忪拿起電話,聽筒裡傳來女鄰居怒氣沖沖的聲音:「麻煩你管一下你的狗,不要再讓它叫了。」說完,電話就掛了。這位教授十分生氣。第二天他定好鬧鐘,半夜兩點鐘準時起床,拿起電話撥通了這位女鄰居家。過了半天,對方才拿起聽筒,帶著睡意惱怒地問:「哪一位?」這位教授彬彬有禮地告訴她:「夫人,昨天我忘記告訴你了,我們家沒有養狗。」

        在這個反映現實人際關係的小笑話中,我們可以發現在沒有法規和道德的約束,也沒有其他力量從外部對雙方進行強制時,對自己最有利的一種策略:一報還一報。這一策略的提出,應歸功於美國密歇根大學的學者羅伯特‧愛克斯羅德。他是一個政治科學家,研究方向是人與人之間的合作關係。

        在開始研究合作之前,愛克斯羅德設定了兩個前提:一,每個人都是自私的;二,沒有權威干預個人決策。也就是說,個人可以完全按照自己利益最大化的目標進行決策。在此前提下,要研究的問題是:第一,人為什麼要合作;第二,人什麼時候是合作的,什麼時候又是不合作的;第三,如何使別人與你合作。

        在研究的過程中,愛克斯羅德組織了一場計算機模擬競賽。思路非常簡單:任何參加這個競賽的人都扮演囚徒困境案例中一個囚犯的角色,把自己的策略編成計算機程序,進行捉對博弈,在合作與背叛之間做出選擇。但與囚徒困境案例有個不同之處:他們不止玩一次這個遊戲,而是以單循環賽的方式玩上200次。這就是博弈論專家所謂的「重複的囚徒困境」,它更逼真地反映了具有經常而長期性的人際關係。

        這個遊戲還允許程序在做出合作或背叛的抉擇時,參考對手程序前幾次的選擇。如果兩個程序只玩過一個回合,則背叛顯然就是唯一理性的選擇。但如果兩個程序已經交手過多次,則雙方就建立了各自的歷史檔案,用以記錄與對手的交往情況。同時,它們也通過多次的交手樹立了或好或差的聲譽。

        雖然如此,下一步將會如何行動卻仍然極難確定。實際上,這也是該競賽的組織者愛克斯羅德希望從這個競賽中瞭解的事情之一:一個程序能夠總是不管對手做何種舉動都採取合作的態度嗎?或者,它能總是採取背叛行動嗎?它是否應該對對手的舉動報之以更為複雜的舉動?如果是,那會是怎麼樣的舉動呢?

        第一輪遊戲有14個程序參加,其中包含了各種複雜的策略。再加上愛克斯羅德自己的一個隨機程序(即以50%的概率選取合作或背叛)。使愛克斯羅德和其他人深為吃驚的是,競賽的桂冠屬於一個被稱為「一報還一報(TIT FOR TAT)」的策略,它是由多倫多大學的數學教授阿納托‧拉波波特提交上來的。

        有意思的是,在科學家們上交的14個程序中有8個是「善意的」,但正是這些永遠不會首先背叛的善意程序,輕易地贏了6個非善意的程序。

        因為參與競賽的程序為數不多,一報還一報策略的勝利也許只是一種僥倖。為了進一步驗證上述結論,愛克斯羅德決定舉行第二輪競賽,遨請更多的人再做一次遊戲,並把第一次的結果公開發表。這一次有62位科學家遞交了改進的程序,其中包括多個以上一次的策略為基礎的改良品種。加上愛克斯羅德自己的隨機程序,63個程序又進行了一次競賽。競賽結果表明,在63個程序的前15名裡,只有第8名的哈靈頓程序是「非善意的」;在最後15名中,只有1個總是合作的程序是「善意的」。而且,奪魁的仍然是一報還一報策略。

        這種讓幾十位科學家的智慧相形見絀的神奇策略到底是怎樣的呢?

        說起來很簡單,簡單到有些不可思議:第一步合作,此後每一步都重複對方上一步的行動:合作或背叛。如此簡單的程序之所以反覆獲勝,是因為它奉行了以其人之道還治其人之身的原則,並且用如下特徵最有效地鼓勵其他程序同它長期合作:善良、可激怒、寬容、簡單、不妒忌別人的成功。

        ●善良,是指它第一步總是向對方表達善意。它堅持永遠不首先背叛對方,開始總是選擇合作,而不是一開始就選擇背叛或主動作弊。

        ●可激怒,是指對方出現背叛行動時,它能夠及時識別並一定要採取背叛的行動來報復,不會讓背叛者逍遙法外,

        ●寬容,是指它不會因為別人一次背叛,長時間懷恨在心或者沒完沒了地報復,而是在對方改過自新、重新回到合作軌道時,能既往不咎地恢復合作;

        ●簡單,是指它的邏輯清晰,易於識別,能讓對方在較短時間內辨識出來其策略所在;

        ●不妒忌,是指它不耍小聰明,不佔對方便宜,不在任何雙邊關係中爭強好勝。

        其他各種策略輸就輸在上述五個方面做得不夠好。在比賽結果中,所有惡意程序(第一步背叛)都未進前10名;而某些程序太過好脾氣,被對方背叛之後不立即反應,結果鼓勵某些狡猾的程序反覆占它的便宜;某些程序對於過往關係的「好壞」太過執著,一旦被別人欺騙就很難寬容,結果使得很多本來可能恢復的合作關係永久性斷絕;還有一些程序把自己搞得太複雜,總是試圖通過某種機巧來佔人便宜,儘管在與某些「傻」程序接觸中得了高分,但一旦碰到個性「剛烈」的程序就會搬起石頭砸了自己的腳。而從最後的總分來看,它們的小聰明得不償失。

        在香港電影《無間道》有一句廣為流傳的台詞:出來混,遲早要還的。就是這句台詞決定了劇中不少人物的命運,無論是黑道還是白道,警還是匪,很多人物在以為自己勝券在握或逃出生天時,猝不及防地死去,用一條命來還了。

        在博弈論中,「還」也是早晚的事,不過這不是什麼宿命,而是「一報還—報」策略的出發點和立足點,也是它的勝利基點。