博弈論的詭計：日常生活中的博弈策略：在一在二不在三_王春永

公元前512年，吳王闔閭執政，為了稱霸諸侯，他四處網羅人才，先後把伍子胥和孫武收到自己的庵下。不久，吳國和楚國之間爆發了一場大規模的戰爭。

說起這場戰爭的起因卻非常簡單，吳國邊境有一個小鎮叫卑梁，這裡與楚國的邊境小鎮鍾離接壤。雖然分屬於兩個不同的國家，但是兩個小鎮的人之間相處得一直十分和睦。有一日，吳國的一個小孩子採桑葉，與楚國的小孩子吵了起來，雙方的邊民因此發生爭鬥。楚平王得知以後，派大兵去平了卑梁。吳王以牙還牙，也派公子光帶兵去攻打楚國。吳國大軍浩浩蕩盪開赴邊境，不費吹灰之力就把楚國防守的鍾離和居巢蕩平了，乘勢直迫楚國的腹地，通得楚國急忙撤軍。

公元前506年，楚國為了報復，出兵攻打已經歸附吳國的小國一一蔡國。吳國派大將孫武率領三萬精兵，乘船逆淮河而上救援。楚軍趕忙退兵，在漢水設防。沒想到孫武卻突然棄船登岸，從陸路奔襲楚國腹地。吳軍五戰五勝，佔領了楚的國都郢城。然而，這時越國乘吳軍伐楚之機進攻吳國，秦國又出兵幫助楚國對付吳軍，這樣，闔閭不得不引兵返吳。此後，吳又繼續伐楚，孫武率領大軍揮師直下，一直打到郢都，迫使楚昭王倉皇出逃。

因為兩個小孩的爭吵而導致楚國幾乎被滅亡的這一連串戰爭，在其演進過程中，我們可以清晰地看到一報還一報策略的作用機制。

一報還一報的策略解釋了一個純粹自利的人何以會選擇合作，只因為合作是自我利益最大化的一種必要手段。如果對方知道你的策略是一報還一報，那麼對方將不敢採取不合作策略，因為一旦他採取了不合作策略，雙方便永遠進入不合作的困境。因此，只要有人採取一報還一報策略，那麼雙方均願意採取合作策略。

但是這個策略面臨著這樣一個問題：如果雙方存在誤解，或者由於一方發生選擇性的錯誤，這個錯誤是無意的，那麼結果將是雙方均採取不合作的策略。

在這裡，一報還一報策略反映出了自己的局限性。兩個以牙還牙者會從合作開始，然後，由於各方反應一致，合作似乎注定可以永久地持續下去，從而徹底避免囚徒困境問題。但是，不管出現誤會的幾率怎樣微乎其微(即便是小到萬億分之一)，只要有可能出現誤會，長期而言，一報還一報策略會有一半時間合作，一半時間背叛。理由是，一旦出現誤會，雙方將問題複雜化與澄清誤會的可能性一樣大。這麼一來，一報還一報策略其實就跟扔硬幣決定合作還是背叛的隨機策略差不多，因為後者選擇合作和背叛的幾率也是相同的。即使出現誤會的幾率很小，也只是將出現麻煩的時間推遲了。而且，反過來，一旦出現誤會，就要花更長時間才能澄清。

由於資源的約束，在現實中沒有人支出足夠的時間、精力來辨識和維持對別人的各種回報，尤其是當他擁有很多博弈對手的時候。由於各種偶然的因素，誤解隨時隨地都有可能發生。比如，兩個小孩子之間的爭吵可能被看敵對行為的開始而引發戰爭。

如何做到回報的「相稱」又是一個問題：對手偶然背叛了你，你通過行動或者不行動來顯示你對此介意，你自己覺得是相稱的「警告」，但對手很可能認為你反應過度，小題大做。因而會出現這樣一種情況：哪怕是微不足道的誤解一旦發生，一報還一報策略的雙贏就會土崩瓦解。

這個缺陷在人工設計的電腦錦標賽中並不明顯，因為電腦根本不會出現誤解。但是，一旦將一報還一報策略用於解決現實世界的問題，誤解就難以避免，結局就可能是災難性的。一方對另一方的背叛行為進行懲罰。對手受到懲罰之後，不甘示弱，進行反擊。這一反擊又招致第二次懲罰。無論什麼時候，這一策略都不會只接受懲罰而不做任何反擊。由此將形成一個循環，懲罰與報復就這樣自動持續下去。

從這個角度來說，一報還一報策略在現實世界中會出現兩種缺陷：第一，實在太容易激發背叛；第二，它缺少一個宣佈「到此為止」的機制。

當博弈中考慮到這種隨機干擾——即由於誤會而開始互相背叛的情形時，吳堅忠博士經研究發現，以修正的一報還一報策略對雙方會更有利。這種修正包括兩個方面：一是「寬大的一報還一報」，即以一定的概率不報復對方的背叛；二是「悔過的一報還一報」，即以一定的概率主動停止背叛。

當某一背叛行為看上去像是一個錯誤而非常態舉止的時候，你應該保持寬容之心。必須記住的一個重要原則是，假如有可能出現誤會，不要對你看見的每一次背叛都進行懲罰，而要採取「在一在二不在三」的策略。你必須猜測一下是不是出現了誤會，不管這個誤會來自你還是你的對手。這種額外的寬容固然可能使別人對你稍加背叛，不過，假如他們真的背叛，他們的善意也就不會再被相信了。誤會一再出現時，你也不會再聽之任之。所以，如果你的對手有投機傾向，他終將自食其果。

如果對手的這一背叛是故意的，你當然也不想太輕易地寬恕對方而被對方佔了便宜。但是經過一個漫長的懲罰循環之後，也許到了該叫停並嘗試重建合作的時候了。

愛克斯羅德在《合作的進化》一書結尾早已指出：友誼並不是合作的必要條件，即使是敵人，只要滿足了關係持續、互相回報的條件也有可能合作。合作不依靠善意、誠信或者一個外來的仲裁者，也完全可能從自私自利的冷酷盤算中產生。比如，第一次世界大戰期間在戰場上自發產生的「自己活，也讓他人活」的原則。德英兩軍在戰壕戰中遇上了三個月的雨季，雙方在這三個月中達成了默契一一互相不攻擊對方的糧車給養，約束自己不開槍殺傷人，只要對方也這麼做。使這個原則能夠實行的原因是，雙方軍隊都已陷人困塊，三個月的時間給了他們相互適應的機會。

這個例子說明，友誼不是合作的前提，合適的策略也能達成並保證合作。因此，我們也可以為「在一在二不在三」的策略制定一些具體的操作，作為邁向合作的一步。

(1) 開始合作。

(2) 繼續合作。

(3) 計算在你合作的情況下對方看上去背叛了多少次。

(4) 假如這個百分比變得令人難以接受，轉向一報還一報策略。

注意，與以前不同，此時的一報還一報策略不是作為對良好行為的獎賞，相反，卻是對企圖佔你便宜的另一方的懲罰。

要想確定令人難以接受的背叛的百分比是多少，你必須瞭解對方行為的短期、中期和長期歷史。僅看長期歷史是不夠的，一個人合作了很長時間並不意味著他不會在聲譽開始下降的時候企圖佔你的便宜，你還要知道「最近他都對你做過什麼」。

這種策略的確切規則取決於錯誤或誤會發生的幾率、你對未來獲益和目前損失的重要性的看法，等等。不過，在並不完美的現實世界裡，這種策略很可能勝過嚴格的一報還一報策略。