讀古今文學網 > 石頭剪刀布博弈心理學 > Chapter 2 第二章 納什均衡 >

Chapter 2 第二章 納什均衡

可以說,納什均衡是博弈的解,也是博弈論的核心。在本章中,我將通過具體案例來為大家詳細講解納什均衡。博弈論中的經典模型——「男女博弈」也將在本章中登場。

每個局中人的策略都是對其他局中人策略的最優反應

~什麼是納什均衡?1~

著名數學家約翰·納什曾為博弈提出了一種解決方法。在博弈論中,局中人都想為自己贏得最好的收益而採取適當的策略。納什將局中人的這種基本行為規則稱為「最優反應」。而讓每個局中人選擇的策略都是最優反應的一套策略組合,就是這個博弈的解。這個解處於一種均衡的狀態,非常穩定。如果有局中人打破這種均衡,選擇其他策略,那麼他的收益注定會減少,因此他不願意打破這種均衡的狀態。這種均衡的狀態就被命名為「納什均衡」。簡單地說,納什均衡就是所有局中人都對自己選擇的策略感到滿意,對於得到的結果也不會後悔。

我們來看一個簡單的博弈例題。假設有一對兄弟,祖父想給他們總計100萬日元的財產。但是有一個規則,需要兄弟二人同時報出一個自己想要的金額,這個金額必須在0~100萬之間,而且以1萬為最小單位。如果二人報出的數字相加不高於100萬,那麼他們可以得到與自己所報數字相同的財產。但如果兄弟二人所報數字之和高於100萬,則兩個人一分錢也得不到。

我們肯定會想,兄弟二人每人報50萬,應該沒什麼問題。兩人申報的數額相加正好等於100萬,祖父就會按照事先的約定,給他們每人50萬日元。這種狀態就是納什均衡,即不管哥哥還是弟弟,都會對自己的策略和收益感到滿意。

但是,如果哥哥生性貪婪,愛占弟弟便宜,從小到大,不管什麼都要得到弟弟的兩倍才肯罷休,那結果又會如何呢?假設弟弟非常瞭解哥哥的霸道性格,因此他知道,如果自己報50萬,結果很可能兩個人一分錢都得不到。知道哥哥肯定會報雙倍於自己的數額,那麼弟弟為了獲得最大收益的最優反應就是報33萬。

這樣一來,弟弟報的數額是33萬,哥哥報的是67萬,比弟弟的兩倍還多一點兒。結果,二人所報數額相加等於100萬,兩人分別得到33萬和67萬,兩人都滿意,這也是納什均衡。但是,如果弟弟報的是33萬,而哥哥這次良心發現,只報了50萬。結果,兩人合計83萬,低於100萬。雖然最終各自拿到了相應數額的財產,但兩人肯定都會後悔。哥哥心想,我再多報17萬就好了。而弟弟心想,我報50萬就好了。因此,弟弟報33萬,哥哥報50萬,就不算納什均衡。

可以說,納什均衡是一種對手的收益不會減少、自己的收益不會增加,誰也無法單獨改變策略的狀態。在納什均衡中,假定局中人之間不會相互合作,對方的行動也無法改變。就像兩個數相加得100萬,我們可以列出很多種組合方式一樣,人所參與的博弈也不一定只有一種納什均衡。某些情況下,同一個博弈會有多個納什均衡。

~什麼是納什均衡?2~

現在我們以第一章中的例題1-2「評價成績博弈」為例,解說一下納什均衡的求法。在例題1-2的博弈中,不管對方採取什麼樣的策略,自己的最優反應是選擇「α」(表1-13),即策略「α」強支配著策略「β」。另外,對方的最優反應也是不管我們採取什麼樣的策略都選擇「α」(表1-21)。

我們將這兩個收益表綜合到一起,結果發現,有一個單元中沒有任何收益,用紅線勾掉了。這個單元相對應的策略,便是局中人相互採取的最優反應的策略組合。而這個策略組合,也就是納什均衡(表1-22)。

納什均衡是指博弈中的所有局中人都採取了最優策略,沒有更好的策略可選,從而達到了一種穩定的狀態。實現這種穩定狀態的策略組合就是納什均衡。只要對方選擇「α」,我們也只能選擇「α」,因為我們選擇「β」的話,收益就下降了。同樣的道理,只要我們選擇「α」,對方也不能改變策略,只能選擇「α」。這就是一種均衡狀態。

不過,雖說納什均衡是指博弈中的所有局中人都做出了最優反應,但並不等於所有局中人一定都能獲得該博弈中的最高收益。在例題1-2的博弈中,最高成績是A,但兩名局中人不可能同時獲得A。

約會的時候,需要迎合對方的行為和感受嗎?

~男女博弈/納什均衡1~

我們再來看一道納什均衡的例題。相信有不少年輕的情侶一到週末就會為一件事情發愁,那就是「去哪裡約會比較好」。在選擇約會地點、約會方式的時候,是該迎合對方的喜好,還是自作主張呢?如果你覺得分手也無所謂,那當然可以按照自己的喜好做決定。但是,如果你很珍惜這段感情,希望雙方都能度過一個愉快的週末,那到底該怎麼決定約會的地點和方式呢?

◎例題2-1男女博弈

假設有一對剛開始交往不久的情侶,男的叫猴太郎,女的叫猴美。有一天,他們討論起週末的約會計劃。猴太郎喜歡足球,他想利用週末去看足球比賽。猴美喜歡看愛情電影,正值一部新片上映,她想去看電影。兩人的興趣存在差異,如果各行其是的話,就會浪費美好的週末約會時間,這是兩人不想看到的結果。如果兩人一起去看足球比賽,猴太郎是高興了,猴美就不太開心了。反之,如果兩人都去看愛情電影,猴美很歡喜,但猴太郎就有點兒不樂意了。那麼,到底該選擇什麼樣的約會方式呢?讓我們從博弈論的角度來分析一下這個問題,希望找到對雙方來說都是最好的選擇。

局中人:猴太郎和猴美

策略:「看足球比賽」和「看電影」

收益:如果各行其是的話,雙方都不開心,所以兩人的收益都為0;如果兩人都去看足球比賽,猴太郎的收益是10,但猴美的收益只有3;如果兩人都去看電影,猴美的收益是10,但猴太郎的收益只有3。

~男女博弈/納什均衡2~

在這道例題中,我們首先來確認一下是否存在支配性策略。根據對手的策略,我們將自己不是最優反應的策略(收益較小的一方)用橫線勾掉。

當猴美選擇看足球比賽時,猴太郎的最優反應是看足球比賽,看電影就不是最優反應。於是,我們用橫線將看電影的收益勾掉。當猴美選擇看電影時,猴太郎的最優反應是看電影,看足球比賽就不是最優反應,因此用橫線將看足球比賽的收益勾掉。

同樣,當猴太郎選擇看足球比賽時,猴美的最優反應是看足球比賽,看電影就不是最優反應。於是,用橫線將看電影的收益勾掉。當猴太郎選擇看電影時,猴美的最優反應也是看電影,此時看足球比賽就不是猴美的最優反應,因此用橫線將看足球比賽的收益勾掉。

在這個博弈中,不管對方採取什麼樣的策略,讓自己收益較高或相等的策略是不存在的。也就是說,這個博弈中沒有支配性策略。

雖然沒有支配性策略,但是在猴太郎和猴美的收益表中,都存在沒被橫線勾掉的單元。這樣的單元就是最優的狀態、最穩定的狀態,也就是納什均衡。

註:1日語中「納什均衡」的發音與「衝向銀行」相近。

~男女博弈/納什均衡3~

在一個博弈中,如果存在納什均衡,那麼納什均衡就是這個博弈的解。

在前面的例題中,納什均衡就是:

「猴太郎和猴美一起去看足球比賽」或者「猴太郎和猴美一起去看電影」。

在這個博弈中,存在兩個納什均衡。

也就是說,只要兩個人在一起感到很開心,約會中就應該迎合對方的感受。至於到底該選擇哪種納什均衡,用理論是無法說清的。

在前面的例題中,我把迎合對方感受的收益設定為「3」,但是在現實世界中,這個收益數字肯定因人而異。根據自己的情況,迎合對方時,選擇自己收益比較大的一方,就是不錯的策略。

此外,如果把博弈的形式稍加改變,我們還能看到不同的情況。比如,前面例題中的博弈是靜態博弈,如果將其改為動態博弈的話,對於對方先選擇的策略,我們就不得不去迎合了。

因此,先說出自己想去的地方和約會方式,往往對自己更為有利,這就是所謂的「先下手為強」嘛。但是有一點要注意,如果總是自己先選約會方式,讓對方來迎合自己,時間長了可能會遭到對方的反感(提高了「各行其是」的收益值)喲。

賣大碼服裝的店舖的營銷策略

~從納什均衡看店舖的營銷策略~

一般來說,服裝店的每款衣服都會準備S~XL尺碼的庫存,以供顧客選擇。但是,再大的尺碼通常不會準備,因為身材特殊,買大碼服裝的顧客並不多。服裝店和求購大碼服裝的顧客之間也存在一種博弈關係,讓我們根據納什均衡的原理,來看看賣大碼服裝的店舖的營銷策略。

下一頁的表2-2,就是服裝店和求購大碼服裝顧客的收益表。

如果服裝店準備了大碼服裝,有這方面需求的顧客又來到店裡購買,結果服裝店的銷售額增加,收益得分為10,顧客也買到了滿意的服裝,收益得分也為10。如果服裝店沒有大碼服裝的庫存,有這方面需求的顧客也不來店裡選購,那麼雙方的收益得分都是0。如果服裝店準備了大碼服裝,而顧客不來購買,那麼服裝店就有庫存積壓,佔用了資金,收益得分為-50。另一方面,顧客不來店裡,顧客自身沒有受到影響,收益得分為0。如果服裝店沒有準備大碼服裝,但有顧客來求購,顧客不但沒買到需要的服裝,還暴露了自己身材的弱點,因而感到羞愧,收益得分是-5。另一方面,服裝店沒法滿足顧客的需求,聲譽受到影響,收益得分為-5。

我們先來分析一下各個局中人的最優反應,並用橫線把收益較小的一方勾掉。結果我們可以發現,在這個博弈中有兩個納什均衡。分別是「服裝店準備了大碼服裝,而顧客也會前來選購」以及「服裝店沒有準備大碼服裝,而顧客也不會來選購」。

到底該選擇哪一種納什均衡,理論上是沒辦法說清楚的。本來,這兩種均衡狀態是很穩定的,難分伯仲,但是只要打一則廣告,我們就容易選擇了。廣告內容很簡單,一句「本店有大碼服裝銷售」就能起到宣傳效果。這樣一來,我們就可以選擇「服裝店準備了大碼服裝,而顧客也會前來選購」的納什均衡了。在日常生活中,我們經常能在店面看見類似的廣告,可以說這就是賣大碼服裝的店舖正確的營銷策略。

鄰里糾紛是如何惡化升級的?

~改變博弈,減少納什均衡1~

在前一小節的博弈中,存在兩個納什均衡,即「希望看到的納什均衡」(服裝店和顧客都滿意)和「不希望看到的納什均衡」(服裝店和顧客的收益都是0)。不過,只要加入一個策略(做廣告),就可以選擇「希望看到的納什均衡」。其實,類似的問題在現實生活中很多,我們就再來舉個例子。

鄰里糾紛是生活中一個讓人頭疼的問題。剛搬來的時候,可能鄰里之間還很客氣。但隨著時間的流逝,生活中難免發生磕磕碰碰,心理上也慢慢出現隔閡。最後,為了一點兒雞毛蒜皮的小事也能吵個不停。在日常生活中,只要人與人接觸,就會發生各種矛盾。我們來舉個例子,猴太郎和猴吉就是一對「冤家鄰居」,經常為電視聲音大了、花盆擺過界了之類的小事吵個不停。其實一開始,兩人都想和對方搞好關係,但沒想到隨著生活中不斷出現矛盾,兩人漸行漸遠。這也是一個博弈,那麼二人到底是該放下架子,互敬互讓,還是將強硬的態度堅持到底?哪個策略收益更大呢?讓我們用博弈論的思維方法來分析一下。

首先來計算一下雙方的收益。如果猴太郎選擇對鄰居親切,而猴吉也是如此,雙方的關係良好,都受益,那麼雙方收益得分都是10。如果猴太郎選擇親切,猴吉堅持強硬,那麼猴太郎的心情肯定不好,收益得分為-5。另一方面,猴吉一時佔了上風,收益得分為5。反過來,猴太郎強硬,收益得分為5;猴吉親切,但受氣,收益得分為-5。如果雙方都選擇強硬,實際上出氣和受氣兩相抵消,各自的收益得分都是0。

下面的表2-3,就是這個博弈的收益表。我們從這個表中尋找猴太郎和猴吉的最優反應。結果可以看出,也存在兩個納什均衡。一個是兩人都親切地對待對方,另一個是兩人都強硬到底。如果對方對自己親切,自己也報以親切的態度;如果對方強硬,自己也強硬,這就是穩定的均衡狀態。

~改變博弈,減少納什均衡2~

前面列舉的博弈中,如果一方選擇強硬,那麼另一方也要選擇強硬,這樣才能達到合理的穩定狀態。如果對方對自己強硬,而自己依然表現出親切態度的話,自己就會受氣,收益減少。

下面,我們把博弈中的收益設定稍微改變一下。假設猴太郎看到猴吉受氣的樣子,心裡感覺非常爽,比親切對待猴吉時猴吉也報以親切態度的感覺還要爽。那麼,猴太郎對猴吉採取強硬態度的收益得分就要高於親切對待猴吉時的得分。假設在這種情況下,猴太郎的收益得分是15。那麼,收益表就變成了表2-4的樣子。這樣一來,納什均衡就只有一個了,即雙方都採取強硬態度的狀況。

也就是說,當任何一方採取強硬態度比採取親切態度的收益得分更高時,那麼納什均衡就只剩下一個了——兩人都採取強硬態度。這也是為什麼鄰里矛盾容易惡化升級的原因所在。

那麼,我們該如何從鄰里矛盾的泥沼中掙脫出來呢?在矛盾爆發的初期,是該心平氣和地找鄰居談一談(雙方都採取親切態度),還是學會調節心情,即使受了氣也不放在心上,讓自己的收益得分高於0(比雙方都採取強硬態度的收益得分高一點兒)呢?如果學會調節自己的心情,這個博弈中就出現了支配性策略(表2-5)。從表中我們可以看出,強硬態度是不可取的選擇。此時的納什均衡只有一個,即雙方都採取親切態度。由此可見,博弈論告訴我們,通過改變收益得分,可以讓整個博弈發生變化。

石頭剪刀布(猜拳)有必勝的方法嗎?

~為不存在納什均衡的博弈求解~

前面我們已經講過,在存在支配性策略的博弈中,就選支配性策略。在沒有支配性策略的博弈中,先分析局中人的最優反應。如果存在納什均衡的話,納什均衡就是這個博弈的解。不過,所有博弈都存在納什均衡嗎?答案是否定的,也有些博弈並不存在納什均衡。那麼,遇到這樣的博弈,我們該怎麼辦呢?

我們身邊最常見的「石頭剪刀布」的遊戲,就是沒有納什均衡的博弈的典型代表。我們先來做一張石頭剪刀布的收益表。表2-6是兩個人玩石頭剪刀布遊戲時的收益表。方便起見,我們把遊戲中獲勝的收益設定為1,那麼輸了的收益為-1,平局的收益為0。我們來仔細分析一下這張收益表。聰明的你可能已經發現了,每個小格中,「自己的策略」和「對方的策略」的得分相加都是0。簡單地說,自己的收益就是對方的損失,自己的損失也正是對方的收益,彼此可以相互抵消。這種博弈稱為「零和博弈」。

在尋找最優反應的過程中,我們要在三種策略中,將收益較小的兩種用橫線勾掉。結果我們會發現,找不到沒有劃橫線的小格。於是我們可以知道,在石頭剪刀布這個博弈中,不存在納什均衡。對方出石頭,自己出布;對方出布,自己出剪刀;對方出剪刀,自己出石頭,這樣我們可以獲得較高的收益。但是,關鍵在於我們事先並不知道對方會出什麼。

在這個博弈中,如果一直只出剪刀,或者石頭和布交替出,對方就容易解讀出我們的策略,從而輕易打敗我們。石頭、剪刀、布這三種策略,從原則上說,應該隨機出比較好。從概率學的角度來說,每種策略的使用概率應該為33.3%。有的國家每年都會舉行石頭剪刀布大賽,在這樣的比賽中,一直只出一種手勢的話,很快就會被淘汰出局。所以,要問石頭剪刀布中哪一種手勢更容易獲勝,答案是不存在的。

將各種策略混合起來出,叫作「混合策略」。而以前我們講的全部都是「純策略」。純策略是一種最優的策略,是實行概率為100%的策略。

第二章 總結

◎所謂納什均衡,就是博弈中的所有局中人都對自己的策略感到滿意,不會後悔。

◎納什均衡是每個局中人的最優反應,但是,納什均衡並不一定讓每個局中人都獲得最高收益。

◎有時,一個博弈中存在多個納什均衡。如果想實施自己希望的納什均衡,可能還需要採取一些額外的策略。

◎在石頭剪刀布的遊戲中,沒有任何一種手勢可以連續獲得勝利。