讀古今文學網 > 決策與判斷 > 第六部分 常見陷阱 >

第六部分 常見陷阱

本書的這一部分關注困擾決策者的三個常見問題。第19章探討過度自信的問題,第20章討論自我實現的預言,而第21章分析了一種被稱做「行為陷阱」的特殊情境。同時每一章還提供了如何在實踐中避免出現這些問題的技巧。

第19章 過度自信

這裡發生洩漏的幾率是一萬年都難遇的。

——烏克蘭能源與電氣大臣Vitali Skylarov在切爾諾貝利核洩漏事件發生前2個月這樣說道

(引自Rylsky, 1986年2月)              

在人們的決策中,過度自信是一個最為普遍的問題,其所帶來的潛在破壞性也是最大的。正如歐文·賈尼斯(1982)在他對群體盲思所進行的研究中提到的那樣,美國人的過度自信使日本人在二戰期間成功偷襲了珍珠港。同樣,在美國的挑戰者號航天飛機失事的災難中,過度自信也扮演了重要的角色。在挑戰者號航天飛機的第25次發射之前,美國宇航局(NASA)的官員對飛行風險的估計是十萬分之一(Feynman, 1998, 2)。這樣的風險估計大致等於航天飛機在三百年的時間內每天發射,也只可能產生一次事故。

約瑟夫·基德的例子

美國宇航局真的是對成功過分自信?還是僅僅需要看上去很自信?因為在這樣的情境中,自信的程度是很難測量的,因此有關過度自信的最具有說服力的證據來自嚴格控制的實驗中。

最早也是最著名的三個實驗是由斯圖爾特·奧斯坎普(Stuart Oskamp)在1965年完成的。奧斯坎普要求8位臨床心理學家、18位心理學專業的研究生以及6位心理學專業的本科生閱讀一個有關「約瑟夫·基德」的個案研究。約瑟夫·基德是一位29歲的男子,曾經經歷過「青春期失調綜合症」。這個個案被分成四個部分。第一部分介紹了他是一個退伍的老兵,現在在一個花藝工作室做商業助理,第二部分介紹了基德12歲以前的童年時代,第三部分介紹了基德的中學和大學生涯,第四部分介紹了他服役的經歷以及往後的生活。

參與實驗的人在讀完每一段故事之後都要回答一系列相同的問題。這些問題都來自個案,但是要求被試基於這樣的信息對基德的人格形成一個臨床判斷。問題通常有五個迫選的備選答案,並且在每個項目之後,被試要估計他們的答案在多大程度上是正確的。這些信心的評分從20%(在準確度的機遇水平之外,毫無信心)到100%(完全確信)。

有些令人驚奇的是,心理學家、研究生和本科生之間的評分並沒有顯著差異,所以奧斯坎普將三個群體合併到一起來對結果進行分析。他發現信心隨著被試閱讀的信息量的增大而增長,但是準確度卻並非如此。

在閱讀完個案研究的第一部分之後,被試正確回答了26%的題目(稍高於機遇水平的期望值),並且他們的平均信心得分為33%。這些數字顯示出了相當接近的一致性。然而,當被試閱讀了更多的信息時,信心與準確度之間的差距增大了(見圖19.1)。被試閱讀的材料越多,他們就會變得越自信——即使準確度並沒有隨著增加的信息而顯著增長。在他們讀完個案研究的第四部分之後,在奧斯坎普的被試中,有超過90%的人對於他們的回答過於自信。

該實驗進行之後的若干年裡,已經有一系列研究發現人們往往對他們的判斷過於自信,特別是當他們難於做出準確判斷的時候。比如說,利希滕斯坦和菲什霍夫(1977)進行了一系列實驗並發現人們對自己的正確性有65%~70%的信心,但實際上他們只有50%的時候是正確的。

在第一個實驗中,利希滕斯坦和菲什霍夫要求人們判斷12個兒童的圖畫是來自歐洲還是亞洲,並且估計每一次判斷正確的可能性。儘管僅僅有53%的判斷正確(非常接近隨機水平),可是平均的信心評分卻達到了68%。

圖19.1 斯圖爾特·奧斯坎普(1965)發現當被試閱讀了更多的信息時,他們估計的準確度(自信心)與實際的準確度之間的差異就越大。

在另一個實驗中,利希滕斯坦和菲什霍夫給人們呈現了12只股票的市場報告,並請他們來預測在給定的時間段內這些股票將會看漲還是看跌。他們再一次發現,儘管這些預測只有47%是正確的(稍低於預期的機遇水平),但平均的信心評分達到了65%。

又完成了幾個研究之後,對於在兩可判斷中準確度和信心之間的對應關係,利希滕斯坦和菲什霍夫得出了如下結論:

當準確度接近機遇水平時過度自信達到最大。

當準確度從50%增加到80%時,過度自信會隨之減少;當準確度超過80%時,人們通常會變得不自信。換句話講,在準確度達到80%左右時,準確度和信心之間的差距最小,當準確度偏離這一水平時差距會逐漸變大。

準確度與信心之間的分離與決策者的智商水平無關。

對於該研究的早期批評認為,產生這些結果的原因很大程度上是由於實驗者總是詢問人們一些晦澀或瑣碎的問題,但近期的研究已經在一些更為普遍的判斷上重複得到了利希滕斯坦和菲什霍夫的發現。舉例來說,在一系列包含多於10000個獨立判斷的實驗中,李·羅斯和他的同事發現,當要求被試對他們自己的行為以及他人行為進行預測時,人們表現出了大約10%~15%的過度自信(Dunning, Griffin, Milojkovic,&Ross, 1990;Vallone, Griffin, Lin,&Ross, 1990)。

這並不是說人們總是過度自信的。戴維·羅尼斯和弗蘭克·耶茨(David Ronis&Frank Yates, 1987)發現,過度自信部分取決於信心的評分如何得出以及決策者做出了何種類型的判斷(一般知識性題目似乎會導致相對較高程度的過度自信)。同樣有一些證據表明,橋牌高手、專業賭徒以及國家氣象台的預報員——他們在做出判斷後都會收到有規律的反饋——表現出較少或沒有表現出過度自信(Keren, 1987;Lichtenstein, Fischhoff,&Phillips, 1982;Murphy&Brown, 1984;Murphy&Winkler, 1984)。不過,研究結果表明,就大部分人而言,過度自信現象是普遍存在的。

極度自信

如果人們確信答案正確又會怎樣?在這種情況下他們正確的幾率有多大?1977年,菲什霍夫、斯洛維奇和利希滕斯坦實施了一系列實驗來考察這個問題。在第一個實驗中,被試回答了大量一般知識性問題並且估計了答案正確的可能性。比如說,他們回答了苦艾(absinthe)是一種利口酒(liqueur)還是一種寶石,並且要在一個.50~1.00的量表上估計信心程度(這個問題作為讀者調查中的第21題出現)。然後,實驗者檢驗了那些被試們完全確信是正確回答的準確度。

他們發現,當被試報告百分之百確信自己的答案時,他們的正確率往往只有70%~85%。你對自己在第21題上的回答有多大信心?正確答案為苦艾是一種利口酒,然而很多人將它與一種被稱做紫水晶(amethyst)的寶石相混淆。

為了確保該結果不是由於對概率的誤解所致,菲什零夫、斯洛維奇和利希滕斯坦(1977)再次進行了一個實驗,這一次,信心大小取決於回答正確的可能性與不正確的可能性之間的比率(比如2︰1, 3︰1等)。這樣,被試可以採用3︰1的正確可能性來表達自己的信心,而無需借助概率性的75%。

菲什霍夫、斯洛維奇和利希滕斯坦(1977)發現,當信心估計大約為3︰1時,信心與準確度相當一致,可當信心從3︰1提高到100︰1時,準確度卻沒有明顯提高。當人們將正確的比率設為100︰1時,他們實際上只有73%的時間是正確的。即使當人們將正確的比率設為10000︰1~1000000︰1時——表示完全確信——他們也僅有85%~90%的正確率(本應該相應給出6︰1~9︰1的信心評分)。[1]

最後,菲什霍夫、斯洛維奇和利希滕斯坦(1977)將實驗重複了三次,將其作為一項附加檢驗以確保被試理解並且認真執行了任務。在一次重複中,比率和概率之間的關係在20分鐘的發言中被加以詳細解釋。被試們得到一張說明各種比率估計與概率之間對應關係的圖表,並且他們被告知使用比率評分來表達不確定性的微妙之處(特別強調了如何使用1︰1和2︰1之間的比率來表達不確定性)。然而,即便如此,被試還是對他們的答案表現出了毫無根據的信心。當實際比率大約為4︰1的時候,他們至少給出了50︰1的比率;當他們應該給出5︰1的比率時,他們卻給出了1000︰1的比率。

在另一次重複實驗中,研究者詢問被試是否會接受一項金錢上的賭博,這項賭博基於被試認為正確比率為50︰1或更高的那些題目答案的準確度。在42名被試中,有39名願意參與這項賭博——儘管他們的過度自信將導致總共140多美元的損失。在最後一次重複實驗中,菲什霍夫、斯洛維奇和利希滕斯坦(1977)實際是讓被試們進行了一次賭博。在該研究中,19名被試中的13名同意以他們答案的準確度來進行賭博,然而在他們認為正確比率為50︰1或更高的那些問題中,12%的回答是錯誤的(並且如果實驗者不加以免除,所有人都會損失1美元至11美元不等)。這些結果表明:(1)當人們真正確信自己是正確的時候他們仍然是過度自信的,(2)並不完全是由於漫不經心地執行任務或錯誤理解如何評價信心而導致過度自信。事實上,瓊·西伯(Joan Sieber,1974)發現,希望表現出色的動機越強烈,過度自信也會隨之而增長。

當過度自信變成一種嚴重的錯誤

當處在較之幾美元更為利害攸關的時刻人們還會過度自信嗎?儘管道德上的考慮明顯限制了實驗室中可以考察的範圍,但至少有一條證據提醒我們,即使在人們的生命處在安危未定的時刻過度自信依然存在。這一證據來自對死刑的研究。

在一次對冤案的全面回顧中,雨果·貝多和邁克爾·拉德萊(Hugo Bedau&Michael Radelet, 1987)找到了350個有文件備案的實例,這些實例中無罪的被告都被判定在美國有重大的或潛在重大的罪行——即使被告被判斷為「罪行在合理懷疑範圍之外」。其中有五個案件,判決之前就已經及時發現了錯誤。但其他的被告就沒有這麼幸運了:67人被判處25年以下的監禁,139人被判處終身監禁(25年或更長),並且有139人被判處死刑。在貝多和拉德萊發表評論的時候,已經有23例死刑被執行。

校準

「校準」是指信心與準確度的匹配程度。在給定的信心水平上,並且當所有判斷中準確判斷的比例與判斷正確的期望概率相一致時,決策者就獲得了最佳的校準。換句話說,認為正確可能性為90%的判斷中有90%是正確的,認為正確可能性為80%的判斷中有80%是正確的,依此類推。

當個體的判斷被單獨考慮時,就沒有什麼辦法來校準了。一個在讀者調查中對第21題回答了「.70」的決策者如何進行好的校準?僅有的一個評估校準的可靠方法,那就是在大量判斷中將準確性和信心加以比較(Lichtenstein,Fischhoff,&Phillips, 1982)。

正如有許多種方法測量信心一樣,我們有幾種用以評估校準的技術。一種方法就是簡單地計算平均信心得分與全部準確判斷所佔比例之間的差異。舉例來說,決策者可能在一組一般知識條目上具有平均80%的信心,但是他可能只有60%的回答是正確的。這樣一位決策者就是過度自信了20個百分點。

儘管這種測量校準的方法非常方便,但它有時候卻可能導致錯誤,比如,考慮一名整體準確率和平均信心得分都是80%的決策者。這個人是否達到了完美的校準呢?並非如此。這個人可能在一半題目的判斷上抱有60%的信心而在其他題目上抱有100%的信心(平均起來達到了80%的信心),並且在兩種信心水平上都達到了80%的準確度。這樣的人在60%確定的時候信心不足,而在100%確定的時候又顯得過於自信。

一個更為簡潔的方法是在不同自信水平下檢驗準確性。當對準確度在不同的自信水平下進行單獨計算時,可以創建一條「校準曲線」,其橫軸代表信心,縱軸代表準確度。圖19.2包含了兩條校準曲線——一條表示天氣預報員關於降雨量的預測,另一條表示醫生對於肺炎的診斷。正如你所看到的,天氣預報員幾乎完美地實現了校準;平均看來他們的預測非常接近實際的天氣(與人們通常的觀點恰恰相反!)。而內科醫生的校準程度則很糟糕;他們的大多數預測都在對角線以下,說明他們過度自信。

還有其他的方法來評估校準,其中一些借助了複雜的數學工具。舉例來說,最常用的方法之一是計算一個叫做「Brier分數」(以統計學家Glenn Brier的名字命名)的數字。Brier分數可以被分割為三個成分,其中之一就對應於校準。Brier分數中的校準成分是每個類目下正確率和與該類目存在關聯的概率之間的均方差的加權平均值(關於該技術中校準方面的詳細介紹,見Yates,1990)。

圖19.2 本圖包含了天氣預報員關於降雨量的預測矯正曲線(空心圓點),以及醫生對於肺炎的診斷的矯正曲線(實心圓點)。天氣預報員幾乎完美地實現了校準,但是內科醫生的校準表現出了很明顯的過度自信現象(毫無根據地認為病人得了肺炎)。天氣預報員的數據來自Allan Murphy和Robert Winkler(1984)的一份報告,內科醫生的數據來自於Jay Christens-en-Szalanski和James Bushyhead(1981)的一個研究。

一種最有意思的校準測量方法被稱做「驚奇指數」(surprise index)。驚奇指數被用來對未知數量進行區間判斷。舉例來說,假定你對讀者調查第12題的回答是在一英尺和一英里之間,並對此抱有90%的信心(見讀者調查第12b題來瞭解你真正的90%置信區間)。因為正確答案實際上應當大於一英里,所以這個答案被記做「一個驚奇」。驚奇指數其實就是置信區間之外的判斷所佔的百分比。

在一篇關於校準研究的主要論述中,利希滕斯坦、菲什霍夫和勞倫斯·菲利普斯(1982)進行了幾項研究,這些研究要求被試給出98%的置信區間(如,一些區間有98%的機會包含正確回答)。每個研究中,驚奇指數都超過了2%。將所有信息可用的實驗數據加以平均——總共接近15000次判斷——驚奇指數達到了32%。換句話講,當被試98%確信一個區間包含了正確答案時,他們做到了68%正確。過度自信再一次被證明是一種規律而非例外。

你過度自信嗎?愛德華·拉索和保羅·休梅克(1989)開發了一套自測題目來測量一般知識問題上的過度自信(見圖19.3)。儘管一次全面的校準評估需要大量的判斷,但該測驗能夠給你提供一個粗略的反饋,使你瞭解自己在某個信心水平上對一般知識問題的驚奇指數。拉索和休梅克對1000多人實施了該測驗,發現只有不超過1%的人正確回答了9道或更多的題目。大多數人答錯了4~7道題目(驚奇指數為40%~70%),反映出了過度自信的基本程度。

圖19.3 本測驗將使你們瞭解到你們對於一般性知識是否存在過度自信的情況(Reprinted with permission from Rosso&Schoemaker, 1989)。

信心與準確度之間的相關

儘管會過度自信,但信心與準確度存在相關還是有可能的。舉一個例子,假定一名決策者在70%自信的情況下具有50%的準確度,在80%自信的情況下具有60%的準確度,在90%自信的情況下具有70%的準確度。在這樣一個例子中,信心與準確度之間存在著必然的聯繫,儘管這個決策者一直表現出20%的過度自信。

那麼問題出現了,信心與準確度之間存在相關嗎——如果不考慮決策者是否過度自信的話。如果當準確度提高時信心評分也增加的話,準確度就能夠通過決策者的自信程度而得以預測。如果不是這樣,信心就是一個準確度的錯誤指標。

很多研究都已經考察了這一問題,並且結果往往顯示信心與準確度之間並不存在什麼關係。為了加以說明,考慮下面兩個關於軍隊歷史的問題:

問題1:一個距離超級強國A並不太遠的國家政府,在討論過其政黨體系的某些變化之後,開始拓展其與超級強國B之間的貿易。為了扭轉該國政府及其貿易中的變化,超級強國A向該國派出了軍隊並且武裝支持原來的政府。誰是超級強國A——美國還是前蘇聯?你對於自己答案的正確性有多大信心?

問題2:20世紀60年代,超級強國A對其邊境的一個小國發動了一場突然襲擊,目的是推翻當時掌權的政府。這次侵略行動以失敗告終,並且多數侵略士兵被擊斃或者囚禁。誰是超級強國A?並且再次回答,你對自己的答案有多確定?

這些問題在讀者調查中作為第9題和第10題出現。如果在第一個問題中你猜是前蘇聯,並且在第二個問題中選擇了美國,那麼兩道題目你都回答正確了。第一個問題描述的是1968年前蘇聯入侵捷克斯洛伐克,而第二個問題描述的是美國入侵古巴的豬灣。大多數人至少答錯了其中一個問題,不管他們感到有多麼自信。

在《今日心理學》(Psychology Today)1984年11月那一期裡,菲利普·津巴多和普勞斯發表了包括這兩個問題以及各種有關強權國家衝突在內的一份讀者調查的結果。該調查包含了10個關於美國及前蘇聯的事件、聲明或政策方面的描述,而在每個描述中,所有能夠識別出美國和前蘇聯的標誌都被刪除了。讀者的任務就是判斷超級強國A是美國還是前蘇聯,並在一個9點量表上標出他們對每一個回答的信心有多大。

基於對3500人的調查,我們能夠得出兩點結論。首先,答題者並不能夠將美國和前蘇聯的軍事行動區分開。即使他們僅僅通過拋硬幣就可以平均正確回答10道題目中的5道,《今日心理學》的讀者們(比一般公眾更多地參與政治並接受過更好的教育)的總體平均值為4.9道題目正確。僅有54%的答題者正確地指出前蘇聯是入侵捷克斯洛伐克的超級強國A,並且25%的答題者誤認為是前蘇聯而非美國發動了豬灣侵略。這些發現說明美國人之所以譴責前蘇聯的行動和政策,很大程度上是因為他們是「蘇維埃」,而不是因為他們與美國的行動和政策存在根本的區別。

我們發現的第二個結論是:人們的信心評分實際上與他們的準確度並無聯繫(每一名答題者信心與準確度的平均相關僅有.08,接近零)。總體而言,答對了9或10道題的人並不比那些成績較差的答題者具備更強的信心,並且高信心的答題者與低信心的答題者得分基本相同。

這並不意味著信心評分是隨機得到的;高信心的答題者在一些方面還是表現出了與眾不同之處。即使一般性樣本中兩性比例十分均衡,在全部的高信心答題者(比如那些在9點的信心量表上平均分達到8以上的人)中,卻有2/3是男性,而且80%的年齡在30歲以上。高信心答題者增加國防開支的意願是低信心答題者的兩倍,同時高信心答題者對前蘇聯政府的不信任程度也是低信心答題者的兩倍。這些答題者在調查中達到的平均成績為5.1道題目正確——幾乎就是機遇反應的期望值。因此,高信心的答題者難以將美國和前蘇聯的軍事行動區分開來,但是他們對於這種錯誤知覺的區分非常自信並倡導增加國防開支。

正如前面所談及的,許多其他的研究發現了在信心與準確度之間只有很小的相關或根本沒有相關(Paese&Sniezek, 1991;Ryback, 1967;Sniezek&Henry, 1989, 1990;Sniezek, Paese,&Switzer, 1990)。這種一般性的模式在關於目擊者證詞的研究中表現得更為突出。總體而言,這些研究表明目擊者對其證詞所持的信心與證詞的實際準確程度並無太大聯繫(Brown, Deffenbacher,&Sturgill, 1977;Clifford&Scott, 1978;Leippe, Wells,&Ostrom, 1978)。肯尼思·德芬巴赫(Kenneth Deffenbacher, 1980)曾經發表了一篇包含43個獨立研究結果的綜述文章,這些研究考察了在目擊證人身上存在的準確度和信心之間的關係,他發現在2/3的「法庭相關」研究(如,在這些研究中,被試在觀看一起事先策劃好的模擬犯罪之前並未得到任何說明)中,信心與準確度之間存在並不顯著的正性相關。這些研究發現使得《目擊者證詞》的作者伊莉莎白·洛夫特斯(Elizabeth Loftus, 1979, p. 101)警告說:「人們不能過於自信地為任何事情提供任何絕對的擔保。」

在臨床研究中也發現了類似的結果。在最初一項探討該話題的實驗中,路易斯·戈德堡(Lewis Goldberg, 1959)在臨床診斷中評估了信心和準確度之間的相關性。戈德堡所感興趣的是臨床醫生是否能通過Bender-Gestalt測驗(一項被廣泛用來診斷腦損傷的測驗)來準確探測出器質性的腦損傷。他給4名有經驗的臨床心理學家、10名臨床實習生、8名非心理學家(秘書)呈現了30個不同的測驗結果。這些結果中的一半來自於腦損傷病人,另一半來自無器質性問題的精神科病人。被試要做出判斷來指明每個病人是「器質性的」還是「非器質性的」,並在一個標有「斷定的」、「相當確定的」、「這樣認為」、「可能」或「瞎猜」的評價量表上指出他們的自信程度。

戈德堡發現了兩個令人驚訝的結果。首先,全部三組判斷者——有經驗的臨床醫生,臨床實習生以及非心理學家——都正確地對65%~70%的病人進行了分類。不存在基於臨床經驗的差別;秘書們表現得同那些具有4~10年臨床經驗的心理學家們一樣好。其次,在個體診斷準確性和信心程度之間並沒有顯著的關係。判斷者們在錯誤診斷的病例上所持有的信心通常與正確診斷的病例一樣。後續研究也已經發現在癌症、肺炎的診斷過程中存在錯誤的校準(見圖19.2),還包括其他一些嚴重的醫學問題(Centor, Dalton,&Yates, 1984;Christensen-Szalanski&Bushyhead, 1981;Wallsten, 1981)。

如何才能減少過度自信

在兩個考察如何改進校準的實驗中,利希滕斯坦和菲什霍夫(1980)發現,在進行200次判斷並得到集中的表現反饋之後,一開始過度自信的人能夠學會更好地進行校準。同樣,哈爾·阿克斯(Hal Arkes)和他的助手們發現在呈現五個富有迷惑性的難題之後,通過給被試提供反饋可以消除過度自信(Arkes, Christensen, Lai,&Blumer, 1987)。這些研究表明過度自信可以被消除,儘管它們的實用價值還比較有限。很少有人會因為希望能夠更好地進行校準而接受特殊訓練。

有用的是一項能夠使決策者便於「攜帶」至各種決策中並加以利用的技術——重量輕、持久性強,並且易於在一系列環境下加以運用。的確,我們好像有一項這樣的技術。最有效的改進校準的方法看起來非常簡單:

停下來思考一下為什麼你的判斷可能是錯誤的。

阿捨·科萊特(Asher Koriat),利希滕斯坦和菲什霍夫(1980)最先證明了這項技術的價值。在他們的研究中,被試回答了兩組二選一的一般知識性問題,第一組呈現控制條件的指導語,第二組呈現原因條件的指導語。在控制條件下,被試選擇一個答案並估計回答正確的可能性(在.50和1.00之間)。在原因條件下,被試選擇答案之前需要為每個備選答案列出支持以及反對的理由。

科萊特、利希滕斯坦,以及菲什霍夫發現在控制條件的指導語下,被試表現出了典型的過度自信,但是在列出正反兩方面理由之後,他們表現出了非常好的校準(與利希滕斯坦和菲什霍夫研究中那些被提供了集中反饋信息的被試大致相當)。在為每個備選答案列出支持以及反對的理由之後,被試變得不那麼自信了,(主要是因為他們更多地使用.50而較少使用1.00了)並且準確度更高了(大概是因為他們對於自己的回答投入了更多的思考)。

在接下來的實驗裡,科萊特、利希滕斯坦和菲什霍夫發現,本質上並不是因為支持的理由導致了校準的改善;而是反對的理由使然。當被試列出理由支持他們所偏好的答案之後,過度自信並沒有降低。而當被試思考他們偏好的答案如何可能是錯誤的時候,校準才會得到改善。儘管這些發現可能部分是由於「社會需要特徵(social demand characteristics)」的存在(如,被試感覺指導語暗示他們降低信心水平),但其他研究也證實了反對理由能夠改善校準水平(如Hoch, 1985)。

圖19.4 從多個角度進行考慮的困難性。(Calvin and Hobbes Copyright 1990 Watterson. Dist By Universal Press Syndicate. Reprinted with permission. All rights reserred.)

這些結果回顧了第3章討論過的保羅·斯洛維奇和菲什霍夫(1977)的研究,在那個研究中,當被試思考為什麼一些實驗結果與他們所設想的有所不同的時候,後見之明的偏差(hindsight biases)減少了。從斯洛維奇和菲什霍夫的研究開始,有幾個實驗都已經解釋了如何通過考慮其他結果或答案的可能性來減少各種判斷上的偏差(Griffin, Dunning,&Ross, 1990;Hoch, 1985;Lord, Lepper,&Preston, 1984)。

正如查爾斯·洛德,馬克·萊珀和伊莉莎白·普雷斯頓(Charles Lord,Mark Lepper,&Elizabeth Preston, 1984, p. 1239)所指出的:「人們對於相反的可能性存在盲點,這種觀察由來已久。在1620年,培根曾經寫下『肯定比否定能夠激起更多的感動和興奮是人類智力中特殊並且永恆的錯誤。』」在第20章,這個盲點——以及它所帶來的某些後果——將會被詳細探討。

結論

對過度自信進行研究是非常重要的。在大多數研究中,平均信心水平從沒有超過準確度10~20個百分點以上。因此,只要決策者對自己判斷的正確性不是非常確定,過度自信就不會成為一種災難。與航天飛機的空間探索相似,最具破壞性的錯誤校準形式是不恰當的確信。

總之,本章的研究為我們提出了幾條應對錯誤校準的策略:

√首先,你可能會希望標記出那些需要特別考慮的判斷。當判斷難於做出或極端自信的時候過度自信達到最強。在這樣的情況下,謹慎前行非常必要。

√其次,你可能會希望「重新校準」你非常自信的判斷以及其他人的判斷。正如利希滕斯坦和菲什霍夫(1977)所觀察到的,如果一個決策者抱有90%的信心而只有70%~75%的準確度,最好的辦法可能就是將「90%的信心」看做「70%~75%的信心」。

√同樣,你可能會希望將具有「百分之百信心」的判斷自動轉變為較低程度的信心。百分之百的信心在預測人們如何行動的時候顯得尤其沒有根據(Dunning, Griffin, Milojkovic,&Ross, 1990)。

√最重要的是,如果你對某個答案感到極度自信,思考一下另外一個答案可能正確的原因。儘管你可能不會改變想法,但是你的判斷卻可能會得到更好的校準。

第20章 自我實現的預言

假如圖20.1中的每張卡片都是一面有數字而另一面有字母,並且有人告訴你:「如果某張卡片的一面是一個元音字母,那麼它的另一面就是一個偶數。」你需要翻開哪些卡片來判斷這個人是不是在撒謊?(見你對讀者調查第39題的回答。)

當彼得·沃森和菲爾·約翰森-萊爾德(Peter Wason&Phil JohnsonLaird, 1972)將這種類型的題目[2]呈現給128名大學生時,他們發現「E和4」是最為常見的回答(59名學生這樣選擇),而「E」是其次最為常見的回答(42名學生這樣選擇)。換句話說,大多數學生選擇了那些翻過來就能夠證實那條陳述的卡片。僅有5名學生給出了正確答案:「E和7」。

如果這個答案看起來難以理解,就試著這樣考慮問題。要檢驗的規則是「如果是元音字母,那麼就是偶數」,或者更為基本,「如果X,那麼Y」。證明一個「如果……就」類型的陳述錯誤惟一的辦法就是找到一個「是X而不是Y」的例子(比如,元音和奇數)。因此,僅有的能夠證偽的方法就是,找出那些具有元音字母和奇數的卡片(「E和7」)。而具有偶數或輔音字母的卡片並不重要。

圖20.1

儘管看起來簡單,這個問題對於大多數人來說卻是極其困難的。羅賓·道斯(Robin Dawes, 1975)甚至發現五名「最受尊敬的」的研究數理的心理學家中有四位都不能解決這一問題。本章的焦點就在於為什麼這樣的問題如此困難,以及它能夠給決策者帶來什麼啟示。

再次猜猜看

「你將得到三個數字,它們符合我頭腦中的一個簡單規則。這一規則關注的是任意三個數字之間的關係,而與數字本身的絕對大小無關,比如它不是那種類似於『所有數字都大於(或小於)50』的規則,等等。

你的目標是通過寫出由三個數字組成的若干組數字組來發現這個規則……在你寫下每組數字之後,我會告訴你這些數字是否符合這一規則……

沒有時間限制,但你應該通過盡量少的數字組來發現它。

記住你的目標不是簡單地找出符合這一規則的數字,而是發現規則本身。當你非常自信地認為自己已經發現了這個規則時,不要過於匆忙,將它寫下來……有什麼問題嗎?」

在檢驗假設的實驗中,沃森(1960)將這些指導語——以及一組範例數字2,4,6——呈現給29名大學生。他頭腦中的規則一直是「三個數字按照從小到大的順序排列」,但是他發現只有六名被試第一次回答就正確說出了這條規則。作為粗略的解釋,下面列出了一名典型被試的手稿:

被試4(一名19歲的女性):8, 10, 12。

主試:那些數字符合規則。

被試:14, 16, 18。

主試:那些數字符合規則。

被試:20,22,24。

主試:那些數字符合規則。

被試:1, 3, 5。

主試:那些數字符合規則。

被試:規則就是以任意一個數字開頭,然後每次加上2來得到下一個數字。

主試:那不是正確的規則。請繼續……

與四卡片問題一樣,沃森發現被試總是更多地去證實規則(如8, 10, 12)而不是證偽規則(如12, 10, 8)。這種傾向被稱做「證實偏好」(confirmation bias)。儘管「證實偏好」已經成為了一個萬能詞組(Fischhoff&BeythMarom, 1983),它還是經常被用來表示決策者偏好與假設一致的信息,而不是那些不一致的信息。

在一項關於人們如何檢驗假設(預感、規則、理論等等)的深入分析中,喬希·克萊曼(Josh Klayman)和Young-Won Ha(1987, pp. 220)認為證實偏好是「正性實驗策略」(positive test strategy)的結果,這是一種有用的直覺,但是它「就像任何通用直覺一樣……並不總是最優的,可能在某些情況下導致非常嚴重的困難。」在第15章已經討論了一組困難——當決策者主要關注於正性的共生事件時,由共變評估所產生出來的問題(比如,Jan Smedslund所做的護士研究,1963)。下一部分將給出另外一個例子。

自身永存的社會信念

1979年,馬克·斯奈德和南茜·坎托(Mark Snyder&Nancy Cantor)發表了三個關於社會知覺中證實偏好的實驗。第一個實驗中,所有被試都得到了一位名叫簡的女子的例子——她在一些情況下會表現得很外向而在其他情況下卻表現得較為內向。舉例來說,簡在慢跑的時候會與陌生人自由交談,但在超市裡面她會感到害羞和膽小。閱讀這個例子兩天以後,被試會被要求評估兩個命題:(1)簡非常適合一個通常與外向性相聯繫的工作(房地產銷售),或者(2)簡非常適合一個與內向性相聯繫的工作(圖書館研究員)。一些被試被告知簡正在申請這份工作,而另一些被告知她已經獲得了這個工作。簡單而言,我們將關注那些認為她正在申請這份工作的被試。

要判斷簡是否非常適合這項工作,以及她將會有多適合這個工作,這些被試需要列出與事例相關的所有依據。斯奈德和坎托發現,那些考慮簡在申請房地產銷售工作的被試往往列出她的外向性作為相關依據,而那些考慮簡在申請圖書館研究員工作的被試往往列出她的內向性作為相關依據。換句話說,兩種條件下的被試都把「證實」性證據看得比「證偽」性證據更有關聯性。此外,這種證實偏好與人們對於簡在所考慮工作上的適合性所做出的判斷有關。被試越喜歡證實性的證據,他們就會認為簡越適合——無論她申請什麼職位。

第二個實驗基本重複了第一個實驗,但是有幾處小的改動(如:將「非常適合」一詞改為「適合性」來避免過於強調證實性)。而在第三個實驗中,被試只需要列出他們想要瞭解一個工作候選者的哪些方面,從而來評估這個人有多適合房地產銷售或圖書館研究員的工作。和前面一樣,證實性的信息比證偽性的信息出現得更加頻繁。比如,當考慮那些房地產銷售工作的申請者時,被試提問「這名申請者待人友好嗎?」比「這名候選者有多害羞?」的頻率高得多。馬克·斯奈德和威廉·斯旺(William Swann)(1978)所做的幾個實驗也獲得了類似的結果。

這些結果帶給我們的啟示可以很好地拓展到職業領域之外。斯奈德和斯旺(1978, pp. 1211-1212)觀察到:

【人們】可以為自己創造一個這樣的世界,在這個世界中,假設會變成自我驗證性的假設,並且信念會變成自身永存的信念……從這個觀點出發,就不難理解為什麼如此多關於他人的普遍信念(特別突出的是,明顯錯誤的社會及文化刻板印象)會非常難以改變。即使一個人將要對這些信念產生足夠的懷疑並主動地對它們進行驗證,他仍然可能會「找到」那些他需要用來證實及堅持這些信念所需要的全部證據。這樣,最終這個人將會持有一種安全的(但是毫無根據的)感覺,即這些信念一定是正確的,因為它們通過了十分恰當和精確的評估過程。

皮格馬利翁效應

按照人們應該成為的樣子去對待他們,並且你要幫助他們變成他們能夠成為的樣子。

——歌德(cited in Peter, 1977)

「自我實現的預言」(self-fulfilling prophecy)一詞在1948年由羅伯特·默頓(Robert Merton)提出。用默頓的話說(1948, pp. 195-196):「起初,自我實現的預言是指對情況的錯誤定義引發了一種新行為,這種新行為使得最初的錯誤概念變為了真實的。自我實現預言的外在效果是使得錯誤的盛行得以延續。因為預言者會引用真實的事件進程來證明他從一開始就是正確的……這就是社會邏輯的反常之處。」簡言之,自我實現的預言是錯誤的概念,但它們是那種最終被證明是正確的錯誤概念。

在1968年,羅森塔爾和雅格布森發表了當前在自我實現預言方面最為著名的研究。在該研究中,小學教師得到了關於自己學生的一些診斷性信息,這些信息暗示,占總數20%的學生將會在未來的學業中獲得巨大發展。在8個月以後的IQ測試中,這些學生的成績確實比其他學生長進得快。

這一發現值得關注是在於,這些高成就者是隨機選出的。顯然,教師給予了這些「巨大發展者」更多的讚揚和關注,這樣導致的結果就是,這些學生確實比其他人發展得更好。羅森塔爾和雅格布森將這種現象稱為「皮格馬利翁效應」(來自蕭伯納的戲劇《皮格馬利翁》,劇中希金斯教授通過教給一個賣花姑娘如何著裝和說話,使她真正變成了一位「淑女」)。

從羅森塔爾和雅格布森的研究開始,已經有400多個實驗對人際期望的自我實現性質進行了探討,並有超過100個實驗專門對教師期望的效果進行了檢驗(Brophy, 1983;Jussim, 1986;Rosenthal, 1987, December)。總之,這些研究表明,儘管效果經常是中等程度的,但教師期望對學生的表現具有重要影響(Brophy, 1983)。有趣的是,同樣有「學生皮格馬利翁」的證據存在。羅伯特·費爾德曼(Robert Feldman)及其同事發現,學生的期望——既對於他們自己的表現也對於他們老師的表現的期望——能夠影響師生關係和學生的表現,且影響程度並不亞於教師的期望(Feldman&Prohaska, 1979;Feldman&Theiss, 1982)。

在男人們的頭腦裡

儘管羅森塔爾和雅格布森(1968)探討的是師生之間的互動,皮格馬利翁效應卻並不僅僅局限於教室之內。對於皮格馬利翁效應最富戲劇性的描述之一就是馬克·斯奈德、伊莉莎白·坦克(Elizabeth Tanke)和埃倫·伯奇德(Ellen Berscheid)(1977)所做的研究,該研究探討了男人對女人吸引力的刻板印象是如何能夠自我實現的。

實驗的第一部分,在通過電話相互認識的過程中,隨機配對的男性和女性被錄下了十分鐘的對話。然而,女性被試所不知道的是,實驗者已經事先告知男性被試「實驗中的其他人已經告訴我們,當頭腦中形成了交談者的形象時他們會感覺更舒服。」於是男人們用一次性成像的相機照了相,並得到了一張女性的快照(表面上是他們的搭檔)。事實上,這些快照是從事先準備好的八張照片中隨機選擇的。這些照片中有四張是那些被評定為具有高吸引力的女性,有四張是被評定為沒有吸引力的女性。這樣就引導男性被試相信他們的搭檔是外表吸引人的還是外表沒有吸引力的。男性被試的快照被丟棄在了一旁,女性被試根本沒有得到任何可以形成頭腦圖像的信息。

在相識談話之後,每個男性被試完成了一份問卷,內容是關於他對與其談話的女性的印象。問卷中包括了很多與一個有吸引力的人有關的刻板印象特徵——善於交際、鎮定、幽默等等。結果並不出人意料,與那些認為交談同伴沒有吸引力的男性相比,認為交談同伴外表吸引人的男性在隨後的評定中,認為同伴更加親切、鎮定、幽默以及善於社交。這是在第4章所討論過的暈輪效應的一個例子。

更為重要的是幾名獨立評分者所做出的判斷,他們傾聽了談話錄音的剪輯。一組評分者在每段談話中僅僅傾聽男性的聲音,而另一組評分者僅僅傾聽女性的聲音(每組評分者都既有男性又有女性,儘管在評分過程中並不存在顯著的性別差異)。根據這些評分者做出的判斷——他們既不知道實驗假設也不知道被試實際的外表吸引力——與以為交談同伴沒有吸引力的男性相比,那些認為自己正在與一位有吸引力的女性交談的男性被試聽起來更加善於交際、溫情、寬容、有趣、大膽、外向、幽默,並且有更強的社會適應性。並且從反應推測,與開始被知覺為不具吸引力的女性相比,那些開始被知覺為外表具有吸引力的女性在實際中聽起來也更加富有吸引力(比如善於交際、鎮定等等)——儘管被試是被隨機分配到各種實驗條件下的,而且男人的預想與女人實際的外表吸引力沒有任何關係。

正如斯奈德、坦克和伯奇德(1977, pp.661, 663)所提出的:「最初在男人們的頭腦裡形成的事實,現在已經在與他們互動的女人的行為中變成了真正的事實——一個即使是最幼稚的觀察判斷者也能加以辨別的行為事實,這些觀察者僅僅評估了談話錄音中女性的貢獻……知覺者最初的錯誤歸因已經變得真實:刻板印象真正作為一種自我實現的預言而發揮了它的作用。」

自我實現的種族刻板印象

這類自我實現的預言——使刻板印象得以延續的一類——在種族歧視中扮演著關鍵角色。卡爾·沃德、馬克·贊納和喬爾·庫珀(Carl Word, Mark Zanna,&Joel Cooper, 1974)發表了關於這個問題的一項研究。

沃德、贊納和庫珀在導言中解釋說,人們往往會通過非語言線索表現出他們對別人的態度。比如說,當人們對某人持有正性態度的時候,他們就會讓自己和那個人靠得相當近,表現出高度的目光接觸、更為直接的肩部相向,以及更多的身體前傾。另一方面,人們往往避開那些名譽不佳的人。比如,他們會很快中止與這種人的會面,並且與他們保持更遠的距離。沃德、贊納和庫珀在兩個實驗中考察了這種偏見——第一個實驗中,白人被試面試白人和黑人實驗助手,第二個實驗中,白人實驗助手面試白人被試。所有的被試和助手都是男性。

第一個實驗中,被試會在實驗室中遇到兩個表面上也是被試的人(但實際上是主試的助手)。然後另外一個助手出現,再過一會兒主試走了進來。主試告訴四名「被試」他們將與另外四個團隊在一場市場活動中進行較量。但主試解釋說,他們的團隊還需要一個人,並且團隊中的一員將要對四個候選者進行面試以挑選出第五位成員。然後他們會進行一次事先做過手腳的抽籤儀式來使得被試成為最後的面試官。

安排四次面試的原因在於隱瞞真正的研究目的(即,直接比較白人考官對待白人、黑人候選者有什麼區別)。第一次面試(一直是位白人候選者)被簡單地當做面試的熱身,而最後一次面試從來沒有發生過(告知被試申請者已經打電話取消約定)。令沃德、贊納和庫珀(1974)感興趣的是第二次和第三次面試。一半被試會首先面試一名白人候選者,再面試一名黑人候選者;另一半被試會首先面試一名黑人候選者,再面試一名白人候選者(儘管後來發現順序並不會導致差異出現)。在這些面試中,候選者——同樣是實驗者的助手——被訓練過以保證其行為符合標準方式,並且他們不知道任何實驗者設計該測試的目標。

沃德、贊納和庫珀(1974)測量了面試過程中的幾個特徵,包括:(1)面試時間長短,(2)面試官出現語言錯誤的次數(假定反映了不適感),以及(3)面試官和候選者之間的物理距離。第一個變量由主試測量。第二個變量由獨立的評分者進行計分,這些評分者邊聽面試的錄音邊對發言結巴、詞語重複等諸如此類的內容做記錄。第三個變量,物理距離,是通過一種特殊而富有創造性的方法加以測量的。當被試進入面試考場的時候,候選者已經坐下,而主試假裝發現沒有面試官的椅子了。然後他會要求被試去鄰屋拿一把椅子,被試放置椅子的位置提供了其與候選者之間物理距離的測量指標。

沃德、贊納和庫珀(1974)發現被試面試白人候選者所花費的時間比面試黑人候選者多出了35%,在面試黑人時比面試白人時多犯了50%的語言錯誤,並且椅子放置的位置距離,黑人候選者比白人候選者要遠7%。所有差異在統計上都是顯著的。

但這還不是全部。在證明了這些差異之後,沃德、贊納和庫珀又進行了第二個實驗來評估這種職業面試表現中的歧視效應。在第二個實驗中,白人被試由一名白人助手面試,該助手採用第一個實驗中對待黑人的方式或者對待白人的方式來對待這些白人被試。就是說,在前一種實驗條件下,面試官坐得離候選者更遠,犯更多的語言錯誤,並且更早地中止面試。

沃德、贊納和庫珀(1974)發現,那些被以第一個實驗中對待黑人候選者的方式進行面試的被試在面試過程中表現得更加糟糕(由觀看過面試錄像的獨立評判人進行評定),他們犯了50%以上的語言錯誤,並在後來認為面試官不夠友好。因此,第一個實驗中黑人被試所遭遇的對待方式使得白人被試在第二個實驗中表現得很差——這為種族刻板印象如何能夠自我實現提供了一個有力的證明。

結論

儘管關於自我實現的刻板印象方面的研究主要局限在男性被試研究上(Christensen&Rosenthal, 1982),其他自我實現的預言和證實偏好已經在男性和女性被試身上得到了充分的證明(見三篇精彩的綜述,Darley&Fazio,1980;Miller&Turnbull, 1986;Snyder, 1984)。人們尋求證實性證據的傾向——不管是邏輯問題解決的任務、職業面試、在班級背景下,還是其他方面——是廣泛存在且業已確定證實的。

此外,克利福德·邁納特、邁克爾·多爾蒂和瑞安·特韋尼(Clifford Mynatt, Michael Doherty,&Ryan Tweney)所做的兩個實驗表明證實偏好可能難以消除。第一個實驗中,邁納特、多爾蒂和特韋尼(1977)創造了一種模擬研究環境,在這一環境中被試必須發現計算機屏幕上支配「粒子運動」的某個規律。被試隨機得到三種指導語中的一種:(1)證實性指導語,他們被告知一名科學家的基本工作就是證實理論和假設;(2)證偽性指導語,他們被告知一名科學家的基本工作就是推翻理論和假設;(3)檢驗性指導語,他們僅被告知一名科學家的工作就是對理論和假設進行檢驗。

邁納特和他的同事發現證偽性指導語實際上對證實偏好沒有任何影響。如果不考慮被試得到了哪一種指導語的話,他們在全部實驗的大約70%中會尋求證實性的證據。

在第二個實驗中,邁納特、多爾蒂和特韋尼(1978)擴展了證偽性的指導語。採用與前面相同的步驟,他們將被試隨機分配到兩種條件中的一種:(1)一個沒有指導語的控制組,或者(2)一個強線索組,在這個群體中,被試會得到詳盡的指導語,強調證偽和多假設驗證的價值。然而,結果又是,這樣的指導語效果並不明顯或根本沒有效果。

如何避免證實偏好以及自我實現的預言?儘管針對這一問題的研究相對較少,但有一種策略可能是關注動機因素(Snyder,待發表)。比如說,斯奈德、坎貝爾和普萊斯頓(1982)通過警告面試官他們面試的人可能會把某些問題看做思想封閉或偏見(如指向證實性刻板印象的問題)來消除證實偏好。一旦該研究中的面試官對這種可能性變得敏感,他們就會大致等同地採用證實性和證偽性證據進行衡量。

另外一個有價值的策略可能是採用鼓勵證偽性回答的方式來組織問題。決策研究者傑伊·拉索和保羅·休梅克(1989)講述了一個他們以前學生的故事——傑伊·弗裡德曼採用這一策略取得了巨大成功。作為Kidder, Peabody和Company三家投資公司的頂尖分析師,弗裡德曼將在制定財務建議之前收集證偽性證據。拉索和休梅克(1989, pp. xiv-xv)這樣描述了弗裡德曼的方法:

在收集公司的信息時他會故意問一些設計好的問題來「證偽」他認為是真實的那些信息。比如,如果弗裡德曼認為免洗尿布生意正在價格上變得沒有競爭力,他會問執行官們一個相反的問題,如「一次性尿布的價格競爭是不是正在變得更有優勢?」這類問題使他比其他競爭分析師更容易瞭解真實情況。

正如第19章所談到的,通過思考自己的判斷在哪些情況下可能是錯誤的,決策者能夠降低過度自信並提高他們的決策質量(Koriat, Lichtenstein,&Fischhoff, 1980;Lord, Lepper,&Preston, 1984)。這樣一種方法可能也會減少自我實現的預言和自我實現的刻板印象。但是在當前,這種可能性是不確定的,需要通過心理學的研究來證實——或證偽——其正確性。

第21章 行為陷阱

「謝謝您打電話過來。目前我們的接線員正忙。請您在線等待,您的電話會按照順序得到回應。」

一分鐘過去了,兩分鐘過去了,你開始考慮是繼續等待還是過會兒再撥。可能你被轉到了無人接聽的線上,好像電話在森林裡空響,無人應答……

另一方面,掛斷可能意味著重新開始。其他人可能會排到隊伍的前面,你就喪失了原有的優先權。還是繼續等吧,誰知道呢,可能你就是下一個了。

你又等了一會兒,三分鐘,四分鐘。誰打了那麼久啊?你在想。

最後你拿定了主意。如果下個60秒內仍然沒有接線員回應,你就掛斷。30秒過去了,40秒過去了,50秒了,但是還是沒有回答。當最後期限到來的時候,你猶豫了一下,卻仍抱有希望,但最後還是在沮喪中狠狠掛了電話。

這樣的情形看起來是不是很熟悉?這個情況具備「行為陷阱」的所有特徵。行為陷阱(behavioral trap)是指這樣一種情境:個人或者群體從事一項很有前景的工作,最後卻變得不盡人意並且難以脫身。這個定義類似於約翰·普拉特(John Platt, 1973)在有關社會陷阱的開創性工作中所提出的關於社會陷阱的定義。本章將著重思考普拉特、約翰·克羅斯和梅爾文·蓋耶(John Cross&Melvin Guyer, 1980)所做的分析。由於陷阱可能是非社會性的也可能是社會性的,因此我們將使用更加寬泛的「行為陷阱」的概念,而不是傳統意義上的「社會陷阱」。

陷阱的分類

1980年,克羅斯和蓋耶發表了關於陷阱和反陷阱的分類。用克羅斯和蓋耶(1980, p. 18)的話說就是:「當我們避免可能有利的行為時反陷阱(不作為的過失,sins of omission)就發生了,而當我們進行可能有害的行為時則出現陷阱(作為的過失,sins of commission)。」如上所述,一個常見的陷阱就是等待接線員。常見的反陷阱則包括令人厭惡的清理工作(隨著時間的推移情況將變得越來越亂)以及逾期的回信(這種情況下耽擱時間越久越令人尷尬)。

生活中存在著幾種典型陷阱,每一種都有相應的反陷阱。根據克羅斯和蓋耶的分類,我們把陷阱主要分為五類:

延期陷阱

無知陷阱

投入陷阱

惡化陷阱

集體陷阱

儘管這些陷阱常常結合在一起形成混合陷阱,但是每一種陷阱都基於不同的運作原理。因此,以下部分將分別討論這些陷阱。

延期陷阱

如果你發現按時進食或者鍛煉有些困難,那麼你應該知道這是由於延期陷阱(time delay traps)的作用造成的。在延期陷阱中,暫時的滿足與長期的後果相衝突。無知地開始食用一種好吃的甜食或者吸幾根香煙可能在未來許多年以後導致肥胖或者肺癌。或者,在反陷阱中,對目前不愉快事件——對於某些人來說是有氧運動,對於另一些人可能是牙科檢查——的逃避,最終可能導致心肌梗塞或者牙周炎。這類陷阱和反陷阱的關鍵在於短期的相對小的痛苦和愉快足以引起長期的、破壞性的甚至是致命性的後果。

任何短期後果與長期後果衝突時都可能成為一個延期陷阱。典型的衝突包括:喝酒的快感與第二天的宿醉,當前沒有保護措施的性行為的快感與延期的感染艾滋病或者非意願懷孕的可能性,可拋棄產品的方便性與長期的環境污染,受到信用卡影響的「先買後付」的選擇與長期財務計劃,以及體罰的短期效果與最終的糟糕結果。甚至伊甸園裡的蘋果也可以被看做是延期陷阱中的一種誘餌——誘惑的最終象徵與它潛在的令人上當的後果。

無知陷阱

人們在延期陷阱中通常意識到了他們行為的長期後果。暴飲暴食者通常非常清楚體重上升的後果,吸煙者有時候甚至把香煙稱為「癌症小棒」。關於體重上升或者罹患癌症的警告在延期陷阱中很難起到有效作用。

無知陷阱(ignorance traps)與此不同。在這些陷阱中,行為的負面後果並不被理解或者開始時並沒有被預見到。例如,19世紀時吸煙者並沒有意識到吸煙與肺癌之間的關係,如果當時人們知道這些信息的話,很多人可能不會去吸煙(當然,吸煙仍然具有延期陷阱的特徵,上百萬人儘管知道兩者之間的聯繫卻仍然深陷其中)。

當一段新生活開始時,無知陷阱通常較為常見。例如,大學生們有時會選擇一個並沒有原先設想的那麼有趣的專業,工人們有時發現他們在做一份與他們期望大相逕庭的工作,戀人們有時會發現現在的伴侶並沒有原先那樣吸引人了。這些陷阱是生活中不可避免的一部分,儘管有一些方法可以使被陷阱捕獲的概率降到最低(減少或者避免不良後果的技巧會在本章稍後部分討論到)。

一個特別悲劇性的無知陷阱是美國農業曾經對於殺蟲劑的依賴。當合成的有機殺蟲劑如DDT在20世紀40年代被引進時,它們看起來似乎是保護作物免受蟲害的有效手段。美國農民很快就將它們作為控制害蟲的手段。

然後,兩件沒有預料到的事情發生了:(1)鳥類和其他害蟲捕食者開始相繼死去,(2)害蟲對那些使用過的化學藥品產生出了抵抗能力。蟲害開始增加了。人們發明了新型殺蟲劑,然而再次出現了能夠抵抗化學藥物的害蟲品種。經歷了四億年的進化之後,不經歷戰鬥這些害蟲是不會投降的。

數十年來,這場戰役一直在美國的農場上進行著,但是每一輪新的「化學武器」只會引起更加嚴重的蟲疫。美國農作物由於蟲害而遭受的損失比例在1950~1974年間翻了一番(Robbins, 1987),根據加州大學的昆蟲學家統計,在加州,25種最嚴重的農業害蟲中有24種是殺蟲劑誘導產生或由殺蟲劑導致破壞性增強(Luck, van den Bosch,&Garcia, 1977)。每年,美國使用超過1億磅的殺蟲劑,它們對野生動物、植被、水域及人類安全十分有害。

投入陷阱

克羅斯和蓋耶(1980)在他們的分類中沒有明確包含投入陷阱(investment traps),但是最近這類陷阱成為了大量研究的課題。當以前花費的時間、金錢或者其他資源讓人們做出了他們本不會做出的選擇時,投入陷阱就出現了。用決策理論的術語來說,這些陷阱導致了「沉沒成本效應」(sunk cost effect)。

哈爾·阿克斯和凱瑟琳·布盧默(Hal Arkes&Catherine Blumer, 1985)在10個不同的小型實驗中舉例說明了沉沒成本效應。在其中的一個實驗中,要求一群被試解決以下的問題:

作為一個航空公司的董事長,你已經投資了1000萬美元來開發一個項目。目的是製造一種不會被傳統雷達監控到的飛機,也就是隱形飛機。在該項目的90%已經完成時,另外一家公司已經開始為隱形飛機做市場宣傳了。並且,很明顯,與你們的飛機相比,他們的飛機速度更快、也更經濟。問題是:你還會把剩餘的10%的研究資金用於完成隱形飛機項目嗎?

你可以通過查看「讀者調查」的第6題去檢查你的結果。阿克斯和布盧默發現85%的被試傾向於完成該項目,儘管完成後的飛機與市場上已有的飛機相比處於劣勢。給予另外一組被試另一個版本的問題,其中並沒有提到先前的投資,結果只有17%的人支持在該項目上投資。一千萬美元的沉沒成本造成了二者的差異。

在另外一個實驗中,阿克斯和布盧默(1985)顯示沉沒成本可能具有持續的效應。在一個研究中,60位劇院的老顧客到售票口去買俄亥俄大學劇院的季票。這些人所不知道的是,他們隨機買到了下面三種票中的一種:(1)普通的15美元的票,(2)打了2美元折扣的票,(3)打了7美元折扣的票。有幸買到打折票的被試被告知折扣是劇院部門的促銷活動之一。

每種票有不同的顏色,於是阿克斯和布盧默(1985)能夠收集每場演出的票根並且發現多少被試觀看了每場演出。出於分析的目的,劇院的演出季被分成了兩個部分,每個部分有6個月,期間共有5場演出。儘管阿克斯和布盧默在第二個演出季中並沒有發現顯著差別,但在前6個月中,他們發現那些買了全額票的顧客比那些買了折扣票的顧客(不管其折扣的幅度)觀看演出的次數要多。所以,即使是微不足道的2美元投入也會持續影響行為長達6個月。

這個研究之所以非常重要,原因有以下兩點。首先,它表明沉沒成本效應不僅僅局限於紙筆測量;其次,它還顯示了投入的不同可以對行為產生相對持久的影響。正如巴魯克·菲施霍夫(Baruch Fischhoff)和他的同事(1981, p.13)在他們名為《可承受的風險》(Acceptable Risk)一書中所述:「美國任何一個大型的水壩只要開工就不會半途而廢的事實表明,一點點的水泥都能在一個關鍵問題中起作用。」

惡化陷阱

惡化陷阱(deterioration trap)與投入陷阱類似,除了行為的成本與收益隨著時間而變化之外,這些陷阱——克羅斯和蓋耶(1980)叫它們「可變強化陷阱」——出現在當原先高回報的行為逐漸變得不那麼有收益或者變得更具有懲罰性時。

惡化陷阱的典型例子是海洛因成癮(儘管海洛因成癮也可以被看做是延期陷阱或者無知陷阱)。起先,海洛因使用者發現這種藥物令人欣快。但是,隨著時間的推移,他們產生了抗藥性,因而需要更多的藥物量才能達到同樣的感覺。最後,海洛因使用者用該藥物已是為避免不適症狀的出現而不是體驗愉悅感。起先的愉悅體驗最終成了擺脫不掉的噩夢。

同樣的過程也能出現在「殺蟲劑成癮」中。儘管殺蟲劑的使用在一開始也可能是無知陷阱,但逐漸地,它轉化成為惡化陷阱。據《生物科學》(BioScience)雜誌的一篇報告,殺蟲劑依賴性的工作原理如下:

起初的一段時間,由害蟲所導致的糧食損失顯著減少……但是最終,某種主要的、個別的或者殺蟲劑引致的害蟲產生了抗藥性。這個問題是通過增加(多樣化)殺蟲劑和改變殺蟲劑來解決的,但是替代品的有效時間變得更短暫,因此需要更加頻繁地使用以達到與原來相同的控制力。此時,種植者要想從這種策略中解脫出來,即便不是不可能,也會變得更困難了。隨著他們繼續使用殺蟲劑,他們的問題也變得越來越嚴重(Luck,van den Bosch,&Garcia,1977, p. 607)。

在那些沒有看到這一過程如何發展的旁觀者看來,惡化陷阱和反惡化陷阱常常會產生一種荒唐或自我毀滅性的行為。在斯金納(1980, pp. 150-151)的回憶錄《筆記》(Notebooks)中,他描述了下述行為的例子:

比爾的卡車是他惟一的收入來源,就像漁夫的船或者農民的奶牛與拉犁的馬一樣。島上鹹鹹的海風、缺乏維護的道路,以及醉酒司機的虐待幾乎要使它報廢了。擋風玻璃上佈滿了呈輻射狀的裂紋;擋泥板已經腐銹成了薄片,彎折著,扭曲著;只有一塊塊的墊料還殘存在座椅的彈簧中。

我曾經請比爾幫忙把我們的船運到山下去。卡車停在一個鄉村商店前面的下坡路上。我上了車,坐到了殘缺不全的座位上。比爾推了一下卡車,跳了進來,抓住擋把,借助僅有的一點速度掛上了擋。一陣激烈的震動後,馬達開始咆哮。比爾……拚命地踩下油門,一隻手始終在氣門上。看到汽車發動了,他感到非常滿意,於是快速地向那家商店倒車以便掉頭。可是卡車熄火了,橫在路上。我們三四個人一起推,其中包括兩個從一輛小汽車裡出來的年輕人,卡車堵住了他們的路……我們回到了那個下坡上,再一次將車發動起來,結果又熄火了。比爾不時地跳出來,打開發動機罩,用扳鉗調整著什麼。我們向錯誤的方向前進了大約160米,發動機咆哮著,並且在比爾加油的時候拒絕加速。最後他解釋道,他的發動機啟動裝置被送去修理了,可能被遊船送回來。如果他花兩個小時時間去取回發動機,情況會怎樣呢?而他卻沒去取。48小時之後他的車仍然停在下坡路上。沒人願意雇他的車了。

他為什麼繼續?從某種意義上講他沒有選擇。他喝酒花光了他的收入……(但是他的)沒有選擇並不是這個故事的全部。他對那輛卡車狂熱的關注是(對他所付出辛勞的回報的不斷降低)的結果。比爾不願從卡車那裡一無所獲。假如那是一匹馬的話,他也許早就把它打死了,因為一匹年邁的老馬也是它主人專注於在一項所費時間越來越長的工作上的強化物。比爾的卡車也正被他往死裡打呢。

對於一個不知道比爾以前經歷的旁觀者而言,他的行為可能顯得荒誕可笑。但是同樣的動力在惡化的社會與感情關係中也同樣起作用。當人際關係隨時間逐漸變壞時,它們就構建了一個非常難以逃遁的反陷阱。

集體陷阱

與前面的陷阱不同的是,集體陷阱(collective traps)涉及多個人。在集體陷阱中,對個人利益的追逐導致了對集體不利的後果。一個簡單的例子是高峰期的交通堵塞。上百人傾向於在同一時間開車,但是假如每個人都按照自利的原則行事,那麼大家都會遭殃。

集體陷阱——數學博弈論中「社會困境」(socical dilemma)的近親(Dawes, 1980)——受到的研究關注比其他所有陷阱加在一起還要多。最著名的集體陷阱是囚徒困境,在這種情境下,兩個囚犯分別關在單獨的牢房裡並且被提供了如下的說明:

區律師:聽著,比爾小子。如果你們中的任何一個都不認罪的話,我們有足夠的證據讓你和你的同夥入獄一年。我們真正想要的是,你們當中至少有一個人認罪。如果你認罪但是你的同夥不認罪,我們將判處你的同夥十年徒刑,而你將被無罪釋放。但是,如果你不認罪但是他認罪了,你就會被關押十年。

野蠻比爾:如果我們都認罪呢——我們都會被判十年嗎?

區律師:不。那樣的話,我們會基於你們的誠實把每人的徒刑降為五年。

在一個標準的囚徒困境中,兩個囚犯都面臨著同樣的選擇——無論同夥選擇什麼,他們都最好選擇坦白。假如他們的同夥拒絕承認,那麼他們無罪釋放;否則,他們起碼不會被判十年徒刑。困境就在於如果每個囚犯都追求自己的利益而坦白,他們就會分別受到五年徒刑的懲罰,而這比兩人都不認罪的懲罰要重(見圖21.1)。

圖21.1 囚徒困境問題。每一格對角線右上部分為罪犯A的陳述,對角線左下部分為罪犯B的陳述。

另一個著名的集體困境是生物學家加勒特·哈丁(Garrett Hardin, 1968)命名的「共有地的悲劇」(the tragedy of the commons)。在這個陷阱的經典版本中,一個放牧部落使用公共牧場來放養牲畜。起初沒有問題,但漸漸地,牛的數量達到了土地承載能力的極限。此刻,增加一頭牛對放牧人的效用有兩方面——正面和負面的效用。正面效用為增加一頭牛所帶來的收益。這個收益完全歸屬於增加這頭牛的放牧人。負面效用則是增加一頭牛所導致的過度放牧。這個成本由該部落所有的放牧人共同承擔,並且對每個放牧人來說,可以忽略不計。結果就產生了一個兩難困境——每個人都從增加一頭牛中獲益,但是對個人利益的追求導致了一個不盡如人意的結果。哈丁把共有地悲劇與另一些問題聯繫起來,比如人口膨脹、污染、全球資源衰竭以及核武器的擴散等等。

共有地悲劇在很多方面類似於臭名昭著的「床墊問題」,這是由托馬斯·謝林(Thomas Schelling, 1971)最先描述的一個集體反陷阱。在床墊問題中,成千上萬輛汽車從科德角(Cape Cod)度完週末後,由一條雙車道高速公路返回,就在此時,一個床墊從貨車的頂端不為人注意地掉了下來,掉入了向北行駛的車道上。問題來了:誰會停下來移開這個床墊呢?

通常,答案是誰也不會。遠離該床墊的、處於忙碌交通中的人們不知道問題在哪,所以不會來移開。正在繞過床墊的人們已經等了如此之久,以至於他們只想著如何繞過它。在漫長的等待之後,他們最不情願做的就是花幾分鐘時間把床墊從車道上移開了。而已經繞過床墊的人們不再有動力去挪開它。

床墊問題與緊急情況下的集體反陷阱很相似(責任分散了,旁觀者干涉的速度就慢了)。這也可能部分解釋了政治「冷漠」為何在美國如此普遍。不幸的是,正如道格拉斯·霍夫施塔特(Douglas Hofstadter, 1985, p. 757)貼切的評論:「個體水平的漠不關心會導致社會大眾喪失理智。」

你願意為一美元付多少錢

心理學研究中最著名的行為陷阱之一是美元拍賣的遊戲——這個遊戲中結合了集體陷阱、投入陷阱、無知陷阱的特徵。這個遊戲由馬丁·舒比克(Martin Shubik, 1971)發明,在該遊戲中,1美元被賣給出價最高的人。普拉特(1973)認為該拍賣遊戲具有四個簡單的規則:

1.拍賣進行時出價者之間不得有任何交流。

2.出價由5美分開始,每次只能加5美分。

3.出價不能超過50美元(為避免競價者狂熱的熱情)。

4.出價最高的前兩名都必須付出他們所出的價格,即使這1美元只能給予出價最高的那個人(說到底,拍賣商得彌補他的損失)。

儘管遊戲聽起來非常簡單,但有兩個「無回報的點」值得注意。其一是當兩個出價最高的人所出總額超過1美元時,那麼拍賣商就能穩獲利潤(例如,一個人出50美分而另一個人出55美分)。此時,拍賣在單個競價者眼中是有吸引力的(1美元只要出55美分就能到手),但是個人利益的追求已經導致了競價者整體的損失。

第二個要當心的地方是當第一個人出價超過1美元時。為了明白為何人們願意出大於1美元的錢來獲取1美元,我們考慮一個人出了95美分,而此時恰好有另一人出了1美元時此人的困境。如果是你,你怎麼做?如果你在該點放棄,你就必定損失95美分。另一方面,如果你出價1美元零5美分,你就贏得了1美元,損失僅為5美分。問題是,你的競爭對手也面臨著同樣的狀況。

於是結果是,拍賣常常會出現幾美元的競價。

拍賣遊戲廣受關注的一個原因是它很類似於核武器競賽以及其他的國際衝突(Costanza, 1984)。在1980年,艾倫·特格(Allen Teger)出版了《投資過多,無法退出》(Too Much Invested to Quit)一書,整本書都是關於一美元拍賣遊戲的,並且很多結論都可以直接應用到軍事衝突上。據特格稱,被試們起先是被自己的利益所驅使,但是漸漸地他們的動力變了。隨著競價的進行,被試們開始關注贏得競爭、保住面子、使損失最小化,並且懲罰競爭對手,因為對手使他們陷入窘境(通常,只有兩個競價者在最後還保持活躍)。特格發現,當開價達到1美元時,雙方都覺得他們是被對方逼迫繼續下去的,並且很多被試認為對方繼續下去是瘋狂的——他們並沒有認識到同樣的力量作用於雙方的參與者。這個「鏡像」酷似核武器競賽。

深陷泥潭

一旦競價者在一美元拍賣遊戲中被套——「深陷泥潭」,巴裡·斯塔(Barry Staw, 1976)這樣形容——他們通常會繼續打擊對方直到對方最終放棄為止。喬爾·布羅克納和傑弗裡·魯賓(Joel Brockner&Jeffrey Rubin, 1985,p. 5)把這種機制稱做「誘捕」(entrapment),被定義為「一個決策過程,此過程中人們持續提高對已經被證明是失誤的先前選擇行為的忠誠度,目的是使他們以前的投入顯得合情合理。」

對誘捕的最先研究之一是由斯塔(1976)所做的。斯塔呈現給商學院學生們一個假想但是非常詳細的情境。這是一家開始虧損的高科技公司,他讓學生設想自己是公司的財務副總裁。根據該情境,公司的董事們決定額外投資1000萬美元的研發資金給兩個最大部門中的一個——消費產品部或者工業產品部。在研究的第一部分,半數的學生被問及哪個部門應該得到額外的資金(並且要為自己的決定高度負責),而另一半學生則被告知公司中另一位財務官員已經決定哪個部門將獲得這筆資金(且不需要為自己的決定負責)。然後大約半數的學生被告知在接下來的5年裡得到資金的部門的確比未得到資金的部門表現得要更好(即,決策的確帶來了積極的結果),而半數的學生則被告知相反的結果(即,決策帶來了消極的結果)。

在該實驗的第二部分,學生們得知,公司的管理者對公司價值的重新評估將決定另外2000萬美元的研發資金如何分配,並且學生們可以他們認為合適的任意方式將這筆錢在消費和工業部門之間進行分配。斯塔(1976)發現了「誘捕」現象——對一個失誤行為持續增加投入。如圖21.2所示,開始選擇不成功並且要擔負個人責任的學生平均分配了大約1300萬美元到以前選擇的部門——比其他學生多出約400萬美元。當責任重大時,失誤導致了更多的投入,而非更少。

斯塔(1976)的實驗激發了很多後續的研究,並且在他的研究之後,出現了幾種對誘捕行為的理論分析(其中最優的兩個是Brockner&Rubin, 1985,及Staw&Ross, 1987)。儘管對誘捕的研究起步不久,但已經有實驗證據表明:(1)在被動地維持現狀的情境中(例如自動的再投資計劃)比在主動選擇繼續與否的情況下更加有誘捕傾向(Brokner, Shaw,&Rubin, 1979);(2)誘捕在競爭的社會條件下比非競爭的社會條件下來得激烈,這一點至少對男性而言是成立的(Rubin, Brockner, Small-Weil,&Nathanson, 1980);(3)誘捕不僅在個體中,而且在群體中也會出現(Bazerman, Giuliano,&Appelman, 1984),儘管這可能僅對女性成立(Brockner&Rubin, 1985)。

圖21.2 圖為誘捕的一個例子。巴裡·斯塔(1976)發現,相對於不必對先前的投資負責的學生以及先前投資獲益的學生而言,起初投資失敗的學生在後來的投資中會投入更多的資金在先前的失敗項目上面。

在戀愛關係中也有誘捕現象存在。卡裡爾·拉斯布爾特(Caryl Rusbult,1980)發現大學生在角色扮演的實驗中更加忠實於戀愛伴侶——並且較少可能與他人約會——如果他們的關係持續了一年而不是一個月。因此,在其他條件相同的情況下,學生在該關係中投入的時間是與他們未來的忠誠度直接相關的。

勝利解脫

儘管陷阱難以逃脫,但它們很少能夠永遠持續。最終,等待的人們掛斷了電話。公司官員停止把錢投入到不良項目中。令人不悅的戀愛關係解除了。通常,問題不在於行為陷阱會永遠抓住受害者不放,而是回頭看時,人們希望他們更早地從陷阱中逃離出來。[3]

幸運的是,有一些方法可供減弱或避免誘捕(請回顧:Brockner&Rubin,1985;Cross&Guyer,1980;Staw&Ross, 1987)。一種由巴裡·斯塔和傑裡·羅斯(Barry Staw&Jerry Ross, 1987)提出的技術是在做出一個承諾之前「把結束的成本明確化」——就是說,在投入一項長期風險之前要清楚地考慮中止行為的代價。實驗證據表明,事先將投入成本清晰化可以使誘捕減弱或者消除(Brockner, Rubin,&Lang, 1981;Nathanson et al., 1982)。

在布羅克納和魯賓(1985, p. 203)關於誘捕的專著中,他們建議決策者在任何可能的時候事先設定極限,並且用下述方法利用所設定的極限:

並不是說達到極限所設定的數量就馬上主動退出,決策者應該利用他們所設定的極限點,作為一個重新衡量繼續或終止行為的決策時間點,而無論他們事先已經投入了多少。也就是說,如果個人決定繼續投資而超過事先設定的極限的話,應該以對未來的(而不是過去的)成本—效益分析為基礎。

在商業情境下,斯塔和羅斯(1987年3~4月)建議應該先回答這樣一個問題:「如果今天我是首次從事這個工作,發現這個項目正在進行中,我會支持它還是放棄它?」這個問題也可以很容易地運用到其他非商業情境下(比如,「假如今天我是第一次遇到這個人,我會被他吸引嗎?」)

另一個技巧是讓不同的人進行最初的和後續的決策(Bazerman, Giuliano,&Appelman,1984;Staw&Ross, 1987)。例如,商業貸款可以由一位銀行官員發放,然後由另一位人員來審查是否可以繼續簽約。這樣做的好處在於,後來的決定是由不必為先前錯誤負責的人做出的(因此基本沒有提高投入的理由)。但是,這種方法也存在缺點,即決策的不連貫性以及「組織記憶」(institutional memory)的潛在損失。

結論

行為陷阱是生活中普遍存在的一部分,如果不加以關注,可能會導致嚴重後果。斯塔(1981)提出,很多有害的個人決策或者公共政策都是由連續的、不斷升級的投入所導致(比如在越戰中的種種事例)。普拉特(1973, p. 651)則更加極端,他說:「陷阱代表了我們當今幾乎所有難以駕馭的,大規模的城市、國家以及國際間出現的問題。」

但是,陷阱並不總是不好的。正如布羅克納和魯賓(1985)所說,有些情況下,人們刻意讓自己進入陷阱中。比如恢復中的嗜酒者,以前的吸煙者、暴飲暴食者常常鼓起勇氣在陷阱中等待著,目的是可以使他們「陷在」健康的生活方式裡。

當陷阱是合意的時候,決策者應該:

√迴避有關誘捕成本的信息。

√盡量不要做出限定或評估繼續這樣做將花費的成本。

√做出一個公開的、堅持下去的承諾。

√與那些有相同目標的人們競賽。

與本書中討論的直覺以及偏好相同,行為陷阱並不總是好的或者壞的,心理學研究的目的也並不在於評判這些問題的好壞。而且,對誘捕行為的研究目的——以及一般性的決策研究——是更加局限的。它的目的是,讓我們進一步了解決策過程是如何操作的,並且,在這樣做的過程中,讓我們的決策質量得到提高。

[1]儘管這些結果看起來可能與利希滕斯坦和菲什霍夫早期的結論(被試80%正確時過度自信達到最低)相互矛盾,但事實上並非如此。被試非常自信時他們的平均準確度只有70%~90%,這一事實並不意味著在70%~90%正確的時候他們總是非常自信的。

  

[2]一些版本的問題使用了符號而不是E、K、4和7,但是問題的邏輯結構都是一樣的。

  

[3]有些集體陷阱,比如說人口膨脹、飢餓、環境惡化以及軍事衝突等,可能是這條法則的例外。這些問題可能有永久性的煩人特徵,並且有待時間檢驗人類是否有能力解決它們。