不確定世界的理性選擇：判斷與決策心理學(第2版)：第5章啟髮式判斷_雷德·海斯蒂

我們認為自己與猿類的區別在於我們擁有思考的能力。但是我們不曾記得，這種能力只類似於一歲孩童的行走能力。我們的確在思考，但是卻思考得如此糟糕，以至於我時常感覺，也許我們不去思考反而更好。

——伯特蘭·羅素（1872~1970），

20世紀著名的英國哲學家、數學家、邏輯學家，當代西方影響最大的學者，曾獲諾貝爾文學獎

5.1 超越已有的信息

我們人類擁有一種無與倫比的能力，可以推斷隱藏物體或尚未發生事件的特徵。這種「超越感官信息」的能力是知覺過程的自然擴展。有幾種近乎自動化的基本認知能力可以支撐我們的這種判斷才能：判斷客體或事件彼此間相似性；識別出經歷過的情境或見過的人；提取已辨識客體或情境的額外信息以及「洞察」事件之間因果聯繫。這些認知過程的發生幾乎不需要意識努力，它們被牢牢地「捆綁」進我們的大腦，以至於在健康成年人的一生中都不會有太多的改變（Kahneman，2003）。

本章，我們將用更多的信息加工模型來介紹心理過程，這些過程通常將某些特殊線索聯繫起來，從而促使人們做出判斷（第3章透鏡模型中公式右邊所介紹的線索利用過程）。依據Amos Tversky和Daniel Kahneman（1974）的見解，我們認為對潛在認知判斷過程的一種較好解釋是，我們的長時記憶中貯存著一個裝有「心理啟髮式」的認知工具箱。用啟髮式來解決問題效率較高，但並不精確——也就是說，它只對頻率、概率和數量進行粗略的估計。「啟髮式」這個術語來自於數學和計算機科學，這些學科區分了算法和啟髮式。算法（algorithms，通常效率較低）指的是針對某類特殊問題的解決方案；而啟髮式（heuristics）則指的是用一種更有效率的方法解決同樣問題，但通常會得到有偏結果。這些啟髮式程序通常以簡單的心理能力為基礎，如我們的相似性原則、記憶以及因果判斷過程。

上述認知工具是在人類畢生的經驗中獲得的。它們告訴我們應該在環境中選擇什麼樣的信息，以及如何整合不同來源的信息以推斷出無法直接知覺的事件特徵。我們通過一次次的試錯試驗，通過家庭和同伴的影響，以及通過有意的傳授等途徑習得這些認知工具。有些認知工具是需要意識控制並且要經過深思熟慮的（例如，我們在學校裡學過的除法運算規則，或者決定是否在撲克牌遊戲中下賭注的推理過程），而另一些卻是自動化的、內隱的（例如，我們在判斷一個人是否撒謊，或者決定菜裡該放多少鹽時所依賴的一些無意識習慣）。

每當我們碰到一個需要做出判斷的情境時，我們就從認知工具箱中挑一個合適的工具來幫助我們做出恰當的判斷。對於很多日常判斷情境來說，我們通常使用啟髮式策略，因為它需要耗費的心理努力較少，並且在絕大部分情況下能夠得到較好的結果。正如Tversky和Kahneman對認知啟髮式所做的經典描述那樣：「總的來說，這些啟髮式是非常有用的，只不過它們有時候會造成嚴重的系統性錯誤」（p.1124）。

在本章，我們將關注兩種主要的判斷啟髮式，它們均依賴於我們那與生俱來的記憶提取和相似性評估等基本能力。我們將列舉一些實例，說明何時何地會用到這些判斷啟髮式，同時指出這些判斷將會帶來何種系統性的評估偏差和預測偏差。從根本上而言，當要求我們對難以估計的頻率、數量或概率進行判斷時，我們會將原來的評估方法替換成一種更簡易更自動化的評估方法（例如，依賴於記憶提取的簡易程度或者客體間的相似程度來進行估計）。

5.2 估計頻率和概率

我們擁有與生俱來的估計頻率的能力。當我們經歷外部事件時，知覺和記憶系統會自動記錄這些事件發生的頻率。當然，很多信息毫無用處，例如，我們閱讀過的文本中某個字母的出現頻率、上班沿途路過的快餐店的數量、上學期校園裡放映過的電影數量，等等。但是，有些信息卻可能對生存至關重要，至少在某些原始環境中（這些環境通常對人類的進化意義非凡），例如，注意到森林中不同地方的可食植物的數量、水塘旁遭遇過的食肉動物的數量或競爭部落中敵人的數量等都將是非常必要的。

對於基於記憶做出的頻率估計，我們能夠構建一個將客觀數量對應於主觀數量的心理物理函數。在客觀頻率較低的一端，主觀頻率傾向於高估。隨著被評估事件客觀頻率的增加，主觀估計誤差則朝著低估方向發展。（這種先高估再低估的模式叫做回歸，類似於統計回歸曲線。）圖5.1顯示的是人們根據記憶對各種致命事件（如心臟病、車禍、自殺等等）發生頻率的估計結果。在數以百計的評估情境中都能觀察到類似的心理物理曲線，這證明我們具有某些普遍存在的頻率估計習慣。

當對事件進行即時評估而非通過記憶提取的時候，心理物理評估曲線會與上面的有所不同。在即時條件下，小數量的客觀頻率（1~5個/次事件）能夠被準確估計。事實上，早期的經驗論哲學家們曾做過一些關於短時記憶的研究，在實驗中他們將一把鵝卵石撒到桌子上，然後迅速蓋住，要求參加實驗的人估計鵝卵石的數量。當不超過5個時，人們能夠精確地估計，因此「5」也被稱為「理解範圍」。然而，當要求人們估計的項目數量超過10個時，低估傾向開始出現，正如以記憶為基礎的函數那樣。所以，當項目數超過7個時（「7」被認為是短時的、有意識的工作記憶的容量），人們就會用一種更審慎的評估策略來進行頻率判斷。

圖5.1　致命事件的頻率估計曲線（備註：為使關係更加明顯，圖中的坐標軸進行過對數化處理，但是其中高估低頻率事件和低估高頻率事件的基本模式仍然清晰可見。）

5.3 記憶可得性

我們做出的許多判斷都是以記憶為基礎的，即在做判斷時雖然手頭上沒有必要的信息作為依據，但是我們可以利用過去習得並存儲於長時記憶中的相關信息。這種簡單的聯想思維被稱為可得性啟髮式（availability heuristic），我們依賴於簡便的檢索提取來應對名目繁多的判斷任務。

有時我們做出的判斷全部取決於在頭腦中提取信息的便捷程度（或流暢程度）。比如我們正在計劃一次航空旅行，這時飛機撞擊世貿大樓的慘象很快闖進了我們的腦海，於是我們就改變想法了。2001年「9·11」恐怖襲擊後的第一個月內旅客乘坐飛機的數量下降了20%（Gigerenzer，2006）。此外，當沒有其他信息可用時，人們甚至依賴於簡單的可識別性來估計數量（裡諾、內華達、埃森和德國哪個地區人口最多？）和價值（可口可樂和伯克希爾-哈撒韋，這兩支股票哪支投資收益更好？）。當我們使用更多的意識努力從記憶中提取數據來幫助判斷時，我們也會依賴於提取的流暢程度。Norbert Schwarz和同事們曾經要求大學生對他們自身的果斷性（或猶疑性）進行評估（Schwarz et al.，1991）。但是在評估之前他們需要回憶出能夠表現果斷性的事例。一半的被試需要回憶起6個事例，這是相對容易（流暢）的任務；另一半被試需要回憶起12個事例，這是相對困難（不流暢）的任務。結果發現，提取的流暢性是一個中介因素：自我評估的結果與提取任務的流暢性水平是相對應的，回憶事例的數量與自我評估呈現負相關。這種效應在判斷心臟疾病的危險性和推斷消費者的個人偏好任務中也得到了證實（流暢性也是判斷喜好的一個基礎；Schwarz，2004）。

有時我們會依賴於即刻闖入腦海中的事例的數量進行判斷。離婚率在增長嗎？當我們要回答這個問題時，幾個熟人離婚的例子瞬間閃入意識，然後我們做出了離婚率很高而且在一直增長這樣的判斷。當我們回答自殺和謀殺哪個對大學生更具有威脅這一問題時，更多的緣於謀殺的死亡事例闖入我們的腦海，所以，我們支持在校園警力上而不是在自殺求助熱線上增加投資。

可得性啟髮式的過程可以被分解成幾個子過程或子程序（見圖5.2）：（1）在長時記憶中獲取或存儲相關信息；（2）保持存儲信息，同時伴隨一些遺忘；（3）情境再認，包含與決策相關的信息；（4）探測記憶或提供記憶線索以找到相關信息；（5）提取或激活與記憶探測相匹配的項目；（6）評估提取的便捷性（可能基於回憶的數量、速度或信息的主觀生動性）；（7）基於感知到的提取便捷性來估計頻率和概率。

在可得性啟髮式過程中存在著幾個關鍵點，如果這些地方出現偏差，則會影響到最後的判斷結果。首先，存儲於長時記憶中的事件樣本（被記住的信息）可能出現偏差，正如上面有關自殺和謀殺的例子；其次，作為提取基石的記憶線索可能出現偏差，這樣一來，即使總體是有代表性的，也會生成有偏的樣本。最後，記憶中的事件可能具有不同的凸顯性或生動性，以至於某些更凸顯的事件主導著提取便捷性。這些因素單獨或共同存在，都有可能會使以記憶為基礎的判斷結果產生系統性偏差。

圖5.2 可得性啟髮式判斷的流程圖；箭頭代表子階段在總過程中的順序

5.4 記憶中的有偏樣本

統計數據表明，死於自殺的人比死於謀殺的人要多，而且，由於人們傾向於把無法確定的案例看成「意外死亡」，因此自殺和謀殺的實際比率很可能被低估了。單人駕駛時出現的車禍事故中有多少人實際上是死於自殺呢？這些事故中有很多通常被認為是由酒精導致的，即使那些司機可能是為了自殺而喝酒壯膽。然而，大部分人認為謀殺更常見。為什麼呢？最簡單的解釋就是謀殺得到公眾更多的關注。無名小卒的自殺案件很少見諸於報端，但是無論受害者的身份如何，對謀殺案的報道卻比較常見。這一解釋已經在Barbara和Paul Slovic的研究中得到驗證（見圖5.1），研究發現人們對各種死因的估計與它們被報道的頻率有正相關，並且這種關係獨立於實際的發生頻率。所以，由飛機事故、鯊魚襲擊、龍捲風、恐怖襲擊引起的以及其他得到媒體大量報道的死亡被高估了，而諸如中風、胃癌、家務事故和鉛塗料中毒之類的死亡則被低估了。通過體驗而獲得的信息（存儲於記憶中以便於判斷之用）在其獲得之初就產生了偏差。

犯罪事件中由精神病患者引發的比例佔多少？由非裔美國人引發的呢？每當一個有過精神病史的人犯下罪行時，特別是暴力罪行，此人曾經進過精神病院的歷史就會被新聞提及。但是，新聞從不會報道某犯人沒有進過精神病院，「從來沒進過精神病院的史密斯被指控犯罪……」，類似的報道是絕不可能出現的。針對媒體報道的系統研究顯示，少數族裔的罪犯受到過度的新聞報道，尤其是暴力犯罪者（Franklin Gilliam，Shanto Iyengar和他們的同事將此描述為「當地新聞眼中暴力恐怖的世界」）。Wendi Walsh、Mahzarin Banaji和Tony Greenwald（引自Park和Banaji，2000）的實驗證明了這種記憶偏差的存在。他們請大學生在一份名單中圈出他們所知道的罪犯的名字，而實際上名單裡的名字沒有一個是真正的罪犯。但是結果卻發現，大學生們「記得」的非裔美國人的名字（如「Tyrone Washington」等）幾乎是其它族裔人名（如「Adam McCarthy」、「Wayne Chan」等）的兩倍。即使研究人員提醒實驗參與者「種族主義者認出的黑人名字要多於白人名字；請不要利用名字的種族性來做出判斷」，這種記憶偏差仍然存在。

社會學家Barry Glassner（1999）記錄過很多偏差，這些偏差源自於那些「流血事件必上頭條」的新聞報道，也有的是被特殊利益集團所引導，從而控制了公眾對犯罪、疾病及其他危害的恐懼情緒。50個州7年時間裡公路暴躁症案例上升了大約700起，這是否意味著公路暴躁症成為「流行病」？孩子的日托管理正在（或曾經）經歷一場撒旦崇拜的危機，這可信嗎？1994年，某研究團隊在美國政府的資助下歷時4年花費750 000美元，得到的結論是，有關日托中心撒旦陰謀的神話完全是子虛烏有（Goodman，Qin，Bottoms & Shaver，1994；Nathan & Snedeker，1995）。攜帶自動武器的高中生真的是青少年安全問題的首要關注對象嗎？（1999年，大約2 000名學齡孩子被謀殺；只有26人死於學校，其中的14人死於科羅拉多州利托頓哥倫比亞高中的一場悲慘事故。）人類學家Douglas（Douglas & Wildavsky，1982）指出，每一種文化都有很多被誇大的恐懼，其中有許多是被特殊利益團體所強化的，或者是用來捍衛其意識形態的。例如，歐洲的「不潔之水」在14世紀就已經是一個危害了，但僅僅是在猶太人被指控在井中投毒之後，居民們才開始把它當成一個重要問題來對待（p.7）。

但是，最初的新聞報道並非總是動機不良的。我們都傾向於把反常的特徵（不常發生的）進行編碼和表述，比如住過精神病院的人比沒住過的要少、在美國黑人比白人要少、左利手的人比右利手的人要少。結果就導致這些獨特的特徵在整個人群中的頻率被高估。絕大部分接受福利救濟的人並不是「福利女王」（濫用福利制度的人），但是這卻導致公眾把更多的注意轉向那些是「福利女王」的人，從而進一步導致對「福利女王」人數的高估。

進行概括化時，只發生一次的事件是非常不可靠的證據，特別是當該事件並不典型時。然而，這樣的概括化卻經常發生。而且事件越凸顯，發生的可能性越大。例如，一個非猶太人認為自己被一個或兩個猶太商人欺騙了，那麼她很容易將這種消極評價概括到整個猶太民族：

一個年輕女士跟我說：「與毛皮商打交道時我經歷了最可怕的事情；他們搶劫我，燒掉了我托他們照管的毛皮。他們全部是猶太人。」但是，為什麼她選擇去仇恨猶太人而不是毛皮商呢？（Sartre，1948，pp.11-12）

Richard Nisbett和Lee Ross（1980）指出，理性的演繹邏輯是一個具體化的過程，即從一般到特殊（「所有的人都難免一死，因此羅賓·道斯難免一死」）；而與之相比，歸納邏輯是一個概括化的過程，即從特殊到一般（「這個猶太商人是不誠實的，因此所有的猶太商人都是不誠實的」）。相對而言，歸納邏輯的可信度會下降。但是我們的所作所為正好與它們的可信度相反：過分歸納而演繹不足。

5.5 記憶抽樣偏差

顯然，如果存儲在記憶中的信息樣本有偏差（也許因為主流媒體的過濾作用），那麼隨後以此為基礎的判斷也將出現偏差。不過記憶過程的其他方面也能引起同樣的系統偏差。

有多少6個字母的英文單詞以如下形式構成？

_ _ _ _ n _？不多吧？

有多少6個字母的單詞以如下形式構成？

_ _ _ ing？更多嗎？

當Tversky和Kahneman（1974）要求人們做上述預測時，人們認為以-ing結尾的6個字母的單詞比第5個位置上是n的6個字母的單詞更多。（第5個位置上是n的6字母單詞當然比以-ing結尾的6個字母的單詞多。邏輯上也是如此，因為所有以-ing結尾的6個字母的單詞的第5個位置上必然是n，而除了以-ing結尾的6個字母的單詞之外還有其他形式的單詞第5個位置上是n——比如，absent。）當然，想起以-ing結尾的6個字母的單詞要容易得多——比如，ending；查閱字母表時也更容易找到它們：aiming，boring，caring，等等。但是想起第5個位置上是n的6個字母的單詞就要難得多（除非-ing突然進入腦海）。我們甚至可以從直覺上評估出生成這兩種不同形式的6字母單詞的困難程度。

人們相信，自己在超市結賬時特別容易排到行進緩慢的結賬隊伍中，自己沒帶雨傘時更有可能下雨，運動員在被體育解說員讚賞之後就犯錯誤是因為解說員的烏鴉嘴。為什麼呢？鑒於這些事件之間並沒有邏輯聯繫，如此這般的迷信信念只能是建立在對經驗的總結之上。但是那些總結只是被記住的經驗，並且在結賬隊伍裡躁動不安、被淋成落湯雞、走霉運的經歷以及其它巧合事件在記憶裡特別容易提取；我們認為其它記憶也是存在的，只是不易被記起。事實上，人們普遍信仰包括透視力在內的靈力，這也是由可提取性不同以及各種巧合記憶的偏差造成的。例如，某天突然想起多年未見的某個人，恰巧那天接到了他的電話。諾貝爾獲獎者Luis Alvarez（1965）針對這種個人經歷進行了一項分析，結果顯示任何人在任何地方都不可避免地要碰到一些巧合事件。雖然巧合事件在一個人的經歷中是少見的，但是我們必須記住，它們在一大群人的經歷中是普遍存在的（Diaconis & Mosteller，1989）。

Robert Reyes、William Thompson和Gordon Bower（1980）通過實驗證明了提取可得性偏差如何影響司法裁決。他們在一個酒後駕駛的案例中操縱了材料的呈現方式，使起訴方的證據或者辯護方的證據看起來更生動或更容易記住。該案例的裁決取決於被告撞向垃圾車時是否喝醉酒。辯護方的免罪證據——因為垃圾車被塗成灰色所以很難看到——用兩種版本呈現，一種是描述貧乏、容易遺忘的版本（「垃圾車司機在盤問中供認他的車由於塗成灰色所以在晚上很難看到。」），另一種是描述生動、容易記憶的版本（「垃圾車司機供認他的車由於塗成灰色所以在晚上很難看到。他說車之所以塗成灰色是因為『它是一輛裝垃圾的車，灰色能藏住污垢。你想怎麼樣？難道我應該塗成粉紅色？』」）。起訴方的定罪證據也進行了同樣的操縱——描述貧乏的版本（「被告離開聚會往門口走時步履蹣跚地撞向一張餐桌，把一個碗撞到了地上。」），或者描述生動容易記憶的版本（「被告離開聚會往門口走時步履蹣跚地撞向一張餐桌，把一個盛有綠色鱷梨醬汁的碗撞到了地上，四散的鱷梨醬濺潑在昂貴的白色粗毛地毯上。」）。案件中使用生動證據來進行描述的一方可以靠愚弄陪審員而在裁決中佔盡優勢；當在聽取證詞48小時後才進行裁決時，產生了更加顯著的生動性效應，因為此時記憶的優勢會更重要。

律師們使用示意證據給陪審員留下深刻印象正是利用了可得性偏差。律師馬爾文·貝利曾受理一起個人傷害案件，審判過程中他始終將一個用包肉紙裹著的、形狀極似當事人截肢的包裹放在身前的桌子上，並使它處於陪審團的視野範圍內。他能想出這種辦法，也難怪會贏得創紀錄的獎項了。

事件激發的情緒對記憶有長遠的影響，進而也會影響到根據記憶所做出的判斷：當我們處於一種特定的情緒狀態時，會傾向於記住與情緒狀態主題一致的事件。Eric Johnson和Amos Tversky（1983）的一項實驗室實驗證明了情緒對風險決策能夠產生影響。他們要求實驗參與者評價風險和事故的等級（同圖5.1中的相似）。一些實驗參與者在休息室等候的時候會聽到背景廣播裡的新聞報道，以引發他們的焦慮或者憂慮情緒（報道事件為一個與實驗參與者情況相似的人的死亡）。結果發現，與那些聽到高興或中性新聞的參與者相比，引發負性情緒的參與者給出了更高等級的風險評估。

William Wright和Gordon Bower（1992）使用更加強烈的情緒操縱手法重複並拓展了上述實驗。他們使用催眠手段將實驗參與者置於一種高興、中性或悲傷的情緒中。由此表現出來的情緒一致性效應更加明顯，即參與者認為與其情緒一致性的事件非常可能發生，而與其情緒不一致的事件不可能發生（圖5.3）。所以，通過催眠產生高興情緒的參與者認為「幸事」（如世界和平，治癒癌症療法的新發現）的發生概率高，「災難」（如在車禍中受傷，大規模核電站事故）的發生概率低。

類似的例子不勝枚舉。原則很簡單，我們經歷過某類現象（人、物或事件）後，再想起時，往往更容易記住那些具有顯著特徵的。進而，如果讓我們估計某群體裡具有顯著特徵的個體比例，那麼我們傾向於高估它。當我們仔細計算了（比如用機械計量器）類似群體中具有該特徵的成員數目時，會發現我們的估計遠遠超過了它。記憶的選擇性提取能夠引發較大的估計誤差，造成對重大社會問題的錯誤理解，最終導致嚴重的決策偏差（諸如投票人群、陪審員和政策制定者所做出的決策）。

圖5.3　　情緒操縱對概率估計的效應（基於Wright和Bower的實驗結果，1992）

5.6 想像可得性

對孩子來說，以下兩個事件哪個更具威脅性：在家裡藏一支槍還是建一個游泳池？即使你無法想起任何一個先例，也總是很容易就想像到孩子在家裡翻出槍然後傷害到自己的畫面，而不可能第一直覺是一具漂浮在游泳池裡的屍體。或者請想像一個由10人組成的小組，然後憑直覺估計從小組中選出2人組成一組，會有多少種組合方法？之後再估計選出8人組成一組，有多少種組合。人們通常對前者的估計大於後者，因為人們會認為從10人組中選出2個人成組比選出8個人成組要簡單得多，而且做出這種估計並不需要在心裡羅列出所有的組合，僅憑直覺我們就已經形成這一印象，人們會感覺兩兩成對要比8人成組更容易實現。

實際上，8人成組的數目與2人成組的數目完全相同，純邏輯運算可以證實這樣的結果。每一次從10人組中選出2個人成組，都會留下另外8個人形成另一個組。所以2人組與8人組是一一對應的關係；甚至無須任何公式即可推出它們數目相等的結論。很明顯，「想像」在判斷可能性時存在著缺陷。

在上述事例中，想像的可得性影響到我們對頻率的估計。如同直接體驗或間接體驗的可得性一樣，「想像」的問題在於其可得性也受到實際頻率之外的因素影響。某些類型的思考明顯比其他類型的簡單，某些想法也比其他的想法更容易闖入腦海。而且這種區別不完全依賴於過去的經驗。（試問有多少人過去體驗過分2人組或8人組的問題？）想像的便利性使我們的頻率估計產生偏差，進而影響以這些頻率為基礎的概率判斷。

5.7 從可得性到概率和因果關係

人們在評估集合（集合中各元素彼此獨立、互補，且窮盡了所有元素）中每個元素發生的頻率或概率時，往往出現一種可得性效應，這個概念在理論上很重要。Tversky和Kahneman以及他們的同事Donald Redelmeier和Varda Liberman請52名醫生根據下面的描述估計住院病人出現不同結果的概率：

● 住院治療期間死亡

● 活著出院，但是一年內死亡

● 活了1~10年

● 活了10年以上

因為這四種情況窮盡了所有可能的結果，所以它們的概率之和應該為1。而這些事件被單獨評估時（每個醫生只評估其中的一種）其概率之和為1.64，如果醫生們果真遵循概率論的法則使相互窮盡的事件集合的總概率為1的話，那麼1.64顯然太高了。醫生們的這種行為與棒球運動員尤吉·貝拉（因總是說錯話而出名）一樣，後者曾經對記者說：「如果我們有50%的機會再次贏得美國聯盟的冠軍，那麼也不該忘記仍有75%的可能輸掉比賽。」Tversky和同事們將這種概率的次可加性（subadditivity）解釋為醫生只是憑借自己的想像評估每個事件的發生概率。互補性子事件的描述為每一種特定結果提供了有效線索。例如，「死於住院治療期間」的描述使醫生想到一些「死在醫院中」的具體生動的例子（手術併發症、麻醉事故、術後感染等等），而其暗含的反向結果（「住院治療期間未死亡」）卻沒有給想像提供有效的線索或聯繫。Tversky和他的學生Derek Koehler（1994）在其他領域也發現頻率估計的次可加性模式，如汽車故障修理、天氣預報、體育結果預測等等。

本書的作者之一（道斯）對個人事件判斷中存在次可加性很感興趣，這源於他曾經收到的一份報告「外星人綁架所帶來的創傷後應激是嚴重的心理健康問題」。報告還聲稱至少2%的美國人受到該問題的困擾（暗示在國家有關政策中該問題應排在「無家可歸」之前）。這份報告的作者（Hopkins & Jacobs，1992）用近期Roper Poll民意測驗中一道題目的肯定作答率來支持以上結論，該題目是：「你是否有過下述情形：醒來後渾身發麻，感覺屋子裡有陌生人或別的什麼東西？」

道斯和同事Matthew Mulford（Mulford & Dawes，1999）對Hopkins和Jacobs的荒謬結論進行了後續研究。他們請一組參與者回答同樣的問題，令人吃驚的是，被問及這種古怪體驗時40%的人回答至少發生過一次。另外的對照組參與者（隨機分配）需要回答的問題只是「醒來後渾身發麻」（沒有被問及「陌生人存在的感覺」），而這一次，只有14%的人做出了肯定回答。顯然，提及「陌生人或別的什麼東西」的詳細描述使人「回憶起那些原本可能從大腦中溜走的事例」（引自Tversky和Koehler[1994]對潛意識過程的描述）。

另外，Michael Ross和他的學生Fiore Sicoley（1979）也研究了判斷的次可加性。他們請「團隊」裡的成員估計自己為團隊付出的貢獻。配偶、師徒和籃球運動員都高估了他們的個人貢獻：每一個組合中個人貢獻之和都遠遠超過最大值100%。最有趣的是在兩類自我誇大上——積極貢獻以及消極貢獻（「引發爭吵」，「分析數據時犯錯」，「犯規」）這種高估均會發生。這種高估現象的潛在認知過程可能存在於記憶提取和生成想像之中，其中記憶提取無疑是解釋之一：後續研究顯示次可加性評估與受試者回憶具體貢獻的能力高度相關，這暗示記憶可得性也是該認知過程的一部分。

Tversky和Koehler（1994）認為將整體事件（如汽車無法發動、病人死亡、經濟衰退等）的各種子成分分開再描述是對整體事件的「解壓縮」（也見Rottenstreich & Tversky，1997）。大部分研究發現，次可加性描述的是整體事件與其分離解壓後子成分之間的關係（「汽車無法發動」與「沒油了，沒電了，打不著火了等」）。不過，也有超可加性（superadditivity）的例子存在，即在概率估計上整體要大於部分之和。這似乎也是由潛在的可得性加工過程的本質導致的：當解壓後的成分難以考慮、想像和回憶時，它們被判斷為不可能發生，從而使整體-部分的關係發生逆轉，整體事件發生的概率比其各部分發生的概率之和要高。Laura Macchi、Daniel Osherson和David Krantz為概率估計中的超可加性提供了解釋，即「反向提取困難效應」。在他們的研究中，要求大學生判斷難解的科學問題和百科知識方面的問題（汽油的熔點比酒精高嗎？泰國的人口出生率比緬甸低嗎？）。結果發現，解壓後子成分的概率之和小於1。

次可加性、超可加性的發現以及其他針對提取流暢性的精巧論證，都證實了可得性在潛在認知過程中的顯著作用。這一發現最重要的現實意義是，幫助我們理解公民（與他們的政治領導人）在制定公共資源的分配方案時應該如何思考和決策。被孤立的高中生、不誠實的福利受惠者、有戀童癖的牧師、有缺陷的航線、激進的恐怖主義分子以及許多其他的範例，所有這些因素在公眾想像裡的認知可得性會對我們如何分配稅收和如何制定相關法律產生重大的影響（見John Kingdon的經典之作——《議案、備擇及公共政策》（1984），關於政治議案的開拓性研究）。

5.8 基於相似性的判斷：老一套

第二個利用啟髮式判斷數量、頻率和概率的基本認知過程是相似性。有許多判斷任務涉及將某客體或某事件歸類到合適的範疇中。比如說，當我們想知道持續兩周的咽喉痛究竟只是輕微感冒、過敏症狀，還是嚴重的膿毒性咽喉炎時；當我們在餐館的菜單上找哪些菜低鹽低脂時；當我們想知道新同事是行為主義者、運動狂、憂鬱者還是面目一新的天主教徒時。

請思考下面的社會成員分類判斷任務：

佩內羅珀是一個大學生，朋友們形容她稍微有些不切實際、情緒化和敏感化。她遊遍了整個歐洲，能說一口流利的法語和意大利語。她目前還不確定畢業後的職業發展方向，但是卻已經證明過自己高水平的才能，並且多次獲得書法比賽的獎項。她在男朋友過生日時寫了首十四行詩作為禮物。你認為佩內羅珀的主修專業是什麼？

● 心理學

● 藝術史

大部分人按照我們的誘導，相當肯定地認為佩內羅珀是一個藝術史學生。她似乎恰好符合我們概念中藝術史學生的特點。但是現在請思考下面的問題：假設你在一所大學的學生名單中隨機挑選一個名字並查看其主修專業，那麼上面問題中所涉及的兩個專業哪個更流行？哪個不太流行？你隨機選出來的學生主修心理專業的概率有多大？而主修藝術史專業的概率又有多大？（最近一項統計數據顯示，在一所人數接近18 000的公立大學中，大約2 300名學生主修心理學而僅有15名主修藝術史；心理學專業在大學本科生中的基準概率約為0.13，即隨機挑選一個學生其主修心理專業的概率為13%，而藝術史專業的基準概率是0.0008，兩者比率為150比1！[若僅限於女性的話，該比率為140比1]）。許多人在明確了這些問題之後改變了最初的選擇。他們意識到無論「人格描寫」如何，那個人是（從18 000個人中挑出的）15個藝術史學生之一的概率總是非常低的。而且，一些受試者為他們最初的回答感到非常難堪。個別人甚至惱怒自己被一則聽起來非常符合主修「極端人文」專業的描述給「騙」了——他們意識到自己不能僅憑簡單的信息和藝術史學生非常小的基準概率就做出如此判斷。

這個例子說明在分類判斷任務中存在一種普遍傾向，即依據我們對類別的概念與待歸類客體、情境或事件印象的相似性來做出判斷。與基於可得性的判斷一樣，相似性自動地發生在判斷過程並自發地主導判斷任務。依賴相似性判斷的主要行為特徵是人們在情境中沒有抓住重要的統計或邏輯結構，並且忽略了一些相關信息（例如，背景、基準概率，如佩內羅珀問題中大學各專業的總人數）。

佩內羅珀問題直觀地證明我們在判斷時忽略了情境中的關鍵要素。讓我們再看一個錯誤更明顯的例子。Tversky和Kahneman（1974）要求被試依據簡短的人格描述來判斷一些人從事某類職業的概率。比如，某人被描述成「不善社交，厭煩政治，在業餘時間喜歡到他的船上做點事」，聽起來像一個工程師。此外，被試被明確告知了基準概率數據：此人要麼是工程師要麼是律師，他是從一個大多數人（70%）是工程師或大多數人（70%）是律師的群體中隨機挑選出來的。實驗結果表明，人格描述的信息以絕對優勢壓倒了基準概率信息。無論這個人是來自於70%工程師的群體還是70%律師的群體，對其從事某類職業的概率判斷總是相同的。即使是平淡的無任何有效信息的人格描述（「有一個老婆和兩個孩子，事業上有成功的潛力，深受周圍朋友的喜愛」），也被判斷成50%的可能性是律師或工程師，完全忽視了基準概率的作用。只有當完全沒有描述信息時，被試才能正確地判斷來自70%工程師30%律師群體的人有0.70的可能是工程師（或者來自30%工程師70%律師群體的人有0.30的可能是工程師）。

很明顯，人們完全依賴於自己對職業類別的刻板印象與對某人背景隻言片語的描述來做出判斷。當同一組被試評估職業類別與背景描述的「相似性」時，他們的估計與之前的概率判斷毫無差異——相似性-概率之間的相關高達0.95。即使人們意識到所使用的描述性信息是不可靠的、不完整的、非預測性時，這種對相似性的過度依賴依然存在。

人們在基於相似性做判斷時不僅僅只忽略基準概率信息。請思考另外一個例子，Tversky和Kahneman（1983）請大學生做如下任務：

琳達，31歲，單身，說話率直，性格開朗，主修哲學專業。學生時代關注歧視和社會公平問題，參加過反核武器示威活動。請按照概率高低（從高到低）排列以下項目：

●　琳達是小學老師。

●　琳達在書店工作，上瑜伽課。

●　琳達積極參加女權運動。

●　琳達是從事精神病治療的社會工作者。

●　琳達是婦女選舉委員會成員。

●　琳達是一位銀行出納員。

●　琳達是一位保險推銷員。

●　琳達是一位積極參加女權運動的銀行出納員。

86%的大學生認為，「琳達是一位銀行出納員並積極參加女權運動」的概率比「琳達是一位銀行出納員」高。理由呢？基於琳達的信息，我們很容易想像出她是一名女權主義的銀行出納員，而很難想像她僅是一名普通的銀行出納員，儘管對她的描述中並沒有直接提到女權主義。甚至當銀行出納員的項目被改成「琳達是一位銀行出納員，她可能積極參與女權主義運動，也可能不」時，另外75名被試中仍有57%的學生認為「琳達是一位積極參加女權運動的銀行出納員」的概率更高。

這個例子中的邏輯錯誤是忽視了「銀行出納員」和「女權主義銀行出納員」之間的從屬關係。女權主義銀行出納員是銀行出納員的一個子集，但是肯定還有其他類型的銀行出納員：「傳統女性角色」的銀行出納員、信奉基督的銀行出納員、無政府主義的銀行出納員等等。這些子集之間的關係也許並不明朗，但是有一點是肯定的，若定義所有的人都是銀行出納員而且必定存在一些不是女權主義的銀行出納員。所以，怎麼可能「琳達是一位女權主義的銀行出納員」比「琳達是一位銀行出納員」的概率更大呢？很明顯後者的外延更廣甚至包含前者。因此，這樣的回答在邏輯上是不可能的。但是人們（比如我們）判斷女權主義銀行出納員比單純的銀行出納員概率更大，主要是因為他們「忽視」了判斷任務中的邏輯結構，並且過度依賴於描述，依賴於我們關於社會分類刻板印象之間的相似性（相似性-概率相關再一次高達0.95）。

多數人都熟悉韋恩圖（19世紀的數學家和邏輯學家約翰·韋恩發明創造的，他還在「The Logic of Chance」上發表過論文，韋恩圖用交叉的圓圈來代表不同分類的關係）。每個圓覆蓋的區域代表某結果屬於該集合的概率，各圓重疊的部分代表某結果屬於對應的復合事件的概率。琳達問題的韋恩圖明確表明，她是一位女權主義銀行出納員的概率不可能比她是銀行出納員（包括各種類型）的概率高（見圖5.4）。

Tversky和Kahneman（1974）將這種錯誤叫做錯覺，因為它像許多常見的視錯覺一樣，即使我們理智上承認它是錯誤的，但卻仍然堅持己見。Steven Pinker（1997）曾說，一名學生在面對一系列這樣的錯覺時「為人類感到羞愧」（p.344）。進化生物學家Stephen J.Gould（1991）表達了我們大多數人都體驗到的直覺衝突：「我知道出現在交集處的可能性極小，但是我腦子裡一直有個小人在上躥下跳地大喊大叫——『仔細閱讀那段描述，她不可能只是一位銀行出納員』」（p.469）。他總結說：「我們的思維不是按照概率法則運作的（不管什麼理由）。」我們的思維似乎是按照基本的相似感覺運作的，實驗被試對相似性的評估與對概率的評估（將被描述的人歸類到某刻板類別中的概率）之間完美的相關證明了這一點。

圖5.4　用韋恩圖表示琳達問題中隱含的基本邏輯關係

5.9 代表性思維

上述實例主要證明：（1）分類判斷任務通常以判斷對象的特徵與原型的代表性或相似性程度為基礎；（2）代表性並沒有反映實際的變化；（3）估計的概率或者判斷的信心與相似性有關而不一定與判斷情境的深層結構有關。在佩內羅珀問題和律師-工程師問題中，人們似乎忘記了專業或職業的基準概率背景；在琳達問題中，人們忽略了銀行出納員和女權主義的銀行出納員兩個集合間的邏輯關係。圖5.5對基於相似性的啟髮式判斷過程進行了總結。

我們發現早期研究非常確信人們在多數概率判斷任務中依賴於（甚至過度依賴）相似性，這也許是因為我們在解決原始問題時的自我反思過程與代表性-相似性的解釋模型完全一致。一個更富爭議性的話題是這些判斷中表現出來的非理性。Tversky和Kahneman（1974）將教科書中的概率問題具體化並設計成實驗中的兩難困境。被試對這些問題的回答通常是錯誤的。但是對類似問題的行為反應卻並不完全呈現出跨研究的一致性，錯誤也並不總是如上述例子那樣極端，即使被試給出明顯錯誤的答案也是有理有據的（Birnbaum，1983；Koehler，1996）。因此，我們的重點將轉到另一個話題，即這些結果是否證明人們是非理性的，從而導致了第8章中將會提到的各種適應不良的日常判斷。

當代心理學家假設，諸如銀行出納員、女權主義者、微型計算機和臭鼬等各種事物分類的概念在我們頭腦中是以屬性列表的方式被表徵的，我們認為這些屬性正是對這些實體的定義和表徵。這種概念表徵方式非常有用，但也有些虛構化和簡單化。所以，如果我們問某個人「鳥」所代表的意思，通常會得到一系列與「鳥」這個標籤相關的特徵。如果某物是鳥的話，它就應該會飛、有羽毛、下蛋、吃蟲子等等；如果某人是「藝術史學生」的話，就應該包含敏感、情緒化、富有文化底蘊、女性、文雅等特徵。我們在思考大部分日常概念時往往考慮的是關聯性、典型性和相關性屬性，而不僅僅是分類的本質定義。我們還經常用一些明知不適用所有成員的特性來代表分類（如鳥能「飛」，藝術史學生「富於文化底蘊」）。此外，當我們試圖回答「它是什麼意思？」時，會借用進入思維的某些成員的特徵來考慮某個類別的概念。所以，記憶可得性即使在類別概念表徵中也有一定影響。

圖5.5　代表性啟髮式的判斷流程圖

我們討論分類這一命題時需要用到的最後一個認知理論是相似性判斷過程的模型。其中最通行的模型是對比模型，它假設我們在評估某兩個或多個實體的相似性時會將它們的屬性一一對照（非常快）。該過程的一種有效模型假設我們對相似性的總體印象來自於兩實體「匹配」屬性數目和「不匹配」屬性數目的快速對照表。此模型能夠給匹配組和不匹配組賦予權重，以反映我們經驗和信念中各屬性的重要程度。因此，舉個例子來說，如果我們在森林裡看到一種生物，它不會飛，並且它體表覆蓋皮毛，這兩個特徵對於我們判斷它是「鳥類」的影響力是不同的，後者要強一點。在佩內羅珀的判斷情境中，描述的屬性與我們刻板印象中藝術史的屬性（我們讀到此類別的名稱時從記憶中提取出來）有太多的「良好匹配」，以至於我們的反應是「藝術史」。在琳達的問題裡，對琳達的刻畫與由類別標籤激活的表徵（刻板印象）之間的良好匹配也是女權主義（銀行出納員）多於單純的銀行出納員。

在許多例子中，一旦某客體被劃歸為某一類，那麼一種基於聯想的認知隨之被激活。就拿臭鼬來說，這種聯想性的認知提供了快速有用的信息：躲開它。但是有時我們基於類別的聯想在道德上是令人困擾的，或者直接是非理性的。對後者的研究主要涉及社會刻板印象；我們的「心理資料庫」裡存儲著關於藝術史學生、銀行出納員和瑜伽老師的相對中性的刻板印象，但是也包括一些針對重要社會群體的相對負性的刻板印象。也許最麻煩的就是，這些種族、性別和宗教的刻板印象能自動激活我們的情緒反應，進而影響到針對該類別中具體成員的行為表現。一旦我們將某人歸入引起負性聯想的範疇中，那麼我們會情不自禁地用消極的行為對待他。雖然這不屬於本書的討論範圍，但是社會心理學關於刻板反應的研究已經表明，當社會類別被激活或者直接適用到人身上時，我們會做出許多不受控制的演繹或類比推論（Kunda，1999；Wittenbrink & Schwarz，2007）。刻板信念的無意識效應中可能包括反彈效應，即刻板反應在有意削減之後，會在隨後的社會交往中發生反彈。

下面描述了大學入學審查委員會的決策過程，為自發的、但是邏輯上可疑的類別聯想提供了一個範例。

[布朗大學]入學審查委員會瀏覽了來自西南部的一所小型農村高中的申請表，旨在尋找被稱為「優雅小鎮中的孩子」的優秀申請人。埃米在班裡名列前茅，英文中等500分，數學和科學上等600分。她家庭貧困，白種人，外地人。她若被錄取，將使布朗大學學生的生源地分佈更廣泛，家庭經濟水平更加多樣化，可避免使該校成為新英格蘭州的研究生預科學校。因此，來自紐約州的申請只有20%會被接收，但是來自七區——俄克拉荷馬、德克薩斯、阿肯色州和路易斯安那等州的申請卻有40%會被接收。埃米所在的高中對她讚賞有加，她想學習工程學。布朗大學需要學習工程學的學生。但不幸的是，埃米把工程學這個單詞拼寫錯了。語言學教授吉米·雷恩說：「閱讀障礙」。爭論過後，委員會把她的申請放在了待批行列。

基於代表性思維的決策錯在哪裡？這又是因為相似性並不總能反映情境中潛在的統計學和因果性結構。拼寫錯誤是閱讀障礙的症狀，但是拼寫不好的人中沒有閱讀障礙的要比有閱讀障礙的多。然而這種圖式（拼寫錯誤-閱讀障礙）已被存取，埃米被判定為閱讀障礙。在做這樣的決策時考慮閱讀障礙既不切題也不符合倫理，但是本書作者在研究生入學委員會和獎學金分配委員會中卻多次觀察到類似的情況。

一位申請者在被問及「研究生入學委員會可能看重的其它個人信息」時寫道：「身為摩羯座，我將會是一位嚴謹的實驗者。」委員會中一位教授蔑視地說，「我們這兒不需要任何占星術瘋子！」。這位在700多人中GRE和GPA綜合排名第二的申請人就這樣被拒絕了。當然知道自己星座的人中更多的不是「占星術瘋子」，但是類別圖式（「占星術瘋子，因此是不可靠的怪人」）再一次佔據上風。

以代表性特徵為基礎來做判斷的基本問題在於，存取的圖式實際上比未存取的圖式更不合理，特別是當未存取的圖式在世界上有更大的覆蓋範圍時。「非閱讀障礙者」和「非怪人」在現實中比「閱讀障礙者」和「怪人」占更大的比例。因此，拼寫錯誤的人更可能不是閱讀障礙者，知道自己星座的申請者更可能不是怪人。然而，當類別圖式通過相似性被自動存取時，它的基準概率則不值一提。那需要一種二級的自我反省式的判斷：「這種類型有多普遍？」（閱讀障礙者或占星術瘋子或藝術史專業）。這樣的判斷需要忽略描述特徵評估基準概率。比如，對佩內羅珀專業「重新考慮」的提醒旨在使讀者能夠仔細考慮大學生中藝術史和心理學專業的基準概率。漠視情境中的統計學結構和忽略基準概率等關鍵信息是基於代表性進行判斷的行為標誌，但是，我們做判斷時又該如何恰當地使用基準概率信息呢？

5.10 比例規則

與代表性判斷不同，我們可以利用簡單的概率論法則進行精確的判斷。假設c代表某個特徵，S代表某種圖式（範疇）。c在多大程度上可以代表S由條件概率p（cS）表示——即S中每個成員具有特徵c的概率。（在目前的例子中，該條件概率是挺高的。）

但是，特徵c必然指向S成員的概率由條件概率p（Sc）表示，指具有特徵c的人屬於S中的成員的概率，該條件概率是p（cS）的逆反。現在，由概率論的基本原理可知：

即，c與S同時發生的概率除以S的概率。相似地：

但是，p（c and S）= p（S and c）；所以如下所述：

一般而言，

這種關係被叫做比例規則——逆反概率的比率等於簡單概率的比率。

在以上討論推斷某個人是否屬於某個類別的情境中，這種簡單的比例規則能夠有效地將p（cS）和p（Sc）聯繫起來。在p（c）和p（S）不相等的情況下將兩個條件概率等同對待是不合理的，但是代表性思維卻沒有反映出p（cS）與p（Sc）之間的差異，因而表現出現實中不存在的對稱性。

由於混淆逆反概率而發生誤解的情況有很多，其中廣為人知的當屬哈佛大學法學教授Alan Dershowitz（他是「辛普森謀殺案」辯護律師「夢之隊」成員）的一段電視講話。他在辯詞中沒有對辛普森虐待前妻尼克爾的歷史做爭論。他說，「毆打妻子的男人中只有百分之零點一的人會殺害他們的妻子」（p[丈夫謀殺妻子丈夫毆打妻子]）。但是統計學家I.J.Good（1995）寄給科學雜誌《自然》的信中指出，相應概率的條件應該是丈夫毆打妻子並妻子隨後被謀殺。Good採用Dershowitz的假設計算出了相應概率，結論是在這種情況下1/2的丈夫是殺人兇手：p（丈夫謀殺妻子丈夫毆打妻子並妻子被謀殺）。（實際的簡單概率似乎是1/3左右，不過具體的統計數據不詳，因為「毆打妻子」這個範疇很難操作化定義。）Good教授還說：「當然，這個觀點不僅僅適用於辛普森案件。它再一次戲劇性地表明貝葉斯的簡單概念是法律審判的基礎。它同樣是醫學診斷和科學哲學的基礎。貝葉斯法則在大學之前就應該掌握！」（p.541）。

關於吸食大麻與嚴重的藥物成癮之間關係的聲明和信念，為上述有關非理性的闡述提供了豐富的證據。例如，1970年12月11日《紅木城（加利福尼亞）論壇》上的一篇文章的標題寫道：「大部分吸食大麻者還使用其他致癮藥物。」但是接下來的第一句是：「根據研究發現，高中生只要吸食致癮藥物幾乎毫無例外地就會吸食大麻。」儘管正文明確表明吸食致癮藥物的學生中大部分都吸食大麻，但是標題卻逆轉了這種關係。

標題指的是隨機選擇一個吸食大麻者（M），其吸食致癮毒品（H）的概率，或者說是「吸食大麻的人中使用致癮毒品者的概率」。可以用既吸大麻又吸致癮毒品的人（M and H）的頻率除以吸大麻的人（M）的頻率得到該概率：

但是所引用的研究指的卻是隨機選擇一個吸食致癮毒品的人（H），其吸大麻（M）的概率，可以用既吸大麻又吸致癮毒品的人（M and H）的頻率除以吸食致癮毒品的人的頻率得到該概率：

吸食致癮毒品者中吸大麻的人與吸食大麻者中吸致癮毒品的人相比，其比率很大，因為吸大麻的人與吸食致癮毒品的人相比，其比率很大，而這兩個比率是相等的（方程5.4）。調查發現前者的條件概率——吸食致癮毒品中吸大麻的比例——非常高，這也符合我們的日常經驗。但是這並不表示逆反概率也非常高。比例規則表明後者的概率——吸食大麻中吸致癮毒品的比例——比前者要小得多，所以前者值大並不意味著「大部分吸食大麻者[還]使用其它[致癮]藥物。」然而在該研究發表的那個時期，一個民主黨總統候選人在競選前夕的電話問答中把大麻稱作「製藥行業的討厭鬼」。

韋恩圖（圖5.6）再次明確地顯示出逆反概率——p（吸大麻吸致癮毒品）和p（吸致癮毒品吸大麻）——之間的不同。吸大麻的人並不意味著有很高的可能性吸食其它致癮毒品，但是吸食致癮毒品的人意味著有很高的可能性吸食大麻。

在大多數關於逆反混淆（也叫條件概率謬誤）的文章中，作者們會給出很滑稽的例子。比如，1967年8月27日《本周》雜誌刊登了一篇文章，建議人們如何在交通擁堵的勞動節週末保證生命安全（Barns，1967）。作者聲稱「駕駛時離家越遠越安全」，因為大部分的死亡事故都發生在離家25英里範圍內。這是將「距離條件下的死亡概率」與「死亡條件下的距離概率」錯誤地等同了。通過分析比例規則（方程5.4），我們能很清晰地發現該等同完全是無稽之談，因為在離家近的地方駕駛的概率要遠大於發生死亡事故的概率。這種混淆很容易鬧出笑話，一個人如果發生了混淆很可能把車拖到高速公路上之後再自己去開。但是，當同樣的非理性被用作正當的借口——甚至有時作為理由——強制對大麻實施嚴厲的禁令時，混淆便不再僅僅是笑話了。雖然因吸食大麻被逮捕的人可能將逮捕看做政府報復性、保守性和剝削性的自然結果，但是許多人卻對逮捕表示贊同，因為他們相信——與已故的Hubert Humphrey一致——大麻是「討厭鬼」。

圖5.6　吸大麻與吸食致癮毒品之間的邏輯關係韋恩圖

偶爾，人們在未考慮任何基準概率（特徵[如吸大麻]的發生率，類別[如吸食致癮毒品]的發生率）的情況下，就斷言兩種事物之間的相依性以及相依性的方向。請看下面來自《管理聚焦》的例子。

最近一項針對74名CEO的調查發現，童年時期撫養寵物可能與未來的職業成功有關。94%的CEO在小時候都養過狗或貓，而他們現在都受雇於財富500強企業。

被調查者聲稱，與寵物的相處幫助他們培養了許多積極的品格特質，從而使他們成為今天的優秀管理者。這些特質包括責任心、同理心、對生命的尊重、寬容以及良好的溝通技巧。眾所周知，在類似於這些CEO們成長背景下長大的孩子中，有超過94%的人都撫養過寵物，但是此時相關性的方向卻可能是負的。也許CEO們的成功與兒童時期刷牙有關。可能所有的CEO都刷牙，至少偶爾刷，然後我們猜測刷牙所需要的自律性導致了他們今天的事業成功。這似乎比童年時與寵物互動而習得的「溝通技巧」能夠促進他們與其他經理及僱員的關係要更加合理些。

心理學家也不可避免地會做出這種錯誤判斷。例如，Nathan Branden（1984）寫道：「我想不出來有哪個心理問題不是起源於低自尊的——從焦慮、抑鬱到親密恐懼或成功恐懼，到酒精或藥物濫用，到配偶虐待或狎童。」換句話說，c代表低自尊而S代表心理問題，p（cS）是高的。但是說這些心理問題的根源在於低自尊即是聲稱p（Sc）高，而這點我們並不清楚——來訪者之所以來咨詢Branden，是因為他們已經有了心理問題。Branden的經驗僅限於那些因心理問題而想尋求幫助的人——他的經驗是以S作為條件的。即使我們真地發現了高概率的p（Sc），我們也不能做出因果推論：人們的自尊也許是因為身患心理疾病才變低的。Branden的總結如下：

大量證據（包括一些科學研究發現）表明，個體的自尊水平越高，對待他人時就會越尊重、越友善、越寬容。沒有體驗過自愛的人是沒有能力去愛別人的。體驗過深層不安全感和自我懷疑的人，傾向於把其他人知覺成可怕的和敵意的。沒有自尊的人無法對這個世界做出任何貢獻。

套用Branden（1984）的「我想不出來」的句型，我們想不出來有哪個科學研究中的因變量是「無法對這個世界做出任何貢獻」的。有心理問題的人（Branden的案例中）有低水平的自我意象，但這並不意味著「深層不安全感和自我懷疑」（不常見的特徵）條件下出現心理問題的概率就一定高。「深層」這個詞模糊性太強，以致於無法用清晰的統計來反駁Branden命題的不可能性，但是，使用代表性思維同一群「無法對這個世界做出任何貢獻」的人交流在理智上是不負責任的行為。事實上，Branden的觀察能夠證明一點，低自尊對於這些有心理問題（如虐待兒童）的人來說是好現象，否則他們也不會去尋求改變（如接受治療）。

慶幸的是，並不是所有人在任何時候都將逆反條件概率弄混淆，比如偉大的哲學家伯特蘭·羅素就不會這樣。他的祖母曾不遺餘力地勸他別跟他的第一任妻子結婚，這讓他深刻地意識到他們家的精神病人何其之多。九年後，當他考慮要孩子時向醫生咨詢了精神病的遺傳情況。他的傳記作家Clark（1976）是這樣描述的：

四天後他見了醫生，「醫生說冒險受孕需要承擔起責任，人們對遺傳的恐懼被誇大了。他說50%的精神病患者的雙親酗酒，但是只有15%的精神病患者的雙親也是精神病。這似乎使我稍稍心安。」也就是說，直到羅素這位准父親成為統計學家羅素時才能稍稍心安。他在日記下方的腳注中寫道：「但是，他沒有特別指出總人群中患精神病者和酗酒者的比例分別有多大，所以他的論點沒有一點價值。」

在這個例子中，即使是羅素也能被挑出「沒頭腦」的毛病。比如，為何他剛開始時那麼嚴肅認真地看待50%和15%呢？問題在於想避免發生混淆，就有必要把很少經歷過的客體或事件也假設成一類——比如，低自尊卻仍然有能力愛別人或「能對世界做出些貢獻」的人。然後，要想估計出條件概率值，則必須估計這類罕見事件的囊括範圍，儘管我們很少接觸到這類人或事。這需要控制性的「科學」思維——用皮亞傑的術語來說是，把真實（已經觀察到的）看做可能（可能被觀察到的），而不是反過來。

當我們直接體驗各種事件而不是閱讀書面材料時，即使不是偉大的哲學家，普通人也能恰當地利用基準概率信息。當研究對象是在職的醫生和會計時，他們似乎能意識到相應的基準概率，例如當地疾病的發生率或財務問題的發生率。雖然這能使人稍微放心一些，但是在嘈雜的日常情境中仍然有某些忽略基準概率的情況存在。模擬醫療診斷的實驗室研究發現，給參與者呈現基準概率不同的病例之後（如，25%的情況演變成疾病burlosis，75%的情況演變成疾病coragia——疾病burlosis和coragia均為虛構），他們對基準概率反應敏感，但是在某些實驗條件下仍存在著對基準概率的忽略（Gluck & Bower，1988；Goodie & Fantino，1995，1996）。

還有一種情況能讓我們重視基準概率，即人們給不一致的比率賦予某種因果性意義時。當人們能夠看出基準概率的因果關聯時，他們經常把基準概率納入推理過程中。例如，若模擬陪審員相信一家公交公司比另一家公交公司發生更多的交通事故是由於他們的司機沒有經過嚴格的篩選和培訓，那麼他在評估目擊者證詞時會將不同的事故發生率考慮在內。但是，若他認為一家公交公司交通事故多僅僅是因為公司比較大，那麼他將不會考慮不同的事故發生率。研究反覆證實，當基準概率只具有統計學意義而缺乏因果性意義時，它們通常會被忽略。相同的效應似乎在真實的法庭上也出現過，赤裸裸的統計學證據非常沒有說服力——比如，在指控辛普森殺害妻子及其男友的案件中，DNA證據無法說服陪審團定罪。當然，比例規則的等式右邊為什麼碰巧是p（A）和p（B），這個問題也很重要，理性應有其用武之地（Koehler，1997）。但是因果思維有自身的陷阱，這點我們將在下一章討論。

總之，我們似乎更擅長將潛在關係用具體數字和具體頻率表示出來，而不是將潛在關係用抽像的比例和概率表示（見最近的綜述文章，Barbey & Sloman，2007）。我們將在第8章重新回到這個問題上並且給出一些正確建議，以便於處理條件概率關係。

在大部分時間裡，我們的絕大多數思考被無處不在的思維和聯想規則掌控，因而我們會做出代表性聯結，特別是在評估概率時。本章關注了非正式的觀察和理論。此外，研究者也做過大量關於代表性思維的實證研究（通常用大學生作為被試），結果都證實了相似性和聯想的主導作用。幼稚天真的被試們在許多情境下對 p（AB）和p（BA）不加區分，而且當給出一個條件概率時，他們直接推斷出另一個概率而並不參考p（A）和p（B）的基準概率，這明顯違反了比例規則。我們具有一種很自然的習慣，即用聯想的方式來思考當下情境中凸顯的事物或者第一時間從記憶中提取到的事物。要想逃離這種「被現成性所主導」並思考那些經驗中並不明顯的事物和關係時，意志力和訓練必不可少。

參考文獻

Alvarez, L.W.(1965, June 18).A pseudo experience in parapsychology.Science, 148(3677), 1541.

Barbey, A.K., & Sloman, S.A.(2007).Base-rate respect: From ecological rationality to dual processes.Brain and Behavioral Sciences, 30, 241-297.

Barns, L.R.(1967, August 27).This quiz could save your life next weekend.This Week, 10-11.

Birnbaum,M.H.(1983).Base rates in Bayesian inference: Signal detection analysis of the cab problem.American Journal of Psychology, 96, 85-94.

Branden, N.(1984, August/September).In defense of self.Association for Humanistic Psychology Perspectives, 12-13.

Clark, R.W.(1976).The life of Bertrand Russell.New York: Knopf.

Combs, B., & Slovic, P.(1979).Newspaper coverage of causes of death.Journalism Quarterly, 56, 837-843.

Diaconis, P., & Mosteller, F.(1989).Methods for studying coincidences.Journal of the American Statistical Association, 84, 853-861.

Douglas, M., & Wildavsky, A.(1982).Risk and culture: An essay on the selection of technical and cultural dangers.Berkeley: University of California Press.

Gigerenzer, G.(2006).Out of the frying pan into the ire: Behavioral reactions to terrorist attacks.Risk Analysis, 26, 347-351.

Gilliam, F.D., Jr., Iyengar, S., Simon, A., & Wright, O.(1996).Crime in black and white: The violent, scary world of local news.Harvard International Journal of Press/Politics, 1, 6-23.

Glassner, B.(1999).The culture of fear: Why Americans are afraid of the wrong things.New York: Basic Books.

Gluck, M.A., & Bower, G.H.(1988).From conditioning to category learning: An adaptive network model.Journal of Experimental Psychology: General, 117, 227-247.

Good, I.J.(1995).When batterer turns murderer.Nature, 375, 541.

Goodie, A., & Fantino, E.(1995).An experientially derived base-rate error in humans.Psychological Science, 6, 101-106.

Goodie, A., & Fantino, E.(1996).Learning to commit or avoid the base-rate error.Nature, 380, 247-249.

Goodman, G.S., Qin, J., Bottoms, B.L., & Shaver, P.R.(1994).Characteristics and sources of allegations of ritualistic child abuse.Washington, DC: National Resource Center on Child Abuse and Neglect.

Gould, S.J.(1991).Bully for brontosaurus: Relections in natural history.New York: Norton.

Hopkins, B., & Jacobs, D.M.(1992).How this survey was designed.In B.Hopkins, D.M.Jacobs, R.Westrum, J.E.Mack, J.S.Carpenter, & Roper Organization, Unusual personal experiences: Analysis of the data from three major surveys conducted by the Roper Organization (pp.55-58).Las Vegas, NV: Bigelow Holding Company.

Johnson, E.J., & Tversky, A.(1983).Affect, generalization, and the perception of risk.Journal of Personality and Social Psychology, 45(1), 20-31.

Kahneman, D.(2003).A perspective on judgment and choice: Mapping bounded rationality.American Psychologist, 58, 697-720.

Kingdon, J.W.(1984).Agendas, alternatives, and public policies.Boston: HarperCollins.

Koehler, J.J.(1996).The base-rate fallacy reconsidered: Descriptive, normative, and methodological challenges.Brain and Behavioral Sciences, 19, 1-53.

Koehler, J.J.(1997).One in millions, billions, and trillions: Lessons fromPeople v.Collins (1968) for People v.Simpson (1995).Journal of Legal Education, 47, 214-223.

Kunda, Z.(1999).Social cognition: Making sense of people.Cambridge: MIT Press.

Macchi, L., Osherson, D., & Krantz, D.H.(1999).A note on superadditive probability judgment.Psychological Review, 106, 210-214.

Mulford, M., & Dawes, R.M.(1999).Subadditivity in memory for personal events.Psychological Science, 10, 47-51.

Nathan, D., & Snedeker, M.(1995).Satan-s silence.New York: Basic Books.

Nisbett, R.E., & Ross, L.(1980).Human inference: Strategies and shortcomings of social judgment.Englewood Cliffs, NJ: Prentice Hall.

Park, J., & Banaji, M.R.(2000).Mood and heuristics: The inluence of happy and sad states on sensitivity and bias in stereotyping.Journal of Personality and Social Psychology, 78, 1005-1023.

Pinker, S.(1997).How the mind works.New York: Norton.

Redelmeier, D.A., Koehler, D.J., Liberman, V., & Tversky, A.(1995).Probability judgment in medicine: Discounting unspeciied possibilities.Medical Decision Making, 15, 227-230.

Reyes, R.M., Thompson,W.C., & Bower, G.H.(1980).Judgmental biases resulting from differing availabilities of arguments.Journal of Personality and Social Psychology, 39, 2-12.

Ross, M., & Sicoly, F.(1979).Egocentric biases in availability and attribution.Journal of Personality and Social Psychology, 37, 322-336.

Rottenstreich, Y., & Tversky, A.(1997).Unpacking, repacking, and anchoring: Advances in support theory.Psychological Review, 104, 406-415.

Sartre, J.P.(1948).Anti-semite and Jew (G.F.Becker, Trans.).NewYork: Schocken Books.

Schwarz, N.(2004).Metacognitive experiences in consumer judgment and decision making.Journal of Consumer Psychology, 14, 332-348.

Schwarz, N., Bless, H., Strack, F., Klumpp, G., Rittenauer-Schatka, H., & Simons, A.(1991).Retrieval as information: Another look at the availability heuristic.Journal of Personality and Social Psychology, 61, 195-202.

Tversky, A., & Kahneman, D.(1974).Judgment under uncertainty: Heuristics and biases.Science, 185, 1124-1131.

Tversky, A., & Kahneman, D.(1983).Extensional versus intuitive reasoning: The conjunction fallacy in probability judgment.Psychological Review, 90, 293-315.

Tversky, A., & Koehler, D.J.(1994).Support theory: A nonextensional representation of subjective probability.Psychological Review, 101, 547-567.

Wittenbrink, B., & Schwarz, N.(2007).Implicit measures of attitudes: Procedures and controversies.New York: Guilford Press.

Wright,W.F., & Bower, G.H.(1992).Mood effects on subjective probability assessment.Organizational Behavior and Human Decision Processes, 52(2), 276-291.