讀古今文學網 > 不確定世界的理性選擇:判斷與決策心理學(第2版) > 第8章 理性思考「不確定性」 >

第8章 理性思考「不確定性」

當今的邏輯學只擅長於分析確定的、不可能的或完全不確定的事情,而這三類事情其實都沒有分析的必要(謝天謝地)。因此,這個世界真正的邏輯在於概率計算過程,即一個理性者頭腦中認為概率是多大,或應該多大。

——詹姆斯·克拉克·麥克斯韋(1831~1879),英國物理學家、數學家,他提出的理論將光和電統一起來,其成就與牛頓齊名

8.1 面對偏差,我們該怎麼辦

尤利塞斯在聽到塞壬的歌聲之前就聰明地把自己綁在了桅桿上[1]。他這樣做並不是因為害怕塞壬,而是因為害怕自己對塞壬歌聲做出的反應。於是,他事先做好了防範措施。同樣,自動化思維造成的認知偏差就像海妖的歌聲,以一種可預知的方向,將我們的判斷引入歧途。我們必須採取預防措施,避開這些未經審視的判斷所設下的圈套。

本書的目的之一就是教會讀者對判斷過程進行分析性思考。我們認為,要系統地分析一個判斷,最好的方法就是學習一些概率論和統計學基礎知識,並將之應用於重要的判斷過程。拉普拉斯[2]有一句著名格言:「概率論本質上只是一些計算方面的常識(p.196)。」其實,任何學過或者教過概率論的人都會知道這句話肯定是錯誤的,因為概率論的發明只不過是近期的事情,而且我們的頭腦似乎天生就不是按這些概念來思考的,何談「常識」?本書的前七章可以理解為是對違背(有時甚至是根本牴觸)概率論的認知習慣所做的總結。本書附錄中提供了一些基本概率論基礎的總結,而在本章中,我們將輔之以具體事例來闡述概率思想的本質。

曾有人嘗試訓練人們不要根據代表性來思考,或者不要受可用性或其他偏差的影響,但是多數情況下都不太成功。我們在思考過程中在事物之間建立簡單聯繫的情況實在是太普遍了,以至於早期英國的實證主義者認為這種「聯繫」是我們思維的基礎單元。再者,基於經驗來做判斷是十分合理的,而且對我們的生存至關重要。

所以,我們需要另一種方法,能在必要的時候,至少是在我們做重要判斷時,將我們從依賴直覺、聯繫、啟髮式的歧途上引導回來。預防偏差的其中一個選擇是利用外部幫助。例如,一個臨床心理學家能夠在紙上、在電腦裡記錄案例(例如,自殺威脅),然後利用符號公式或圖表來編碼數據以估計案例發生的頻率。把度過的每一周用一個簡單的圖表來區分「好」或「壞」就可以揭示出或者否定一個模式。又或者僅僅記下基礎概率、嘗試去應用基本的概率論,也能夠避免很多不理性的判斷。

我們在本章中將要舉例說明如何利用外部幫助,而利用這些外部幫助的最大阻礙是說服我們像尤利塞斯那樣對自己採取預防措施。自我施加的外部約束實際上更能增加我們的自由度,因為它能使我們從一些可以預見的、討厭的內部限制中解脫出來——這個道理雖簡單,但不太為人們所意識。並非人人都能成為尤利塞斯。而這些內部限制既可以是情感層面的也可以是認知層面的,這一觀點更難以得到認同。因此很多人認為,讓自己的判斷建立在「純數字」或圖像或計算機結果的外部幫助上是一件令人極其厭惡的事情。事實上,甚至有證據表明,當存在外部幫助時,不少專家試圖在這些外部幫助的預測之上再根據自己的直覺去改進他們的判斷,但結果呢?反而比不動腦地相信外部預測更糟糕。可能性的估算的確只涉及純粹的數字,但正如Paul Meehl(1986)所指出的那樣:「當你從超市出來的時候,你不會打量一下你買的那堆商品然後問服務員:『我覺得這些東西大概是17美元,你覺得呢?』,你當然不會這樣的,你會進行計算。」(p.372)計算、跟蹤記錄和明確寫下概率論推斷的規則,能夠極大地幫助我們戰勝由代表性思考、可用性思考、錨定-調整以及其他偏差引起的系統性錯誤。如果能做到這些,我們甚至能夠從經驗中學到一些東西。

8.2 開始用概率來思考

現代概率論起源於富有的貴族們僱用數學家來幫助他們贏得與熟人之間的博弈遊戲(就像第1章Cardano的例子一樣,只不過他是給自己建議)。概率分析最基本的規則應該是,告誡人們在分析過程中要從全局視角審視情境(任何情境,包括擲骰子遊戲、博得市的交通問題、匹茲堡的犯罪問題甚至是膝蓋疼痛的情況),然後定義一個包括所有可能事件的樣本空間,並確定這些事件間的邏輯關係。以上步驟就是理性分析與那些以可用性、相似性、情景建構為基礎的判斷的分歧所在:當我們根據直覺進行判斷時,思維會被拖入一個有限的、有系統偏差的可能事件的子集。例如在情景建構中,我們經常陷入情景的細節,只注意到一個特定的(而且是荒謬的)結果路徑。

Daniel Kahneman和Dan Lovallo(1993)指出,決策者傾向於強調每個問題的獨特性,並做「內部觀察」(inside view)。他們提出的補救辦法跟本書一樣,就是慎重地進行外部觀察(outside view),也就是說,把當前問題看做一系列類似問題中的一個,並將概率思想應用其中。為了闡明外部觀察的重要性,Kahneman講了一個他親歷的設計某個新課程的故事:

那個團隊運作了一年,並取得了一些重要的成果,在某次團隊會議上我們的討論轉到了這個項目還會持續多長時間這個問題。為了使討論更加有效率,我請每個人在紙上寫下他們估計再要多少個月才能向教育部提交一份完稿。結果,大家(包括我自己在內)估計的時間是18~30個月。此時,我突然產生了一個想法,詢問團隊中的一個成員(他是課程設計的著名專家):「我們肯定不是惟一一個設計新課程體系的團隊。你能不能回憶一下以往類似的例子,想像其他團隊也處於與我們現在類似的階段,你覺得他們還需要多久才能完成項目呢?」一段長時間的沉默過後,他用明顯帶著不安的聲音說道:「首先,我得說並非所有處於與我們類似階段的團隊都完成了項目,大概40%的團隊最終放棄了。至於剩下的,我想不起來有任何一個團隊是在7年之內完成項目的,當然也沒有多於10年的。」他進一步補充:「我想不出我們優於其他團隊的地方。不得不承認,根據我的印象,我們的資源和潛力似乎還稍有點低於那些團隊的平均實力。」(Kahneman & Lovallo,1993,p.24)

我想通過這個故事說明的是,如果判斷時能夠退一步做外部觀察,並從整體分佈和概率的角度來思考,即便這一思考只是定性的,也能使判斷更為準確。如果能基於系統收集的數據和概率論中的定量規律來思考的話,判斷就會更好。

概率論用精確的術語來描述基本事件、事件集及它們之間的關係。讓我們從一個定義明確的例子開始:擲兩枚骰子。首先,骰子朝上那一面的數字可稱為一個最簡單的事件,比如「我擲出一個1」;第二,兩個簡單事件的合取,比如「我兩顆骰子分別擲出1和6」,(順序任意);第三,兩個簡單事件的析取,比如「我擲出一個1或一個6,或1和6同時出現」(有時這叫做「或」邏輯)。第四,條件事件,就是某事件的發生以另一個事件的發生為前提,比如「當我擲出的兩個骰子點數合計為7時,其中一個為1」。如果兩個骰子是均勻正常的,我們就可以系統地描述共包括36種等概率事件的樣本空間——你擲一個骰子的結果可能是1到6中的任何一個數字,另一個骰子所得結果也是如此,這樣就共有6 × 6種可能的合取事件。

在明確了可能事件的樣本空間後,我們希望知道簡單事件和相關事件在樣本空間中的頻率和概率。在理想化情境中,我們可以按邏輯推導出骰子、撲克牌和其他可靠的賭博設備中的事件類別、頻率和概率。比如,因為骰子的六個面中有一面是1,因而我們說1出現的概率是1/6;在36種情況中,同時擲出1和6共有2種情況,於是我們有2/36的概率擲出這一合取事件;此外,我們有20種情況擲出一個1或一個6,或者1和6,於是我們有20/36的概率擲出這一析取事件。最後,對於條件事件「給定兩個骰子和為7,而其中一個是1」,我們把條件限制在「和為7」,則可以計算出「其中一個是1」的概率是2/6,因為共有6個事件滿足和為7,而在其中2個事件裡有一個骰子被擲出了1。現在我們考慮定義不那麼精確的情形:假設我們想研究大學生的一些特徵。如果我們隨機從芝加哥大學的學生中選出一個,那麼選到女生的概率是多少?2008年芝加哥大學有5026名學生,其中2513名是女生;因而隨機選到女生的概率是2513/5026,接近0.50。那麼選到物理專業學生的概率呢?有815名同學選擇物理學作為自己的專業,所以隨機選擇到物理專業學生的概率是815/5026,約為0.16。那麼,選到一個物理專業的女生的概率呢(這是一個合取事件)? 共有211名同學既是女生又學物理,因而概率是211/5026,約為0.04。若考慮到析取事件,物理專業學生或女生這兩個條件至少滿足一個的共有3117人,其概率為3117/5026,約為0.62。而物理專業中女生的概率呢(這是一個條件事件)?我們只需考慮學物理的815名學生,然後求從他們中選到女生的概率即可——其概率為211/815,約為0.26。這是另一個能準確定義區分事件的例子(我們假設女性、物理專業都能被準確定義),因此我們能夠通過經驗頻率來推斷概率(而不是像骰子那樣通過理想的、邏輯的頻率來推斷)。需要注意的是,反向的條件概率——即給定女生這個條件而選到學物理的學生的概率(211/2513或0.08)——與之前所說的給定物理專業為條件而選到女生的概率(211/815或0.26)並不一樣。一般而言,一個條件概率並不等於其相反的條件概率,正如第5章所闡述的比例規則那樣,例如,p(女生物理專業)≠

p(物理專業女生)。再考慮一個更加模糊的情形,在這種情形中我們只能確定事件的集合和範圍,卻無法統計頻率。假設我們正在考慮共和黨是否能贏得2012年美國總統大選。當我們在2008年寫這本書的時候,民主黨的候選人是奧巴馬(現任總統),但對4年後的共和黨候選人卻所知甚少。一些成功州長的名字一直在流傳,如Sarah Palin(阿拉斯加州),David Petraeus將軍(當今最有名的軍事領袖),和Newt Gingrich(前眾議員,現為保守派權威),但沒有人知道誰將在4年後被提名為候選人,甚至奧巴馬的候選人資格也仍不確定,因為他的第一個四年任期必將充滿了各種變數。然而,概率分佈依然是幫助我們分析情境和作出預測的最好方法。我們可以列出大部分可能出現的事件,比如兩黨下一屆候選人的提名、對兩黨和全民公投可能產生影響的不確定事件(如經濟條件、個人醜聞、醫療問題、領袖因素、競選資金等等)。在這種情況下,系統地列出這些事件並不能使我們對這些事件發生的確切概率有把握,但卻能夠提醒我們未來有多麼不確定,提醒我們別目光短淺,別僅僅著眼於某一種可能情況並對其抱以過多信心。儘管有些模糊,但分佈表徵和概率分析相對於直覺判斷已是一個重大進步。然而,我們不太可能主要依靠鮮活的、獨立的事件的相對頻率作判斷——儘管當我們失誤時會去參考可能有關的統計資料,如p(現任總統獲勝的概率)。但是,當我們基於情境和某個結果的可能原因來推理時,審慎地嘗試去系統表徵這些問題也能夠提高我們判斷的連貫性和準確性。

讓我們考慮一個更嚴重的情況:在未來十年中會出現一國針對另一國的核武器部署嗎?在這裡連情境的結果都無法明確定義:如果恐怖組織(也許不能歸於任一國家)引爆了某個中東國家的核設施,這算是核武器部署嗎?我們設想的情景(對具體的可能結果的描述)是模糊的:「聯合國維和部隊與非洲某組織間的小衝突逐步升級……」,「一個針對以色列領導人的刺殺失敗了,那麼其報復行動……」在這裡,似乎沒有相關頻率可以計算。未來的情形將不同於我們所能想到的任何歷史上的情形。但我們仍然相信系統分佈方法是做概率估計的最好方法,雖然存在不確定性,但是有可靠的依據。事實上,Asher Koriat、Sarah Lichtenstein和Baruch Fischhoff(1980)的心理學研究表明,僅僅列出一些相關事件並系統地考慮每個事件發生和不發生的原因,就能提高我們的判斷質量。

通過這些例子我們想表明什麼呢?第一,我們介紹了可以根據集合內成員間的基本關係對事件進行概率描述。第二,我們介紹了四種可能需要概率描述的情境:(1)傳統的機會遊戲情境(比如擲骰子),在這種情境中,理想的隨機設備為潛在的問題提供了良好的描述,因而邏輯分析能夠用於推斷概率;(2)定義明確的「實證」情境,在這種情境中,相關頻率的統計信息能夠用來計算概率(例如,我們對於芝加哥大學學生類別的判斷)。(3)中等定義明確的情境,我們必須根據因果關係和偏好而不是相關頻率來推理(比如預測下屆美國總統大選的結果),但在這種情境中,稍加思考就能夠定義非常完整的相關事件及其樣本空間;(4)大量未知情況的情境,在這種情境中,即便是相關事件的樣本空間都難以建構,而且似乎也不存在相關頻率(例如,未來十年的國際衝突)。

概率論的一個顯著特徵就是,四大公理(見附錄)提供的法則可用來進行理性推理,儘管對於這些數字究竟代表什麼仍有大量的爭論。以上選出的四個例子是為了給讀者一個關於用概率進行解釋的整體感覺:它是基本演繹邏輯的擴展;是基於外部事件發生頻率計算出的實際數字;是對頭腦中的主觀可信度而非外部世界的量度。

第三,對不確定事件進行判斷與推理時很多錯誤都源於這個過程的最初階段,即人們對需要判斷的情境進行理解的時候。如果人們能夠對將要判斷的情境建立真實表徵,並在整個推理過程中不斷理清集合中成員間的關係,那麼就能避免很多錯誤。當然,關於概率和隨機過程也有很多誤解,但很多時候,在還沒有來得及綜合分析不確定性信息之前,我們的判斷就已經出現了偏差。如何在不確定的情況下做出更好的判斷,我們的主要建議是,對於將要判斷的問題和情形,建立一個有效的外部表徵(圖示的和符號的)。

8.3 理解判斷的情境

儘管從直接經驗中建立一個情境模型可能會更加困難,但僅僅基於一段對新奇而不確定情境的書面描寫來建立一個可理解的情境表徵也不容易。Raymond Nickerson(1996)在一篇關於概率問題的語義模糊性的論文中列舉了理解階段可能犯的多種錯誤。其中,一些流傳已久的例子在腦筋急轉彎這類暢銷書籍中被奉為經典。讓我們從一個在概率推理領域經多次研究過的簡單問題開始(作者為Maya Bar-Hillelt和Ruma Falk,1982,p.119);試試下面這個遊戲,在繼續閱讀後面的文字之前做出自己的估計:

帽子裡有三張卡片。一張兩面都是紅色(「紅-紅」),一張兩面都是白色(「白-白」),一張一面紅色一面白色(「紅-白」)。從裡面隨機抓出一張卡片扔向空中,落地後紅色一面朝上。問:這張卡片是「紅-紅」的概率是多少?

圖8.1 表徵三張卡片問題的概率樹

通常的回答是「1/2」或「0.50」(在Bar-Hillel的實驗中,有66%到79%的參與者給出這個答案)。對這些參與者的訪談表明,對於這個問題他們有一個典型的判斷模式:「因為這張卡片紅色向上,我們知道它不是『白-白』卡,而由於還剩下兩種卡片,於是它有50%的概率是『紅-紅』卡。」這表明,紙上的文字敘述導致被試形成了「先有三張,剩下兩張」的問題表徵。然而,正確的問題表徵是根據卡片的面,而不是整張卡(見圖8.1;Brase,Cosmides,& Tooby,1998也指出了這點)。所有結果的樣本空間包括六個事件——每張卡片的每一面各為一個事件。由於紅色的一面向上,因此在「有效樣本空間」中共有三個事件:紅白(紅面向上)、紅-紅(一個紅面向上)、紅-紅(另一個紅面向上)。因此正確答案是2/3——三個等概率事件中,其中兩個是紅-紅。

某流行雜誌中的「向瑪麗蓮提問」專欄發表了一個更為複雜的問題,這個問題受到了相當多的關注,因為其答案出乎大多數人的意料,並且足夠深奧,以至於引起了很多著名數學家的爭論(vos Savant,1991;Deborah Bennett在她介紹概率論的著作Randomness[1998]中提供了對這個問題的總結):

假設在一個遊戲節目中,有三扇門供你選擇。其中一扇門後面是一輛豪華轎車,而另兩扇門後面都是山羊。你選擇了一扇門(比如1號門),之後,知道每扇門後面分別有什麼的主持人打開了另一扇門(比如3號門),門後是只山羊。這時主持人對你說:「你想選擇2號門嗎?」,即改變主意選擇2號門是明智的嗎?(vos Savant,1991,p.12)

這個腦筋急轉彎問題的第一個難點是各種「可能事件」所包含的驚人的複雜性。試一試用圖表來系統地列出每一個相關事件:參與者可以選擇三扇門,轎車藏在哪裡共有三種可能(這樣一共有九種情境);主持人可以打開不同的門(主持人究竟面臨幾種選擇會因碰到九種情境中的哪一種而有所不同)。之後,參與者的兩種選擇(改主意或不改主意)使這個問題更為複雜:共有18到36種情況——這取決於解決問題者對問題採用的不同表徵。

這個腦筋急轉彎問題的另一個更加困難的地方在於,對主持人選擇打開哪一扇門的規則描述得很模糊;除非這種模糊性被解決了,否則難以用唯一的樣本空間對這個問題進行表徵。根據問題的描述,主持人的規則至少有三種可能的解釋。第一種規則,主持人總是隨機打開沒有被參與者選擇的門(例如,在上面的情境中,主持人擲一枚硬幣來決定打開2號或3號門)。這表示主持人可能打開一扇門並展示出門後的轎車,然後(和觀眾一起)笑話你選錯了門,遊戲結束。但也存在第二種規則:假設主持人總是挑選後面藏著山羊的門打開,決不打開參與者挑選的門;當參與者已然選中了藏有轎車的門,主持人就隨機打開一扇門。這樣,參與者的選擇和主持人開門之間的關係就更複雜了。但是還存在更加複雜的第三種規則:假設主持人總是挑選藏有山羊的門打開,決不打開參與者挑選的門;在參與者已然選中了藏有轎車的門之後,主持人有偏向地挑選剩下兩扇門中序號較小的一扇打開(針對這種規則可能存在其他偏差)。儘管這三種規則均符合上述問題的表述,但其潛在概率卻各不相同。

對這個問題最普遍的表徵是,主持人總是打開與參與者最初選擇不同的門,且絕不會打開藏有轎車的門(即遵循上文第二種規則);於是,參與者改變主意就可能提高但絕不會降低得到轎車的概率。因此,基於這種表徵,問題的答案是參與者應該改變主意。在圖8.2中,我們提供了清晰表徵這個問題的概率樹。這裡要說明的是,問題表徵是概率推理過程中最基本的、起決定性作用的第一步。這個「三門問題」的模糊表述引發了很多困惑和爭議,很多學術期刊的討論也隨之而來,可是要想把這個問題毫不含糊地表述清楚,本身也是件極其複雜的事情。而實際上,現實世界的不確定性和決策的模糊性比這個問題要更加令人生畏。

學習概率和統計課程的主要好處在於,我們有機會練習將情境轉化為更精確完整的表徵;或者在複雜的真實世界中,練習提取最基本的不確定事件和因果聯繫。我們介紹了表格、概率(或決策)樹以及韋恩圖,用以描述本書中大多數判斷和決策情境。然而,這些合適而有效的圖表是應待解決的特定問題的不同情況而創造的。我們會首先嘗試樹狀圖,因為總的來說它們最有效,但有時其他圖表會更有啟發意義。幸運的是,構建這些表徵的技巧是任何一位願意學習的讀者都能通過練習掌握的,第一步就是學習本書中的例子。

進一步講,思考概率問題時,用頻率來表示某個事件在相關子集中出現的情形,通常更有利於形成準確的判斷。當人們想像個體、客體或事件的頻率時,就可以更好地分析總體中某些部分之間的聯繫。事實上,當鼓勵人們學會基於頻率而非可能性去表徵情境時,前幾章中所闡述的許多判斷錯誤都會大大減少(例如Gigerenzer & Hoffrage,1995;Sedlmeier & Betsch,2002)。頻率圖表對於減少人們關於條件概率[例如,p(癌症陽性檢驗結果)對p(陽性檢驗結果癌症)]和合取謬誤(類似「琳達更可能是一位女出納員而非出納員」的描述)的迷惑是非常有用的。

下面,我們將回顧不確定性條件下理性判斷的概念,然後再回到我們的主題,即如何清楚地用分佈的形式來表徵需要判斷的情境。

圖8.2 最初選擇1號門之後用概率樹來表徵三門問題(這只表徵了三分之一的可能性——當你先打開2號或3號門時,可以畫出兩個相似的概率樹,這樣就窮盡了所有可能性。)

8.4 理性的測試

在本書的前半部分,我們提供了許多不準確或非理性判斷的例子。我們基於什麼原因做出這樣的評價呢?評價一個判斷準確或不準確是很簡單的:(1)我們在頭腦中需要有一些可衡量的標準事件或情境作為判斷的目標;(2)要確保做判斷的人與我們對該判斷目標的本質認識一致,而且與我們採用同樣的標準來估計、預測和判斷;(3)我們還要確保做判斷的人希望預測的偏差最小化,且由於偏差的「代價」是對稱的,因而判斷者不會總是過高或過低地估計標準。[例如,本書的一個作者指出他對於熟人年齡(標準)的判斷常常不準確,而且系統性地偏低。但你也要知道這種偏差帶有一些故意的成分,是為了避免傷害那些對自己顯老很敏感的人。]評估判斷質量的這種邏輯被稱為準確性方面的一致框架,這個框架是構成本書第3章所介紹的透鏡模型的基礎。(更多相關的討論參見Hammond,1996或Hastie &Rasinski,1988。)

然而,我們也討論了在無法明確使用一致性檢驗的情況下判斷的非理性和不一致。例如,我們說,那些認為琳達更可能是「一位女權主義的出納員」而非「一位出納員」的人是非理性的,其判斷有偏差,儘管沒有一位真實的琳達存在,否則其職業和態度可以作為對判斷準確性進行一致性檢驗的標準。在這樣的例子中,我們評價判斷的質量,只能將這種方法應用到兩個或更多判斷中,通過考慮它們之間的統一性或邏輯一致性來做出評價。邏輯規則和概率論是我們普遍接受的理性推理標準,我們常常參考它們來評價判斷之間的一致性。此外,如果我們的一系列判斷是不一致的,我們就能確信其中有一些判斷是不準確的,儘管我們沒法說出哪一個判斷有偏誤。(更普遍地說,正如第2章所言,自相矛盾無法構成對世界的真實描述。)

另一個能夠幫助我們證明某些判斷錯誤確實是非理性的理由是:在向實驗被試展示他們的反應並告訴他們違反了規則之後,他們會馬上總結說「我犯錯了,」或者甚至是「哇,我真蠢,我都不好意思了」。Kahneman和Tversky(1982,1996)首先指出了我們所討論過的大部分錯誤,他們將這些判斷錯誤統稱為錯覺,因為這些偏差已然成為行為習慣,雖然當我們仔細思考後會知道自己犯錯了,但當我們沒有運用自我控制來抵抗這種本能趨勢時,這些錯誤仍然會出現——很像那些我們所熟悉的但無法抗拒的視錯覺。

深思熟慮地進行推理和出於自動反應而做出某種行為是不同的,對這兩者的辨析是區分分析性推理和直覺性推理的基礎(Kahneman,2003)。Seymour Epstein和他的學生(Denes-Raj & Epstein,1994)發現,僅僅通過引導實驗被試回答「一個完全邏輯性思維的人會如何思考」這個問題,就能減少甚至消除Kahneman和Tversky提出的一些偏差(例如第5章的琳達問題及其他腦筋急轉彎類型的概率問題)。他們給自己的文章起了個恰如其分的名字:《人們什麼時候會與自己的最優判斷作對》。然而,一般而言,僅僅引導某人「理性地做」,還不足以誘導出理性思維。

當我們致力於利用邏輯、數學和決策理論作為評價一個判斷和選擇是否理性的標準時,在實踐中真正做到理性評價還需要更多的努力。第一,如何客觀表徵一個決策問題,以便可以應用理性原則,做到這一點並不總是那麼容易。即使有清楚的文字描述,例如本章一開始所舉的那個腦筋急轉彎問題,我們對於所要分析情境的認識仍有不完整、模糊甚至矛盾之處。此外,明確個體在情境中的確切目標通常是困難的,大多數理性分析都需要知道決策者究竟最重視什麼,以便定義一個理性的評價標準。因此,即使我們有很明確的理性標準,但判斷一個決策是否非理性、以及非理性到什麼程度仍是個問題。

第二,總是關注一個有充分信息、有足夠時間來安靜思考的人的短期行為表現並不合適。我們應該更關心人們在嘈雜的、有干擾的、信息不充分的環境中做出長期決策時的表現。在實際條件下,理想化的理性判斷並非一定就是適應性的最佳判斷。John Payne(Payne,Bettman,& Johnson,1993)、Lola Lopes和Gregg Oden(1991)及Gerd Gigerenzer(Gigerenzer,Todd,& the ABC Research Group,1999)所領導的一些學者近期探討了這一話題。這些科學家認為,在判斷和決策中,「快而省」的算法或啟髮式可能比理想化的計算更加穩健,更有生存價值;後者僅在信息、計算容量和時間都很充分的情況下才更有優勢。

到目前為止,我們以導致判斷出錯的認知過程及啟髮式為線,闡述了前4章提到的判斷錯誤,即已經完成了關於判斷中「行為方面」的討論。現在我們將要討論的是違反概率規則和邏輯的判斷錯誤,並且給出一些如何避免這些不理性判斷的建議。我們必須告誡讀者,推斷一個判斷過程到底先違反了哪一條概率論規則有時是困難的。因為這些規則互相關聯,很難確切地指出哪個是首要錯誤——是對需要判斷的事件中子集成員關係進行了錯誤地表徵,還是錯誤地認為兩個不同的可能性或不同概率是一樣的,抑或是忽略了與判斷有關的重要信息(如背景基礎比率)等。

8.5 如何思考逆概率

由於人們(包括本書作者)不認真區分那些容易混淆的逆概率而導致判斷出現偏差,對此我們已經給出了很多例子(參見章節5.10)。讓我們花一些時間來詳細分析一個具體的例子(來自於Gay McGee在1979年的一篇新聞報導)。

密歇根州海灣市,1979:本地有一名外科醫生,查爾斯·羅傑斯博士,他是全國範圍內採用先進療法治療乳腺癌的幾位先驅之一,他們的做法是在腫瘤形成之前就切除有高患癌風險的乳房。

乳房X光透視中所呈現的乳導管和小葉的形態是判斷是否存在發病風險的依據,屬於高患癌風險組的女性中會有一半以上的人在40到59歲之間形成腫瘤。底特律放射學家約翰·沃爾夫博士開展了諸多如上所述利用X光透視檢查乳房形態的研究。

被稱為預防性乳房切除術的外科手術包括去除皮膚和胸腔之間的乳腺組織和乳頭。

利用剩餘皮膚進行乳房復原的工作通常與切除手術同時進行。按照醫生的說法,植入硅膠和乳暈(乳頭周圍的深色皮膚)替代物,使術後的女性「看上去仍是個女人」。

他在兩年內已經對90名女性實施了這一手術。

手術的基本原理基於外科醫生對放射學家沃爾夫所做研究的解釋。報紙中的文章在此處繼續寫道:

沃爾夫的研究發現,大眾群體中每13名女性就有1名會患上乳腺癌,然而每2到3名DY型(高風險)女性中就會有1名在40到59歲之間患病。(斜體是後加的,沃爾夫並沒發現這一點,他的發現在下一段敘述。)

低風險女性(NI型)占總體的42%,她們中只有7.5%的人會患上癌症。通過檢查DY型女性和風險其次的P1和P2型,沃爾夫認為93%的乳腺癌可能在57%的人身上發現。

圖8.3 表徵羅傑斯乳腺癌問題的概率樹

在此問題中,減少混淆的一個方法是將問題轉換為系統的符號表徵。將每一個需判斷的情境轉換為概率論符號,然後仔細地應用概率論的基本規則。(參見章節5.10對比例規則的討論,更綜合的討論見附錄概率論部分。)讓我們來看看這一方法,將概率樹表徵應用於羅傑斯的例子。根據羅傑斯的數據,我們可以建立一個1000名典型女性的模型(見圖8.3中的表格)。注意到499+71=570,即總體的57%,這個數字表示高風險組人群的比例。同樣地,71/(71+6)= 0.92,表示92%的乳腺癌病例在57%的人口中被查出來。乳腺癌在總體中的患病率是(71+ 6)/1000 = 0.077。

讓我們回到羅傑斯對乳腺癌的研究,儘管92%的癌症在高風險組被查出是真實的,但一個高風險組女性患癌症的估計概率只有71/570或 0.12。(別忘了這些計算都基於羅傑斯自己的數據。)

應用比例規則可以更容易算出0.12這個數字。根據沃爾夫的數據,p(癌症)= 0.075,p(高風險癌症)= 0.93,且p(高風險)= 0.58。因此

根據大量信息所得出的統計結論並不支持文章中醫生的觀點。根據上述數字,低風險組女性患上乳腺癌的估計概率是6 /(424+6),即0.014。基於這篇新聞報導是不可能得出DY組在患癌症上是高風險的結論。

羅傑斯博士並沒有強調以上這個否定推論的價值。在強調所有超過30歲的女性都應該每年做乳房X光檢查後,文章引述他的話說:「最大的危險在於做乳房X光時沒有同時經由醫生做醫學檢查。很多時候醫生都檢查出了X光沒有反映的問題……這肯定是1+1大於3的一個例子」(McGee,1979)。

同意,但順便說一句,他的X光檢查建議同樣也是基於對逆概率的混淆而做出的。大約20%的癌症沒有被X光檢查查出——即外科醫生檢查出了「X光沒有反映的問題」。但這與檢驗中呈陰性(即正常)但其後患病的百分比有很大區別;p(癌症陰性)≠ p(陰性癌症)。事實上,在這篇文章寫作時,根據哈佛保險計劃剛剛完成並公佈的數據,前一個數字大概是0.5%,也就是大部分人都不會認為這意味著「極大的危險」。(公平地講,我們必須指出這篇文章沒有明確說明高風險組患者在羅傑斯做手術前到底有多高風險。我們評論的要點是,從理性的角度來講,他用於論證的整個推理過程是完全沒有說服力的。)

一般而言,若要思考逆概率,文字不是個好的媒介。很顯然,一些文字關聯並不對稱,例如,「玫瑰是紅色的」並不意味著紅色的花都是玫瑰。然而,其他的文字關聯也有可能是對稱的,「充滿氫氣的飛艇會爆炸」也可以說成「爆炸的飛艇充滿了氫氣」。我們很容易混淆對稱和非對稱的文字關聯。事實上,語言關聯常因其模稜兩可而遭人詬病。(例如,「天空並非整天多雲」意思是天空只在一部分時間多雲,還是整天晴朗無雲?)也有時候,人們用語言表達的信念是真誠的,但卻未完全理解其意義。(多少學生唱美國國歌時將o』er正確理解成over而非or?或者有人問「摩西用方舟接走了多少種動物」時,會有多少人信心滿滿地回答「兩種」,卻並未注意到接走動物的不是摩西而是諾亞——《聖經》所記載洪水中乘坐方舟而倖存的人)

然而對於很多人來說,不用詞彙思考是很困難的。事實上,一些卓越的思想家堅決認為不用詞彙思考是不可能的:「我們如何知道頭上有天空而且它是藍色的?如果它沒有名字我們還會知道它是天空嗎?」(麥克斯·穆勒);「語言由智慧所創造,並將創造智慧」(阿伯拉爾);「人類的本質是語言」(《奧義書》)。「最初產生的是詞彙」(《創世紀》第一章第一節)。但可能《楞伽經》的建議更加有用和正確:「信徒應該防範詞彙和句子及其虛幻含義的誘惑,因為無知者和愚蠢者將因此陷入困境變得無助,就像大象在泥漿中掙扎。」也許我們應該培養非語言思維模式,就像愛因斯坦寫道:「被寫或說出來的詞彙或者語言,似乎並沒在我的思維機制中發揮任何作用。」不過,具體的、視覺的形象也並不總比文字好,圖像也可能導致決策偏差。

符號,特別是代數表徵是有效的,但很多人並不擅長代數。幸運的是,圖像方法對表徵概率問題和日常情境很有幫助。我們數次利用韋恩圖來理清邏輯關係,特別是涉及條件概率的時候。但對於大多數問題,我們推薦使用決策樹和概率樹,因為它們的應用更加廣泛,且能更有效地組織與決策問題有關的數字信息。

8.6 避免次可加性與合取謬誤

當人們依靠相似性感知對涉及不同範疇的事件進行判斷時,很容易出現另一個臭名昭著的習慣性偏差,即估計了幾個獨立事件概率之後,發現其概率相加超過100%。例如,你的汽車無法啟動,這可能是由於電池故障、線路鬆動、輸油管阻塞、油箱沒油或安全帶擋住了點火裝置——這些可能性之和居然是1.55。在極端情況下,次可加性意味著單一子事件的概率大於上級事件(例如,琳達是一個女權主義銀行出納員的概率比她是銀行出納員的概率還大)。這個問題之所以被稱為次可加性,是因為整體的概率小於各個部分概率之和——在合取謬誤中,甚至小於其中某一單獨部分的概率。

圖8.4 表徵汽車無法啟動的一個似乎合理但並不完整的概率樹(「故障樹」)

如果我們用圖表來表示「我的車無法啟動的原因」中各個獨立子事件的關係,我們就不太可能得出一個大於100%的概率空間,我們也會更加敏感地估計各種故障的基礎概率(見圖8.4)。事實上,在人們做多子事件決策時,僅僅口頭提醒他們所有獨立子事件的概率之和不能超過1.00(只要他們能正確使用概率數字),就能有效地引導他們做出更加理性的推理。Lori Van Wallendael和Hastie(1990)曾要求高校學生解決一些偵探推理謎題。如果沒有提醒學生不同的、互相獨立的犯罪嫌疑人犯罪概率之和應該為1的話,他們的推理就會表現出很大的次可加性。當發現一些新的犯罪證據時,他們會更加高估嫌疑人犯罪的可能性,但同時對其他嫌疑人的懷疑卻不會降低。然而,如果提醒他們相互獨立事件的概率像「水泵」一樣有增就應該有減時,他們就會更加理性地權衡有罪與無罪的判斷。

概率樹和韋恩圖表之類的表徵(見圖8.5)也能夠減少合取謬誤。在章節5.8中,我們注意到如果畫一個韋恩圖表來表示「銀行出納員」和「女權主義的銀行出納員」之間的關係,那麼我們就不太可能認為「女權主義的銀行出納員」的概率高於「銀行出納員」。概率樹也可以防止我們犯這些思維表徵錯誤,而依據頻率框架來思考這個問題更能消除思維中的偏差。86%的高校學生在一開始的概率框架中會犯「琳達是女權主義銀行出納員」問題的合取謬誤,但當Klaus Fiedler(1982)再次用頻率框架來說明這個問題時,錯誤率降低到約20%(例如「假設有100個人符合對琳達的描述,那麼她們中有多少人是銀行出納員?多少人既是銀行出納員又是女權主義者呢?」)。

8.7 硬幣的另一面:事件的析取概率

考慮一系列事件1、2、...、k。假設這些事件是獨立的,即某一事件是否發生不影響其他事件的獨自或聯合發生。(獨立性的更準確定義見附錄。)假設這些事件都發生的概率(合取概率)是p1 × p2 × … × pk,那麼至少一個事件發生的概率是多少?也就是說,這些事件的析取(disjunction)(與合取相對)概率是多少?析取概率等於1減去所有事件均不發生的概率。第一個事件不發生的概率是(1-p1),第二個事件不發生的概率是(1-p2),依此類推。因此,所有事件均不發生的概率是(1-p1)×(1-p2)× …(1-pk)(詳見附錄。)即使由於每個pi很小從而使得每個(1-pi)很大,其乘積的結果也可能非常小。例如,設六個事件的概率分別為0.10、0.20、0.15、0.20、0.15和0.10。那麼(1-pi)乘積的結果為0.90 × 0.80 × 0.85 ×0.80 × 0.85 × 0.90 = 0.37,至少一個事件發生的概率即為1 – 0.37 = 0.63。儘管每個單一事件發生的概率都很小(平均為0.15),但其析取概率也可能較大。

圖8.5 表徵女權主義銀行出納員琳達問題的概率樹和韋恩圖表(為了得到一個不精確但大體合理的頻率,本圖作了一些頻率假設:美國人口中共有20 000 000名與琳達年齡相當的女性,一名女銀行出納員不是女權主義者的可能性比她是女權主義者的可能性高20倍,每1 000名女性中有2名是銀行出納員。)

就像我們傾向於高估事件的合取概率一樣(合取概率謬誤),我們也傾向於低估事件的析取概率。這可能有兩個原因。第一,我們傾向基於單一事件概率進行判斷;如上所示,儘管那些事件的概率都很小,但析取概率可能很大。我們將這種錯誤歸因於「錨定-調整」的估計過程;第二,導致我們低估單一事件概率的任何非理性因素——例如該事件難以想像——可能會導致我們低估整體的析取概率。在有些情況下,這個低估的問題很直觀、容易為人理解。例如,律師在總結時常常避免析取而趨向合取。(著名律師Richard 「Racehorse」 Haynes為說明「在選項中辯論」的錯誤而舉了一個幽默的例子:「比如你控告我,說我的狗咬你。那麼以下是我的辯護:第一,我的狗不咬人;第二,我的狗在夜晚是拴著的;第三,我不相信你真被咬了;第四,我沒有狗。」[3]還有更一針見血的,比如辛普森的著名辯護:「我沒有這樣做;沒有人看見我這樣做;你無法證明任何事情。」)當然,從理性而言,析取事件發生比合取事件發生的可能性要大得多。

這裡有一個與合取概率謬誤類似的析取概率謬誤的證據,即認為一個析取事件較其包含的單一事件來說更不可能發生(Bar-Hillel & Neter,1993)。然而,邏輯上講,如果理所當然地認為A且B的概率大於A單獨的概率(合取謬誤),那麼非A的概率就會小於非A或非B的概率。這是因為非A的概率是1減去A的概率,而非A或非B的概率是1減去A且B的概率。因此,前一個謬誤必然導致了後一個。事實上,如果我們能夠任意決定將什麼稱為A和非A(例如,稱非女權主義者為A,女權主義者為非A)、B和非B(稱非出納員為B,出納員為非B),那麼這兩個謬誤的不等式難道不是一樣的嗎?我們的回答是,它們在邏輯上是等價的,但在心理上不相等。我們是基於類別思考,而非他們的補集(即對立面)。對於一個受過訓練的邏輯學家來講,非A就像A一樣是定義明確的一個類別,但對我們而言A(可能有很多關聯)充滿了我們的腦海,非A(好像只有很少)卻沒有。我們需要一個福爾摩斯一樣的頭腦來想明白,「狗沒有叫」這個事實構成了至關重要的線索(表明狗與犯人相當熟悉)。這就是說,將「沒有叫」當做一個事件。

8.8 改變我們的想法:貝葉斯定理

在考察一個假設是否成立時,我們會不時接收到一些新的信息,這時,我們在判斷中的一個常見問題就出現了。我們需要調整關於該假設成立可能性的判斷。我們來看看內科醫生感興趣的一個問題,即醫生和患者到底如何解讀醫學檢查結果所呈現的新信息(Casscells,Schoenberger,& Graboys,1978)。

40歲以上婦女的乳腺癌患病率為1%。廣為應用的X光透視檢查會對10%未患乳腺癌的婦女報告出陽性結果,也對80%真正患乳腺癌的婦女報告出陽性結果。那麼一個在此年齡段得到陽性檢查結果的婦女,其真正患乳腺癌的概率是多少呢?(p.999)

當David Eddy(1988)問在一線工作的內科醫生這個問題時,100人中居然有95人回答「大約75%」。這個估計錯得離譜。對於這些每天都要做此類判斷的內科醫生而言,此判斷反映了他們在真實情境下根據X光檢查結果所做出的判斷,這個錯誤的確太大了。正確答案是多少?大約7%——比那些內科醫生的估計低了一個數量級!

計算正確答案需要用到代數方法。如果我們學習過概率論,那麼不難看出下式可用於解決這個問題,附錄提供了一個一般性(非正式)推導,參見附錄A.5:

原問題為我們提供了需要代入等式右邊的所有概率:p(癌症檢查前)= 0.01;p(陽性結果癌症)= 0.80,p(陽性結果患或未患癌症)= 0.107。最後一項0.107這個數據需要一些計算才能得出:如果一個人患癌症(1%婦女屬於此類),那麼結果是陽性患有癌症的概率是0.008(= 0.01 × 0.80);如果一個人未患癌症(99%婦女屬於此類),那麼陽性結果且未患癌症的概率是0.099(= 0.99 × 0.10);因為人只可能患或未患癌症,那麼我們將這兩個概率相加即得結果,0.099+0.008 = 0.107。我們將所有數據代入等式右邊,得:(0.01 × 0.80)/ 0.107,約為0.07。這個結果也可從更簡單的式子得來: p(癌症陽性結果)× p(陽性結果)= p(癌症)× p(陽性結果癌症)。

這個有名又有用的公式用於解決在給定條件下調整判斷的問題(比如更新了證據之後對某事件是否為真或是否會發生所做的判斷)。它被命名為貝葉斯定理(Bayes』 theorem),以紀念Thomas Bayes——一位在得到(對他來說的)上帝有所做為的豐富證據以後試圖以理性方法來評估上帝存在的概率時,以代數方法得出此公式的英國牧師。(令人驚訝的是,幾乎所有本書的讀者都能夠在問題得到清晰陳述之後,用概率論四個基本法則推出這個深刻的定理;見附錄。這個公式也能輕易地以概率樹的形式表示;見圖8.6,用概率樹呈現Eddy癌症診斷問題。)

當人們收到新信息並試圖更新關於該事件的看法和判斷時,會產生什麼系統偏差呢?我們要重複我們的忠告:通常很難指出判斷過程中究竟哪一部分的錯誤是致命的,而將偏差歸結為對概率論的特定誤解或誤用則更加困難。在Eddy的X光檢查例子中,我們可以把錯誤描述成未能考慮到另外一種可能,忽視了即使假設不成立、支持假設的證據也可能出現的可能性——即上例中的p(陽性結果未患癌症)經常被忽略。關注凸顯信息是我們在注意和推理時普遍存在的一個習慣;這甚至可以歸因於那些可得到的凸顯信息帶來的普遍偏差,正是這種信息支配著我們的判斷。(Nickerson,1998,提供了關於這種證實性偏差的全面介紹。)第二種錯誤是,忽視了單一事件發生的基礎概率(例如,低估了走進診所的人裡只有1%的乳腺癌症患者這一事實——在我們知道檢查結果之前)。

我們在這之前已經遇到過忽視基礎概率的壞習慣,其中最明顯的例子是章節5.8中的對Penelope主要研究領域判斷的錯誤,以及對工程師和律師的職業判斷的錯誤,人們之所以犯這些錯誤,是因為其判斷依據的是對各種人的性格概述和社會刻板印象。但如果根據概率論而非心理學給這個錯誤賦予一個概念的話,我們會說這是由於人們忽視基礎概率或對其利用不足。這裡有Bar-Hillel(1980)提供的另一個例子,在這個例子中基礎概率很顯然被忽略了(再次提醒,在閱讀本書關於每個例子的分析之前先做出你自己的判斷)。

圖8.6 表徵Eddy癌症診斷問題的概率樹和表格

某城有兩個出租車公司,根據它們各自出租車的顏色,分別命名為藍色和綠色公司。在所有出租車中85%的出租車是藍色,15%的是綠色。

一輛出租車涉嫌一樁深夜肇事逃逸案。目擊者事後確認那輛車是綠色的。法庭測試了該目擊者在夜間視覺條件下辨別藍色和綠色出租車的能力,發現他在80%的次數中能夠正確辨別各種顏色,但20%的次數卻與另一顏色混淆。

那麼你認為肇事車輛如目擊者所言是綠色的概率是多大呢?(p.211)

讓我們將這些信息依據貝葉斯定理一一呈現:在此問題中,最重要的基礎概率是道路上藍色、綠色出租車的比例,這應該成為判斷的起始點——在所有證據(例如目擊者證詞)呈現之前的「先驗概率」。Bar-Hillel(1980)發現,當她將此問題呈獻給不同群體的人時,人們普遍都忽視基礎概率;當人們聽到具體的目擊證詞時,基礎概率便黯然遁入背景之中。於是,Bar-Hillel發現,典型的答案是目擊者的正確率為0.80,人們並未根據基礎概率信息進行調整。如果我們將這些數字代入貝葉斯定理的公式中(見圖8.7),我們可以得到正確答案:0.41。

我們需要承認,上一問題的陳述有模糊之處:目擊者是否在「15%綠色出租車」的條件下接受測試,從而使準確率已在後驗概率的基礎上得以調整?進一步講,除了問題陳述中的信息以外還有其他解釋,即讀者可能將自身經驗得來的關於出租車、交通事故、目擊者等多種信息加入問題表徵(例如,見Birnbaum,1983)。然而,並沒有直接證據證實有人構想出這些備選表徵,除了那些想通過考慮備選表徵來批評Bar-Hillel結論的專家。事實上,本書作者之一(海斯蒂)收集的未發表數據大體與Bar-Hillel的解釋一致,即大學生按照前面呈現的貝葉斯公式來理解這個問題,但忽略了基本概率信息。

如何補救這些錯誤呢?第一,我們在章節5.10中指出,在陳述問題時,若將基礎概率與結果緊密聯繫在一起,特別當這種聯繫是因果關係時,人們更可能在決策中考慮基礎概率。Bar-Hillel(1980)提出了一個關於出租車問題的新的表述:「警察的統計數據表明,在由出租車造成的交通事故中,15%的肇事車為綠色。」基於這個因果聯繫,大多數人表徵問題時使用了基礎概率來調整目擊者識別的準確度(80%),儘管調整得並不充分(正如我們預期的那樣)。這些發現也許可以證明,人們本能地傾向於依據情境中的因果關係進行判斷是有其潛在道理的(見Krynski & Tenenbaum,2007)。我們推測,依據情境中的因果關係進行判斷可能是人們弄清楚事件之間大部分重要關係的直覺性途徑——當我們需要做預測、診斷或更新「情境模型」時,這條途徑尤為重要。然而,僅靠自發的基於情境的推理並不夠,當採用這種判斷模式時,我們討論過的大多數概率錯誤仍然存在。

圖8.7 表徵出租車辨別問題的概率樹和表格

第二,利用如上所示的代數符號表徵問題,會對判斷的結果產生重大影響。現在在醫療診斷情境中會有軟件為醫生提供決策幫助,先詢問醫生對相關「先驗概率」和「證據診斷力」的估計,然後計算事後概率。這些系統在重複的臨床判斷情境中改善了醫生的判斷,儘管醫生的直覺推理和系統的反應形式間仍存在一些心理層面上的不匹配。人們仍然很難估計「假定條件或疾病不存在時仍發現證據(測試結果、目擊者證詞、症狀等)」的條件概率。但如果一個要做判斷的人能按照貝葉斯公式慎重地闡述問題並列出所有相關信息,其表現就會得到改善。即使這個人僅用這個公式來組織其思維而非用於計算,我們基於以下原因仍認為其會有行為表現的提升:(1)能夠識別問題的不完全或模糊描述;(2)考慮到計算時所需要的不明顯信息;(3)有動機去搜尋某些特殊信息以及去思考與假設不一致的信息(例如,假定出租車確為藍色時目擊者說「綠色」的概率;假定患者未患癌症但檢查結果為陽性的概率;甚至嫌犯並非兇手但DNA檢測匹配的概率)。

第三,也是最有幫助的,我們建議利用圖表來表徵情境,引導信息搜索、推斷和計算,如圖8.6和圖8.7。要注意,按因果和時間順序來畫概率樹通常是最好的。在X光檢查診斷的情境中,先從40歲以上婦女的乳腺癌患病率為1%這個事實開始。然後,考慮X光檢查可能會為10%未患乳腺癌和80%患有乳腺癌的女性給出陽性結果這個事實。那麼,一位此年齡段的檢出陽性結果的女性確實患有乳腺癌的概率是多少呢?最後,我們提醒大家從頻率的角度來思考情境。例如,考慮1000個婦女接受了檢查,然後遵循相關條件來進行思考。

連貫地、理性地進行概率推理不僅僅是一個課堂作業的問題。我們會越來越多地遇到那些在法院、醫院、金融機構中以概率數值呈現的概率證據。想想看在辛普森刑事和民事審判中關於DNA匹配、血型證據的曠日持久的爭論——或者下面某女記者在其乳房內發現腫塊後向她的外科醫生們咨詢的故事(Kushner,1976):

「我希望你去做個X光檢查。這是乳房檢查的一種新方法。」

「這方法准嗎?」

他聳了聳肩,「可能跟其他片子的準確率差不多吧,你知道的」。接著,他警告說:「即使結果是陰性,就是說腫塊不是惡性的,想要確認的唯一辦法還是切除腫塊然後在顯微鏡下查看。」

於是,這位婦女與她的丈夫討論了一會兒這個問題。

「醫生說了什麼?」

「他希望我做一個X光檢查,之後,無論結果如何,都要把腫塊切除。」

「那幹嘛還要先做X光啊?」

「這得按順序吧,我覺得。醫生說85%的時候它都是準確的……所以,我們先安排個時間去做個熱譜圖。無論結果是陰性還是陽性,無論它和X光片的結果是否一樣,統計上說檢查結果有95%的可靠性。」

有沒有可能這位患者不必做檢查呢?或者有沒有可能無論檢查結果如何她都不需要去做腫塊活體檢查呢?

8.9 統計決策理論

我們對不確定條件下估計和判斷的討論引出了一個重要的理論性和現實性問題:我們應該如何利用判斷來決定是否採取行動?通常統計決策理論會提供「應該做」的規範化答案。(我們只能展示該理論的重要而精巧的部分;其餘可參見Macmillan & Creelman,2004;Swets,Dawes,& Monahan,2000)。讓我們來考慮一個簡單的例子,一位醫生評估病人患有嚴重疾病(如癌症)的概率並決定是否手術。(如今,這通常是由醫患雙方共同決定,儘管大多數病人希望醫生替他們決策。)圖8.8是描述這一情境的散點圖,表徵了很多相似患者接受這種判斷的情形。這種呈現方式可以總結數百萬個決定,其關鍵問題是:「多高的概率才能促使我們必須採取行動?」接受或拒絕、投資或不投資、進入或退出、轉手或不轉手、報復或不報復,等等。

「我必須採取行動嗎?」這一問題的答案基於這些概率(與你現有知識和需要推斷的真實情況有關)以及你對四種可能結果中的每一種到底有多重視。(提醒一下,在這個簡單但現實的例子中,如果我們能夠確定真實情況是什麼,我們當然知道如何做;但由於存在不確定性,我們不得不面臨艱難的選擇。)進一步講,如果我們知道該如何評價結果,我們就可以退回來計算一個規定行動與否的概率閾限,以便獲得最大化價值。

圖8.8給四種可能的判斷結果賦予了廣為人知的稱謂:(1)擊中(hit)或正確肯定(true positive),意味著正確判斷出目標條件,如正確判斷了癌症事件; (2)未擊中(miss)或錯誤否定(false negative),意味著錯誤的作出患者沒有患病的判斷;(3)虛假警報(false alarm)或錯誤肯定(false positive),意味著錯誤作出患者患病的判斷;(4)正確拒絕(correct rejection)或正確否定(true negative),意味著正確判斷出患者沒有患病。(這張圖描述的情景是,在200人中,30人真的患有癌症,170人是健康的,而醫生診斷與患病與否之間的相關接近+0.65。)

從散點圖中立即可得到的一個發現是,我們通過改變是否決定要做手術的閾限,就能夠控制多種判斷結果出現的比率。如果我們將手術閾限設為當判斷患癌症概率是0.60時,我們看到15例擊中,但也有15例未擊中(即占總體7.5%;30例患癌症者中的15例,即50%未擊中),但我們的代價是較多的虛假警報(即不必要的手術——總體10%;35例中的20例,佔到實施手術的57%)。如果我們將閾限降低到當判斷p(癌症)為0.50時,我們會提高擊中至20例,減少未擊中到10例,但代價是更多的虛假警報(30例,或總體的15%)。

圖8.8 統計決策理論圖表(此圖表徵了不確定性下的醫療決策,醫生判斷患者患有癌症的概率,並基於其判斷結果決定是否醫治患者。此處假設以健康狀況不同的200名患者來表徵該問題。判斷是中等準確的,判斷與真實健康狀況的相關為r = 0.65。判斷方法是,若p(癌症)大於0.60,則決定治療該患者;根據統計決策理論中的「擊中」「未擊中」「虛假警報」「正確拒絕」概念,針對200名患者的判斷和結果總結在圖下面的表格中。警告:統計決策理論的不同應用需要不同的總結表格;此處的表徵與心理學信號檢測論的慣例一致,後者是統計決策理論的一個有效版本。)

似乎很多政策討論都忽視了非常重要的一點:很多時候,仔細思考我們重視什麼,最想避免哪種錯誤,就能提高決策水平。我們通常無法提高診斷或其他判斷的準確率(在這個例子中,我們無法提高醫生的診斷準確率),但我們卻能權衡兩種錯誤(也包括「正確」)。如果未擊中的代價更高,我們可以降低決策閾限以便減少未擊中(但代價是更多虛假警報);如果虛假警報是更嚴重的問題,我們就可以提高決策閾限以減少虛假警報(當然代價是更多未擊中)。我們常常通過提高準確率來試圖避免這些悲劇性的權衡,這樣兩種類型的錯誤率都會下降。因此,這就是為何我們每年花費數十億美元來提高醫療、軍事、金融和氣象預報的準確性的原因所在。但是,幾乎不存在什麼政策情形能使我們能消除所有的不確定性。在大多數情況下,我們必須認識到我們總面臨著權衡和取捨,必須明智地討論我們看重什麼,再據其設定決策閾限(Hammond,1996)。

如果我們面臨權衡取捨,我們就要評估多個「判斷-結果」,之後應用統計決策理論來確定一個合適的決策閾限。例如,假設數字+100,0,+30,和+80分別代表四種結果對於我們的價值(擊中、未擊中、虛假警報、正確拒絕;價值的取值範圍約定俗成為0~100)。需要注意的是,對於不同人,這些價值可能有顯著的差異。一位患者可能最看重「擊中」的價值,但最不看重「未擊中」(就如我們在價值量表上的排序一樣),但一個政策制定者可能更看重「正確拒絕」而更厭惡「虛假警報」。我們的例子假定了單一的數字價值,我們可以據此計算出使價值函數取最大值的決策閾限。在這個例子中,當設置決策閾限p(癌症)接近0.55時,取得最大化的總體價值(因為計算過程涉及到微積分,故而省略)。

於是,在很多實際情境中,我們應該更努力地思考價值,而非準確率。但決定價值是一個複雜的過程,即便只涉及一個決策者(見下兩章),這是因為日常選項經常是多屬性且多目的的。我們在進行組織或社會政策分析時,必須綜合分析具有不同個人價值取向的利益相關者,這樣任務就會更加令人畏懼。然而,這些困難不應該成為我們更努力、更系統地思考的阻礙,我們應當從不同角度思考那些無法避免的權衡取捨。

8.10 關於理性的總結

如果一個科學理論無法說明事件何時發生,那麼懷疑者就會問:這理論有什麼用?事實上,一個徹頭徹尾的行為主義者(如果還存在的話)可能會批評這整本書,因為既然我們討論的現象都無法控制,那麼對它們的描述(和假設的機制)是沒有科學價值的。我們的回答是,到目前為止,我們在處理繁雜而令人困惑的真實世界中人們的心理事件和決策時,我們既無法完美地預測它們,又無法完美地控制它們。所謂「其他條件相同」的限定條件也常常證明了這一現象。預測實際結果時存在的不確定性,對於決策問題本身以及決策結果而言都是無法避免的。當然,可能有人會說,真正的科學家不應該研究這些不確定的現象,而應該僅限於研究環境中只有一個槓桿可動時,老鼠按壓槓桿的比率。(除了操控惟一能夠被操控的設置所產生的結果,還有什麼能改變老鼠的行為呢?)但若所有科學家都按照這個法則待在象牙塔裡,我們就不會有氣象學、農學、遺傳咨詢、計算機科學,還有許多其他實用的應用科學了。

當然了,完全理性的思維過程不保證一定可以獲得真實結論,還必須有實際、有效的信息輸入。當海斯蒂第一次講授他的判斷與決策課程時,他在滿教室20多歲的年輕人中發現了一位中年學生。過了幾節課,那位中年學生做了自我介紹並解釋了為什麼會選這門課程。就如那位學生所述,他遭受了一系列不幸,處於離婚和即將失業的陰影之中。他說,最初他非常困惑,為什麼這些事情會發生在他身上,但經過深思,他意識到他實際上只是一個龐大的「心理學實驗」中的一個被試。(事實上,他來哈佛學習的一個原因是他想要見B.F.斯金納教授,他相信斯金納教授就是控制他生活的實驗者。)他又引用了幾十個難以解釋的行為和事件,只有當他假設自己真的「在一個心理學實驗」中才能夠解釋這一切。海斯蒂想要他提供具體的例子,但他提出的證據都不夠有力,因為大多數例子在其他的假設下(即那位學生並不處在心理學實驗中)也有可能發生(例如,「我妻子打斷我的話,然後正好說出了我之前想要說的話」;「我下班後和同事正在喝酒,他說起公司正在裁員,僅僅幾天之後我就被炒魷魚了」)。不過,他的這一妄想系統的積極一面是,他相信這場實驗最終會結束並公之於眾,相信他已然顯露的天資(由於被實驗者所控制)將證明他有做領導的品質,能夠在政府高層擔任可靠的領導。

可能這則軼事最吸引人的部分是那位學生對於為什麼接近海斯蒂所做的解釋:他擔心自己由於對這些事件的解釋不理性而被欺騙。因此,為保證他不得到一個錯誤結論,他試圖盡可能小心謹慎地應用老師的忠告。選了海斯蒂的課之後,他意識到他需要慎重地運用貝葉斯定理,參考他收集到的諸多證據,來評估「我是一場龐大而神秘的心理學實驗的被試」這一假設的後驗概率。他在評估假設的計算方面希望得到幫助!

這個故事在那一學期並未結束。幾個月後,那位同學拜訪了海斯蒂,希望後者能在自己保住工作的訴訟中作證。但其僱主的精神科醫生已經診斷其患有嚴重的偏執妄想(海斯蒂覺得可能是真的);認為貝葉斯定理是他妄想系統的一部分,而且醫生還認為托馬斯·貝葉斯教士是其精神分裂症所導致的一個虛幻角色。(海斯蒂鄭重反對那位精神分析師關於托馬斯·貝葉斯是幻覺的斷言,儘管他也很懷疑那999999/1000000的後驗概率以及那位學生是某龐大社會實驗的被試這些結論。當然,準備證詞的經歷也使得海斯蒂懷疑,自己與這個模糊的歷史人物的交集僅僅只有一個以其名字命名的概率定理,為什麼自己就這樣堅信其存在。)「如果輸入的是錯覺,那輸出的也必然是錯覺。」——無論兩者之間經過多麼嚴密的計算。

我們一直致力於指出那些導致我們所有人做出非理性判斷和選擇(在非理性判斷的基礎上)的因素和思維方式。人們未必要陷入這些思維過程,如同一個驚慌的游泳者並不需要拚命將頭伸出水面。像游泳者的生存訓練一樣,我們能夠學會對抗這種本能反應而變得更加理性,但與游泳的例子一樣,這需要知識、自控和努力。然而,從一個規範的角度而言,學會區分哪些情形會促進或阻止特定的行為、哪些思維方式是有效的或無效的,這都是心理學家和其他社會科學家十分重要的成就。

最後,我們要指出的是,那些試圖掌握全部情境以便準確預測或控制的人,很少能比得上另外一些人,後者會在無法減少不確定性,而這些不確定性又起決定作用的情形下尋求適度目標。一個人試圖理解所有的事情,卻往往會一無所知。理解了思維的非理性並非一無是處,即使我們無法準確預測非理性何時出現,也並不總能知道如何控制它。

參考文獻

Bar-Hillel, M.(1980).The base-rate fallacy in probability judgments.Acta Psychologica, 44, 211–233.

Bar-Hillel, M., & Falk, R.(1982).Some teasers concerning conditional probabilities.Cognition, 11(2), 109–122.

Bar-Hillel, M., & Neter, E.(1993).How alike is it versus how likely is it: A disjunction fallacy in probability judgments.Journal of Personality and Social Psychology, 65, 1119–1131.

Bennett, D.J.(1998).Randomness.Cambridge, MA: Harvard University Press.

Birnbaum,M.H.(1983).Base rates in Bayesian inference: Signal detection analysis of the cab problem.American Journal of Psychology, 96, 85–94.

Brase, G.L., Cosmides, L., & Tooby, J.(1998).Inpiduation, counting, and statistical inference: The role of frequency and whole-object representations in judgment under uncertainty.Journal of Experimental Psychology: General, 127, 3–21.

Casscells,W., Schoenberger, A.,&Graboys, T.B.(1978).Interpretation by physicians of clinical laboratory results.New England Journal of Medicine, 299(18), 999–1001.

Denes-Raj, V.,&Epstein, S.(1994).Conflict between intuitive and rational processes: When do people behave against their own better judgment.Journal of Personality and Social Psychology, 66, 819–829.

Eddy, D.(1988).Variations in physician practice: The role of uncertainty.In J.Dowie & A.S.Elstein (Eds.), Professional judgment: A reader in clinical decision making (pp.200–211).Cambridge, UK: Cambridge University Press.

Fiedler, K.(1982).Causal schemata: Review and criticism of research on a popular construct.Journal of Personality and Social Psychology, 42, 1001–1013.

Gigerenzer, G., & Hoffrage, U.(1995).How to improve Bayesian reasoning without instruction: Frequency formats.Psychological Review, 102, 684–704.

Gigerenzer, G., Todd, P.M., & the ABC Research Group.(1999).Simple heuristics that make us smart.New York: Oxford University Press.

Hammond, K.R.(1996).Human judgment and social policy: Irreducible uncertainty, inevitable error, unavoidable injustice.New York: Oxford University Press.

Hastie, R., & Rasinski, K.A.(1988).The concept of accuracy in social judgment.In D.Bar-Tal & A.W.Kruglanski (Eds.), The social psychology of knowledge (pp.193–208).Cambridge, UK: Cambridge University Press.

Kahneman, D.(2003).A perspective on judgment and choice: Mapping bounded rationality.American Psychologist, 58, 697–720.

Kahneman, D., & Lovallo, D.(1993).Timid choices and bold forecasts: A cognitive perspective on risk-taking.Management Science, 39, 17–31.

Kahneman, D., & Tversky, A.(1982).On the study of statistical intuitions.Cognition, 11, 123–141.

Kahneman, D., & Tversky, A.(1996).On the reality of cognitive illusions.Psychological Review, 103, 582–591.

Koriat, A., Lichtenstein, S., & Fischhoff, B.(1980).Reasons for confidence.Journal of Experimental Psychology: Human Learning and Memory, 6, 107–118.

Krynski, T.R., & Tenenbaum, J.B.(2007).The role of causality in judgment under uncertainty.Journal of Experimental Psychology: General, 136, 430–450.

Kushner, R.(1976, March 24).Breast cancer—the night I found out.San Francisco Chronicle, p.C1.

Laplace, P.S.(1951).A philosophical essay on probabilities (F.W.Truscott & F.L.Emory, Trans.).New York: Dover.(Original work published 1814)

Lopes, L.L., & Oden, G.D.(1991).The rationality of intelligence.In E.Eels & T.Maruszewski (Eds.), Poznan studies in the philosophy of the sciences and humanities (Vol.21, pp.225–249).Amsterdam: Rodopi.

Macmillan,N.A.,&Creelman, C.D.(2004).Detection theory: A user』s guide (2nd ed.).Mahwah, NJ: Lawrence Erlbaum.

McGee, G.(1979, February 6).Breast surgery before cancer.Ann Arbor News, p.B 1 (reprinted from the Bay City News).

Meehl, P.E.(1986).Causes and effects of my disturbing little book.Journal of Personality Assessment, 50, 370–375.

Nickerson, R.S.(1996).Ambiguities and unstated assumptions in probabilistic reasoning.Psychological Bulletin, 120, 410–433.

Nickerson, R.S.(1998).Conirmation bias: A ubiquitous phenomenon in many guises.Review of General Psychology, 2, 175–220.

Payne, J.W., Bettman, J.R., & Johnson, E.J.(1993).The adaptive decision maker.New York: Cambridge University Press.

Sedlmeier, P.(1997).BasicBayes: A tutor system for simple Bayesian inference.Behavior Research Methods, Instruments, & Computers, 29, 328–336.

Sedlmeier, P., & Betsch, T.(2002).Etc.: Frequency processing and cognition.New York: Oxford University Press.

Swets, J.A., Dawes, R.M., & Monahan, J.(2000).Better decisions through science.Scienti c American, 283 (4), 70–75.

Van Wallendael, L.R., & Hastie, R.(1990).Tracing the footsteps of Sherlock Holmes: Cognitive representations of hypothesis testing.Memory & Cognition, 18, 240–250.

Vos Savant, M.(1991, February 17).Ask Marilyn.Parade Magazine, 12.

[1] 塞壬是希臘神話中半人半鳥的海上女妖,常用美妙的歌聲誘惑過路的航海者而使航船觸礁沉沒。英雄尤利塞斯率領船隊經過墨西拿海峽的時候,因為事先得知塞壬的致命誘惑,所以命令水手用蠟封住各自的耳朵,並將自己綁在船的桅桿上,方才安然渡過。——譯者注

[2] 拉普拉斯(1749~1827),天體力學的主要奠基人,天體演化學的創立者之一,分析概率論的創始人,應用數學的先軀。——譯者注

[3] 越往後,論點越趨向於一個「合取事件」,越難以被推翻。——譯者注