讀古今文學網 > 不確定世界的理性選擇:判斷與決策心理學(第2版) > 第3章 判斷的整體框架 >

第3章 判斷的整體框架

心理學已經忘卻了自己是一門研究有機體和環境之間相互作用的科學,而演變成了一種只研究有機體的科學。這讓人不禁想起了那些大男子主義膨脹的中世紀神學家,他們認為只有男性擁有靈魂,而女性沒有。

——埃貢·布倫斯威克(1903~1955)心理學家,在機能主義和心理學史上做出過重大貢獻

3.1 判斷和預測的概念框架

「這場災難不應該歸咎於錯誤的安排,而應該歸咎於所有風險中我們不得不承受的厄運……我們冒著風險,我們知道我們必須承擔;總有些東西出來阻止我們,因此我們沒有理由抱怨,只能向上帝的意志鞠躬,下定決心,盡最大的努力堅持到最後。」這些文字出自英國探險家羅伯特·斯科特的臨終遺言。這位探險家沒能尋找到南亟亟點,在僅離返回補給站17公里的地方,因飢餓和精疲力竭湮沒在南極的冰天雪地裡。斯科特意味深長的遺言把他和他的隊友們描繪成了英雄——被不可戰勝、變幻莫測的自然擊敗的英雄。但是歷史似乎並不善待斯科特,如今,大多數的評論家都認為在斯科特進出南極的多次艱苦跋涉中,除了不可預測的不利事件之外,他一次又一次糟糕的判斷應當對他的失敗負責(Diamond,1989;Huntford,1999)。斯科特做了很多糟糕的判斷,比如補給站的選址,隊員、駝獸和機器的耐受力,還有探險中無數其他的細節。

本章將介紹判斷的心理機制,介紹人類推理、估計和預測未知事件及其特性的能力。我們的判斷能力常常會受到各種系統誤差的影響,其中最突出的一個就是簡單的過度自信。

人類的大腦可以超越我們的感官提供的信息,並進而超越這種「被動的提供」,成為地球上任何其他有機體的神經系統都無法媲美的「天然設計」。即便是不費吹灰之力的三維物理知覺,單靠視網膜上提供的信息,在數學上也沒有辦法實現(Attneave,1954;Pinker,1997)。然而進化卻授予人類一套擁有特殊構造、可進行假設推理的認知系統,讓我們能在三維世界裡自由航行而不至於撞到大塊礁石。我們的視覺系統非常擅長做一些無意識的推理,以至於我們幾乎沒有辦法用能意識到的經驗來檢驗我們是如何做出這些推理的。在一些腦損傷的案例中,盲視現象表明,即使因主要的視覺皮層受損而不能知覺到知覺過程本身,我們依然能做出判斷。本章將要介紹的是判斷的加工過程,這些加工過程讓我們擁有一系列(傲人)的成就。從預期一個球的飛行路線,到內科醫生通過一系列縝密的推理去判斷病人的腎臟到底出了什麼問題,無一不是判斷的結果。

現在,我們將集中關注判斷過程的心理,此處的判斷特指那些以推斷外部世界某些狀況的本質為目標的判斷(那種把判斷視為衡量後果與個人價值觀的內部心理活動的觀點不在我們的討論範圍內)。在心理學領域,已經發展出一套專門的概念框架,用來處理事件和可能的行動路線及其結果之間的判斷和預期。在今天看來,這套框架及其相關術語可能有些陳舊了,但是其中的基本概念仍然提供了一個極好的組織方案,可用來總結在不確定性無法減少的情境下的判斷。不確定性無法減少,指的是在決定採取什麼樣的行動之前,不確定性是不能被排除的。

這個框架被稱為透鏡模型(Lens Model),由奧地利籍美國心理學家埃貢·布倫斯威克提出(Hammond & Stewart,2001)。我們的感官並不能與外部世界的物體和事件發生直接的聯繫,而只能通過介於外部物體和內部知覺之間的「透鏡」來獲取信息,這就是「透鏡模型」名字的由來(Pepper,1942)。透鏡模型分為兩個部分,右半部分表示的是人們在做出判斷時頭腦中的心理過程,而左半部分表示的則是人們所處的真實世界中的事件和關係。這個框架提醒我們,一個完整的判斷理論必須包括行為發生的環境。我們之所以稱之為框架,是因為它不是一個描述判斷過程細節的理論,而是借此把判斷情境的各個部分裝進一個概念模板之中。這一有效的模型也有助於更深入的理論分析。

圖3.1 整體判斷過程的透鏡模型概念框架

讓我們通過概念圖(圖3.1),用透鏡模型來分析一個判斷的例子。假設我們要估計在街上遇到的某個人的生理年齡。(性別、年齡以及種族的判斷通常都是自動加工的過程。)透鏡模型把判斷看成是一個過程。在這個過程中,我們試圖通過離事物最近的透鏡——也就是那些我們最容易得到的被稱為線索的信息——去看清楚世界的真實狀態(這個人的年齡)。在這個例子中,我們做出判斷很可能是通過觀察並且依據以下這些線索:頭髮的特徵(是銀白的還是禿頂的)、皮膚狀況(是光滑的還是有皺紋的)、身體狀況(看起來是勻稱挺拔還是老態龍鍾,是步態輕盈還是步履蹣跚)、他的衣著(是時髦艷麗還是保守古樸)、他的聲音(是稚氣未脫的、青春少年的、尖銳的、還是蒼白無力),或者其他能支持年齡推斷的線索。從這裡我們就可以看到,就算是年齡大小這樣的直覺判斷,一個正在做判斷的人也不能報告出來他們依據的究竟是什麼樣的線索。

透鏡模型圖的左半部分概括了所謂的效標與可能指向那些情形的線索之間的關係,效標指的是現實世界中真實的、待判斷的情形,也即上例中那個男人的年齡。在年齡判斷的例子中,物理人類學的研究能夠闡明圖表左邊一列因素之間的關係:生理年齡與它自己產生的可見的線索或者符號之間真正的關係究竟是什麼?在人們的概念中,這些關係通常是因果關係。要麼是直接的因果關係,效標情形或者結果產生線索;要麼是間接的因果關係,效標情形產生或者調節線索的價值。圖中間是線索「透鏡」,通過它把判斷與判斷的效標或者目標聯繫起來。連接線索(X1,X2,……)間的箭頭,表示在大多數判斷中線索之間存在的相互依賴關係或交互關係。圖的右半部分是模型框架中判斷的心理過程。它顯示了人們整合線索所傳達的信息,以便形成估計、預測或效標價值的判斷這樣一個推理過程。圖中標著「成就」的拱形曲線表示判斷者對待判斷效標進行準確評估的能力。

用統計模型去獲取一個人內部的心理「判斷策略」(透鏡模型的右側部分),在讀者看來或許有些奇怪,因為大家早已熟悉了外部世界中變量與變量之間常用的關係模型(透鏡模型左邊的部分)。為了清楚地說明統計模型在內部心理過程的應用,讓我們來看一個具體的例子吧。

幾年前,一些學生對本書其中一名作者(海斯蒂)在評估他的博士項目申請人時使用的判斷策略非常感興趣。每年項目組都會收到近125份申請書,海斯蒂會一一閱讀這些申請材料,評價每個申請人進入項目的資格。為了研究需要,他的學生審查了每個申請文檔中的內容,並把海斯蒂判斷時可能依靠的28條最突出的線索賦予了量化分值。其中一些信息本身就是定量信息(比如年齡,測驗分數和GPA分數),但是其他的信息大多數都是非定量的,必須經過編碼。比如「大學學習質量」這個指標用四點評份量表來編碼。這個評份量表是根據全美國流行的評級服務和由學生研究員主觀評價出推薦信的熱度編製出來的(擁有較高的評分者一致性信度)。

然後海斯蒂審查了兩年來錄取過程中的申請材料,並且製作出了一個評定入選資格的10點評份量表。學生們利用245份申請中28條信息和海斯蒂的10點准入資格量表,構成一個矩陣,採用統計分析的方法來確定一個最適線性模型,預測海斯蒂從這28條線索中做出的評估(參見Freedman,Pisani,and Purves,2007或者別的有關這些分析細節的統計模型)。基本上,這種方法能夠粗略地估計不同信息對海斯蒂關於這245份申請做出判斷會產生什麼影響。雖然小心翼翼,但我們還是可以說統計模型能夠總結海斯蒂做出准入判斷的策略(透鏡模型的右邊)。在這個例子中,方程如下所示:

這個方程告訴我們海斯蒂怎樣的判斷習慣呢?首先,他僅僅依據四條信息——兩個測驗分數、推薦信和大學學習質量。第二,他顯然在很大程度上依賴於標準化能力測驗的分數。最顯著的結果就是這個模型對海斯蒂整體行為的預測有著相當好的效果。模型的預測和海斯蒂真實評估之間相關係數是0.90。為了驗證這個相關關係的正確性,海斯蒂在做完了245個申請書評測的兩周之後,又找了50份申請書,重新進行了一次判斷,考查海斯蒂第一輪和第二輪判斷之間的相關,結果,信度為0.88。換句話說,這個模型捕獲了海斯蒂在准入資格評判預測習慣中可用的每一個可靠的線索!

儘管在描述海斯蒂的行為上有著不俗的表現,但該模型並不一定能告訴我們,我們到底應該如何進行准入評估。要想做到這一點,我們就需要分析環境中各種線索與效標之間的關係,也就是透鏡模型的左半部分(見Dawes,1971,一個研究生准入資格的分析)。

3.2 透鏡模型框架的研究

透鏡模型既然是心理學家為了研究需要提出來的,那麼它就可以被看成一個用來分析判斷過程的藍圖(Cooksey 1996年提供了一個很好的方法論介紹,並且綜述了來自這個研究範式的結果)。一旦將判斷作為研究變量,那麼第一步就要確定和測量判斷所依據的是哪些線索。這通常是一個很艱苦的工作,因為在所有有效的線索被發現之前,需要多輪的測量和試驗。顯然,對於直覺判斷過程來說,這項工作就更加困難了,因為判斷者根本不知道自己判斷時依靠的是哪些線索。通常,專家需要做出重要決定的時候,這種狀況就會出現。對於內科醫生、工程師或者財務分析師來說,「分解」他們高度實踐和自動化的判斷過程並解釋「那是如何完成的」是相當困難的。就拿年齡判斷的例子來說,一開始我們可能會根據自己的直覺來判斷,或許會向人請教他們是如何做判斷的,或許查閱一些人體測量文獻中關於老化的精確信息(一個良好的初次推測會適應性地使用科學上正確的線索來進行判斷),最後形成一套初級的備選線索。然後我們會進行一個年齡判斷的研究,並且保持一個開放的心態,相信在判斷過程中,那套最初的線索可能需要進行調整,一直到它包含了判斷過程中人們會用到的額外線索。

分析的第二步就是依據概念圖的左邊部分創建這個事件的模型。線性回歸模型常常被用來分析效標與線索之間的關係,依據的是效標與每個可能被判斷者用來推斷效標的線索間的多個相關係數(參看介紹線性方程的初級統計教科書,如,Freedman,Pisani,Purves,& Adhikari,1991,或Anderson,2001)。在這種分析中,相關係數(或者是相關的統計量)表明的是效標和線索之間的相關強度(線索的生態效度)以及線索和判斷之間的相關強度(通常稱為線索利用係數,或者更確切的說是線索對判斷的心理影響力)。儘管在很多領域,線性方程令人驚訝地、完整地概括了外部環境。模型的建造者仍會意識到,有時候線性模型也只是一個外部環境動力系統的簡化或者縮影。幾乎可以這麼說,我們所經歷的世界被近似的線性關係所主宰。

研究的第三步就要跳到圖3.1的右邊了。這就涉及對線索利用的心理過程建模並檢驗:人們是怎樣利用線索對效標情境做出推斷的?又一次,研究者會發現線性模型能夠很好地描述這一情況。通常的研究策略是搜集待判斷刺激的樣本——舉個例子,給被試呈現各個不同年齡段男人的錄像,讓其判斷每個目標的年齡。此時判斷者利用線索的習慣就會被代數方程所捕獲,這個方程把判斷和每個線索的權重聯繫起來(值得注意的是,這種分析的結果取決於研究者使用心理意義上的數量量表來測量線索價值的能力)。研究文獻很清楚地表明,線性方程是描述線索利用過程最普遍的原理。神奇的是,不論日常的還是專業的判斷,人們看上去就像是使用量表對線索進行測量、分配權重和做加減,從而推斷出線索所隱含的意義。

想像一下你坐在一個醫生的診室,觀察她診斷病人的過程。每個病人一進來就會先訴說自己病史,然後描述一些當前的症狀。接下來醫生通常會讓病人去做一些實驗室檢查,也有可能是X光(或者是別的掃瞄檢查)。綜合了所有資料之後,醫生就能做出診斷,判斷出病人到底出了什麼問題。把數周以來搜集到的和病症有關的資料記錄下來,就可以得到這個判斷任務中的線索(如病人的病史、症狀和檢查結果)和診斷的優良樣本。或者,現在我們把情境轉換到繁忙的招生辦公室,想像一下考官正在審閱申請資料——對成就的客觀性測量指標如測驗分數、中學成績,還有更多的像推薦信、課外活動以及個人陳述等主觀性材料進行審查——然後在眾多申請人中做出錄取判斷。同樣地,你可以一直觀察,直到獲得了相當數量的關於線索和判斷的樣本為止。

用透鏡模型方法分析判斷,是通過代數模型計算每一個線索對某個個案的價值的總權重,從而預測判斷者(內科醫生或者大學招生老師)的判斷。計算總權重的基礎是每條線索和判斷之間的線性相關係數;在其他條件都相同的情況下,相關係數越大,權重也越大。這個模型也可以擴展到非線性相關關係中(例如U型函數關係中,極端值在判斷中就佔據高權重——比如極度消瘦和極度肥胖的病人生病的風險較高,而適中體型的人生病的風險就要低很多;又比如一個大學招生辦的老師要麼喜歡參加了很多課外活動的申請者,要麼喜歡專注於某一項活動的申請者,但是不會喜歡「平均的人」,即參加了2~3個活動的申請者)。這個模型也適用於基於聯合線索進行判斷的構型(configural)關係(比如血液中某種荷爾蒙含量處於較高水平,這對女性的身體是有害的,但是對於男性卻沒有什麼影響;參照下面變量間「交互作用」關係的討論)。在這裡,我們又一次「令人驚訝地」成功運用了簡單線性模型。之所以說驚訝,是因為很多判斷者都聲稱他們做出判斷的心理過程遠比線性方程的預測要複雜得多——但事實上,線性方程卻出色地「捕獲」了他們的判斷習慣。

如果我們掌握了判斷樣本的效標值,我們同樣可以計算出透鏡模型範式左邊一欄的總括模型。然而,在現實判斷任務中,很難獲得效標值。在醫療情境中,要讓一個醫生追溯病人的病史,評估病人當前的情況並判斷最終的治療結果是件特別浪費時間的事情;類似地,在大學招生的情境裡,我們也沒有獲取能夠代表那部分未被錄取的學生會在大學成功的效標值。通常我們感興趣的是判斷的心理過程,也就是透鏡模型右邊的一欄,而不是全部框架結構中所包含的完整的環境行為系統。

從醫療診斷到高速路安全的判定、從股票價值到牲畜質量的判斷,研究者都做了成百上千的研究(Brehmer & Joyce,1988)。不同的判斷領域(比如,天氣預測、內科醫療、大學招生和牲畜價格的判斷各不相同)和不同的判斷者(不同的個體會對不同類型的線索給予不同的權重——除去少數真正出色的判斷專家外,大多數所謂的專家並不比一般新手懂得更多,見Sherden,1998)其結果存在著很大的差異。冒著過分概括的風險,我們在這裡大膽地總結一下專家和外行人典型的判斷習慣:

1.判斷者(甚至是專家)傾向於只依靠相對較少的線索(通常是3~5條)來做出判斷。但也有例外,比如說在專業的天氣情況判斷和牲畜質量判斷方面。在這些例外的領域中,判斷者之所以會對更多的線索保持較高的敏感性,是因為判斷者在學習如何做出判斷的訓練中得到了及時和準確的反饋(這與醫療診斷、招生決定或者金融預測等領域的訓練不一樣。這些領域裡,判斷者得到的通常是延時反饋或者沒有反饋)。

2.只有很少的判斷策略是非線性的;大多數是可加的和線性的——這與大多數判斷者對自己判斷過程持有的看法相反。

3.判斷者對自己的判斷策略缺乏洞察——他們不能準確地評估自己判斷時的「線索利用權重」——尤其是專家或有著豐富經驗的人。

4.很多研究(例如,學生對於外表吸引力的判斷、教授對研究生院招生的判斷、放射研究者對於腫瘤惡性程度的判斷)表明,判斷者在選擇判斷策略(線索利用權重的模式)時存在很大的個體差異,並且判斷者在判斷他們自身時,判斷者之間的一致性也很低。在像醫療診斷這樣重要的領域,這個結論格外令人不安,因為我們希望我們的醫療專家的診斷能和別的專家(以及生物學理論)保持一致。至少,判斷者之間的不一致告訴我們,一定有人錯了,這會破壞我們對所有判斷的信心。

5.給判斷者呈現有聯繫但是非診斷性的、不相關的信息時,判斷者會對自己判斷的準確性更自信,儘管實際上其判斷準確性並沒有增加。

由本研究粗略勾畫出來的專家形象並不令人恭維。然而,本節的關鍵信息是,在對判斷者的表現做出任何結論之前(要麼是自覺地承認他們的睿智和準確,要麼就是不分青紅皂白地認為所有的判斷者都無能),我們必須仔細地審查他們的表現——並且做好大吃一驚的準備。很多自大的專家揣著一堆文憑,風度似乎也著實令人欽佩,但是其判斷的專業水準可能跟一個大學二年級的學生相差無幾。儘管如此,也確實存在一些真正的專家,的確值得我們遵從和聘用。

3.3 在統計模型中捕獲判斷

歷史上一些早期的心理學研究提到了一個關於判斷的問題:是否受過訓練的專家比由統計推導以及加權平均所計算出的結果有更高預測力。採用多元回歸法分析透鏡模型框架(見圖3.1),我們會想到以下的問題:哪個更好?框架圖左邊的線性統計模型總結還是框架圖右邊的人類判斷?大量心理學家和行為科學家研究過這個問題,他們感興趣的是預測大學成就、違反假釋條例的可能性、精神病診斷、醫療診斷、投資價值以及商業成敗的結果。早期的研究中,臨床專家做出推斷時所依據的信息通常也被用到線性模型中。典型情況下,這些信息包括測驗分數或者傳記事實,但有一些研究也包含了觀察者針對某些具體特性做出的評定。所有的這些變量都能夠編碼成與待預測的效標結果成正性或負性相關的數字(高測驗分數和績點能夠預測在隨後的學術工作中更好的表現;較高的白血球數預示著更嚴重的霍奇金淋巴瘤病症;更多的白髮和皺紋表明這個人的年齡更大,等等)。

1954年,Paul Meehl出版了一本極具影響力的書,書中提到了近20個類似的研究,同樣都是把人們(心理學專家和精神病專家)的臨床判斷與僅基於實證數據的線性統計模型的預測力做對比(即透鏡模型的左邊)。所有這些研究的結果中,統計方法表現出了更準確的預測力(或者兩種方法打成平手)。差不多十年之後(1966),Jack Sawyer考查了45篇對比臨床判斷和統計模型預測力的研究。其中,沒有一個研究顯示臨床的判斷比統計預測(Sawyer把它叫做「機械性組合」)具有更準確的預測力。與Meehl不同的是,Sawyer除了考查臨床和統計兩種模式下基於同樣信息量去做預測的研究之外,還考查了兩個獲取了更多信息的臨床判斷研究(每個被評估的人都接受了訪談),但對比的結果卻顯示人工判斷的預測準確率較低(這些研究中還有這樣一個案例,二戰期間有37 500名水手接受美國海軍訓練,對其在訓練中的表現,僅僅依靠他們的成績或測驗分數或兩者結合來做預測,要比既考慮成績和測驗分數又經過判斷者面試後所做出的預測更加準確)。

同樣是在1954年,E.Lowell Kelly研究並探討了非結構化面試作為一種預測技術幾乎完全缺乏效度。(近年來的相關研究請參看Hunter & Hunter,1984,和Wiesner & Cronshaw,1988)。目前尚未有證據表明非結構化面試能提供除了過往行為以外的重要信息——除了能說明面試官是否喜歡來訪者,這一點在某些特別的情境中很重要。(一些同學認為面試是為了避免招進「書獃子」,但是他們卻不知如何在現場面試中確定一個人是書獃子,甚至,他們都不知道如何定義「書獃子」這個詞。)

Lewis Goldberg(1968),一位在如何使用線性模型分析判斷方面很有影響力的心理學教授,報告了心理診斷中的一個有代表性的研究。Goldberg請一些有經驗的臨床心理診斷師依據人格測驗分數,辨別病人到底得了精神病還是神經症(診斷結果對心理治療實踐中療法的選擇和保險範圍有重要意義)。他構建了一個簡單的線性決策規則(把病人在三個量表上的得分加起來,然後減去病人在另外兩個量表上的得分;如果結果大於45,病人得的就是精神病)。開始時用新病例為樣本,以他們的出院診斷作為待預測效標值,結果,「Goldberg法則」的預測準確率達到了近70%。與此相比,人工判斷的準確率剛超過隨機猜測的概率(50%),最高也只到67%。所以,即便最好的人工判斷也比不過機械的加減法則。

Hillel Einhorn(1972)又做了一個統計預測和臨床預測的對比研究。他研究的是,在霍奇金淋巴瘤還沒有治癒方法的時代(1970年代以前)如何預測患霍奇金淋巴瘤的病人的生存壽命。(Einhorn之所以對這個病感興趣,是因為他當時剛被診斷出患有霍奇金淋巴瘤。他在1987年因此病逝世。)一個世界級的霍奇金淋巴瘤專家和他的兩名助手對患者的活體組織切片的九個方面進行評估(即線索),並對每個病人病情的「嚴重性」進行總體評估。根據病人的死亡情況,Einhorn把專家的總體評估和病人的實際壽命做了一個相關分析。就算專家評估出來的病情不能準確到預測死亡的時間,但最起碼也能夠預測一個大概的趨勢(至少這個專家是這樣認為的)。而Einhorn發現並非如此。事實上,連這個大概的趨勢都是錯的:被評估為病情嚴重的病人反而活得更長。用專家們在評估時使用的組織切片的九個方面的特徵作為數據,多元回歸分析方法卻在預測病人壽命上擁有更準確、更可靠的結果。

另一個驚人的例子來自於Robert Libby(1976)。他讓43名銀行信貸人員(其中有些人是在資產高達40億美元的銀行中就職的高級信貸人員)預測60家公司中的哪30家在未來三年裡即將因為財務報表問題破產。為了方便這些信貸人員做預測,這些公司的各種財務數據(線索)都會提供給他們,比如總資產中固定資產的比率。結果,人工判斷的準確率只有75%,而基於同樣數據的回歸分析,其準確率達到82%。事實上,僅用資產負債率一項來進行回歸分析,其準確率都能達到80%。

從這些研究中我們可以得到一個經驗,那就是在許多判斷情境下,我們有必要向專家咨詢他們會使用什麼樣的線索,但要讓機械模型來整合線索做出判斷。總體而言,線性組合模型優於人工總體判斷。這個規律適用於許多不同的情境。在某些醫療和商業情境而不是心理學中,人工判斷有時會顯示出優越性,這是因為在這些情境中,人們多數是根據「內部信息」做出判斷的,而這些信息並不適用於統計模型。如果要確保比較公平的話,就要保證專家和模型能使用相同的信息線索。一旦統計模型接收了外部信息——至少在下面的例子中——它的預測力就會略勝一籌。(比如預測重症監護室24小時內病人的存活率;參照Knaus & Wagner,1989)。Meehl後來又幾次更新了他的經典結論,1996年,他和同事總結道:「對兩種方法的預測準確性進行實證比較(包含136個涉及各種預測的研究),其結果表明,機械的方法幾乎總是和臨床方法不相上下,甚至更加優越」(Grove & Meehl,1996,p.293)。

3.4 統計模型是怎樣打敗人工判斷的

為什麼線性模型的預測要好於臨床專家呢?我們可以通過以下三個假設性「原理」來解釋:一個數學原理,一個「自然」原理,一個心理學原理。

數學原理是指個體變量間的單調關係和單調(順序的)交互作用都近似於線性模型。這種交互作用呈現在圖3.2中。當兩個因素聯合起來的效應大於這兩個因素各自作用之和的時候,我們就稱這兩個因素存在「交互作用」:但是當一個變量和結果之間的關係方向獨立於另一個變量存在時,這兩個因素就沒有交互作用。真正的單調交互中,高-高作用和低-低作用是不相似的,但高-高(或低低)會比用每個變量單獨分析要高得多(或低得多)。如果高-高和低-低相似的話,交互作用就稱為交叉,見圖3.2。

舉個例子,道斯的一個博士生(Glass,1967)把酗酒和非酗酒囚犯分配到輕鬆或者充滿壓力的兩種不同體驗中做實驗。在接受心理學家對其過往經歷的訪談之前,先讓這些囚犯在休息室等待20分鐘。在休息室中放有無醇賓治酒,實驗要觀察的變量是這些囚犯飲用賓治酒的量,操縱的變量是不同的體驗,輕鬆的或者充滿壓力的。經歷了輕鬆的體驗後,酗酒者和非酗酒者喝了幾乎一樣多的量。但是在經歷了壓力體驗後,酗酒者的飲酒量是非酗酒者的兩倍(參看圖3.2中間的兩個圖)。因此,我們就可以在壓力和酗酒者的飲酒行為之間發現一個真正意義上的「單調交互作用」:飲酒量並不能被任何一個影響因素單獨預測。在這個例子中,只有把酗酒和壓力聯合起來考慮才能有效地預測一個人的飲酒行為。然而,一項統計分析表明,這個交互作用可以近似等於兩個獨立的主效應:1.酗酒者會喝更多的酒;2.所有的被試在經歷壓力後都會喝更多的酒。只有兩個主效應的情境是純粹線性的。

為了澄清我們的數學原理,請看圖3.2中的第一個。圖中反映的是兩個變量之間只有簡單和獨立的主效應:一個主效應是酗酒者會喝得更多(不管在什麼情況下),另一個是在壓力的情境下囚犯會喝得更多(不管是酗酒者還是非酗酒者)。線性的加權模型能很好地擬合數據。圖3.2中最後一個圖反映的是交叉交互作用,這是交互作用中最複雜的一種情況。在輕鬆的情境中,酗酒者喝得更少;但是到了壓力情境中出現了反轉,酗酒者喝得更多。這種情況下,線性模型就不能表示這種效應了,哪怕只是近似地。然而在實際應用中,交叉模式的因果關係是非常罕見的。所以正如我們觀察到的,在非交叉的關係(更為常見的)中,線性模型幾乎都能夠很好地表示變量間的關係。(見圖3.2第三幅圖中的虛線部分。也可以參考任何一本優秀的介紹統計方法和數據分析的著作,例如Norman Anderson 2001年版的統計書就非常優秀;另外,Robert Abelson 1995年的《統計:原則性的討論》(Statistics as Principled Argument)也是一本見地深刻的著作,在這些書中,包含了交互作用的透徹討論及其在行為科學中的解釋和應用。)

圖3.2 交叉交互作用和非交叉(單調)交互作用的例子

自然原理指的是,大多數交互作用都是單調的,這個原理部分地解釋了為什麼統計線性模型會如此成功。對兩個變量做交叉交互作用假設很容易,但要想在日常生活中發現卻很難,尤其是在心理學和社會交往領域。因為某個變量取得最佳值通常都不依靠其他變量,所以大量的交互作用都是單調的。此外,雖然在社會交往領域存在一些交叉交互作用的假設(比如,獨裁的領導方式在一些情境中很有效果,而自由的領導方式在另外一些情境中會有更好的效果),但最後往往發現只有口頭聲明和選擇性的事後數據分析能驗證它。事實上,Goldberg(1972)在研究教學方法與學生特點的「匹配」如何預測學生學業成就中發現,任何一種類型的交互作用都是暫時的。他在一個大樣本數據集的一半中,發現了38個交互作用,而在另一半數據中只獲得24個同一方向的交叉驗證(同隨機的19個交叉驗證相比,在統計上顯著差異)。

心理學原理指的是,人們很難同時注意到刺激或者情境中兩個或者更多非可比的方面,這也許能解釋線性模型預測為什麼會成功(除「非可比性」之外,「獨立可分性」和「非可比性」也是標明刺激各維度之間關係的標籤)。人的注意力會在線索之間來回轉移。舉例來說,Roger Shepard(1964)要求被試對畫著各種角度「輻條」的圓圈(刺激物就像是一個懷表的表盤一樣)進行判斷,被試要麼只注意圓圈的大小,要麼只注意輻條的角度,但不能同時注意這兩個方面。評估學術申請的情形也是類似的。通常人們在判斷時只會錨定一條突出的線索,比如GPA分數或者測驗分數的高低,然後根據申請者的其他信息來做調整。有時,突出的錨定價值取決於信息的呈現形式,因為將某條信息(如測驗分數)置於突出位置時(如申請信息表開頭),偏差就產生了。信息呈現的順序會使其具備更顯著的錨定價值,從而帶來判斷上的誤差。一些人通常是先注意到一個線索,比如有利的測驗分數,隨後是第二重要的線索(可能是GPA分數),然後是重要性再次之的第三線索。從以上的例子我們可以注意到,儘管錨定-調整判斷策略並不那麼精美,但它在認知上卻非常有效地整合了數量可觀的信息,以至於一定程度上可以媲美於線性模型。然而錨定-調整判斷策略還不是最優的。現實中,在對申請人這一總體的分佈以及申請資料庫中每個學生的可預測性知之甚少的情況下,一個招生委員會的成員怎麼能夠理性地把測驗信息和GPA信息綜合起來考慮呢?作這樣的比較有一個理由,即純粹的統計模型優於總體判斷。統計模型能夠利用從各種線索轉換過來的有效和獨立的信息,把情境中的所有可得變量「校準」到標準化的範圍,最後做出嚴謹、一致的判斷。

既然單調交互作用近似於線性模型(這是一個統計事實),而現實中存在的交互作用大多數又是單調的,並且人們對來自各個方面不具有可比性的信息進行整合著實存在困難,那麼線性模型勝過臨床判斷就是顯然的。要想推翻這一說法,唯一可行的做法就是,強調受過訓練的專家在整合信息方面確實優於常人(而不是他們知道應該注意哪些信息)。但是並沒有證據能夠表明專家就一定與一般人的思考方式不同(記得第1章中提到的國際象棋大師嗎?大師並不具備特別的視覺或者智力技能,只是相對於新手來說,他們知道「往哪兒看」,在長時記憶中有更多的各種棋局知識,並且清楚在每一種棋局下應該如何應對)。

由此我們可以做一個更大膽的設想:不僅僅現實經驗的世界是線性的,相應地,人類的判斷習慣也是線性的。因此,線性模型不僅廣泛用於描摹透鏡模型右邊的線索利用部分,也正確地表現了人類的思維圖式(如Anderson,1996;Brehmer & Joyce,1988)。在很多基本的方面,人類的思維都遵循線性權重加法模式。事實上,我們熟知的人類大腦神經網絡的工作原理也告訴我們,像大腦這樣的自然「機器」,它的算法也是權重加法模式,很多基礎的過程都可以很好地用線性方程來描述。我們將在下一章來探索這種判斷習慣的微妙之處。

3.5 線性模型的驚人成功對實踐的啟示

無數的研究文獻驚人一致地顯示出,專家判斷很少獲得令人滿意的準確率,幾乎從未比機械判斷更好。正如Meehl(1986)所說,他那本「惱人的小書」出版40年後,「在社會科學領域,一大堆各種各樣的定性研究在這同一方向上得出如此一致的結論,表明在此問題上已沒有爭議(p.373)。」這一點對實踐的啟示好像也逐漸清晰:一旦有可能,人工判斷就應該被簡單的線性模型判斷所取代。之所以說「一旦有可能」,是因為我們同樣也相信,在用一種新的方法做重要的決策之前,需要做一些實證測試。我們並不提倡違背「具體問題具體分析」的原理,在所有的判斷情境中都用線性模型判斷替代人工判斷。在現實的判斷環境中總有一些特例和變化(比如發明一種新的診斷方法),需要遠見和及時的調整。但是我們堅信,在專家判斷上浪費的大量時間和資源,可以在統計模型中得到更公平、更有效和更準確的利用。利用人類構建的線性模型判斷,比只靠人類自己判斷要有效率得多。

我們提倡更廣泛地使用準確的、機械的預測方法。道斯等人(1979)的研究表明,即便不使用統計上的最優權重數據,線性模型也能輕而易舉地勝過專家判斷。多年來,一個讓道斯困擾不已的想法不斷在他腦中盤旋:或許任何線性模型都能勝過專家。這種可能性看起來荒唐,但是道斯卻執著於這個問題的研究。在一個助理研究員空閒的時候,道斯要求他去處理一些數據,並建立一個線性模型。要求是「除了正負號外、所有的數據都賦予一個隨機的」權重(預知每條線索對效標的影響方向時,這樣做是合理的)。在頭100個這樣的模型都勝過了人工判斷之後,道斯又進行了20 000個這種「隨機線性模型」的研究——其中10 000個模型的數據來源於正態分佈中隨機選擇的一些係數,另外10 000模型的數據是從均勻分佈中隨機選擇的一些係數。道斯用了三組數據集合:(1)根據《明尼蘇達多項人格量表》的測驗分數,對大約860個病人診斷其為精神病還是神經病(Goldberg「加三減二」法則中也用到過同樣的數據);(2)用招生評估的10個學術性變量和隨後考查的人格特質變量數據,預測伊利諾伊州立大學心理系一年級研究生的GPA;(3)用本科GPA、GRE分數以及本科院校的入學難度,預測俄勒岡州立大學2~5年級的研究生的表現。這三組預測都同時由線性模型和專家(從研究生到優秀的臨床心理學家)預測。平均來看,隨機線性模型解釋的效標和預測之間的方差變異是訓練有素的專家基於直覺判斷的1.5倍。基於數學推理,單位加權(就是把每個變量標準化,依據變化方向? 1個標準差而引起的因變量變化)能提供更好的預測力,平均是人工判斷的2.61倍。系統或隨機線性模型常被詬病為不合理,是因為他們的係數(或權數)不是基於最優化預測的統計技術。然而這個研究表明,即便是如此不合理的模型,也能像那些合理的模型一樣得出良好的預測結果。在解釋線性模型中的係數時,係數前面的符號比具體的數字權重要重要得多。

還需要指出的是,在利用包含不同數字和單位的測量量表數據時,基於直覺的人工判斷是沒有競爭力的。如果一種類型的信息(如測驗分數)被轉換成了200到800的數值,而另外一種類型的數據(如績點)被轉換成了1到4,那麼大腦很可能被愚弄,即面對大數值進行大調整。之所以舉這樣一個例子是為了說明,在做直覺判斷時,把信息量表線索標準化是一種不錯的方法。另一個有效但同樣「不合理」的方法就是收集大樣本的人工判斷,擬合一個線性模型,用它來替代初始的判斷。這個方法叫做自舉引導式(bootstrapping)(不要和Efron 1988年提出的統計中的重抽樣技術混淆),而且這個方法總會勝過人類專家,包括那些在原始模型中被當做「判斷來源」的專家。關於自舉引導式的成功有很多種解釋,有人說它的信度、穩定性較好(方程不易受到不良情緒或疲勞的影響),也有人說與主觀報告或者個案解釋的方法相比,抽像判斷策略或許能夠更好地理解人們判斷的真實過程。但是自舉引導式成功的最大原因,可能還是要歸功於它出色的穩定性和(即使是不合理的)線性模型的強大。線性模型的強大,來源於其數學性質及其與待判斷環境中事件內在結構的匹配。

3.6 反對和辯駁

從上面的幾個小節我們可以得出這樣的結論,不論是隨機的、系統的或者是自舉引導式的模型,它們的預測力都普遍高於訓練有素的專家。然而專家,或者是依賴這些專家做判斷的人卻不太樂意接受這樣的事實。所有的這些發現幾乎都不能對專家判斷的應用造成影響。Meehl在年輕的時候就被選為美國心理學會主席,但是他的這個研究成果的實際應用卻沒能引起同行們的重視。擁有聯邦執照的心理學家、內科醫生和精神病學家做(有利可圖的)總體判斷時總是以這樣的字眼開頭:「依我之見……」。事實上,這些判斷可能還比不上一個門外漢用一個可編程計算器計算出來的結果。人們對自己的總體判斷沒有信心,卻對「專家」的總體判斷深信不疑,這種強大的信念瓦解了一系列優良研究發現的價值,並且主宰著我們的法律和醫療系統。

人們反對這種準確的統計判斷模型有很多原因。首先,它公然冒犯了很多專家的自戀情結(同時還威脅到他們的收入)。捍衛專家判斷的一種常見方式是,對在特定研究中做總體判斷時用到的專家的專業知識提出質疑。一位密歇根大學的心理學教授常常會嗤之以鼻地說:「哼,對方只不過是明尼蘇達的一名臨床醫生而已!」殊不知,大多數明尼蘇達的臨床醫生都是在密歇根大學拿到博士學位的。「你們用過X博士的判斷嗎?」,一所很有名望的醫學院院長告訴我們說,「他的判斷一定與病人的實際壽命有關。」事實上,X博士正是Einhorn在霍奇金淋巴瘤研究中的一名被試。

另一些反對線性模型的人堅持認為,線性模型只在一些短暫的和瑣碎的事情上有更好的預測效果(比如死亡時間、出獄時間或者是退學)。他們聲稱,在「真正重要的長期結果預測」中,總體判斷有著更好的預測結果。但是Jay Russo(在私下交流中)指出,這個反對的理由只能說明長期預測比短期預測更容易。像預測死亡(100年以後我們都會死去)和狂犬病(在潛伏期之後就會發病)這樣的變量是可能的,但是這些變量並不是這些研究中要預測的那類變量。還有,如果我們瞭解一下過程(比如血液中存在狂犬病病毒或者艾滋病病毒),預測「潛伏週期」就變得像演講中提到的某個數字一樣不重要了,同樣地,預測長壽比預測死亡更容易。

最後一項反對的理由就是,「不可能所有的人都錯。」專家們因為他們「依我之見」的判斷被人們敬畏了很多年,同時也獲得了很豐厚的報酬。然而就像James March所說的,這種敬畏可能只起到了社會作用。老百姓和相關組織常常只需要在好壞參半的備選選項中做出選擇。所以判斷一個決策的好壞,咨詢專家就成了一個標準,而且這個專家收費越高越好。「我們已經盡最大的努力去獲取可能最好的醫療建議了,」這種想法可能是一場致命手術(或者輸掉的官司)的安慰劑。就像丟掉《易經》就能使某些人免除對失敗婚姻或者一個錯誤職業選擇的悔恨。構建線性模型的專家給人的印象,根本比不上依靠「多年經驗」的直覺「頓悟」而進行判斷的專家。(據我們所知,一個收費很高的咨詢專家在私下裡偷偷地使用線性模型。)所以我們對專家判斷價值的評判是獨立於其效度的。

除此之外,還存在一種環境因素讓我們不相信總體性直覺判斷存在劣勢。那就是反饋的可得性是有偏的。在一個預測情境中構建線性模型時,我們能夠準確地知道這種方法的不足。但相反的是,我們對於直覺判斷的反饋是有問題的。我們不僅選擇性地只記住了成功的時候,還常常意識不到自己的失敗——因為我們用已有的知識把它們「解釋掉了」。誰知道被研究生院拒絕的申請人現狀如何?教授只能接觸到錄取的學生,如果某個教授的工作成績優異,被錄取的學生同樣可能會表現得很好,這就會強化教授對自己的判斷效果的信心。但是被誤診為「精神病」的患者呢?如果幸運,他們將在診斷他們的權威人士眼前消失;如果不幸,他們有可能被安排到很快就會使其變成精神病的環境中。最後,病人因接受不了而自殺,醫生會解釋說:這是因為該病人送過來時的情況已非常嚴重了,以至於他們還沒開始治療就發生了悲劇。不相信?你可以去查看病歷,所有的情況都記載在他的病歷裡。

有關反饋的問題在Malcolm Gladwell的暢銷書《當機立斷:不假思索的思考力量》(2005)中有舉例解釋。Gladwell講述的故事是關於蓋蒂博物館中一尊所謂公元前4世紀古希臘創作的、名為「科諾斯[1]」的年輕男性裸體大理石雕塑。這尊雕塑的來源並不確定,所以博物館就請了專家,用科學方法來確定石頭和它表面的材料成分是否和真正的古希臘雕塑相同。專家給了肯定的結論,博物館也跟著把它買了下來。然而當雕像展出的時候,一些藝術歷史學家看到這尊雕像的第一眼時便倒吸了一口涼氣。希臘一間有名望的博物館主管Angelos Delivorrias說,他感覺到了一陣「直覺上的厭惡」。當時世界上最有名的博物館館長Thomas Hoving(1996)說,他看到雕像的第一個感覺就是太「新」了,並且評論道:「在西西里島挖掘的時候,我們也發現了一些類似的零零碎碎的東西。只是沒有這麼成型(p.315)。」(然而值得注意的是,這尊雕塑到底是真的還是高仿品至今仍然存在爭議;Goulandris Foundation & J.Paul Getty Museum,1993)。

從上面這個表面上直覺判斷勝過系統分析的例子,我們能得到什麼樣的結論呢?第一,在檢測這個領域的造假上,化學檢測可能不是最好的方法。如果這尊雕塑真的是贗品,那麼造假者肯定對何時選擇大理石材料和如何「做舊」做了很多研究。但如果沒有做過前景性研究(就像那些進行評價線性模型的例子),我們不知道在這事件上擁有正確直覺的專家,在其他偽造品的判斷上有多少次正確。誰知道他們以前被愚弄了多少次?我們甚至不知道,就在這個雕像的真偽判斷中,有多少其他專家的直覺是錯誤的。這就像我們舉的一個例子,有36個人預感擲骰子的下一輪會出現兩點,並且願意在成敗機會相當的情形下賭上一把,結果平均只有1個人會贏。贏的那個人引起我們的注意,而另外35個可能都不怎麼被提及。

另一個有啟發性的例子是「親愛的阿比」提供的1975年時的一封信:

親愛的阿比:在一個高級雜貨店排隊結賬時,我看到一個在我正前方的女人在瘋狂地翻找她的錢包,很尷尬的樣子。看起來她的東西已經結算了,但她還差一美元。我很同情她,就把一美元遞給了她。她很感激我並堅持要了我的名字和地址,寫在一張皺皺巴巴的紙上,然後放進她的錢包裡,說:「我明天一定把錢郵寄給你。」然而幾個星期過去了,我仍然沒有收到她的來信!阿比,我認為我對判斷人很在行,而且我並不想認定她是那樣的一個人。這點小錢一點也不重要,但是這卻動搖了我對人的信心和看法。希望得到你的看法。

——害羞的一美元

值得注意的是,「害羞的一美元」並沒有對她今後的判斷能力——幾乎是不考慮任何信息的——失去信心,反而對人性失去了信心。「害羞的一美元」仍然相信自己「對判斷人很在行」,只是其他人沒有那麼好而已。

Hillel Einhorn 和Robin Hogarth(1978)檢驗了判斷後信息的可得性並且演示了反饋如何系統地讓直覺判斷看起來有效。舉這樣一個例子:一個服務員認為他能根據客人的穿著判斷其給小費是否慷慨。如果他認為這個客人在給小費上會很小氣,那麼他就會提供較差的服務,而最後也導致了小費較少——因此這就強化了這個服務員的判斷。(不是所有的預言都是自我實現的——前提是必須有一種機制,而直覺判斷恰好就提供了這樣一種機制。直覺也有可能是某些自我否定預言的機制,比如一個人感覺自己開車時無論冒多少風險都不會受傷。)

相反地,線性模型的系統預測有時候也會得出不準確的數據。比如,在Einhorn(1972)的研究中,用最好的線性模型來預測霍奇金淋巴瘤病人的壽命,結果方差僅為18%(參見本章3.3),與此相比,世界上最好的專家預測結果卻是0%。這樣的結果告訴我們一個令人不安的結論:我們最關心的那些結果大多是不可預測的。比如,告訴一個研究生招生辦的老師,GPA分數、GRE成績以及本科院校聯合起來,在預測學生隨後的表現中只能起到23%的作用,這一定是很難接受的,但與此相對的是,招生辦老師的總體評估只能解釋4%。然而,我們非常渴望預測那些對我們很重要的事情。如果想得出一種方法(線性模型)預測力不佳的結論,唯一理性的依據就是有其他更好的方法。然而在沒有任何根據的情況下認為「別的方法」一定存在,而且它就是直覺總體判斷,那就是不理性的,甚至可以說是荒謬的。

關於人工判斷的大量研究給我們上了重要的一課,那就是,並不是所有的結果都是可預測的;在現實世界中存在大量的「不可降低的不確定性」,即透鏡模型(圖3.1)中的左邊部分。就拿學業成就來說,它會受到研究生期間與誰共享一間辦公室、哪個教授恰好有助理研究員的空缺、與之競爭第一份工作的人能力有多強(被哪些「研究委員會」指定的教授來評審)等等因素的影響(Bandura,1982)。此外,在學術生涯中的確存在著自我放大的特點。一次「小小的幸運」也許就能讓一個剛畢業的博士得到某個好大學的任職職位(或者一個剛畢業的醫學博士得到某優秀醫院的職位,或者一個剛畢業的法學博士得到某出色的律師事務所的職位),隨著工作的進行,幸運者就會發現周圍的同事也非常優秀,這又會顯著地強化個體對於自己在工作表現上的判斷,認為自己把非凡的才華帶到了工作中。(相反,一點點壞運氣就能讓一個剛畢業的博士肩負起九門課程的教學重任,遇上不利於學術成果產出的資源分配和「疲憊不堪」的同事。沒有幾個人能像愛因斯坦一樣因為發表了一份3頁紙的論文[2],就從專利局辦公室走出來獲得一份全職的學術職位。)

人們發現用線性模型來評估他人尤其令人不快。比如,研究生面試真的很重要嗎?一個字,「不」。在不能體現申請者長期表現的半小時面試中,我們又能獲得什麼呢?Len Rorer(與道斯私下交談時)指出,認為一個人可以利用面試技巧完全瞭解另一個人,那簡直是天方夜譚。而且,就算面試官認為他們能夠在面試中篩選出申請者身上一些或正面或負面的信息,但僅僅根據考官對申請者在一次面試中表現的評價,而不是四年大學生涯中真正的成功(或失敗),來判斷他們到底是什麼樣的人就真的公平嗎? GPA或許僅僅只是一個數字,但是它代表了約50個教授數年的意見;一些教授也許對某個學生有偏愛或者偏見,但是多次基於實際表現和考察的聯合印象還是比僅僅基於與一個人(這個人也同樣存在偏見和不可靠性)在一次簡短的互動中所得出來的結果要公平一些。而且,GPA預測的效果要比面試好,所以根據一個沒有效度的印象來判斷另一個人,是不是有點不公平呢?

一位研究醫學決策的同事講到這樣一個故事,院長和著名的醫學院都來咨詢他,為什麼他們的學院屢屢招不到女學生。這位決策研究人員就用統計的方法,從「外部的視角」研究了這個問題,並且找到了這個問題的癥結:一個老教授用大量的時間來面試申請醫學院的學生。他評估的主要維度有「情緒成熟」、「對醫學的興趣」和「神經質」等。每當他面試到未婚女性申請者時,他都傾向於認為她們不夠成熟;而當他面試到一個已婚女性時,他又傾向於認為她「對醫學的興趣不夠」;當他面試到離婚女性時,他又傾向於認為她「神經過敏」。幾乎沒什麼女性申請者能從他的面試中得到正面評價,儘管他聲稱他的判斷顯然與性別無關(頗具諷刺意味)。

3.7 判斷在選擇和決策中的角色

在這一章中,我們一直把注意力放在事件和結果的判斷上,實際上我們所討論的判斷框架可以應用到更大的決策框架和如何確定備選行動的判斷中。線性模型可以有效地描述判斷的心理過程,同時對預測外部事件來說,也是一個雖不完美但卻相當實用的統計工具。此外,線性模型對預測我們自己的評估和偏好,也就是所謂的「內部」事件與主觀世界,也是一種很有效的方法。從本質上講,當下的決策就是要求我們預測我們將來會喜歡什麼,但通常那時的條件和現在做決策的條件已經很不一樣了。既然在預測的準確性能夠被檢驗的情境中,線性模型預測的效果比直覺判斷的效果要好,那麼在實際缺乏明確效標的情況下,為什麼結果不也是如此呢?如果我們希望在涉及多重因素的情境中做出選擇,那麼運用自己的(儘管還不盡合理)線性模型就能做出不錯的判斷。這本質上也就是本傑明·富蘭克林建議的做判斷的方法(充分討論見第10章)。他建議在考慮一個行動方案時,列出利與弊,衡量它們的重要性,然後把利與弊的分數加權計算,看哪一個行動方案的得分最高。

因此,對於如何選擇的實用性建議就是,我們要依賴強大而美妙甚至還不盡合理的線性模型。這一章的基本原理就是「只有數字才是真實的」,不管這些數字的質量是好還是壞。如同在其他情境中能夠使用數字來達到建構或者解構的目的一樣,把數字應用到決策領域,也可以讓我們做出好的或不盡完美的決策。然而在使用數字時要克服「神秘的人腦」這個觀點(目前沒有研究可以支持這個觀點),它會讓我們不依賴任何可靠的、可控的思維過程而得出出色的結論。然而我們也不能否認神秘性依然存在,只不過不是在這個情境中。我們所有人無一例外都對自己的判斷能力過度自信。想要做出好的判斷,並且對他人公平,就必須克服不使用數字信息的壞習慣。當我們確實這樣做的時候,就應當像我們利用數字的幫助修建一座歷久彌堅的橋樑一樣,由衷地感到驕傲。

參考文獻

Abelson, R.P.(1995).Statistics as principled argument.Hillsdale, NJ: Lawrence Erlbaum.

Anderson, N.H.(1996).A functional theory of cognition.Mahwah, NJ: Lawrence Erlbaum.

Anderson, N.H.(2001).Empirical direction in design and analysis.Mahwah, NJ: Lawrence Erlbaum.

Attneave, F.(1954).Some informational aspects of visual perception.Psychological Review, 61, 183-193.

Bandura, A.(1982).The psychology of chance encounters and life paths.American Psychologist, 37(7), 747-755.

Brehmer, B., & Joyce, C.R.B.(1988).Human judgment: The SJT view.Amsterdam: NorthHolland.

Cooksey, R.W.(1996).Judgment analysis: Theory, methods, and applications.San Diego: Academic Press.

Dawes, R.M.(1971).A case study in graduate admissions: Application of three principles of human decision making.American Psychologist, 26, 180-188.

Dawes, R.M.(1979).The robust beauty of improper linear models in decision making.American Psychologist, 34, 571-582.

Diamond, J.(1989, April).The price of human folly.Discover, 73-77.

Efron, B.(1988).Bootstrap conidence intervals: Good or bad?Psychological Bulletin, 104, 293-296.

Einhorn, H.J.(1972).Expert measurement and mechanical combination.Organizational Behavior and Human Performance, 7, 86-106.

Einhorn, H.J., & Hogarth, R.M.(1978).Confidence in judgment: The illusion of validity.Psychological Review, 85, 395-416.

Freedman, D., Pisani, R., & Purves, R.(2007).Statistics (4th ed.).New York: Norton.

Gladwell, M.(2005).Blink: The power of thinking without thinking.New York: Little, Brown.

Glass, L.B.(1967).The generality of oral consumatory behavior of alcoholics under stress.Unpublished doctoral dissertation, University of Michigan.

Goldberg, L.R.(1968).Simple models or simple processes? Some research on clinical judgments.American Psychologist, 23, 483-496.

Goldberg, L.R.(1972).Student personality characteristics and optimal college learning conditions: An extensive search for trait-by-treatment interaction effects.Instructional Science, 1, 153-210.

Goulandris Foundation & J.Paul Getty Museum.(1993).The Getty Kouros Colloquium: Athens, 25–27 May, 1992.Athens: Kapon Editions.

Grove, W.M., & Meehl, P.E.(1996).Comparative efficiency of informal (subj ective, impressionistic) and formal (mechanical, algorithmic) prediction procedures: The clinicalstatistical controversy.Psychology, Public Policy, and Law, 2, 293-323.

Hammond, K.R., & Stewart, T.R.(Eds.).(2001).The essential Brunswik.New York: Oxford University Press.

Hoving, T.(1996).False impressions: The hunt for big-time art fakes.New York: Simon &Schuster.

Hunter, J.E., & Hunter, R.F.(1984).Validity and utility of alternative predictors of j ob performance.Psychological Bulletin, 96, 72-98.

Huntford, R.(1999).The last place on earth.New York: Modern Library.

Kelly, E.L.(1954).Evaluation of the interview as a selection technique.In Proceedings of the 1953 Invitational Conference on Testing Problems (pp.116-123).Princeton, NJ: Educational Testing Service.

Knaus, W.A., & Wagner, D.P.(1989).APACHE: A nonproprietary measure of severity of illness.Annals of Internal Medicine, 110, 327-328.

Libby, R.(1976).Man versus model of man: Some conlicting evidence.Organizational Behavior and Human Performance, 16 (1), 1-12.

Meehl, P.E.(1954).Clinical versus statistical prediction: A theoretical analysis and a review of the evidence.Minneapolis: University of Minnesota Press.

Meehl, P.E.(1986).Causes and effects of my disturbing little book.Journal of Personality Assessment, 50, 370-375.

Pepper, S.C.(1942).World hypotheses.Berkeley: University of California Press.

Pinker, S.(1997).How the mind works.New York: Norton.

Sawyer, J.(1966).Measurement and prediction, clinical and statistical.Psychological Bulletin, 66, 178-200.

Shepard, R.N.(1964).Attention and the metric structure of the stimulus.Journal of Mathematical Psychology, 1, 54-87.

Sherden,W.A.(1998).The fortune sellers: The big business of buying and selling predictions.New York: Wiley.

Tversky, A., Sattah, S., & Slovic, P.(1988).Contingent weighting in judgment and choice.Psychological Review, 95, 371-384.

Wiesner, W.H., & Cronshaw, S.F.(1988).A meta-analytic investigation of the impact of interview format and degree of structure on the validity of the employment interview.Journal of Occupational Psychology, 61, 275-290.

[1] 希臘語青年之意。——譯者注

[2] 1905年9月,愛因斯坦完成了論文《物體的慣性同它所含的能量有關嗎?》,當時他還是瑞士伯爾尼專利局一個默默無聞的小職員。這篇不足3頁的論文,通過演繹,輕而易舉地導出了質能關係式E=mc2,得出「物體的質量是它所含能量的量度」的結論,從而叩開了原子時代的大門。——譯者注