讀古今文學網 > 數學世界的探奇之旅 > 第10章 卡爾達諾:概率與「水晶球」 >

第10章 卡爾達諾:概率與「水晶球」

統計學作為一門學科,它的歷史可追溯至史前人們掰手指數山羊時。如果我把記錄鄰居每次借山羊數量的符木都保留下來,稍加比較,就可以發現鄰居借山羊的習慣隨著時間變化而有所波動。也許我能做的只是進行簡單直接的比較,看看數量的變化,但是這種基本的統計工作仍然會讓我樂此不疲。

統計學(statistics)這個詞與「國家」(state)源於同一個表達,這門學科在剛開始時只是指收集一個國家的相關數據,這與美國中央情報局的《世界各國概況》沒什麼兩樣。顯然,這樣的活動不會引起任何麻煩。但是,只要統計學繼續存在,有一句名言就會如跗骨之疽,讓它籠罩在陰影之中:「世界上有三種謊言,分別是謊言、討厭至極的謊言和統計數字。」這顯然是指責統計人員居心叵測,儘管他們可能以無辜的數學家自居。

我們都不清楚,這句將謊言與統計數字相提並論的話到底是誰說的。通常認為,這句話出自英國前首相本傑明·迪斯累裡之口。但是,這位擅長以詼諧幽默的語言諷刺他人的前首相卻矢口否認,聲稱他說的這句話引自馬克·吐溫,但是人們在馬克·吐溫的作品中卻找不到相關證據。也許是這位小說家造訪英國時,隨口跟這位政治家說的吧。

然而,在剛開始的時候,統計學這門學科的確給人一種恐怖的感覺。第一位統計人員的統計對象是死亡人數,這位統計人員名叫約翰·格朗特,是一名紐扣製造商。儘管他從事的工作與數學無關,但是他對周圍世界的運行規律頗感興趣。格朗特想辦法收集「死亡公報」以瞭解倫敦1604—1661年死亡人口的詳細資料,還收集了出生人口數據,然後將這些數據彙集成冊。他的目的是通過研究這些數字,瞭解倫敦底層人民的生活概況。

在一定程度上看,他的工作就是收集散落於各種文件中的相關數據,然後將這些已有數據公佈出來,這是人類有史以來第一次瞭解到不同年份瘟疫致死人數的情況。然而,僅僅整理這些已有的數據,並不能讓格朗特感到滿足。他還將數字加以整合,從而發現前人沒有發現的信息。例如,他根據整合後的數據估算出倫敦的人口數量(當時還沒有人口普查),並試圖瞭解不同人群的預期壽命差異。

正是這項預期壽命研究,再加上天文學家埃德蒙·哈雷後來所做的分析,直接催生了一個新的行業——保險業,這個行業主要針對的是人們在綜合考慮統計數據與未來可能情況之後的不確定心理。當時,人們喜歡聚集在倫敦的咖啡屋裡談生意。這種把賭注押在未來結果上的行業就始於這些熙熙攘攘的人群,隨後,借助當時最全面的統計數據,迅速向世界各地蔓延,成了每個人都要打交道的一個行業。

儘管遭到了迪斯累裡的鄙視,但是統計學作為一門獨立的學科,發展的態勢似乎一帆風順。當統計學與概率(研究可能性的數學分支)相遇之後,更是迸發出耀眼的火花。在此之前,數學在它與現實世界之間的關係中一直處於從屬地位,它誠實地展示當前的狀況或者解釋已經發生的事。但是,統計學這個全新的數學分支卻在社會底層人民的支持下,大言不慚地預測起未來,而且它的預測結果與牛頓的「機械宇宙觀」不同,充滿了不確定性和風險。於是,數學描述周圍世界的能力取得了重大突破,並把觸角伸至尚未發生的未來。最終,概率和統計學的重要性與日俱增,被用來描述包括氣體特性、神秘量子在內的所有事物。我們將在第13章深入討論這方面的內容。

要想在蓬勃發展的保險業叱吒風雲,僅掌握足夠多的數據是不夠的,還必須把這些數據變成「水晶球」(格朗特已經證明,這是有可能的),才能用它們預測未來。所謂水晶球,是指那些社會底層人民的生活習慣,而不只是那些紐扣製造商的各種癖好。這是一個賭徒的世界。仔細想想,保險業就像一個賭場:它披著行業的外衣,希望可以通過賭局保持不斷前進的態勢,「玩家」雖然有賺錢的可能性,但在大多數情況下,他們投入的錢都變成了保險公司的利潤。

賭博業的歷史源遠流長,人們曾經在有幾千年歷史的考古地點發掘出幾個表面光滑的指關節,這是一種早期的四面體色子。自從有了硬幣之後,拋硬幣的遊戲就開始興起,而且似乎經久不衰。這個遊戲非常簡單,可以直接利用硬幣的正反兩面得到隨機數據。至少在硬幣沒被動過手腳的情況下,它產生的都是隨機數據。自古以來,人類就嗜賭,無論是對賽跑還是天氣打賭,都能讓人們享受到賭博的樂趣。總體而言,無論是賭徒還是誠實的莊家,他們依賴的基本都是直覺和猜測。然而,在意大利數學家(也是一名狂熱的賭徒)吉羅拉莫·卡爾達諾出現之後,這種狀況就發生了徹底的變化。

前文在討論虛數時提到過卡爾達諾,他把變幻莫測的可能性引入數學世界,這不僅對數學的未來發展具有重要意義,而且在將數學與難以捉摸的尋常事物分離開的過程中,也發揮著舉足輕重的作用。卡爾達諾出生於1500年前後,20多歲時開始撰寫一本關於概率的書,但是直到他60多歲時才寫完。最終,這本書於17世紀60年代出版。一般而言,這麼長的時間跨度足以讓它淡出人們的視線,但是它的出版仍然引起了人們的廣泛關注,這說明卡爾達諾的思想非常超前。這本書就是《機遇博弈》(Liber de Ludo Aleae)。

幾乎所有經常玩拋硬幣遊戲的人都知道,如果硬幣沒有問題,拋出正面和反面的概率是相等的。沒有人知道下一次拋擲會出現什麼結果,但是出現正面或者反面的可能性是均等的。卡爾達諾的貢獻在於,通過簡單直接的觀察,將觀察結果變成一個數字結構——把分數的概念與對未來的預測結合起來,使我們對一個簡單的系統(例如拋硬幣)有了深刻的理解。

當然,硬幣沒被動過手腳這個限制條件非常重要。要讓人們尊重概率,難點之一就在於賭徒(尤其是職業賭徒)經常作弊。有的職業賭徒通過使用兩面都是正面圖案的硬幣,在拋硬幣遊戲中無往不利,有的則在三牌賭皇后遊戲中熟練使用簡單而有高度欺騙性的「從最上面拿牌」的手法[1]。但是,他們都有一個共同點:他們彷彿具有某種魔力,可以輕易地誤導那些容易上當的對象,說服他們參加賭博遊戲。我們至少可以認為職業賭徒、魔術師和小偷之間的界限比較模糊。

我在做關於概率和統計學的報告時,通常會一開始先舉拋硬幣的例子。我會拿出一枚硬幣,並告訴觀眾,我在報告開始之前已經花了一些時間拋這枚硬幣,並且最後9次的結果都是正面。(這個結果完全是有可能的,但是通常需要花一點兒時間。)然後,我問觀眾,如果我再拋一次硬幣,會出現什麼樣的結果?一種觀點認為,既然正面和反面各有一半的概率,在出現這麼多的正面之後,下一次出現反面的可能性應該更大。還有一種觀點認為,因為這枚硬幣明顯偏向正面朝上,因此下一次出現正面的可能性更大。到底哪一種觀點是正確的呢?總有一些人會說,「出現反面的可能性更大」,這就是所謂的「賭徒謬誤」,因為在現實世界中,硬幣沒有記憶能力,之前的結果不會對之後的結果產生任何影響。然而,在連續出現同一個結果之後,人們很容易就會以為接下來出現另外一種結果的可能性更大。

通常情況下,大多數觀眾都會給出正確答案:出現正面和反面的概率各一半。但是,有一些人仍然認為出現正面的概率更大。這可能是經常出現在體育比賽中的另外一個謬誤——熱手謬誤。所謂熱手謬誤是指,體育迷認為一連串好的結果意味著某位選手或某支球隊將保持「連勝勢頭」。但如果我又連續拋出三個正面,觀眾就開始產生懷疑。他們的懷疑是正確的:我使用的硬幣兩面都是正面。(此時,觀眾會提出相同的問題:「你從哪裡搞到這枚硬幣的?」答案是電子港灣網站。)有趣的是,觀眾不可避免地對這枚硬幣產生了強烈的興趣,就好像電影中的高明騙局使我們欲罷不能一樣。他們希望看一看這枚有兩個正面的硬幣,還想親手摸一摸這個邪惡的道具。

在卡爾達諾那個年代,人們都知道,只要硬幣質地均勻,出現正面或反面的可能性是一樣的。(嚴格地說,真實情況並非如此。根據拋擲的方式,標準硬幣出現正面和反面的概率大約是51︰49或49︰51,第一次拋擲時朝上的一面略佔優勢。)但是,沒有人把這種機會均等的情況變成一種適合數學研究的形式。儘管表達拋硬幣時正面朝上的可能性的方法有很多,諸如機會均等,各佔一半,但是只有用可以進行算術運算的數字來表示,它才最有利於數學研究。第一個提出用從0(表示「不會發生」)到1(表示「肯定會發生」)的數字表示概率的人正是卡爾達諾。根據這種方法,硬幣正面朝上的可能性可以表示為1/2。

這種表現形式直截了當,但是除了為預測行為奠定數學基礎之外,卡爾達諾還有其他的貢獻。〔卡爾達諾應該沒有使用「概率」(probability)這個詞。從14世紀開始,法語中就出現了這個詞,意思是「不確定,但是有可能」。至於具有現代數學意義的「概率」概念,最早的使用記錄只能追溯至1692年。〕套用他處理拋硬幣時使用的那個方法,我們可以說,從我們現在使用的一副普通撲克牌(不包括大小王)中抽出某一張牌的可能性是1/52。

卡爾達諾還提出了計算組合概率的兩個重要方法。後來的事實證明,這兩個方法對於所有賭博遊戲玩家來說都具有非常重要的意義(別忘了,卡爾達諾不僅是一名數學家,還是一名狂熱的賭徒)。第一個方法可以幫助我們計算得到多個可能結果的組合概率。比如,根據卡爾達諾最初的理解,我們知道擲一次色子得到任何特定點數(例如6)的概率是1/6。但是,如果你想知道得到1點或者6點的可能性,答案就應該是2/6,也就是1/3。

卡爾達諾還證明,計算兩枚色子擲出相同點數(例如在雙色子遊戲中擲出兩個6點或者兩個1點)的組合概率的方法是將兩個分數相乘,也就是1/6×1/6,即1/36。因此,得到某個相同點數的可能性只有1/36。此外,他還發現,這與用兩枚色子擲出一個1點和一個6點略有不同。要得到後面的結果,一共有兩種方法:第一枚色子得到1點,第二枚色子得到6點,或者第一枚色子得到6點,第二枚色子得到1點。因此,概率是1/36 + 1/36 = 2/36,即1/18。

卡爾達諾最巧妙的一個發現是計算雙色子遊戲中任意一枚色子得到6點的概率。也就是說,我擲兩枚色子,至少有一枚擲出6點。至於是一個6點還是兩個6點,以及哪枚色子得到6點,我都不在乎。我們經常會遇到這種組合概率,而人們的自然反應是使用加法。每枚色子得到6點的概率都是1/6,因此第一反應是把它們加到一起。但這種做法顯然是錯誤的,否則,只需6枚色子就能確保得到一個6點。而玩過色子遊戲的人都知道,真實情況並不是這樣。

現在的問題是要想辦法表示「任意一枚」的可能結果。卡爾達諾的高明之處在於他發現,這個問題可以先轉化為「兩枚色子都沒有」的問題,再用他發明的方法,即用乘法算出概率。如果一枚色子得到6點的概率是1/6,那麼結果不是6點的概率就是5/6。因此,兩枚色子都沒有擲出6點的概率是5/6×5/6,即25/36。也就是說,兩枚色子中有任意一枚擲出6點的可能性是1 – 25/36,即11/36。與用一枚色子擲出6點的概率相比,前者比後者的兩倍(12/36)還小。隨著色子的數量增加,這個概率將會趨近1(也就是肯定有色子擲出6點),但永遠不會等於1。因此,即使同時擲出很多枚色子,也有可能沒有一個6點。

在卡爾達諾之後,人們對他的研究成果進行了完善和發展,其中最著名的是法國數學家布萊瑟·帕斯卡和皮埃爾·德·費馬,兩人合作解決了一個眾所周知的難題,從而讓概率變成一個深受保險業歡迎的工具。他們解決的那個難題叫作「點數分配問題」。兩名勢均力敵的玩家因為一筆獎金而「激戰」,根據規則,點數首先達到某個數字的玩家獲勝。但是,如果他們在遊戲結束時還沒有決出勝負,該怎麼分配那筆獎金呢?

假設每贏一局就得一點,在遊戲結束時,一位玩家有12點,另一位玩家有7點。帕斯卡認為,要想合理地分配這筆錢,就需要考慮若遊戲可以一直持續下去直至兩人決出勝負,每名玩家需要贏多少局才能獲勝。假設設定的目標是15點。在這種情況下,第一位玩家只需再贏3局就可以獲勝,而第二位玩家還需要再贏8局。帕斯卡根據雙方獲勝還需要贏得的點數,考察了接下來可能發生的情況,然後用數學語言給出了一個公平分配獎金的方案。他提出的其實是一個叫作「期望值」的概念。所謂期望值,是指根據預期,某個可以產生隨機結果的過程在連續重複多次後可能得到的結果。

下面我舉一個非常簡單的例子。假設遊戲規則要求你連續擲色子10次,然後根據擲出的平均點數獲得相應的現金。賭注設為多少時,這個遊戲才值得參與呢?常識告訴我們,我們贏到的錢可能是概率的中值。難得的是,這次我們的常識是正確的(在涉及概率時,常識往往並不可靠)。你也許會不假思索地回答3,因為3是6的一半。但是,如果我們把1—6這6個值排成一排,就會發現中間值應該是3和4的平均值,也就是說期望值是3.5。

我們也可以通過一種更嚴謹的方式來考慮這個問題。擲出1點的可能性是1/6,擲出2點的可能性是1/6,以此類推,擲出6點的可能性也是1/6。求1×1/6 + 2×1/6 + 3×1/6 + … + 6×1/6的和,得數為21/6,即3.5。既然你有可能贏得的預期獎金是3.5美元,那麼賭注低於這個金額都是可以接受的。在任意一局中,你都有可能輸錢,但是只要玩的局數足夠多(並準備足夠多的本金),最終的贏家應該還是你。

計算交易期望值的概念絕不僅限於賭博,它是各種現代金融系統的基礎,其中最典型的例子就是保險公司。它們就像賭博玩家。保險公司通過設定賠率,保證即使自己在某一「局」(他們稱之為「保險單」)賠錢,也總體來說一定會賺錢。當然,賭場也是這樣。重要的是,這個計算方法可以用於權衡不同的選擇方案,並幫助我們做出最有利的決定。

比如,假設你有兩個可能的投資方案。一個投資方案有1/2的可能性贏利1 000美元,有1/2的可能性不贏利;另一個投資方案有1/4的可能性贏利1 900美元,有3/4的可能性不贏利。哪個投資方案更有利呢?我們可以用概率乘以投資結果的方式計算出期望值。如果選擇第一個投資方案,期望值就是500美元,而第二個方案的期望值是475美元。因此,第一個投資方案對你更有利,儘管第二個方案有可能贏利更多。如果某個投資方案會產生不止一個可能的結果,就要把發生這些結果的可能性加到一起。

同其他基於概率的預測方法一樣,期望值也沒有魔力,無法完成不可能的任務。期望值不會告訴你擲一次色子能贏得什麼,但是只要你擲色子的次數足夠多,就可以根據期望值預測可能的結果,至少在公平遊戲中可以做到這一點。伯努利家族的一位才華橫溢的成員指出,在某些情況下,期望值也不可靠。

在介紹伯努利的發現之前,我們先設想一種十分荒謬的彩票,以此說明期望值這種簡單的計算方式有時未必有效。(我之前舉的例子都是碰運氣的遊戲,在這些遊戲中我們可以計算出精確的概率。同樣的方法也可以應用在商業投資、購買保險等方面,但是此時,我們只能根據具體情況對概率做出估計。)

這種彩票有兩種票面,價格都是10美元,但是第一種票面有9/10的概率贏得11.11美元,而第二種票面有1/100 000的概率贏得100萬美元。所以,這兩種票面的期望值都是10美元。期望值與票面價格相同,對於彩票而言是非常難得的。在彩票與賭場等賭博遊戲中,期望值通常必須低於票面價格,這樣經營者才有利可圖。但是,這種彩票的經營者非常慷慨。因為這兩種票面的期望值相同,所以我們在購買彩票時應該不會過於關注選擇哪一種。但是,這兩種票面帶來的結果似乎大不相同。結果是否誘人,決定因素似乎不是期望值,而是你的個人情況。到底選擇哪一種票面,可能要看10美元在你的日常生活中具有什麼樣的意義。

為幫助大家更好地理解這一點,我舉一個更誇張的例子。我在講座中談到我的《色子世界》這本書時,經常會跟觀眾做一個叫作「最後通牒博弈」的心理遊戲。心理學家經常通過這個實驗告訴大家,經濟學家根本不瞭解人的心理(心理學家都喜歡揭經濟學家的短兒)。通常,這個遊戲會設立一筆小獎金(例如1美元),由兩名玩家展開博弈。第一名玩家告訴第二名玩家這筆錢的分配方案,第二名玩家可以說「行」或者「不行」。如果第二名玩家說「行」,這筆錢就會按照第一名玩家制訂的分配方案進行分配。如果第二名玩家說「不行」,那麼他們兩個人都不會有任何收穫。

經濟學家和邏輯學家都認為,只要第一名玩家不打算獨吞這筆錢,第二名玩家就會接受他提出的任何分配方案,因為拒絕接受意味著一分錢也拿不到,這樣的決定似乎太不合理了。你可以問任何人一個問題:「如果有人白送你一些錢,你會拒絕嗎?」答案通常是:「當然不會!」但是事實上,如果第一名玩家分給第二名玩家的錢低於獎金總額的30%,第二名玩家通常就會拒絕接受。這個數字適用於美國人和歐洲人。不同國家的人對分配方案有不同的要求,但是絕大多數人都對分配比例有一個最低要求。為了懲罰另一位玩家的不公平做法,人們寧願承受一定的經濟損失。但我們也可以利用這個遊戲,反過來證明心理學家對人們心理的把握也不是很準確。

在玩完傳統意義的最後通牒博弈遊戲後,我請參加講座的觀眾在腦海裡重玩這個遊戲,但這次的獎金不是心理學家提供的,而是一位大富豪,獎金額增加至1 000萬美元。(事實上,我在做這個實驗時,通常會把獎金設為1 000萬英鎊,但結果沒有什麼不同。)現實點兒說,如果第一名玩家分給第二名玩家10萬美元,第二名玩家很可能不會拒絕,儘管他只能得到總獎金的1/100,而第一名玩家能得到990萬美元。因此,我讓觀眾都站起來,然後按照由多至少的順序,告訴他們可以從這1 000萬美元中分得的金額。我還告誡他們要誠實,一旦覺得我給出的金額低於他們願意接受的最低值,就坐下來。

做實驗時,我們使用的不是真錢,因為我仍在苦苦尋找願意資助這項實驗的大富豪。我覺得,由於不是真金白銀,很多人誇大了他們拒絕接受的金額。但是,通常情況下,在金額高於50 000美元時決定坐下來的人不是太多;在金額降到10 000美元以下、5 000美元以上時,大多數觀眾都會坐下來;等到金額降至500美元時,站著的人已經寥寥無幾了。當我說出1美元時,只有1—4名觀眾仍然站著。一想到人們為了報復對方而寧願放棄(至少他們聲稱如此)一大筆錢,我就覺得這個實驗非常有意思。我在前面介紹的那種奇怪的彩票,給了人們兩個選擇:一個是有9/10的概率贏得11.11美元,另一個是有1/100 000的概率贏得100萬美元。結果,人們的反應與他們在最後通牒博弈遊戲中的表現是一樣的。在最後通牒博弈遊戲中,最後仍然站著的人通常是青少年。1美元對於他們的意義遠勝於在中年觀眾心目中的價值。

說到這裡,我們回過頭去介紹伯努利家族的那名成員,看看他對期望值概念的缺陷有哪些認識。這名成員就是數學家尼古拉斯·伯努利,他是約翰·伯努利的兒子,丹尼爾·伯努利的弟弟。(在這個成就顯赫的瑞士家族中,丹尼爾的名氣最大。)尼古拉斯研究過一個簡單遊戲的結果,在這個遊戲中,我們需要做的就是記錄拋硬幣得到的一系列結果。玩家能贏多少錢,取決於他拋硬幣的結果。只要拋出反面,獎金就會加倍,遊戲繼續進行。一旦得到正面,遊戲立刻結束,玩家的收穫只是當時的獎金。

假設我們開始時的獎金是1美元。如果第一輪拋硬幣的結果是正面,你就會贏得1美元;如果是反面,獎金就會加倍,而且你可以再拋一次。如果第二輪的結果是正面,你就會贏得2美元。如果你堅持到第三輪且得到的結果是正面,你就會贏得4美元。如果你第三輪得到反面,並且第四輪的結果是正面,你就可以贏得8美元,以此類推。尼古拉斯指出,最有意思的是,把獎金定為多少,你才願意參加遊戲?我們應該採取的做法是計算期望值,如果獎金低於期望值,就值得參與。

要計算出期望值,我們需要知道每次拋硬幣時第一次出現正面的概率,然後用它去乘以此時的盈利,再把所有可能的結果加到一起。第一輪拋硬幣時,得到正面的概率是1/2。在這種情況下,獎金是1美元,它貢獻的期望值是1/2×1美元= 0.5美元。第一輪得到反面且第二輪得到正面的概率是1/2×1/2 = 1/4,此時的獎金是2美元。因此,它貢獻的期望值是1/4×2美元= 0.5美元。第三輪得到正面的概率是1/8,獎金為4美元,期望值是1/8×4美元= 0.5美元。我們已經可以看出其中隱藏的規律了:每一輪的期望值都是0.5美元。

因此,只要把所有可能盈利的期望值加在一起,就可以計算出總期望值。也就是說,總期望值為:

(1/2×1美元)+(1/4×2美元)+(1/8×4美元)+(1/16×8美元)+…

=0.5美元 + 0.5美元 + 0.5美元 + 0.5美元 + …

別忘了,「…」表示繼續下去。因此,上面的計算結果表明,無論參加這個遊戲需要投入多少錢,根據期望值,你都應該參加。例如,即使參加這個遊戲需要投入100萬美元,你也應該參加,因為0.5美元 + 0.5美元 + 0.5美元 + 0.5美元 + …的值大於100萬美元,實際上,這個和比任何數都大。這個級數的極限是無窮大,也就是說,這個遊戲的期望值是無窮大。但是,尼古拉斯·伯努利強調的問題是,只在同樣的過程重複很多次時,期望值才真的有效。對於具體某一輪的情況,期望值的效果就不那麼好了。

很難想像有人願意拿出100萬美元,去玩一個只有50%的概率贏得1美元的遊戲。其實,玩家只要想一想他們輸錢的可能性,就會知道該怎麼做。例如,我們知道,最多贏1美元的概率是50%(即1/2),最多贏2美元的概率是75%,最多贏4美元的概率是87.5%,最多贏8美元的概率是93.75%,最多贏16美元的概率是96.875%。也就是說,即使拿出16美元參加這個遊戲,虧本的風險也很大。

因為覺得好玩,我剛剛又玩了一次拋硬幣的遊戲。想知道結果嗎?我在第三輪拋出了正面,這意味著我可以贏得4美元。所有利用概率工具的人都要注意使用它的場合。計算兩枚色子中至少有一枚色子擲出某個點數的概率並沒有多大的難度,但是我們經常需要這種能力(例如在玩雙陸棋時)。當我們在權衡是否要做出某種經濟上的承諾時,我們也經常需要計算期望值。但是,考慮是否在某個遊戲或投資活動中使用概率工具,不能僅依據「大量人口的平均結果」或「大量交易的平均情況」,還要考慮它可能造成的後果。

例如,某個銀行系統通常運行順暢,但是若每完成10 000次交易就把賬戶數據全部清除,我們對此肯定無法接受。如果你的賬戶正好是那個不幸被清空的賬戶,即便這套系統完美地完成了99.99%的交易,也無法平息你的怒火。因此,即使99%的案例都得到了妥善處理,性能統計的結果仍然取決於那些處理不當的案例會造成什麼樣的後果。如果是快餐店沒有按時送來漢堡這種無關痛癢的事,這樣的統計結果不會導致大問題。但如果是醫院出具的常規體檢報告中的死亡可能性,就肯定會讓人十分擔憂。

實踐證明,在涉及大量數據或者大量調查對像時,基於概率的統計可以發揮極其重要的作用。無論這些調查對像代表的是「美國人民」還是「汽缸中的氣體分子」,只要可以忽略統計方法對個體造成的影響,我們就可以借助數學工具對這些調查對像代表的群體行為做出準確程度較高的預測。

蘇格蘭物理學家詹姆斯·克拉克·麥克斯韋是在科學研究中最早大量使用數學工具的物理學家之一(我們將在下一章深入討論),也是最早運用統計方法研究氣體屬性的物理學家之一。他選擇了一些有強烈氣味的物體作為研究對象。這些物體的氣味(難聞或者好聞並不重要)傳播到人的鼻子裡,為什麼需要那麼長的時間呢?在19世紀,人們普遍認為氣體分子的傳播速度非常快,每秒可以運動幾百米(或幾百碼)的距離,但是氣味通常需要幾秒鐘的時間才能充斥整個房間。

德國物理學家魯道夫·克勞修斯認為,這是因為分子發生碰撞的緣故。雖然分子的運動速度的確非常快,但是它們彼此之間不停地碰撞,以致改變了運動方向。所以,一堆新的分子(「氣味分子」)需要很長時間才能完全擴散到空氣中。

克勞修斯認為所有氣體分子的運動速度都一樣。但是,麥克斯韋認為這個說法沒有道理,他更傾向於氣體分子的運動速度各異,有的較快,有的較慢,速度分佈曲線的峰值在某個區間範圍內。麥克斯韋認為,如果確實如此,那麼只有借助統計法,才能全面瞭解氣體分子的特性。這就是所謂的「麥克斯韋分佈」。儘管氣體分子的運動速度隨溫度的變化而變化,但是麥克斯韋分佈卻找到了一個可行的計算方法。從此以後,人們掌握了預測氣體變化特點的能力。

這種通過統計掌握多個變化個體的普遍情況的能力,不僅可以用來研究分子的特點,還可以用來研究人的行為。掌握了這種技能之後,我們才有可能瞭解大型人群內部正在發生的變化,並完成各種各樣的預測,例如服裝銷量、藥品需求等。但我們必須清楚,它也有局限性。即使是分子的統計特性,也有可能造成誤導性的結果。我們以熱力學第二定律為例。該定律稱,熱由高溫物體向低溫物體傳遞,封閉系統中的無序狀態會保持不變或者增加。人們往往認為這是一條顛撲不破的真理,但事實上,它也是建立在統計學的基礎之上的。

比如,根據這條定律,如果我們將兩個盒子之間的隔板去掉,經過一段時間之後,兩個盒子中溫度不同的氣體將混合到一起,變成均勻氣體,其溫度介於之前的兩個溫度之間。這是根據熱力學第二定律得到的結果(兩組有序程度較高的分子通過溫度的選擇,變成了無序的混合體)。但是,從理論上看,這些氣體有可能是在重新建立短暫的完全隨機的溫度階梯。一個盒子中的高溫分子有可能碰巧比另一個盒子多,由於分子的數量非常多,這種偶然性不大可能產生非常大的影響,但是這種情況的確有可能發生。統計數據表現的是總體可能性,而不是必然性。

在使用統計方法研究人的活動時,我們有可能把典型規律套用到獨特群體(例如上文所說的那些高溫氣體分子)上,還有可能認為關於一群人的統計規律適用於某一個體。我們無須考慮氣體中單個分子的特性,因為所有分子基本上都是相同的,但人與氣體分子不同。統計學歷史上有一個非常有名的案例。1999年,一個英國母親薩莉·克拉克被判定殺死了她的兩個幼子,並因此在監獄中服刑近4年時間,直到這項判決被推翻之後才重獲自由。克拉克含冤入獄的原因是,法庭在運用統計學工具時犯了嚴重的錯誤,不但相關人員的計算能力不過關,他們還將統計得出的整體普遍情況與個體的特定情況混為一談。

這次審判是在克拉克的第二個幼子死亡之後進行的。造成克拉克的兩個兒子在不足3個月時就夭折的罪魁禍首是嬰兒猝死綜合征(SIDS)。著名兒科專家、教授羅伊·梅多爵士應檢方邀請,作為專家證人參與了此案的審判。不幸的是,梅多在概率與統計學方面的知識並不全面。研究表明,在沒有其他影響因素的情況下,一個家庭中發生嬰兒猝死的概率是1/8 543。梅多告訴陪審團,克拉克的兩個兒子都死於嬰兒猝死綜合征的概率是這個數的平方,約為1/73 000 000。梅多聲稱,這種情況堪稱百年不遇。

這個證據在克拉克案的判決中發揮了重要作用,但是其中存在著巨大的錯誤。卡爾達諾早就發現,兩個無關事件的組合概率的正確計算方法是乘法。因此,我們知道,用一枚色子擲出6點的概率是1/6,連續擲出兩個6點的概率是1/6×1/6 = 1/36。兩次投擲是彼此不相關的兩個事件,即第一次投擲不會對第二次投擲的結果產生任何影響。

但是,這次審判卻忽略了一個問題:這個數學工具並不適用於嬰兒猝死的情況。有充分的證據表明,這兩起嬰兒死亡事件並非彼此無關。如果一個家庭中發生過嬰兒猝死,那麼這類事件再次發生的可能性要遠遠高於普通家庭發生嬰兒猝死的可能性。真相澄清後不久,有人公開發表研究結果,稱一個英國家庭發生兩個嬰兒猝死事件的可能性並不是百年不遇,而是每18個月就有可能發生一次。

除了概率計算的錯誤,這起案件還存在其他問題,他們誤認為「某件事偶然發生的概率很低」的意思等同於「發生某件事的原因並非偶然」。這是一個巨大的邏輯錯誤,沒有任何道理可言。以「歐洲百萬」樂透遊戲為例,雖然中大獎的概率僅為1/116 531 799(這個可能性低到令人髮指的地步),但是在大多數情況下,每週都會有幸運兒產生。由於參與的人非常多,所以不可能發生的事件也會時不時發生。我們並不能因為某件事發生的可能性非常低,就認為它不會發生。

即便涉及的人群不大,低概率事件也可能會發生。除忽視了這個簡單的事實以外,他們還犯了一個嚴重的錯誤。嬰兒猝死的概率是1/73 000 000(這個概率其實並不準確),但是他們居然因此認為,如果73 000 000個嬰兒中的其他72 999 999個嬰兒死亡,就一定是死於謀殺。檢方應該認真權衡的兩個概率是嬰兒猝死的概率與一個英國家庭中母親連續殺死兩個孩子的概率,後者肯定不是72 999 999/73 000 000。統計學可以在科研(和法律事務)中發揮巨大作用,但前提條件是要正確使用。

顯然,適用於熱力學第二定律的統計學工具不能用來研究人的行為,儘管這個想法頗具誘惑力。人們傾向於「集體審議」或者聚眾鬧事這類行為,儘管其中有心理學原因,但這也說明一群人聚在一起,其行為的複雜程度不是一堆氣體分子可以比擬的。在美國科幻小說家艾薩克·阿西莫夫以心理歷史學的概念為基礎創作而成的「基地」系列小說中,人們可以用一種異常強大的統計學工具研究某個文明,預測它未來的發展情況,甚至可以具體到某個事件。但是,現實中卻永遠不可能找到這樣的統計工具。

阿西莫夫的創作靈感來自愛德華·吉本的經典歷史學著作《羅馬帝國衰亡史》。這部著作似乎告訴讀者,人們可以從具體事物中找到線索,從而預見一個帝國走向衰亡的結局。阿西莫夫把這個(本來就不可靠的)概念拓展成一個研究行為特性的純粹的數學工具。但是,為人們在現實中利用統計數據來預測複雜事物(例如文明)的未來情況時,就會像那些試圖進行長期天氣預報的人一樣,面臨同樣的困難:系統過於複雜,涉及的變量過多,以致難以做出有意義的預測。在數學上,這被視為一種高度混亂的情況。這意味著開始時發生的小變化(在研究對象是一群人時,這些小變化通常是由個人的行為引起的)會對結果造成巨大的影響。

概率和統計學已經成為許多科學家手中威力巨大的武器。但是,事實證明,如果這些科學家的數學造詣不深,濫用統計工具就會造成一系列問題。毫無疑問,數學很有用,在科學研究中可以發揮重要作用。但是,如果過於重視統計學的「證據」作用,不僅對科學研究沒有任何益處,還會導致我們在得到看似正確的數據之後做出錯誤的判斷,還自以為揭開了天地萬物的奧秘。

有的問題根本不是數學的錯,而是數學工具應用不當造成的。我在《超感官》一書中討論的超自然研究就經常犯這樣的錯誤。假設我們正在測試心靈感應能力。我們預先安排了一場選拔測試,得分高的人才能留下來,成為實驗對象。只要我們在正式測試時不考慮他們選拔測試的分數,這種做法就無可厚非,但是,選拔測試的得分通常會被計入正式測試的成績。這些人之所以能入選,是因為他們的選拔測試得分很高,因此他們肯定會使測試結果偏向肯定性的一面。

這種「摘櫻桃」式的有選擇性地使用數據的行為,是統計中的一個常見錯誤。如果只選擇那些對假設有利的數據,忽略或者不重視其他數據,最後得到的結果就會毫無用處,但這種情況卻經常發生。有時候,這是一種明目張膽的有意行為;有時候,例如選拔測試,則是無意行為,測試者甚至不知道他們的行為已經導致結果發生了偏差。還有一種可能的情況是想方設法捨棄一些數據。如果實驗出了問題,那麼在審核這些數據之前將它們捨棄就不會有任何不妥。但是,數據一經審核就不應被捨棄,否則就會有選擇性使用數據之嫌。有時候,我們甚至會下意識地找一個理由,去捨棄那些不利於預期結果的數據。

早期心靈心理學實驗者J. B. 萊因也犯過一個無意識的「摘櫻桃」的錯誤。萊因在歷時多年的實驗中,利用一套「齊納」牌,針對多名個體進行了多次心靈感應測試。這套牌共計25張,每張印有一個符號,共有5種符號。萊因要求實驗對像通過心靈感應,將牌上的符號告訴另一個人。實驗中,一位名叫A. J. 林茨邁耶的實驗對像連續15次猜中答案。於是,萊因歡欣鼓舞地宣佈:「連續15次準確猜出牌上符號的概率是(1/5)15,約為300億分之一。」

在這個實驗中,「摘櫻桃」的錯誤很難被人發現,錯誤的原因在於萊因在多輪實驗中選擇了一輪。如果他真的只做了一輪實驗並且實驗對像連續猜對了15張牌,他說的概率從技術上講就是正確的,但是只做一輪實驗還不足以保證結果的有效性。也就是說,除了這輪成績優秀的實驗以外,他還做了多輪實驗。連續猜對15張牌的那輪測試並不是隨機抽取的,而是因為它產生了這種優秀的結果才被選中了,這種行為本身就是在「摘櫻桃」。

除了「摘櫻桃」,應用不恰當統計方法的錯誤也比比皆是,這是因為統計方法有很多種,但並不是所有方法都適用於所有情況。最常見的問題也許是樣本過小和樣本選取不當。很多「軟科學」實驗的參與者比較少,往往很難得出明確的結論。樣本選取不當的問題之所以經常發生,原因是人們在選擇參與者時往往會選擇有利於某種觀點的人。曾經有人在調查最受歡迎汽車的活動中,選擇的樣本都是當時擁有某個特定車型汽車的人,這是一個非常典型的樣本選取不當的例子,這個樣本肯定不能代表所有人。

實驗設計也有可能影響結果的公正性。在心理學的某些領域,實驗者往往希望實驗結果與他們的預期之間只有非常細微的偏差。假設在完全隨機的條件下,我們預期某個實驗得到A、B兩種結果的機會各佔一半。於是,我們準備進行多輪實驗,以便得到更準確的數據。比如,進行25輪實驗。選擇做奇數輪實驗,兩種結果就不可能恰好各佔50%的比例。

從很多實驗可以看出,實驗者收集的數據很可能是機緣巧合的結果。經常有報告宣稱某種超心理能力肯定存在,因為碰巧出現這些結果的概率非常低。但是,實驗者在發佈這些信息的時候有些操之過急。原因之一在於,心理學家預防巧合發生的力度遠小於物理學家。如果出現隨機條件下發生概率為5%的結果,心理學實驗人員通常就會認為這不是一種隨機結果,儘管這種小概率結果經常出現。更糟糕的是,僅僅證明實驗結果可能不是隨機結果,往往不能證明某個假設是真實的,也就是說,不能證明這些是超心理能力作用的結果。

雖然研究人員使用統計工具的過程無可挑剔,但是由於數據解讀的問題,他們仍然很難解釋實驗結果的含義。歐洲核子研究中心大型強子對撞機尋找希格斯玻色子的項目顯然就遇到了這個難題。希格斯玻色子是粒子物理學標準模型預言的一種粒子,這種粒子可以使其他粒子具有質量。發現希格斯玻色子與在野外發現一隻稀有的老虎是不同的。看到老虎,你可以捕捉、拍照或者取血樣並驗DNA(脫氧核糖核酸),以確定你看到的確實是一隻老虎。但是在尋找希格斯玻色子時,這些方法全部失去了作用。別的不說,實驗並沒有真的讓我們看到希格斯玻色子,而是其他粒子留下來的間接痕跡,實驗者認為這些痕跡是希格斯玻色子衰變造成的。由於不是直接證明,實驗人員只能通過發生概率來解釋,問題也隨之而來了。

科學家經常用「西格瑪」(σ)這個符號表示標準差這個統計量度。如果把某個事件隨機產生某些結果的頻率繪製成圖,往往就會得到一種叫作正態分佈的鍾形曲線。比如,手機的重量大多位於某個範圍之內,均勻地分佈在平均重量的周圍。

並不是所有的隨機事件都遵循正態分佈的規律,因為根據這些信息繪製成的圖形不是鍾形曲線。有的教科書以人的身高為例,介紹數據集的正態分佈特點。但是,這個例子並不恰當。美國男性公民的平均身高大約是5英尺6英吋[2],從這個數字就能看出一些問題,因為典型美國男性公民的身高(用統計學術語來表示,就是中位身高)超過這個高度。分佈圖的右側表示身高越來越高,但在超過平均身高1英尺之後,人數就變得非常少了,超過6英尺6英吋的人更是寥寥無幾。然而,分佈圖向左延伸的幅度較大,最左側的身高比平均身高低2英尺多。這個圖像並不是真正的正態分佈曲線,而是向右「傾斜」,在左側留下了一個扁扁的長尾巴。

標準差是分佈形態的一個量度(只在正態分佈這種對稱分佈中才有效)。標準差表示數據的離散程度,可以告訴我們數據是四處分散還是聚攏在平均數周圍。如果數據的離散程度是一個標準差,則表示作為隨機事件,統計結果有略高於68%的可能性會落在距離平均值一個標準差的範圍內。如果數據的離散程度是兩個標準差,統計結果有約95%的可能性落在距離平均值兩個標準差的範圍內。心理學等「軟科學」經常採用這種統計方法。但希格斯玻色子數據分佈的離散程度是5個標準差。也就是說,我們所尋找的事件落在距離平均值5個標準差範圍之外的概率是350萬分之一。但是,如果從他們發現的就是希格斯玻色子的置信度這個角度來考慮,又該如何解釋這個實驗結果呢?

因此,媒體在報道這項研究時,不得不面對一個可怕的雷區。數據表明大型粒子對撞機給出的結果是一個巧合的可能性非常低。但是,與薩莉·克拉克案一樣,我們也不能反過來說,因為巧合發生的可能性非常低,所以希格斯玻色子存在的可能性非常高。數據並不能證明希格斯玻色子可能存在,而只能表明這些數據事出有因的可能性非常高,而且我們猜測造成這個結果的「因」可能就是希格斯玻色子。

更糟糕的是,兩者之間的區別十分微妙,幾乎不可避免地會造成誤讀。有的新聞媒體報道,實驗結果表明,不存在希格斯玻色子的可能性是350萬分之一。但是,統計數據實際上表明,這些數據事出無因的可能性是350萬分之一。這項統計指標並沒有說實驗結果是巧合導致的可能性非常低,而是說在沒有原因的情況下產生這些數據的可能性非常低。這就好比一個人說「從這些結果看,事出無因的可能性非常小」(錯誤),另一個人說「考慮到這是一個百分之百的隨機事件,出現這些結果的頻率非常低」(正確),兩個人的說法是不一樣的。所強調的內容有微小的不同,對於科研的意義卻相距甚遠。

一言以蔽之,只要運用得當,概率與統計學可以和現實世界實現完美的契合。這樣說是有道理的。我們不是利用抽像的數學為現實世界的某個過程建模,而是測量現實世界的某個基於數據的事實或准事實(例如,「拋一枚質地均勻的硬幣,得到正面和反面的概率都是1/2」),並在確認這個數據事實成立之後才使用相關的計算方法。與其說我們利用數學探索宇宙的奧秘,不如說我們是在使用數學研究數字的秘密。

即使在使用概率和統計學這兩大武器時沒有犯錯誤,我們也會遇到一些問題,主要是因為我們無法輕而易舉地洞悉一切。我們通過規律去認識、瞭解周圍的世界,即使有的時候根本不存在任何規律,我們也能「找到」規律。儘管我們知道事件的隨機性與非正態分佈是它們的真實屬性,但我們卻感到不舒服。正因為如此,即使專業人士在使用基於概率的統計工具時,也必須小心謹慎。

實踐證明,對於以數學為基礎的物理學(不僅僅是尋找希格斯玻色子)而言,概率與統計的重要性在不斷增加。但是,人們還沒來得及證明概率是構成所有物質的粒子的核心屬性之一,數學就已經把科學思維推到了另外一個臨界點,一個光芒四射的臨界點。

[1] 在三牌賭皇后遊戲中,作弊者用一隻手拿著三張牌,然後用另一隻手將這三張牌展開。在操作時,要讓其他人以為他每次拿的都是最下面那張牌。但是,通過不斷練習,作弊者可以從最上面拿牌而不被人發覺,尤其是當這些牌稍稍彎曲時,作弊的效果更好。

[2] 1英尺約合30.5厘米,1英吋約合2.5厘米。——譯者注