讀古今文學網 > 萬萬沒想到:用理工科思維理解世界 > 第七十七章 冤假錯案的數學原理 >

第七十七章 冤假錯案的數學原理

我最近連續從幾本書中看到同樣的概率典故,不得不把它寫下來。人的直覺是一個非常強大的武器,在很多情況下可以幫我們不需要精密計算就能做出正確的判斷。但是在人的眾多直覺能力之中,不包括概率。下面我說說這個典故。

現代技術檢測 HIV 病毒的準確度已經到了驚人的程度。如果一個人真是 HIV 陽性,血液檢測的手段有 99.9% 的準確率,也就是說有 99.9% 的可能性把他這個陽性給檢查出來而不漏網。如果一個人不攜帶 HIV,那麼檢測手段的精度更高,達到99.99% – 也就是說有 99.99% 的可能性不會冤枉他。

現在假設我們隨便在街頭找一個人給他做檢查,發現檢測結果是 HIV 陽性,那麼請問這個人真有 HIV 的可能性是多大呢?

在你回答之前,我要提供一點背景資料。德國馬普研究所的心理學家曾經拿這道題考了好幾百人,包括學生,數學家和醫生。結果 95% 的大學生和 40% 的醫生(這些醫生實際上都受過這方面的專門訓練)都給出了錯誤的答案。

如果你真懂概率,你會想到要使用貝葉斯定理,然後你會發現這道題還缺少一個關鍵信息:那就是一般人感染 HIV 的概率。現在已知一般人感染 HIV 的概率是 0.01%,也就是說一萬個人中才有一個人感染這種病毒。根據以上信息,這位不幸被檢測為 HIV 感染者的朋友真有 HIV 的可能性是多少呢?

正確答案是 50%。

我先說貝葉斯定理的算法,然後再給一個更直觀的解釋。貝葉斯定理說的就是條件概率。如果我們用 A 表示 「真有 HIV」,B 表示 「檢測出 HIV」,那麼我們要計算的是 P(A|B)。 已知 P(A) = 0.01%, P(B|A)=99.9%。

P(B) 需要計算一下,它等於 0.01% x 99.9% [也就是有 HIV 而被查出來的]+ 99.99% x 0.01% [也就是沒有 HIV 但被冤枉的]。

貝葉斯定理說,P(A|B) = P(B|A) x P(A) / P(B),計算結果等於 0.5.

直觀的解釋是這樣的。假設我們隨機地找一萬個人來做實驗。根據 HIV 病毒的分佈,這一萬人中應該只有一個人是真有 HIV 的。而由於我們的檢測手段很強,這個人會被檢測出來。但剩下的9999人都沒有 HIV,可是我們對沒有 HIV 的人的檢測精度是 99.99%,也就是說有萬分之一的可能性會冤枉好人。這樣一來,我們的檢測手段還會在9999人中冤枉一個人。

本來只有一人有 HIV,可是我們卻檢測出來兩人。所以如果一個人被檢測出 HIV 來,他真有 HIV 的可能性其實只有 50%。

從根本上說,造成這種局面的原因在於 HIV 其實是一種罕見的病毒,只有萬分之一的感染者。在這種情況下即使你的檢測手段再高,也很有可能會冤枉人。下面再給一道例題:

1%的婦女有乳房癌(簡稱為C);80% 的有乳房癌的婦女會在乳房 x 射線照相檢驗 (mammographies, 簡稱M)中成陽性;10%的沒有乳房癌的婦女也會檢測到M陽性。現在有一個婦女檢測到了M陽性,請問她患有乳房癌的概率是多少?

答案:P(C)=0.01; P(M|C)=0.8; P(M)=0.8*0.01+0.1*0.99=0.107,所以

P(C|M)=P(M|C) P(C)/P(M)=8/107.

這是一個出乎意料的小數。

如果一個疾病比較罕見,那麼你就不應該對陽性診斷特別有信心。

由此我聯想到當初文革期間的「抓特務」行動。「特務」這個工作的要求,其實貴在精而不在多,再說國民黨也沒那麼多錢養,真正的特務其實是很少的。如果我們看到一個人長得像特務,說話走路也像特務,我們有多大把握說他就是特務呢?上面的兩個概率例題告訴我們,「誤診率」可以相當高。「抓特務」,最好的辦法是冒出來一個抓一個,最可怕的辦法是搞「人人過關」。如果你搞「人人過關」,必然是一大堆冤假錯案!

這就是概率。哪怕你的初衷再好,你也會犯錯!

本文第一個例子來自 The Social Atom 一書。

第二個例子來自 Super Crunchers 一書。

另外好像 The Drunkard』s Walk 這本書裡也有一個類似的例子。

別人一而再,再而三地強調,我們豈可不知呼。