萬萬沒想到：用理工科思維理解世界：第四十二章第四個科學發現範式_萬維鋼

在你的第十二條染色體上有個叫做 LRRK2 的基因。我們假設，僅僅是假設，這個基因有一個小小的變異。這個變異的結果是使你有30%到75%的可能性在未來患上帕金森綜合症。

帕金森綜合症的原理大約是大腦出於某種原因降低了對多巴胺神經元的生產，而這些多巴胺神經元對控制身體運動至關重要，結果就是逐漸失去行動能力。很多名人，包括一些特別有學問的人得這個病。大腦為什麼會出這種問題，怎麼治療，科學家並不知道。

不用說治療，甚至連 LRRK2 基因與帕金森症的關係，都是直到2004年才被發現，此前人們甚至認為帕金森症不會遺傳。

你怎麼辦呢？

好消息是並非所有LRRK2基因變異的人都會得帕金森症。這個事實暗示了一種思路。這個思路並不奇特甚至司空見慣，但由於當前技術的進步，它正在變成一個了不起的思路。微軟公司對這個思路非常興奮，稱之為「the fourth paradigm of science」，第四個科研範式。

這個思路是，那些同樣有LRRK2基因變異的人，他們到底做了什麼，以至於沒有得病？也許我們不會知道其中的原理，但只要能找到這麼一件事，做了這件事就不怕LRRK2基因變異，那就已經足夠好了。就好像《午夜凶鈴》中死的人多了以後，人們發現只要做把錄像帶傳給別人看這件事就不會死一樣。

這就是 Google 創始人之一，LRRK2基因變異者，Sergey Brin 要做的事。他的爸爸是數學家，他的媽媽是應用數學家，他自己本科在是數學系念的，所以他治病的辦法是玩數據。

Brin 的老婆搞了個個人基因服務公司，23andMe。據最新一期《連線》雜誌報道，借助這個公司，Brin 有一個系統的，或者說暴力的，解決帕金森綜合症的辦法。我理解這個辦法是這樣的：

1. 召集一萬名帕金森症患者，徹查他們的基因，問卷調查他們的既往病史，生活環境和所有生活習慣，從中發現共性。這些共性可能就是帕金森症的病因。

2. 再去找那些也有這些共性的人但是沒有得帕金森症的人，看看他們做了什麼，其中有什麼共性。這個共性就是防治辦法。

這的確是非常簡單的思路，但是要做的話卻是相當的難。一個顯而易見的難點是數據量實在太大。進行這樣海量的數據分析，非得有今天最強的計算機，尤其是極高的數據存儲能力不可。這就是微軟對此興奮的原因。想法是容易的，技術條件是困難的。搞這樣的科研對微軟來說是非常好的機會（至少可以提升公司形象），以至於微軟找了一幫人，整了一本書，The Fourth Paradigm: Data-Intensive Scientific Discovery，並大力推廣。（微軟提供全文免費下載）。

下面我來談談我的看法。

所謂科學發現的前三個範式，是第一，實驗；第二，理論；第三，模擬。我認為從「硬度」角度講，這三個範式的重要性一個比一個低。實驗是最硬的科學發現，你理論說得再漂亮，宇宙加速膨脹就是加速膨脹，Higgs 粒子萬一找不到就是找不到，這是實打實的東西。

而模擬則是實驗不好做，理論計算又沒法算的情況下一個沒有辦法的辦法。如果你承認我用的方程都是對的，你大約也會承認我模擬的結果，但這個結果永遠都需要實驗的檢驗。

與這三個範式相比，這個「第四範式」的硬度更低一些。它既不能像理論和模擬那樣在一定程度上告訴你「為什麼」，更不能像實驗那樣明確地告訴你「是什麼」。海量數據分析，只能告訴你「大概是什麼」。比如數據分析可以告訴你喝咖啡對降低帕金森症發病率有好處，但是說不清到底是咖啡因的作用還是別的作用。它甚至說不清這種好處到底有多大。

歷史上阿司匹林對很多病症有療效，而科學家並不知道為什麼會有這種療效。這些療效都是「統計」發現的。

實際上，科學家一直都在從以往數據中尋找規律，提出猜想，再做驗證。這就是所謂「empirical study」，或者物理學家有時候使用的「經驗公式」。《連線》這篇文章提供的那個圖示的證明 Gaucher』s disease 患者得帕金森症的可能性高五倍的例子，並沒有說明白現在這個「第四範式」與此有什麼不同，無非是海量數據分析的數據庫更大而已。

我認為，其實「第四範式」的真正了不起之處在於「客觀」這兩個字。此前，模式識別主要是主觀的。是人在經驗中發現規律，提出一個主觀的假設，再去搜集更多案例來驗證這個假設。而現在這個第四範式，則是讓計算機自己從海量的數據發現模式，也就是共性，是客觀的。這樣就允許我們有一些驚喜。

但是很多人並不看好這個做法，因為數據的噪音太大。

還有一個更根本的困難。以帕金森症為例，也許發病的原因和不發病的原因都是不可觀測的，比如說純粹的偶然因素，或者說是問卷調查問不出來的因素。一個人的基因和生活自由度實在是太多，程序永遠都不可能確保把所有的變量都考察到。純粹的客觀其實是做不到的，在你設定問卷內容的同時，你已經主觀地設定了你想要考察的範圍。第四範式要想有所發現，還是需要一點運氣的。

不過 Brin 顯然有理由看好這個做法。從海量數據中發現趨勢是 google 一直都在做的，比如說通過搜索關鍵詞的趨勢判斷流感，google 比CDC要快得多。假設 google 有一個機制自動發現任何被突然大量搜索的詞，這種模式識別顯然就是真正客觀而不是主觀的。人的生活自由度幾乎是無限的，但所有詞彙的組合是有限的，可是我懷疑這種組合的數字之大，就連 google 也做不到實時監控每一個可能的搜索組合。更實際的做法也許還是大量地預先設定一些可能有意義的關鍵詞。

所以我認為「更客觀的模式識別」，是第四範例的關鍵。

（此文昨天發出之後今日略作補充）