萬萬沒想到：用理工科思維理解世界：第二十七章科學新聞沒告訴你的那些事兒 3_萬維鋼

擺脫童稚狀態

(果殼網)

中國民間有一個「七十三，八十四，閻王不請自己去」的說法，說在這兩個年齡上的人更容易去世。這個定律從直覺上就不太可能是對的。我們設想，應該是因為孔子和孟子分別死於這兩個年齡，人們認為這是人生中的兩道大關，然後每當聽說有人在這個年齡去世都會進一步加深印象，以至於總結了這個純粹是錯覺的定律。但有人不滿足於直覺分析。

一篇網上流傳的文章認為這是一個「科學家驗證」了的規律：「科學家的回答是肯定的」。這篇文章說「科學家們經過了反覆的研究」，發現「人的生命有一個週期性的規律，大致是7～8年為一個週期」，而73和84歲正是這個週期的低潮。我不知道這個週期學說是哪個科學家的理論，也許來自某人解讀的《黃帝內經》罷。但問題不在這裡。

問題是，這篇文章把「能找到一個理論解釋」，當成判斷一個學說是否科學的標準 — 如果能用理論解釋，它就是科學驗證了的麼？

絕學與證據

不管你用來解釋的理論對不對，這都是一個錯誤的判斷標準。能用理論解釋的結論未必正確，不能用理論解釋的結論未必錯誤。古代文人的思維習慣，是遇到無法判斷對錯的局面就查經典，想獲得理論上的指導。而科學家的方法則要樸素得多：你直接用事實驗證一下不就行了麼？我們根本不需要任何學派的任何醫學知識，甚至不需要什麼邏輯推理，只要隨便找個死亡年齡分佈數據就會發現73歲和84歲並不比其臨近年齡更容易讓人死亡。這個工作是如此簡單，據說連北京電視台都做過。

古人說「為往聖繼絕學」，很多現代人也追求用某種特定理論來指導實踐，好像不用這個理論就對不起別人一樣。科學家不從絕學出發，而選擇從證據出發的根本原因不僅僅是科學尚未達到找到絕學的程度（物理學家仍未找到統一理論），更是因為就算有絕學也無法放之四海而皆准。就算我們完全知道人腦中每一個原子，進而到每一個大分子，進而到每一個細胞是怎麼回事，也無法從中計算出心理學來 — 因為這是不同尺度上的問題，這種跨尺度的計算量大到了即使是科幻世界裡也不可能的程度。

所以科學家強調事實。科學放棄了從一套最基本的哲學出發推導所有結論的嘗試，改為在每一個領域內就事論事地搜集事實。有人指責科學家說你們相信現代科學理論難道不也是一種迷信麼？但科學家其實不迷信任何理論 — 很多情況下他們完全用不上什麼絕學，唯一做的事情就是把事實搜集在一起，就好像集郵一樣。只要有證據，反駁一個理論是非常簡單的事情。

但是要想用證據建立一個理論，則要困難得多。只有運氣好的時候，科學家才能在大量事實中發現一些有趣的規律，以至於可以向形成科學理論的目標前進一步。

相關性思維

最簡單的規律叫做「相關性」。人是如此複雜的東西，我們根本沒辦法精密計算各種物質致癌的概率，比如說吸煙對肺癌的作用。科學家常用的是沒有什麼技術含量，不需要任何高科技儀器，更談不上什麼門派的辦法：他們直接調查吸煙人群和不吸煙人群的肺癌發病率。

這種研究要把被調查的人分組，比如分成兩組：得了這種病的患者一組（叫病例組，case），沒有這種病的人一組（對照組，control）。然後考察這兩組人在生活習慣上和飲食、吃藥方面有什麼不同。如果你發現患有肺癌的人中煙民比例顯著地高於沒有肺癌的人，你就得到了肺癌與吸煙的一個正的「相關性」。這個方法很簡單，得到的證據卻是強硬的。睡眠時間與判斷力的關係，孕婦焦慮與小孩任性的關係，出生季節與平均壽命的關係 — 我們看到的大量科學新聞本質上都是相關性研究。

相關性研究只是科研的初級階段。但就是這樣它也已經超越了我們的思維本能。某些人只要被某地區生產的產品坑過一次，就會認為這個地區的所有產品都不好，他們的發現連相關性都算不上。我們每天看到鋪天蓋地的各種營養品的廣告往往都能找到幾個用戶出來現身說法，可就是沒有一個療效相關性的數據。「一朝被蛇咬十年怕井繩」，是人這種動物的最自然思維，而使用大規模統計發現實在的相關性這個最簡單的科學方法，是我們擺脫童稚狀態的第一步。

絕大多數人沒有相關性思維。比如在一篇討伐網癮的文章中，作者援引「戒網專家」陶宏開的數據說，

中國80%的青少年犯罪與網癮有關，中國20%的網癮少年有違法犯罪行為。

在另一篇文章中則有人進一步指出

濟南在押的1500名少年犯中，80％是「網癮」造成的，北京更是有90％的青少年犯罪案與「網癮」有關。

我們能否根據這些數字得出結論說網癮人群比沒有網癮的人群更容易犯罪呢？

不能。我可以構建這麼一個國家，這個國家80%以上的青少年有網癮，而這個國家的所有青少年，不管有沒有網癮，都有20%的犯罪概率。這個虛擬國家完美符合以上數據，但是它的犯罪與網癮完全無關。實際上，如果你把「網癮」改成「錢」，甚至「空氣」，那麼我們可以說「中國xx%的青少年犯罪者都缺錢/需要空氣，中國yy%的缺錢者/需要空氣者有犯罪行為」，而缺錢和需要空氣不是毛病。

這個錯誤就是沒有建立對照組。我們缺少的關鍵數據是沒有網癮的青少年的犯罪率，以及沒有犯罪的青少年的網癮率。這是一個非常常見的錯誤。這就好比說列舉再多「發達的民主國家」，也不能說明民主與發達的相關性，你還必須統計那些不發達的民主國家、不民主的發達國家、和既不發達也不民主的國家。

發現相關性，已經是一個足夠發表的科學成就，但相關性結論並不能指導實際生活。假設我用無可質疑的統計事實告訴你「吸煙的人更容易得肺癌」，而你不想得肺癌，那麼你是否能推論出應該因此戒煙呢？

怎樣發現因果

還是不能。因為你無法從「吸煙的人更容易得肺癌」，和「肺癌患者大部分都愛吸煙」這兩個統計得出「吸煙導致肺癌」這個因果。也可能肺癌導致吸煙，比如說也許癌變的肺會使人對煙產生需求。也可能存在某種基因，這種基因會使得一個人天生就容易得肺癌，而這種基因同時還讓一個人天生就喜歡吸煙。也可能吸煙的人往往是喜歡深夜工作的人，是深夜工作導致肺癌。也可能吸煙的人往往是經濟狀況比較差的人，其居住環境和營養不行，是貧困導致肺癌。

有相關性未必說明有因果關係，這是一個非常重要的思維。中國青少年網絡協會和中國傳媒大學調查統計研究所發佈的《2009年青少年網癮調查報告》是一份值得發表的研究，因為其中給出了一些明確的相關性數據，比如：

自我評價學習成績越不好的在校學生中，網癮青少年的比例越高。認為自己「成績較差」的學生中，網癮青少年的比例達到28.7%，認為自己「成績一般」的學生中，網癮青少年的比例為14.5%。而自我評價「成績很好」和「成績較好」的學生中，網癮青少年的比例均在11%左右。

那麼根據這份報告我們能否得出結論說網癮是個壞東西呢？

不能。也許並不是因為網癮導致青少年成績差，而是那些成績差的青少年更容易得網癮。報告沒有統計網癮與犯罪率的關係，但就算真的是越有網癮的人群越容易犯罪，我們仍然不能說網癮導致犯罪。比如我可以提出這麼一個假說：

我認為網癮是個好東西，因為它可以減少青少年犯罪。在任何國家的任何時候，都一幫青少年對學習不感興趣，整天無所事事。他們喜愛在街上遊蕩，都是潛在的犯罪者。因為網絡遊戲的出現，相當一部分這樣的人被留在了家中和網吧裡，他們的野性在遊戲中得到了發洩，以至於減少了出去犯罪的慾望和時間。

報告和前面提到的所有統計數字都無法反駁我這個假說。我甚至可以用這份報告支持我的假說。報告中提到一個有意思的統計是「在社會經濟發展水平低的城市，網癮青少年的比例更高」，這正好可以說明無所事事的人更容易得網癮。

想要明確證明吸煙導致肺癌，唯一的辦法是做實驗。找完全相同的兩組健康的人，讓其中一組吸煙另一組不吸，其它各方面生活都完全一致。20年之後如果吸煙組中的肺癌患者數高於不吸煙組，那麼鑒於這兩個組的唯一區別就是吸煙，我們就可以斷定是吸煙導致了肺癌。

可是現實世界中根本不存在「完全相同」的兩組人，這種理想實驗無法進行。好在科學家有一個退而求其次的巧妙辦法：找一群人，然後完全隨機地把他們分為兩組去做實驗。在樣本數足夠大的情況下，隨機性可以保證任何不同因素都可以大致均勻地分配到兩個組裡。這就是在關於人的研究中最重要，也是最可靠的辦法。然而世界上不存在絕對完美的隨機實驗，比如為了讓實驗結果具備推廣價值，樣本應該盡量多樣化，男女老幼，各種收入狀況，各個種族都有才好，但這其實很難做到。很多實驗心理學家選擇的樣本全是在校大學生，他們的結果能推廣到所有人麼？有人對此譏諷說他們研究的心理學應該叫「大學生心理學」。

更大的困難在於，大多數情況下你不能拿人做試驗，比如不能逼人吸煙。這時候就只能被動地集郵，而通過純粹的被動調查來做研究的方法叫做 epidemiology（流行病學）。最容易的流行病學研究是所謂回顧性（retrospective）的問卷調查：先找到病人，然後詢問並比較他們的生活方式。這種調查的難度在於病人對自己以往生活的回憶常常不準確，甚至是有偏見的。他們可能會自己推斷一種病因，然後刻意地強調這種病因。就好像想要討好醫生一樣，那些得了肺癌的人可能會誇大自己的吸煙史。一個更可靠的辦法是前瞻性（prospective）調查。比如說科學家想知道核輻射對人體的損害，現在日本地震導致核洩漏之後哪些地區的哪些人受到了輻射是非常明確的，根本不用對他們進行問卷調查，自然也就沒有偏見。有了乾淨的初始數據，科學家只要長期跟蹤這些被打了核輻射標籤的人群，再跟正常人對比，就可以知道輻射對人體的影響。可是這裡的困難就在於「長期」，核輻射的影響也許幾十年才能看出來，那時候也許病人還沒死科學家已經先死了。

比如「孕婦焦慮與小孩任性的關係」這個研究，唯一可行的辦法就是流行病學的調查，你不可能拿孕婦做實驗。一篇2008年的論文是回顧性的，研究者找到一個治療兒童多動症（ADHD）診所的6-12歲的203個孩子，詢問他們的媽媽懷孕的時候是否有過心理壓力，結果發現懷孕時心理壓力越大的媽媽，其孩子的症狀更明顯一點。這就是一個不太可靠的研究，有誰準確記得自己6年前的心態？多動症兒童的媽媽很可能會為了配合一個理論而高估自己當初的焦慮。

而一篇2011年的論文則是前瞻性的。研究者先鎖定了澳大利亞某地的2900名孕婦，在懷孕的時候記錄下離婚，搬家之類容易讓人產生壓力的事件。等她們的孩子長到2歲以後，再看其中哪些孩子有ADHD。這個研究就可靠得多了，而可靠的代價是研究要進行多年。

要想從流行病學研究中發現因果性，就必須盡可能的統計各種影響因素。懷孕壓力與小孩多動症的相關性數據並不能直接說明壓力導致多動症 — 也許那些在懷孕期間離婚的女人本身生活就不靠譜，是她們的不靠譜導致了孩子的多動症。所以這兩篇論文都統計了一些其它的因素，比如孕婦是否吸煙喝酒啊，懷孕年齡啊，收入狀況啊這些數字，然後使用統計方法把這些因素考慮進去（叫做 control），最後的結果才更有參考價值。可是你不可能統計所有的可能性，實際上兩篇論文統計的項目就並不一致。這就需要把一系列論文放在一起綜合分析。

不管調查到什麼程度，都只是對真實世界的管中窺豹。科學研究的是有限的真理。當一篇論文說什麼東西可能或者不可能導致什麼疾病的時候，它說的其實是在這次研究所調查的這幫人裡面有這麼一個結論。這個結論能推廣到所有人群麼？記者一定比科學家更樂觀。

科學的目標

得到因果性遠遠不是科學家的目標，科學不是一本寫滿什麼東西會導致什麼現象的菜譜。好的科學除了能證明因果關係之外，還必須有一個機制，得能解釋為什麼會有這種現象。比如二氧化碳增多導致全球變暖，其機制是二氧化碳是一種溫室氣體，它能夠吸收從地面反射回空中的紅外線，再把這個能量輻射出去促使大氣溫度升高。

相關性思維和因果性思維只是思維方式的轉變，真正的技術含量在於發現機制。你必須說明是吸煙導致肺變黑，而變黑的肺容易得癌症，還是煙草中有什麼化學物質可以直接致癌（正確答案是後者）。機制提出來之後，這個機制中的每一步也必須是可以驗證的，一個課題只有做到這個程度才算超越了集郵階段。也只有到了這個程度，才真正談得上把各種不同機制綜合在一起建立模型去預測未來。

有時候這個過程會反過來，也就是用現有的機制理論推導一些現象，再去尋找證據證實。但探索未知最基本科學方法是證據第一，然後謀求建立因果關係，然後是提出機制。僅僅是對其中一步作出很小的貢獻，就可以發論文。大部分這樣的論文事後會被證明沒有太大意思，甚至是錯誤的。比如研究孕婦焦慮與兒童ADHD的論文雖然有好幾篇，但它們說的其實是一個非常微弱的效應 — 也許將來我們會發現兒童多動症的真正原理根本就不是孕婦焦慮。但科學就是這麼一個不斷試錯的過程。

每一篇論文都是我們從個人感覺到客觀事實，從客觀事實到因果關係，從因果關係到能推廣使用的機制，這個過程中的一小步。這個過程的每一步都不是完美的，但只有這麼做，我們才能擺脫童稚狀態。

謹以此文標題紀念王小波。他曾經在這個標題下講述過類似的道理。可惜大多數人只記住了他文章的結論和價值取向，而沒有學會他使用的方法。比如據有識之士尼伯龍根·蝸籐指出，李銀河就應該重讀那篇文章。