讀古今文學網 > 萬萬沒想到:用理工科思維理解世界 > 第一百一十五章 社會科學的全面數字化 >

第一百一十五章 社會科學的全面數字化

本文談談現代人,或者說現代的西方學者,是怎麼研究社會科學的。在我國,常常是很多人因為感到數學不好學而去學社會科學,比如說去學法律。這樣自然選擇的 結果是產生了一大批像李銀河這樣感情充沛而不切實際的所謂學者。然而現在最領先的西方學者已經拋棄了過去那一套抱著悲天憫人的心態空談理論的研究方法。如 果你去讀他們的論文,你會發現其中到處都是圖表和數學公式;如果你去觀察他們的工作,你會發現他們大部分時間不是在寫字,而是在編程。

法律領域內有一個非常經典的問題:給犯罪分子更長的刑期,是否會增強對他的改造,從而減少其出獄後的再犯罪率?在以往,人們可能會從倫理,道德,心理學 的角度去分析這個問題。有的人可能會舉出各種例子來證明他的論點,然而這些例子往往是非常極端而沒有代表性的。這個問題直到最近才得到一個有說服力的答 案。

耶魯大學的Berube 和 Green 的研究完全基於數學統計。聯邦法院總是隨機的往不同的轄區派法官。有些法官傾向於重判,給長刑期;有些法官傾向於輕判,而隨機過程決定了每個法官傾向於總 體面對類似的案件。這樣一來,可能完全相同的犯罪事實,有的犯罪分子比較幸運就獲得了較短的刑期,而不幸的就會刑期較長。作者通過對一萬多名犯罪分子記錄 的統計分析,結論是,刑期長短與再犯罪率無關。如果沒有這樣的統計數據,如果沒有法官的隨機指定,像這樣的問題可能永遠都無法解決。

統計是一個非常強大的研究社會問題的手段。NCAA籃球中有沒有球隊參與賭球?拉斯維加斯的一個賭博項目是每場比賽的勝負分差(Point Spread),也就是我們所常說的讓多少球。比如賓夕法尼亞大學對哈佛大學,賭場開出的分差是14.5分,也就是說如果你押賓大,他們必須贏至少15分 你才能賭贏。如果你考察每場比賽的實際分差,和賭場事先開出來的比賽分差,其相差值幾乎完美地符合正態分佈(平均值是0)。這樣一來,正好有50%的時 候,勝者實際贏了對手多少分比賭場預測值高,50%的時候比預測值低。也就是說賭博的賠率幾乎是50%。這種50%概率正是賭場最喜歡的賭贏概率。

然而問題是,如果你考察那些勝負分差超過12分的場次,那麼其分佈就不是完美的正態分佈了:有53%的機會,勝隊實際取勝分差會比預測值低。為什麼會出 現這種情況?賓大學者 WOLFERS 猜測,當穩操勝券的時候,勝隊會故意放水一點,去操縱比賽分差來影響賭局(術語叫做 Shave Points)。也就是說使用統計方法,你甚至不需要任何直接的證據就能發現有人參與賭博。

類似的手段可以應用幾乎任何社會領 域。比如說婚姻問題。傳統的婚姻問題專家判斷一對夫婦是否會離婚,成功率只有53%,只比瞎蒙高一點。而最新的方法,聽一對夫婦之間的交談15分鐘,就有 能以95%的準確率判斷他們未來15年內會不會離婚。其所使用的方法,是給這15分鐘的交談錄像,然後幾個人坐下來看錄像,一個畫面一個畫面的分析其中人 物的細微表情和語言,然後把統計結果輸入一個事先做好的複雜方程之中,這個方程會告訴你該夫婦離婚的可能性。這個方程是怎麼設計出來的呢?用大量的數據回 歸出來的。

統計方法能夠大行其道的根本原因是現在網路和計算機技術的提高,特別是便宜的海量存儲給大量的數據分析提供了可能性。現在指導社會科學的先進文化是理工科思維,先進生產力是統計模型,計算機和海量的數據。

這種通過分析海量數據來預測和理解社會問題的方法被人稱為 number crunching,現在甚至已經有了專業的公司專門為商業公司幹這個事情來預測顧客行為。這樣做的一個結果是商家可能比你自己更瞭解你。比如你從 Blockbuster 租了一盤 DVD,Blockbuster 可能比你更瞭解你不按時歸還的概率。

一個典型的專業公司是 Teradata。它為65%的世界頂級零售商,70% 的航空公司,和40%的銀行服務。他們的一個典型業務是判斷哪些老顧客可能會因為一次不愉快的服務經歷而離開你們公司。Continental Airlines 就專門有人做這個。比如一次航班誤點或者行李丟失事件發生之後,如果統計分析系統判斷某個長期顧客有可能要因此從此不飛 Continental 了,這位客戶就會得到特別好的照顧。

甚至賭場也這麼做。每一個顧客入場玩都刷卡。他們根據每一個顧客的 收入,年齡,以往賭博記錄,居住地等等計算該顧客的 pain point – 也就是此人一晚上最多輸多少錢下次還能來玩。一旦發現某位顧客今晚輸的錢已經接近 pain point 了,就會立即派服務員過去邀請他免費吃頓牛排停止賭博。

這件事情的最可怕前景是,商家將會可以根據顧客不同的價格承受能力,給每個顧客一個不同的價格。

傳統的社會專家靠直覺,甚至是個人感情好惡來做研究,而未來屬於數字。但我國在這方面可以說是相當落後。我國」主流經濟學家」經常鄙視那些玩數學模型的海歸,人們不習慣用數字說話。

更不利的一點是,我們可能根本就沒有數字可以用。我國的統計水平可以說是極差,一個最基本的GDP數字居然都能隨便變來變去。在這種情況下你怎麼才能很 好的做出決策?我們看NBA比賽,無不讚歎美國人對數字統計的熱衷:這是他的這個賽季的第幾個兩雙,如果他兩雙了球隊獲勝的概率是多少,等等等等。量化思 維必須被培養成一種習慣。從這個角度講,」吉尼斯世界紀錄」的最大貢獻可能是培養了人們尊重數字的習慣。

沒有數字就沒有真像。

本文素材主要來自兩本書:Blink,作者是紐約人雜誌的記者,和 Super Crunchers,作者是耶魯法學院的教授,此人擅長用計算機做統計研究。