讀古今文學網 > 人工智能的進化 > 長尾現象帶來的難題 >

長尾現象帶來的難題

為了更好地理解該如何應對長尾現象,我們不妨假想一個極端的數字示例來幫助思考。

假設我們正在嘗試估算一個巨大數字集合的平均值。為了便於思考,我先透露點兒小秘密:這個數字集合中包含1萬億個數字,它們的平均數是100 000。但是集合中大部分數字都非常小。該集合數字的平均數如此之大的原因是,其中有1 000個超級大的數字。當然,這些大數字都控制在100萬億之內。

現在,假設我們對以上數據毫不知情,並且我們的目的是通過抽樣得到一個典型數字。我們從集合中第一次抽取的10個數字如下:

2,1,1,54,2,1,3,1,934,1。

其中出現頻率最高的數字是1,中位數(按從小到大順序排列後位於中間位置的數)是1.5。但是這組數字的平均數肯定大於1。在尋找平均數的過程中,我們會找到一些大於平均數的數字,也會找到一些小於平均數的數字,這樣總體數據的差值就會縮小,直至達到一種平衡。針對現有數據,我們可以通過所有數字求和除以數字個數來算出一個「樣本平均值」。前5個數字的樣本平均值是12。也許我們認為這種模式會延續下去,但10個數字的樣本平均值卻是100,遠遠高於12。到目前為止,在前10個數字中,只有一個數字大於100。好在這個數字足夠大,使得它與其他9個數字在計算平均值之後等於100。

我們繼續抽樣,驗證一下這個猜測是否正確。一段時間過後,樣本平均值果然穩定在100左右。但是假設在統計1 000個樣本數字之後,我們得到了一個更大的平均數——1 000 000。一旦我們把這個大數字加入平均值的計算當中,那麼得到的結果將為1 000。

假設這種情況一直持續下去:我們看到的數字大都像前10個一樣,但是每1 000個左右的樣本就會出現一個大數字(100萬以內)。當我們停止計算,並決定公佈最終的樣本平均值是1 000時,突然出現了一個更大的數字——100億。這種情況極為罕見。但是由於數字過大,樣本平均值由1 000變成了100億。由於這種情況是意料之外的,我們決定繼續抽樣,直到看完10億個樣本,樣本平均值穩定為10 000。

這就是從長尾分佈中抽樣的示例。在很長一段時間裡,我們可能認為自己已經足夠理解該數字集合的統計特性。我們可能會這樣說:

雖然我們無法計算整個集合的屬性,但我們可以通過抽樣來預估這些屬性。經過大量的抽樣調查,我們能夠得出樣本平均值為10 000。但實際上大部分數字要小得多,遠低於100。當然,還有一些非常罕見的極端大數字,但是它們都在不超過100億的範圍內。這種數字是極為罕見的,可以說是百萬分之一的小概率事件。通過10億個數字的樣本測試,這種情況目前已被證實,所以我們可以自信地談論所期待的結果了。

但是,這個結論是非常錯誤的。長尾現象的難點在於:我們研究該現象的時間越長,就越難以理解之前期望的結果。我們採樣越多,樣本平均值就越大。為什麼我們認為10億個樣本就足夠了呢?

為了更加生動地看待這些數字,我們可以利用一些看起來非常有效的新技術來幫助我們。目前,某問題已造成每年有36 000人死亡(這是2012年美國死於交通事故的人數),而該技術正應用於解決這個問題。新技術引入後,我們很難計算出死亡人數的準確數字,但我們可以進行一些模擬測試,親自檢視測試結果。假設上文中的每個採樣數字對應新技術引入後每年的死亡人數,那麼問題來了:我們是否應該引進這種新技術呢?

根據上述抽樣調查,新技術引入後,每年的死亡人數可以控制在100人以下,這比目前所知的36 000人要好得多。事實上,模擬測試顯示,在99.9%的時間裡,死亡人數都是低於10 000人的。這看起來好像不錯。不幸的是,模擬測試還顯示,死亡人數有千分之一的概率將會達到100萬。這將是一個災難。如果說100萬還不是最大的數字,那麼模擬測試顯示,人類將會有百萬分之一的概率全部死亡。

這樣看來可不怎麼好!

有人會說:

我們必須現實地看待這個問題,而不應該把過多的時間花費在這些罕見的小概率事件上。畢竟,彗星也可能會撞地球!忘掉那些黑天鵝吧,它們不會打擾我們的正常生活。問問你自己:我們真正期待的是什麼?如果不使用這項技術,目前的死亡人數是3.6萬。如果我們期望狀況好轉,那麼是否應該使用它呢?

這種立場並非不合理。如果只考慮最壞的結果,那我們乾脆就別活了。長尾現象帶給我們的問題,是我們如何能夠找出該現象中的典型情況。但是,這個典型的數字是多大呢?我們看到的數字中有一半都小於10。但是我們也清楚,這是在誤導我們的判斷,畢竟另外一半數字都特別大。99%的數字小於1 000,剩下1%的數字比1 000大得多。在這樣的情況下,我們最多能忽略多少樣本呢?樣本平均值最能夠體現整個抽樣過程的好壞。不僅所有的數字都小於10 000,湊巧的是,所有大於10 000的數字之和正好與小於10 000的數字之和相等。然而,作為典型數字的10 000,仍然比36 000要小得多。

為了更好地論證這個問題,我們不妨假設一下:經過10億次計算後,我們看到下一個數字就是一開始提到的大數字之一:100萬億。(究竟何種技術能夠造成100萬億人的死亡尚不清楚,暫不深究。)即使這是一件發生概率僅為十億分之一的事件,但由於數據如此之大,我們也必須重新計算數據的平均值。這次得出的結果是100 000。這個結果與36 000比起來可糟糕了不少。

簡而言之,這個問題旨在用實際情況解釋長尾現象。如果你所有的專業知識都來自於抽樣數據,那你可能永遠都無法察覺這些牽一髮而動全身的小概率事件。