人工智能的進化：長尾現象帶來的難題_赫克托·萊韋斯克

為了更好地理解該如何應對長尾現象，我們不妨假想一個極端的數字示例來幫助思考。

假設我們正在嘗試估算一個巨大數字集合的平均值。為了便於思考，我先透露點兒小秘密：這個數字集合中包含1萬億個數字，它們的平均數是100 000。但是集合中大部分數字都非常小。該集合數字的平均數如此之大的原因是，其中有1 000個超級大的數字。當然，這些大數字都控制在100萬億之內。

現在，假設我們對以上數據毫不知情，並且我們的目的是通過抽樣得到一個典型數字。我們從集合中第一次抽取的10個數字如下：

2，1，1，54，2，1，3，1，934，1。

其中出現頻率最高的數字是1，中位數（按從小到大順序排列後位於中間位置的數）是1.5。但是這組數字的平均數肯定大於1。在尋找平均數的過程中，我們會找到一些大於平均數的數字，也會找到一些小於平均數的數字，這樣總體數據的差值就會縮小，直至達到一種平衡。針對現有數據，我們可以通過所有數字求和除以數字個數來算出一個「樣本平均值」。前5個數字的樣本平均值是12。也許我們認為這種模式會延續下去，但10個數字的樣本平均值卻是100，遠遠高於12。到目前為止，在前10個數字中，只有一個數字大於100。好在這個數字足夠大，使得它與其他9個數字在計算平均值之後等於100。

我們繼續抽樣，驗證一下這個猜測是否正確。一段時間過後，樣本平均值果然穩定在100左右。但是假設在統計1 000個樣本數字之後，我們得到了一個更大的平均數——1 000 000。一旦我們把這個大數字加入平均值的計算當中，那麼得到的結果將為1 000。

假設這種情況一直持續下去：我們看到的數字大都像前10個一樣，但是每1 000個左右的樣本就會出現一個大數字（100萬以內）。當我們停止計算，並決定公佈最終的樣本平均值是1 000時，突然出現了一個更大的數字——100億。這種情況極為罕見。但是由於數字過大，樣本平均值由1 000變成了100億。由於這種情況是意料之外的，我們決定繼續抽樣，直到看完10億個樣本，樣本平均值穩定為10 000。

這就是從長尾分佈中抽樣的示例。在很長一段時間裡，我們可能認為自己已經足夠理解該數字集合的統計特性。我們可能會這樣說：

雖然我們無法計算整個集合的屬性，但我們可以通過抽樣來預估這些屬性。經過大量的抽樣調查，我們能夠得出樣本平均值為10 000。但實際上大部分數字要小得多，遠低於100。當然，還有一些非常罕見的極端大數字，但是它們都在不超過100億的範圍內。這種數字是極為罕見的，可以說是百萬分之一的小概率事件。通過10億個數字的樣本測試，這種情況目前已被證實，所以我們可以自信地談論所期待的結果了。

但是，這個結論是非常錯誤的。長尾現象的難點在於：我們研究該現象的時間越長，就越難以理解之前期望的結果。我們採樣越多，樣本平均值就越大。為什麼我們認為10億個樣本就足夠了呢？

為了更加生動地看待這些數字，我們可以利用一些看起來非常有效的新技術來幫助我們。目前，某問題已造成每年有36 000人死亡（這是2012年美國死於交通事故的人數），而該技術正應用於解決這個問題。新技術引入後，我們很難計算出死亡人數的準確數字，但我們可以進行一些模擬測試，親自檢視測試結果。假設上文中的每個採樣數字對應新技術引入後每年的死亡人數，那麼問題來了：我們是否應該引進這種新技術呢？

根據上述抽樣調查，新技術引入後，每年的死亡人數可以控制在100人以下，這比目前所知的36 000人要好得多。事實上，模擬測試顯示，在99.9%的時間裡，死亡人數都是低於10 000人的。這看起來好像不錯。不幸的是，模擬測試還顯示，死亡人數有千分之一的概率將會達到100萬。這將是一個災難。如果說100萬還不是最大的數字，那麼模擬測試顯示，人類將會有百萬分之一的概率全部死亡。

這樣看來可不怎麼好！

有人會說：

我們必須現實地看待這個問題，而不應該把過多的時間花費在這些罕見的小概率事件上。畢竟，彗星也可能會撞地球！忘掉那些黑天鵝吧，它們不會打擾我們的正常生活。問問你自己：我們真正期待的是什麼？如果不使用這項技術，目前的死亡人數是3.6萬。如果我們期望狀況好轉，那麼是否應該使用它呢？

這種立場並非不合理。如果只考慮最壞的結果，那我們乾脆就別活了。長尾現象帶給我們的問題，是我們如何能夠找出該現象中的典型情況。但是，這個典型的數字是多大呢？我們看到的數字中有一半都小於10。但是我們也清楚，這是在誤導我們的判斷，畢竟另外一半數字都特別大。99%的數字小於1 000，剩下1%的數字比1 000大得多。在這樣的情況下，我們最多能忽略多少樣本呢？樣本平均值最能夠體現整個抽樣過程的好壞。不僅所有的數字都小於10 000，湊巧的是，所有大於10 000的數字之和正好與小於10 000的數字之和相等。然而，作為典型數字的10 000，仍然比36 000要小得多。

為了更好地論證這個問題，我們不妨假設一下：經過10億次計算後，我們看到下一個數字就是一開始提到的大數字之一：100萬億。（究竟何種技術能夠造成100萬億人的死亡尚不清楚，暫不深究。）即使這是一件發生概率僅為十億分之一的事件，但由於數據如此之大，我們也必須重新計算數據的平均值。這次得出的結果是100 000。這個結果與36 000比起來可糟糕了不少。

簡而言之，這個問題旨在用實際情況解釋長尾現象。如果你所有的專業知識都來自於抽樣數據，那你可能永遠都無法察覺這些牽一髮而動全身的小概率事件。