萬萬沒想到：用理工科思維理解世界：第三十七章從Web 2.0到推薦引擎2.0_萬維鋼

(《新知客》，2010年9月)

互聯網應用的新概念似乎總是層出不窮，然而相對於2005年前後中國一下子冒出來的一大批 web 2.0 網站和最近幾年出現的「雲計算」，此時此刻的互聯網業界似乎有點沉悶。人們開始談論，互聯網下一個有趣的事情是什麼？

百姓網 CEO 王建碩，最近在《中國企業家》雜誌發表文章《2011年注定是中國互聯網第三春》，提出一個五年週期理論，認為每隔五年左右就會有一批人出來創業，就會有一批風險投資周轉完畢轉而支持新的項目，這樣經過這兩年的沉悶，2011年必將有新東西爆發。王建碩看好的概念是「移動互聯網」。緊接著，著名 IT 博客「對牛亂彈琴」，也談到2005這個奇跡年，不過他並不怎麼看好2011年的爆發，認為現有的 web 2.0 公司仍在尋求能真正賺錢的模式，而不會出現什麼全新的概念。

有一個東西可能成為未來幾年互聯網公司的新主攻方向：推薦引擎。

豆瓣網，土豆網和各種視頻分享網站，包括博客的流行，在中國都是從2005年開始的。今天的年輕人中可能任何兩個人過去一天內看過的節目和新聞都完全不同，每個人都能根據自己的興趣找到特有的一套內容，這就是 web 2.0 的力量。對2005年的創新公司來說，最重要的革命性思想可能是2004年《連線》雜誌主編 Chris Anderson 提出的所謂「長尾」理論。這個理論說互聯網使得過去幾件流行商品通吃的局面一去不返了，現在哪怕是最不流行的東西也會有人喜歡，是小眾市場的時代。

互聯網的大趨勢，甚至可以說是整個社會的一個大趨勢，是人們面臨的選擇越來越多。過去是全國上下看一個電視劇，而現在中國每年生產一萬五千集，其中很多甚至根本沒有被播出的機會。1994年，全美國總共有50萬種不同的商品出售，而現在僅僅在亞馬遜網站上就有超過240萬種商品。長尾和 web 2.0，正是選擇越來越多帶來的現象。 Anderson 提出長尾的三個法則，第一是讓所有東西都可以被獲得；第二是讓這些東西賣的很便宜；第三是幫我找到它。前兩點可以說已經做到而且做得很好了，現在的關鍵是第三點，怎麼幫助用戶作出選擇。這就是推薦引擎的作用了。

據市場分析公司 Forrester 統計，那些在電子商務網站被推薦過商品的用戶，有三分之一的人會根據這些推薦買件東西。任何廣告都不可能做到這樣的成績。所以推薦引擎不但是 web2.0 的最核心技術，更是廣告的終極形式。我們可以設想，當一個人面對購物網站上幾十萬種商品，有多大可能沒有一件是他願意買的呢？這個人空手而歸的最重要原因，也許是那個他一定會買的商品沒有被他發現。

多年以前，我曾經在亞馬遜買過一本《量子力學》，是物理系研究生的教材。結果很長一段時間內亞馬遜不停地向我推薦各種物理教材。這個推薦引擎想的非常周到，只可惜它不知道我早就不需要這種教材了。現在在當當網買書，每一本書的關聯推薦往往都是一些流行熱賣的類似的書，這些書我早就知道而沒有買，難道會因為看到推薦才買麼？人們需要的是個性化的，恰到好處的，最好還有一點驚喜的推薦，而傳統的推薦引擎太落後了。

在線DVD租借提供商 Netflix，自己有一個算法保密的推薦引擎 Cinematch，根據用戶對電影的打分來判斷他還可能喜歡什麼電影。這是一個相當優秀的引擎 — 如果你想知道喜歡一本書的讀者還喜歡什麼樣的書，亞馬遜可以免費告訴你答案，而 Netflix 的電影推薦服務只給付費用戶，甚至可以說是一大賣點。但 Netflix 並不滿足，它在2006年提出懸賞，希望有人能把推薦引擎的性能提高10%，這10%的獎金是一百萬美元。

這件事充分說明一個好的推薦引擎是多麼重要，同時又是多麼困難。這筆獎金一直到2009年才被一個七人小組得到，其中包括兩名AT&T的科學家。

傳統的推薦引擎主要根據統計用戶記錄來發現關聯，重點是「買過這本書的人一般還都買了什麼書」。這個原理是簡單的，它的缺點在於往往推薦的都是一些相似的東西，而且這些東西必須已經有很多人買過了。它無法製造驚喜。這可能也是很多人更願意逛書店的原因之一，在書店裡往往會偶遇一些本來絕對想不到自己會喜歡的，而且不怎麼出名的好書。另一方面，傳統的引擎不知道一本書或者一個電影到底好在哪裡，為什麼人們會喜歡，以至於無法做出更精確的推薦。

但現在有兩個新的推薦技術，堪稱是推薦引擎2.0。

Pandora 是一個專門致力於歌曲推薦的公司，它的辦法是分析歌曲。在 Pandora 的算法中，給每一首歌都有400種不同的屬性，聘請一位音樂專家，使用20分鐘的時間給這首歌的所有可能的屬性打分。這樣一來每一首歌都被一組數標記了屬性。Pandora 的目標是建立一個包含所有歌曲的數據庫，稱之為「音樂基因組計劃」。他們每月能分析一萬首歌曲，在過去十年之內已經分析了74萬首。推薦算法的原理是，如果你表示喜歡一首歌，程序會自動尋找跟這首歌的「基因」相同的歌曲，並賭你也會喜歡。Pandora 現在已經是 iPhone 和 iPod 中最流行的應用之一，隨著播放的進行你可以隨時表示喜歡或是不喜歡一首歌，程序通過網絡自動提供各種你可能喜歡的歌曲。

Pandora 的獨特之處在於它完全根據一首歌的本身屬性和你自己的喜好記錄來判斷你喜不喜歡，而不考慮別人喜不喜歡。顯而易見的好處是也許這首歌並不流行，可是你就是喜歡。Pandora 「瞭解」歌曲。統計表明，在使用過 Pandora 的人中，45%買了更多音樂，只有1%的人因為 Pandora 減少了音樂購買。

而另一個推薦引擎公司， Hunch，有更大的野心，它的做法是直接分析人。Hunch 並不去分析歌曲，電影或者書有什麼屬性，它分析每個用戶有什麼屬性。你喜歡百事可樂還是可口可樂？你喜歡藍色的筆還是黑色的筆？通過大量的統計分析，Hunch 發現，如果你相信 UFO 存在，那麼你更有可能喜歡百事可樂；如果你有一個 MBA 學位，那麼你更有可能喜歡藍色的筆。

現在去 Hunch 的網站，它允許你用 Facebook 或者 Twitter 的賬號登陸，然後它會問你20個看上去與電影和書籍一點關係都沒有的問題。這些問題包括你住在城市，郊區還是鄉下，你會不會自己安裝家庭影院的音箱系統，你能不能連續做10個引體向上，喜歡吃什麼樣的炸薯條等等。然後根據這些信息，它將會向你5本雜誌，5個電視劇和5本書。我很少看電視劇，但它推薦的5本雜誌中有2本是我早就訂閱了的；它推薦的5本書裡有一本是我看過的。它其他的推薦我不怎麼感興趣，但這已經是相當不錯的準確度。Hunch 的雄心壯志是給每一個用戶建立一個個人喜好檔案，然後那些電子商務公司就會向它購買完全基於個人喜好的推薦服務。

中國顯然需要高性能的推薦引擎，而且考慮到國人的喜好與西方用戶未必相同，這種推薦引擎還必然是具有中國特色的。我預計推薦引擎會在中國有很大的發展，但是其中也有困難。

首先，「煉成」一個好的推薦引擎需要大量的真實交易數據，而這些數據往往各公司保密，是一種稀缺資源。Netflix 是為了舉辦100萬美元的優化大獎，才公開了部分用戶電影評價數據。Pandora 是自己採用勞動密集型的做法僱人給每一首歌設定屬性，而且費時多年才開始盈利。很難想像淘寶或者當當能把自己網站的交易記錄交給一個第三方公司研究。

更重要的是，推薦引擎技術很難山寨，它不僅僅是一個編程的問題，而必須請統計學家，藝術家和工程師合作研究。早期的互聯網公司最大的不同是它使用了互聯網；中國在2005年爆發出來的 web 2.0 公司，最大的不同也許僅僅是一個好主意；而現在則到了需要核心技術的時候。也許那個大學本科退學生，甚至高中生想起來一個好主意，寫幾個月程序，然後就能拉到風險投資說創業就創業，說上市就上市的時代已經快要結束了。

從 web 2.0 到推薦引擎2.0，是互聯網公司從低端到高端的一個進化。