讀古今文學網 > 智能數據:如何挖掘高價值數據 > 第一部分 從大數據向智能數據轉變 >

第一部分 從大數據向智能數據轉變

第1章 深陷數據過載的愁雲慘霧

「它無所不在,它無所不知,它的名字是大數據。」

——呆伯特,2012年7月

流感預測器也鬧「流感」

2008年是大數據發展的重要一年,儘管當時幾乎還沒有人提出大數據分析這一概念。就職於在當時仍備受推崇的、雄心勃勃的搜索引擎供應商谷歌的一小撮數據科學家在《自然》雜誌上發佈了一種大數據應用的方法,即利用大數據(的檢測功能)令地球上的人類更加健康(少生病)。科學家們將這種應用命名為GFT:谷歌流感潮(Google Flu Trends)。科學家們宣稱,在不與醫生溝通的情況下,谷歌可以預言美國境內的流感疫情暴發和地理傳播路徑。科學家們的預測速度比當時的監測部門美國疾病控制與預防中心(CDC)更快、更準確。

幾十年來,為了實現對流感疫情的監測,CDC搜集相關醫療診斷報告後,能夠據此推測出全國居民的健康狀況,推測結果公佈時間較現實情況有一周左右的延遲。基於這種推測結果,CDC則可採取相關的公共衛生控制措施,例如開展大規模的疫苗接種。谷歌的科學家們基於他們的數據庫,找尋到了一種預測居民健康狀況的更容易的方法:他們統計居民在搜索引擎中搜索例如「流感有哪些症狀」或者「附近有哪些藥房」等詞條的頻率,標記搜索人所在的地點,並將這些統計數據與以往的流感疫情情況比對修正。在2008年,聚合併定位數以百萬計的流感相關的搜索信息僅需不到一夜的時間。此外這種研究也證實了與專家發放調查問卷詢問的方式(在調查流感疫情時,專家指的就是醫生)相比,基於搜索請求統計的分析方法在一定區域內可以得出更微觀精細的預測結果。

「谷歌流感潮」是大數據分析大眾媒介影響的一個突破。不僅僅是谷歌公司的員工愛引用「谷歌流感潮」這個案例去促使人們關注谷歌公司的社會價值,關注信息技術仿射問題的記者也終於可以捕捉到一個在智能數據應用方面確鑿的、普惠的成功案例。Trendtagen趨勢大會的主講嘉賓操著慣用的「這僅僅是一個開始」的口吻,認為「谷歌流感潮」這個應用實例是基於實證的醫學研究革命的開始。分析與商業智能軟件公司的銷售人員都表現得彷彿他們的公司也參與了編寫GFT算法一樣,他們是想給人一種感覺,就是他們公司的產品在商業領域能夠創造奇跡,就如同谷歌流感潮在公共健康領域創造的奇跡一樣。人們也不再質疑在數據驅動下實現的進步。大數據分析領域的三個重要原則,通過谷歌流感潮這一應用案例被大眾知曉。

1.我們擁有的數據量,遠比我們想像的多。我們必須尋找新的方法,更有效地使用數據。

2.通過這些數據,我們可以觀察人們的行為,並識別發展趨勢,這可以為我們(實時)提供一個更準確的現實圖景,其準確程度優於我們之前任何一次通過調查獲取認識的方式,因此,我們擁有了更好的決策基礎。

3.我們不再需要探究原因,統計關係會告訴我們,我們需要瞭解什麼。《連線》(WIRED)雜誌前主編克裡斯·安德森(Chris Anderson)在他的文章《理論的終結》中就提到了這一點。在一個由數據丈量的世界中,我們不再需要理論模型,反正這些理論模型也只能部分為我們闡釋世界。如果我們擁有豐富的數據基礎,數據自會為自己證言。

2013年對大數據來說是一個好年景。有人會說,對大數據的發展來說,2013年比2008年還重要,這個就要看我們選取哪些比較指標了——可以是全世界積累的數據量、人們在谷歌上對「大數據」詞條的搜索量、跟大數據有關的IT項目投入,也可以是呆伯特漫畫裡提到大數據詞條的次數(2012年第一次提到)。企業咨詢顧問、趨勢觀察員、軟件供應商把大數據字樣印在彩旗上,畫在表格裡,在每次PPT(演示文稿)演講中都會提到。2013年,幾乎在德國所有的行業會談、座談會和企業戰略會中都會提到大數據概念。高德納咨詢公司的「3V」定義(體量、速度、多樣化)變成了聚會小圈子裡的高雅談資,不管這個定義到底對他們有沒有實際用處,也不論他們到底有多深的IT知識儲備,參加聚會的人都重複不停地談論這一定義。

簡而言之,大數據這個專業術語成為數字化的標籤,大數據之「偉大」如同這個概念本身所承載的數據量那樣「海量」,也如同這個概念所承諾的那樣宏大。當時,整個世界無可救藥地中了大數據的「毒」。

對「谷歌流感潮」項目來說,2013年就沒那麼幸運了。2月,在《自然》雜誌的新聞門戶網站上刊登了一篇文章,文章指出,一度宣稱能使世界變得更美好的大數據應用領域的典型案例「谷歌流感潮」預測結果出現誤報,對一些流感疫情的發生率估計過高,另一方面又認為某些疫情根本不會發生。2009年1月的豬流感事件就屬於後一種情況(實際發生,但GFT沒預測出來)。

現在回想起來,「谷歌流感潮」的發展史也可以這樣寫,谷歌是那個時代在大數據應用領域第一個「吃螃蟹」的人,領先於同業。來自山景城(谷歌總部所在地)的數據工程師率先對外宣稱他們可以預測流感趨勢。但同時,他們也是第一批令公眾失望的人。哈佛大學的一份學術研究報告認為「谷歌流感潮」事件是在對大數據分析整體進行炒作。這份報告中最重要的詞彙是「Hybris」,這個詞源於古希臘語,在德語中是「Selbstuberschatzung」,譯為「傲慢」,即指「大數據傲慢」。2014年4月,《經濟學人》雜誌刊登了《對大數據的抨擊》一文。《紐約時報》在大篇幅的分析文章中提出了「8個(不對,是9個!)大數據存在的問題」。劍橋大學公共風險認識學教授戴維·施皮格哈爾特(David Spiegelhalter)表述得更加直白,他認為以他的經驗來看,大數據所承諾的種種,毫無疑問純屬胡說八道。

技術成熟度曲線(Hype-Cycling)

信息技術總是「說大話」,承諾很多事情,就好像這些事情在短時間內都會實現一樣。這種現象由來已久,是老生常談,老得就跟第一台計算機一樣。這種現象強烈地影響了IT產業從業人員的心態,也逐漸影響了美國IT行業的特質。所有新科技好像就沒有不重要的,研發者和銷售人員都覺得是顛覆性的創新研發。這種情況有時令我們也很抓狂,事情總是這樣,肯定是不行的。

信息技術總是「說大話」,承諾很多事情,就好像這些事情在短時間內都會實現一樣。這種現象由來已久,是老生常談,老得就跟第一台計算機一樣。

鼓吹信息技術進步的言論是對一種理念堅信不疑的反映,即從長遠看,創新技術肯定會得到應用,在一定時期之後,個人、社會組織及企業事實上也會消費創新技術,屆時,那些從一開始就對技術創新抱有(過於)積極的態度的主體就會受益。早在20年前(第一個瀏覽器剛剛使普通人瀏覽網頁成為可能),軟件分析師傑姬·芬恩(Jackie Fenn)就提出了一個了不起的、結論性的分析框架,即高德納公司的技術成熟度曲線分析。

許多本書的讀者對這個曲線並不陌生。用物理學家的話描述這個曲線就是,具有指數特性特徵的一條光滑曲線在經歷了一個飛躍式上漲的波峰之後,逐步接近一個有走高趨勢的平衡位置。如果是在經濟領域,這條曲線表示,從指數上看,經過市場上的大肆渲染和宣傳,新信息技術首先將經歷不斷提高的市場關注度。與此同時,對新IT產品的期望值也逐步攀升,但是這些尚不成熟的產品在1.0版時是不可能滿足這些期望的。從某種程度上來說,這種期望後產生的失望是意料之中的。如果這些新產品生產企業掌握信息技術資源,很快他們就會推出優化後的2.0版本。

這些新版本可以實現人們意想不到的優化,比如可以治癒兒童疾病,或是增加了新功能。在這個階段,對新產品的公眾關注度明顯降低,人們會更切合實際地去衡量這些新產品的市場潛力和技術局限性。(能夠經受住市場檢驗的)成功的信息技術而後會達到「實際生產高峰期」階段。此時,消費者知道自己想要什麼,他們也非常清楚,這些新產品雖然已經不是最受追捧的了,但是這些新產品基本成熟的功能會使他們所在的機構或組織受益。

有很多新技術、新產品在跌入谷底之後,就不了了之了,市場低谷成了死亡之谷。

2011年,大數據作為類概念第一次出現在高德納年度技術成熟度曲線報告中,在隨後的2013年,大數據達到了曲線期望值的頂峰(達到「過高期望的峰值」階段)。2014年,大數據以「坐過山車」的速度衝向市場關注度的低谷,預計2015年將繼續加速向谷底俯衝。[1]這些只是預測層面的,不可迴避的是,像施皮格哈爾特這類對大數據持批判態度的頂尖專家絕不會就此認定,大數據會朝著曲線上「實際生產高峰期」方向發展。這是因為,技術成熟度曲線畢竟不是統計分析方面的「再保險曲線圖」(具有極高的預測準確度),不是所有時髦的新信息技術都會像技術成熟度曲線預測的那樣,在經歷了比較長的時間之後,會獲得市場的認可。出於回顧驗證預測結果的目的,高德納的分析師們特意關注了一些已經上市的新產品的市場表現,結果發現有很多新技術、新產品在跌入谷底後,就不了了之了,市場低谷成了死亡之谷。

大數據這個概念的表述還是太模糊,涵蓋了許多不同的產品和應用實例,在戰略和實操決策層面都引起了一定程度的困惑。沒有人能說清楚,在未來的5~10年,我們在企業經營中會用到哪些大數據分析方法。我們也不知道,到那時,我們使用哪些被大肆宣傳的「秘密武器」時,會讓我們不止一次地回想起「大數據」這個名詞。此處有兩個原因,一是大數據這個概念中的「大」不能用數量來衡量,二是對於多少數據量是容易或者不容易被運用的,判斷過於主觀。對有些企業來說,幾Pb(10的15次方字節)的數據量就大得不可想像了,對另一些企業來說,處理Eb級的數據量(10的18次方字節)都很輕鬆。從我們在大數據的大部分商業應用領域的經驗來看,企業能夠處理的數據量的多寡,在決定某個企業能否達到「實際生產高峰期」階段方面,是最不關鍵的因素。後續我們會對此進行更詳細的分析,此時,我們大膽預測,在一段或長或短的時間之後,大數據這個概念在企業中將不僅僅作為一個高高在上的抽像化概念存在。

沒有「大爆炸」的大數據

去年,我們從大企業和較大的中小企業的數據項目中獲得了一些經驗,在整合這些經驗時,我們發現,在對大數據的認識和態度方面,存在如下自相矛盾的現象:

決策層越高,就越會涉及大數據這一概念,同時對大數據的期望值也越高。如果此時,首席執行官、董事或者戰略決策部門還沒有深入瞭解在他們的業務領域面臨的最重要的數字化挑戰是什麼,他們對大數據的期望值還會更高。簡而言之就是:

越是沒有大數據應用經驗,對大數據應用於企業管理的期望值就會越高,越會希望通過大數據的應用獲得「多快好省」的收益。

這些期望主要是集中在能夠借助大數據發掘出企業尚未涉足過的、全新的商業模式上。這種期望會在各種媒體報道的影響下越發強烈。比如媒體會報道:

1.早在客戶意識到他們自己是多麼迫切需要某樣商品前,亞馬遜就已經開始出售這些日常商品了。

2.由於有一定的大數據意識,在線影片租賃提供商網飛(Netflix)對那些觀看連續劇成癮的用戶的欣賞偏好非常瞭解,網飛自己製作電視劇並且進行恰當的銷售,例如凱文·史派西主演的《紙牌屋》。

3.未來汽車保險公司借助於全球定位系統數據,在「按里程付費模型」框架內核算出了保費收費標準,從而可以提供極具市場競爭力的優惠保險產品。

具體的表象往往還沒有形成,例如這些基礎性的經濟領域技術創新在個別企業內是如何呈現的,等等。但是對大數據的基本態度已有定論,即數據為我們指明了方向。這不僅僅是效率的問題,還有實惠,因為現在信息技術的使用成本極低。這一點在去年與大數據相關的演講中可以看出來。

另一方面,我們認識到,決策層級越低,大數據帶來的失望情緒就越大,但是這種情緒多多少少都有所隱藏。這種情緒上的對立有多種原因。一方面,IT部門往往已經制定了工作方案,使企業可以更加有效地使用數據,但是方案在企業內部並未得到響應和貫徹。另一方面,如果公司將信息技術問題作為基礎性工作來抓,那麼原本相安無事的技術部門將陡然變為眾矢之的,對於這一點,公司信息技術操作層面的負責人原則上是十分清楚的。隨著信息技術的進步,IT部門意外地發現自己變成了影響公司決策的強有力的「剎車器」。在這方面,IT部門常用的話術是:「我們的系統不支持這個功能。」從IT部門的角度看,他們(這樣說了以後)往往會是幸運的,不用再去為了公司的數字化快速發展做更多辛苦的努力,因為上層決策者往往會關注大數據應用所需的短期的、實際的、可預期的投入,有時對投入關注得越多,繼續投入資源的熱情便會有所減弱。當上層決策者們慢慢意識到,在他們的企業內必須進行哪些深入的改變,才可以借助數字化長效地發掘公司真正的市場潛力時,決策者們才會慢慢改變內心的牴觸情緒,逐漸釐清認識。這裡指的當然是,發掘自己公司的市場潛力,而不是別人的。

在一些大數據概念相對模糊的公司,常出現如下問題:決策層認識到了大數據分析是發掘新商業模式的一種可嘗試的途徑,同時他們對此寄予厚望。在項目中,他們很快意識到,數據確實是一種資源,可以在短期內,沿著企業本身的價值鏈——從組織生產、供應商管理、後勤保障、銷售運營直到客戶售後服務——去優化企業的核心業務。而後,人們不可避免地會將大數據的應用潛力與商業模式的持續優化聯繫起來。在排除其他並行的商業模式優化因素的情況下,人們嘗試著去預估數據帶來純增量的潛力,結果是,在節省資源和增加銷售額或者利潤方面,大數據帶來的純貢獻值是低於預期的。故而人們對沒有帶來驚喜的大數據就不再有興趣了。

一次對企業影響深遠的、致力於尋求數據驅動下優化解決方案的嘗試,迅速將各種有經驗的、熟悉企業文化的「反對者」引向了「雷區」:

1.必須開放數據庫。通過利用運營數據,企業的業績可能提升,但也可能降低。但遺憾的是,部門主管們對此持有很矛盾的心態,他們遵循的行為原則是,如果我從數據中獲益則沒問題,但是如果我沒有獲益,則無法接受。

2.數據技術的「惡魔」通常存在於細節中。小問題總是能演變成大問題,進而導致IT投入(儘管有IT行業的各種美好承諾)經常一路飆高,就如同柏林機場和易北河音樂廳在籌建時不斷增加的預算一樣。哪些處於職業上升期的領導會去冒這種風險?此外,讓事情變得更困難的是,因為從商業角度出發數據應用似乎是值得期待的,故而數據庫的經營管理人員的職權越來越大。在一個公司裡,如果想投產一個創新性的客戶數據應用,就需要對SQL(結構化查詢語言)代碼進行修改。誰能夠估計出為此修改5000行SQL代碼究竟有多複雜?肯定是實際操作修改的人。

3.內外部的數據保護者喜歡證明他們的存在權利。評估法律風險和突破法律方面的障礙不會給企業管理者帶來任何樂趣,即便是在數據驅動下也一樣。

4.應用分析工具所做出的預測並沒有像軟件銷售商和咨詢顧問宣稱的那樣令人信服。同時,在很多基於數據分析的優化項目中,在項目投產前往往有很好的預期,但是投產之後帶來的短期實惠較少,項目投資收益少(沿著企業原本的價值鏈)導致公司資產收益率下降。

5.要更好地使用數據所面臨的最大障礙不是機器設備,而是人員。更準確地說,是人力資源。智能的數據分析需要聰明的腦力。企業內部經常不具備這種人力資源或者這些人的工作量已經飽和,只能高薪從外部聘請,這時就會遇到普遍存在的困難,即控制預算。

總體而言,項目負責人和(或)財務預算人員如果想要推動項目進展,而項目本身需要應用大數據分析手段,那麼他們最好還是馬上做好與不斷飛漲的預算做長期鬥爭的打算,預算飆升是很有可能發生的。短期內獲得的分析結果是很有限的,可能遠未達到預期,如果此時項目負責人想憑借這些分析結果將項目立項,這樣的可能性微乎其微。企業首席執行官和董事們認為,企業戰略規劃的實施需要時間,企業在經歷深刻的變革後,成為一個數據驅動下的市場競爭領先者——就像美國商業分析先驅托馬斯·達文波特(Thomas Davenport)所說的「分析型競爭者」(Analytical Competitor)那樣,至少需要5年的時間,也很有可能是10年。幾乎沒有首席執行官和董事們可以確定,到那時他們還是不是在擔任現在的職務。與此同時,所有的有數字化發展戰略的企業當然也都清楚,他們必須要做些什麼。

處於矛盾糾結中的企業目前面臨的這種情況,在國際象棋中被稱為「Lavieren」,即以守為攻戰術。

以守為攻戰術

在棋牌類遊戲裡有一種情況,在這種情況下採用「Lavieren」戰術特別有用。參與遊戲的人中,沒人有穩操勝券的取勝之道。大家都採用與之周旋的招數,並給自己留出盡可能多的轉圜空間。在這種情況下,「Lavieren」戰術就有可能派上用場:如果對手犯了錯誤,進而失去了空間優勢,那麼就為對方提供了進攻「王」的機會。反過來說就是,防守是最好的進攻。自己並不主動做什麼,而是以守為攻,等待並期待對手犯錯,進而為自己贏得一個機遇。

完全沒接觸過象棋的人,可能不能理解我們在說什麼,不理解什麼是企業所謂的數字化戰略,那麼請回憶一下那些無關緊要的中場傳球。一個在本質上被動的、以守為攻的行為,會被機會主義行為或者會議上大肆宣揚大數據應用的行為所掩蓋。

以守為攻型企業典型的行為模式有:

☆為特定用途購進多種分析與可視化工具,雖然從根本上來說這種行為是好的,但是這種行為不總是會起到好效果,結果導致大家對IT的印象變得更加支離破碎,並且產生了「工具過載」現象。伴隨著「工具過載」而來的,是人們越來越高漲的失望情緒:「我們沒有辦法再控制我們的系統了,反倒淹沒在了一片數據汪洋之中。」或者像一個在一家大型保險公司工作的運營主管所描述的那樣:我們現在需要一個快速的解決方法,使我們的保險經紀們能夠著手處理客戶們的無索賠等級分類工作。因為缺少時間和錢,我們現在只能採用臨時性的辦法完成這項工作,這種行為在長期來看,使高效的數據應用更難實現了。

☆逐項、不兼容地購買外部數據也會導致「工具過載」,「工具過載」使各項技術手段的融合變得更加困難。伴隨著「工具過載」而來的,還有進一步的數據過載。

☆將數字化創新工作交由企業自有的「創新加速器」來做。媒體對此種模式都抱以正面的宣傳態度,而且從根本上看,支持年輕企業家追求科技化的未來,也確實是件好事情。我們也確實遇到過個別企業,他們將創新成果應用於企業經營並獲得了成功,但是實事求是地講,由「創新加速器」孵化出來的初創企業,獲得創業成功的比例還是很低的。在沒有核心領域背景背書的情況下,建立一個「創新加速器」,或者從狹義的角度來說,貿然去參與一家數字化初創企業的發展,這在某種程度上釋放了一種錯誤的信號,就好像我們已經擁有一支規模很龐大的創新軍團了。這種錯覺會消磨人們在核心領域追求創新的動力。

這聽起來有些荒謬,但是對長期的數字化效益來說,卻存在著極大的隱患,尤其是當以攻為守者憑借他們的機會主義獲得了首次成功的時候,又或者當他們成為本職工作和部門工作的良好內部推動者的時候。因為上述情況加深了人們的印象,即多虧了有新的工具和諸多新的數據,才使得我們沒有偏離正軌。此外,我們在加速器這個問題上還有很多「百搭牌」。因此,我們並不需要徹底地改變什麼。消息從上層傳達到基層,然後再反饋回來,這樣就很好。

來自硅谷的大數據發明者在某種程度上可能是吃了高估自己的虧。逐步獲得數字化進展的「以守為攻」型企業,自己將這種進展貼上了大數據的標籤,都或多或少地有些自欺欺人。正如杜克大學心理和行為經濟學教授丹·艾瑞裡(Dan Ariely)的格言所說的那樣:「大數據就好比是青少年性行為。所有人都在談論,但是沒人敢去嘗試。偶爾有幾個人真去嘗試了,卻弄得一團糟。」

「以守為攻」者的根本問題是:

他們總是盡可能地大聲疾呼大數據概念。他們誇大了自己在數據過載的情況下取得的成功。然而,他們並沒有尋找到真正意義上的改革模型,這種模型可以為他們開啟更廣闊的前景,幫助他們佔領所在行業內的數據分析制高點。

我們得承認,很難用恰當的語言表達上述情況。但是項目經驗告訴我們,誇張的表達有助於我們認識到問題的存在。

選擇一個比較中立的概念去描繪企業的數字化現狀,和一些被數字化改革折騰得夠嗆的職業經理人的心情,那麼這個概念應該是這樣的(見下頁圖):

圖的左下角描述了企業裡數據分析活動的現狀,誠實地說,許多人對實際情況是不滿意的。

圖右上角所描述的情況就很難把握了,它包含了一個非常抽像的範疇,即數字化的未來幻景。同時,也回答了「未來可為企業帶來長效競爭力的、數字化驅動的經營模型到底是怎樣的」這一問題。

圖裡的數字化未來幻景是通過現實中的應用案例構建的,這些案例來自例如谷歌、亞馬遜、網飛、貝寶、Bluekai(數據管理軟件公司,於2014年被甲骨文收購)等數據分析領域的「明星企業」。來自奧托集團的代表們都有理由去考慮,我們究竟打算怎樣去獲得跟他們一樣的數字化競爭力。實際上,(在數字化方面)我們跟他們的差距還很大!在與他們的數字化競爭中,我們暫時不可能取得勝利!另一方面,在這個數字化未來幻景中,還存在很多雄心勃勃的數字化驅動下的初創企業。企業管理者和來自施瓦本的機械製造工程師異口同聲地發問(他們也確有權利知曉),我們想要的只是這100萬美元嗎?如果沒有一個一個的消費者,這該如何實現?如果他們暈乎乎地拿錢去了股票交易所,那我們就需要關注一下我們的季度財務數據或者月銷售額了。

總體來看,這張圖就是脫離現實太遠。我們很難發現,圖裡描述的未來幻景到底跟大多數企業的日常工作有什麼關係。考慮到新近的大數據項目經驗、這些項目產生的成本,以及項目帶來的應用成果,我們就更難去相信,在可預見的時間內,這個圖中描述的數字化現狀是如何發展成為圖中描述的幻景的那種規模的,就如同圖中的箭頭穿過,直指圖的右上方。

然而,這就是大部分行業中的大多數企業的數字化目標。「以守為攻」戰略能夠實現的前提是,你的對手也正好在「以守為攻」。如果你的對手有很好的發展戰略,那你就只能等著倒霉了。此時,「以守為攻者」會比想像中的更快被「將死」。

在項目中,我們最好還是考慮一下這個問題:我們可以想像一下,如果明天谷歌、蘋果或者亞馬遜要涉足我們的行業和市場了,那我們該怎麼辦?

[1]本書德文原版出版於2015年。——編者注