讀古今文學網 > 智能數據:如何挖掘高價值數據 > 第3章 智能數據冠軍選擇正確的數據是成功的基礎 >

第3章 智能數據冠軍選擇正確的數據是成功的基礎

「每天,我們每秒製造出的數據量相當於美國國會圖書館全部館藏的3倍。但是,它們大多數是像YouTube上的影片,或是像13歲小孩之間談論下一部《暮光》系列影片的短信一樣。

——納特·西爾弗

聰明的數據使用者

亞馬遜首席技術官沃納·威格爾(Werner Vogels)宣稱:「我們從來都不嫌信息太多,信息越多越好。」從理論上講,這有一定道理,但從實踐上來看,這完全是個謬論。

很多企業的IT系統都是滿負荷運行。這些系統自然不是可任意延展的。給系統擴容往往會比預計的情況花費更長的時間和更多的費用。將數據和應用轉移至「雲端」,從技術上看同樣也是很艱難的,而且基本上,花費也總是超預算。與此同時,還要考慮系統安全和數據保護問題。

納特·西爾弗(Nate Silver)是統計學家和知名博主。2008年美國大選之前,他所掌握的數據量肯定遠比手握大量預算的美國選情機構少。他在自己用虛擬名字申請開設的個人網頁FiveThirtyEight.com上發表了他關於奧巴馬將會獲得第一次總統競選勝利的預測。他準確的預測使電視上德高望重且手握大量數據的媒體評論員們顯得十分落寞。實際上,美國50個州的投票結果被納特預測對了49個,只有印第安納州的投票結果錯了。在2012年奧巴馬第二次參選美國總統的時候,納特準確預測了全部50個州的投票結果,其中包括了「搖擺州」和哥倫比亞特區。

如果世界上存在一種像諾貝爾獎一樣的獎項,用於表彰過去一年中最聰明的數據使用者的話,那麼納特·西爾弗絕對是最具競爭力的候選人。評獎委員會可以在頒獎詞中做如下描述:

納特·西爾弗在經初步研究後提出了正確的假設,而後又根據這一假設挑選出了正確的數據。他遵循「試錯法」來不斷優化他本來已經很簡潔的預測算法,使整個預測系統具備了自我學習功能。在與假設的不斷比較中,他反覆問自己:從人為估算角度來看,哪些關聯是真正重要的?哪些關聯只是出於預測系統統計方面的需要,才看起來顯得重要?

對納特來說,只有數據量少,他才能真正地利用這些數據。這位來自密歇根州不惹眼的統計學家的大數據分析成功事跡的迷人之處在於:事後再去審視,他對於選情的研究與人類基本常識相比,是一種變異形式。所謂的人類基本常識是這樣的,一個小男孩跟他的父親說,剛剛看到前面路上有5元錢,他的父親回答道:「孩子,那現在肯定沒有了,早就有人把它撿走了。」

納特·西爾弗創造性地優化了選舉結果預測,基本思路很簡單,那就是群體智慧優於某一個專家的個人智慧。之前是因為令人難以相信,所以沒人真正利用這一點。來源於多個選情預測機構的分析手段肯定比其中某一個機構的分析更能夠給出接近真相的預測結果。如果將這種大數據分析理念移植到商業層面,那麼我們可以得出這樣的假設,即大數據分析的「碩果」藏得很隱蔽。

在這個移植過程中自然會有一些注意事項,而且也很難想像,大多數行業的數據挖掘者會像選情研究人員那樣錯過真正重要的信息。但從過去10年我們的項目研究經驗來看,基本上都證明了:

超多的超級「碩果」都隱藏得超級深!

只有當我們拋開了那些時髦話和與之相關的、看似具有說服力的觀點時,我們才能真正收穫這些「碩果」。換句話說就是,我們必須運用正確的方法,系統地去尋找真正有用的信息。

找對數據比擁有超多數據更有用

如果想收穫「數據果實」,我們必須注意以下幾點:

☆正確的數據

起決定性作用的不是數據量,而是具有多樣性的有用數據。目前,很多企業擁有的數據量已經超出他們的使用能力。有用數據是指重要數據。當然,即便是最好的數據分析科學家也不可能提前就準確地知道,哪些數據對促進市場營銷或者提升經營水平來說是重要的。但是如果能夠提前知道,就可以大大降低成本,極大地提高數據研究項目的效用,所以項目負責人都會願意在選取重要數據方面投入大量的時間和資源。經常出現的情況是,掌握的數據太具有同質性了。在大部分的數據應用領域,多樣性都是最重要的數據篩選標準。對於結果的質量來說,數據量往往是第二位的。此外,非結構化數據,例如來源於臉譜網、博客和論壇上的數據信息,它們的價值被過分高估了。非結構化的數據信息來源於與企業主營業務關聯性較小的一部分人,他們遺留的信息相對來說重要性較小。然而,依據我們的項目經驗,在客戶資料庫中有很多數據寶藏,它們的數量和價值反而常常被低估。

☆正確的假設

我們提出假設,這些假設是通過我們系統的思考和實踐經驗得出來的。想好了再做,這在數據分析方面也同樣是有道理的。一些企業所存在的在數字化方面操之過急的行為,就沒有遵循這一簡單真理。

☆正確的行動

提出假設並不意味著一開始就對結果帶有傾向性。(客戶的)世界不會是像我們預期的那樣。用杜克大學經濟學家丹·艾瑞裡的話來說就是,客戶是非理性的。提出假設往往只是系統工作流程的起點。假設會在不斷「嘗試—修正—再嘗試—繼續優化」的過程中發生變化。

☆正確的工具

能夠帶來最高增值的並不是最複雜的分析工具,而是最適合的工具。用Excel圖表去分析整理區域內直郵業務的盈利情況,相較於利用昂貴的社交媒體數據收集手段去分析「病毒效應」對提升品牌價值的貢獻度而言,往往有可能會獲得更有價值的認識。同樣,有意識地採用「麵包黃油方法」,即有規律地抽樣控制(統計干擾),可以規避一些錯誤決策帶來的損害,這些錯誤的決策有可能是由錯誤地執行或者解讀大數據分析結論導致的。

☆正確地使用資源

結果說明一切。在市場和銷售行業的智能數據應用範疇內,要時常記住這句話。原因是,人們(尤其是德國企業的決策者)總是癡迷於探尋事物之間的關聯性。在每一次系統地大數據分析之後,我們往往只是知道了其中某一特定的相互作用機制,比如在C範圍內,目標客戶群體A是如何通過盲目購物對B的促銷行為做出反應的。然而,我們卻沒有考慮清楚我們為什麼要這麼做。過分探尋事物相互作用的原因會使整個部門都感到疲累,就像我們一再體會到的那樣。聰明的數據使用者應該知道如何配置分析資源與精力。

基於上述對數據分析的認識和態度,首先在市場營銷和產品銷售領域,我們給出了我們的「智能數據方法論」:

☆智能數據涵蓋了有計劃的、重點突出的數據分析方法和流程,目的之一是降低成本,其二是在既有或是新的商業領域、商業模式中獲得額外收入。這些方法和流程將實踐知識、理論模型與統計學分析方法、機器的自學習功能(機器學習算法)結合在了一起。

☆大數據流程是去搜集盡可能多的數據,然後嘗試通過運用存儲、計算、分析技術,推導出開放式因果關係。與大數據不同,智能數據是以提出假設為基礎,原則上使用的數據量較小,但是具有多樣性。

☆絕大部分智能數據項目是結果導向型的,同時節省資源。投入使用的IT設備必須持續性地證明它們的有用性。結果導向型以執行能力為先決條件。智能數據項目的規模不會給企業造成經濟上或人力上的負擔。

「3W」:為什麼?如何做?做什麼?

從「為什麼」開始(德語版本是《永遠從問為什麼開始》)是一本書的標題,這本書本身很鼓舞人心(不僅僅只是標題具有激勵性)。這本書的作者是軍事參謀、動機培養專家西蒙·斯涅克(Simon Sinek)。這本書著重從心理層面探討了領導層如何將企業或者團隊引向成功,對領導力的提升給出了良好的建議。這本書的核心主題是所謂的「三步走」,即首先我們要想好,我們為什麼要做這件事。其次我們要確定,我們想要如何在企業或者團隊內部開展合作。最後我們需要考慮,我們究竟要做些什麼,才能夢想成真。

首先我們要想好,我們為什麼要做這件事。其次我們要確定,我們想要如何在企業或者團隊內部開展合作。最後我們需要考慮,我們究竟要做些什麼,才能夢想成真。

圍繞這本書的TED演講在TED大會網站上獲得了極高的點擊量。演講時,斯涅克沒有使用動畫、註解或者插圖等輔助手段,他只是在掛圖上畫了一個圈:

斯涅克將他這個簡單的圈稱為「人類動機的黃金圈」。「講故事」專家奇普·希思(Chip Heath)和他的弟弟丹·希思(Dan Heath)估計也會認為這三個圓圈理論具有他們提出的「黏性」特質,屬於能夠緊緊黏住人心的觀點。

關於一家公司如何能夠發展成為數據驅動型企業,我們在本書的第三部分會詳細討論。但是此處我們可以先多說一句,這三個同心圓可以被視為數字化戰略演進並應用於企業經營的必由之路。

在實施智能數據戰略的企業中,這「三步走」戰略大體是這樣的:

1.為什麼

「一個人知道自己為什麼而活,就可以忍受任何一種生活。」這句話不是西蒙·斯涅克說的,而是弗裡德裡希·尼采。

在每一個行業、每一個商業領域以及每一種商業模式實施智能數據戰略之初,都需要分析數字化帶來的基本挑戰。我們在第二部分會詳細闡述這一點。在數字化世界裡,沒有數據是行不通的,思考過並認識到這個道理的人,會即刻去尋找數字化的解決方案,並且他們需要知道這樣做的原因。

在技術變革的時代,企業管理也需要考慮創新。在尋求數字化探索的過程中,我們建議摒棄傳統的管理方式。眾所周知,企業管理層制定的經營目標(雖然也會結合基層的意見)不是泛泛而談讓大家無從下手實施,就是規定得太過具體詳細,就好像不這樣做就算不上制定方案一樣。

在企業管理中,我們建議通過創造性地組織研討會的形式來進行決策,企業各層面的員工、投資者、客戶和經銷商都出席這個會議,集體決策出企業未來一年的發展方向、數字化改革和新數據將在各種具體的發展方案中起到何種作用,以及在實現發展目標的過程中,企業已有哪些能力、還需要發展哪些能力等。

傳統的企業管理流程就如同一個金字塔周邊有許多箭頭,它們從上到下或者從下至上指示,在文章中經常用「級聯」形容。智能數據解決方案更像是一個背囊。企業首先需要有一個關於發展方向的大致想法,智能數據解決方案明確這一前進方向,並首先要指出企業需要做好哪些準備。

然後,我們就可以進入「第二步」階段了。

2.如何做

我們希望如何開展合作?這對希望挖掘智能數據分析潛力的企業來說,是最重要的問題。換句話說,這個問題的答案是企業贏得數據分析競爭力的鑰匙。

「如何開展合作」這個問題還可以引申出三個子問題:

☆智能數據只有在融入「企業生活」的前提下才能發揮它的全部能量,所以我們需要關注一個企業的企業文化是怎樣的。

☆企業文化需要根植於企業的目標體系之中,我們需要關注一個企業的目標體系是怎樣的。

☆未來的數字化競爭對企業的人力資源、技術資源都提出了一定的要求,我們需要關注一個企業長短期內是如何培育這些必要資源的。

第一個子問題涉及的核心要素包括:數據好奇心,獲取知識、技術和數據的途徑和分享機制,員工是否可以參與決策,同事之間的信任,勇於嘗試的熱情等。這也包括了如果發現某種投入明顯不管用時,能夠果斷地決定放棄再投入。

由此我們會發現,企業的目標體系必須做出相應的改變。我們認識的各行各業中的許多企業,為實現公司戰略投入很多。但是,很少有企業會大規模持續地獎勵推動企業數字化進程的員工。此外,需要改變一下關注「如何開展合作」問題的時間範圍。企業會有一些願景,可能需要5~10年才能夠實現,我們可以將目光從這樣的目標中轉移出來,關注一下1~3年內需要實施的具體計劃。

在涉及資源投入的時候,情況基本是這樣的:技術分析手段的供給量是大於需求量的,但是能夠給機器設備提出準備指令、輸入所需數據,並能將技術、知識轉化為生產力的人力資源,卻是供不應求。商業智能專家、數據建構師、數據庫分析員,以及最具價值的數據科學家會越來越供不應求。智能數據冠軍企業高層管理人員在以下兩方面不能夠過度放權:一是企業技術力量的發展,二是對企業人力資源素質的培養。在數據中會顯現出新的競爭優勢。如果企業的數字化設備短缺,或者缺少能夠操作它們的員工,那麼這就是企業高層決策者的責任。

在評估過「數字化冠軍是如何成功的」這個問題之後,我們總結出了6點對成功來說至關重要的因素,每一個希望贏得數字化變革的企業都應該具備這6個因素。

3.做什麼

成功的智能數據企業會十分謹慎地使用有限的數字化資源。他們一方面避免重複勞動,不支持同質化應用項目,例如不重複支持客戶關係管理領域的應用,另一方面,不在不切實際地構建大數據戰略幻想方面浪費太多時間。他們做得更多的是結構化、系統性地分析企業的數字化潛力,然後列出發展重點。此處,有一個非常好用的工具,即所謂的數據熱圖。

熱圖這個概念在當下很流行。早在1873年的巴黎市議會會議上,熱圖就作為一種可視化工具首次投入使用,當時巴黎對不同的城區進行了統計調查,熱圖的應用使統計結果更易於理解。

抓住數字化機遇的核心是要做好兩個維度的聚類分析。在智能數據項目中,我們在橫軸上系統地歸類現有數據,如果有必要,也會去獲取易得的其他數據。例如,如果是一家汽車生產企業,那麼橫軸上的數據就可以分類為車輛數據、客戶數據和生產數據。在縱軸上可以顯示企業內的哪些人使用了這些數據。通過系統性地對比橫縱軸的數據,我們可以相對快地鑒別出哪些數字驅動下的商業案例可以為公司和客戶帶來更大的增值。此外,熱圖分析可以使兩個數字化項目之間可能的聯繫變得顯而易見,以前可能沒人發覺。

原則上,此時人們已經非常清楚應該先做什麼了。極有可能先做的事情與「為什麼這樣做」有關,至少在「怎麼做」這個問題被良好地組織起來的情況下是這樣。

概率擊敗偶然

如果我們從認識論層面出發,把所有數字化的事物再徹底地審視一下的話,我們可以得出如下結論:我們並不相信大數據理論家預言的「理論的終結」。當數據全然能夠解釋這個世界的時候,也並非說理論本身就走到了盡頭。在沒有意外發生的情況下,我們只能基於過去和現在的數據推測未來。但是生活卻不是提前預設好的。在人類走向滅亡的最後一天,非理性行為和偶然事件會讓預言家明白,他們也有預測不到的事情。同樣,也不會有人能夠長期地準確預測匯率和股市行情,但是,人們可以通過建模來探尋短期事件的發展機制。

在沒有意外發生的情況下,我們只能基於過去和現在的數據推測未來。但是生活卻不是提前預設好的。

反過來說就是,能夠意識到預言家能力的有限性並接受這一現實,這也屬於智能數據冠軍企業的核心競爭力之一。這些企業也明白,預測水平會隨著時間的推移得到優化。概率擊敗偶然不是絕對的,但是在數據分析方面我們會變得越來越智能。

具體到企業經營的日常工作中,是這樣的:智能數據分析會利用所有經實踐驗證過的分析工具,這些分析工具能夠協助我們加深對客戶的理解,借助這些分析工具,我們可以影響客戶的行為。但是,有一些分析工具是不會被選用的,例如那些無法評估其使用效果、對企業人力和財務造成負擔的分析工具;還有一些技術分析手段因「自恃過高」也不會被選用,它們認為具有自學習功能的機器可以完成一切,企業原有的人員和模式都已經多餘了。

智能數據冠軍企業認識到,通過改革成為具有數據分析能力的市場競爭者是一個長期且艱辛的過程。它們也並不會去指望,通過一兩個智能數據項目,就能夠多快好省地打開全新的、高潛力的商業模式的大門。相反,他們認為,智能地、持續地經營數據是多層面價值創造的「啟動程序」,同時,從長期來看,也是鞏固既有競爭優勢、獲得新優勢的重要因素之一。欲知詳情,請看下一部分。