讀古今文學網 > 人機平台:商業未來行動路線圖 > 01 最難接受的事 >

01 最難接受的事

這些新機器的趨勢是在各個層次上取代人類的判斷力,而不是用機器的能量和力量取代人類的能量和力量。

諾伯特·維納(Norbert Wiener),1949年

大約20年前,世界各地的企業理順了人與電腦之間的分工,它看起來合乎情理。機器負責基礎計算、記錄保存和數據傳輸。這樣就把人解放出來,讓他們做決策,做判斷,利用自己的創造力和直覺,彼此交流以解決問題,服務好客戶。

從人手到人機

這種方法廣為流傳,以至現在的人已經很難想起此前的文書流轉時代,當時,一車車滿載的文件夾往返於人群和部門之間。「文書礦井」是該時代「碩果僅存」且令人困擾的一個地方,它設在地下,是由美國政府人事管理辦公室負責的一個低效率部門。保留這個地點,是為了處理聯邦僱員退休時所需的行政手續。由於這些手續尚未電腦化,因此需要600人處理日常業務,他們在超市一般大小的房間工作,房間裡放滿了高高的文件櫃。由於巴洛克設計風格的原因,這個房間設在地下200多英尺[1] 的一個廢棄石灰岩礦井處。1977年,完成聯邦僱員退休的文書工作平均需要61天。該項工作現在用的是基本相同的流程,仍然需時61天。在得克薩斯州,工作流程已經數字化,事情只用兩天就做完了。

邁克爾·哈默(Michael Hammer)和詹姆斯·錢皮(James Champy)於1993年出版《企業再造》(Reengineering the Corporation )一書,提出了化解世上繁文縟節的知識藍圖。這本書取得了巨大成功。它在世界各地的銷量超過200萬冊,被《時代週刊》提名為有史以來最具影響力的25本商業書籍之一。

哈默和錢皮的基本想法是:企業不能認為自己是在部門內執行任務(例如在採購部門內購買原材料),它們應該把自己看成在執行業務流程(例如採購、組裝並按客戶訂單裝運),這本來就是跨部門的事。這種說法現在聽起來理所當然,在當時卻被認為是新穎的、重要的。20世紀傑出的商業大師彼得·德魯克當時表示:「再造是新的,它必須完成。」流程視角往往能看出許多不必要的、可以剔除的任務,或者像哈默和錢皮說的那樣,乾脆把它們抹掉。

20世紀90年代中期,有兩項進展使業務流程再造運動加速,這就是企業信息系統和萬維網。在企業信息系統出現之前,[2] 企業通常有一堆各種各樣的軟件包,其中許多沒有相互連接。公司越大,軟件就越雜亂。企業級系統堅守用單一大型軟件包代替一堆軟件的承諾,[3] 它設計清晰,用於執行一組特定的跨職能業務流程。這種軟件可從思愛普和甲骨文等供應商那裡購買現成產品,然後在一定程度上進行配置和定制。

企業信息系統迅速流行。據估計,到1999年,超過60%的《財富》1 000強公司已經採用了其中至少一種。儘管這些系統的安裝維護相當昂貴和費時,但它們在很大程度上兌現了承諾。例如,布萊恩約弗森與同事思南·阿拉爾(Sinan Aral)和D. J. 吳(D. J. Wu)的研究發現,一旦企業開始使用新的企業級系統,那麼其勞動生產率、庫存周轉率和資產利用率就有顯著提高。

萬維網的出現,使企業級系統的覆蓋面和功能通過電腦(以及稍後出現的平板電腦和手機)延伸到個人消費者。萬維網誕生於1989年,當時,蒂姆·伯納斯–李(Tim Berners-Lee)開發了一套協議,允許文本、圖片等在線內容相互鏈接,從而使科技大腕范內瓦·布什(Vannevar Bush)和電腦預言家泰德·尼爾森(Ted Nelson)提出的超文本願景變成現實,布什於1945年首先描述了這一設想,但只是使用微縮膠片進行理論探討,而尼爾森的仙那度項目(Project Xanadu)則從未落地。

萬維網迅速將互聯網從純文本網絡轉變為可以處理圖片、聲音和其他媒介的網絡。1994年,網景公司發佈了名為「領航員」的第一款商業化網絡瀏覽器,由此,比以往任何時候都更豐富、更容易導航的多媒體奇觀進入主流。網景公司的共同創始人之一是馬克·安德森(Marc Andreessen),他當時是一名22歲的程序員,曾開發過早期的網絡瀏覽器,我們將在第10章更多地談到他。[4] 這一事件與先前主打學術的互聯網的商業化進程成為「天作之合」。

萬維網使企業能夠將業務流程擴展到邊界之外,一直延伸到消費者,這一趨勢被稱為電子商務。人們開始使用萬維網,他們不僅可以搜索和瞭解企業的產品,而且還可以訂購和支付。這種效率和便利性的結合被證明是無法抗拒的。網景瀏覽器推出10年後,電子商務佔了美國非美食、非汽車類零售業銷售額的10%左右。

此後20年,基於萬維網的企業級系統完成了各種常規任務,包括跟蹤賬戶餘額和交易,計算原材料交付的數量和時間,給員工發放工資,讓客戶選擇產品並進行支付,等等,從而促成了越來越多的業務流程。

人要相信自己

一旦企業級軟件和萬維網之類的技術把員工從繁文縟節中解放出來,那麼他們應該做些什麼呢?哈默和錢皮在《企業再造》一書中給出了明確的答案:隨著電腦接管日常事務,人們應該被授權行使自己的判斷力。「大多數的檢查、調和、等待、監測、跟蹤——也就是非生產性工作……通過再造被剔除了……在再造後的流程中工作的人必須得到授權。作為流程團隊工作人員,他們被允許和被要求進行思考、交流,行使判斷力,並做出決定。」

這是關於一種共同信念的明確表述:即使身處硬件、軟件和網絡無處不在的世界,人類仍然因其判斷力而彰顯價值,我們的推理能力比利用現有數據進行機械式計算要高出一籌。大多數人都承認,如果我們能做的無非就是常規工作,那麼我們現在就會失業,因為電腦做這些事太容易了。但幾乎所有人也都相信,即使數字化技術繼續從摩爾定律中獲益,我們也能夠比它們做更多的事。所謂摩爾定律,是指隨著時間的推移,同額美元購買的電腦硬件在數量上劇增,導致處理能力的指數級增強。

數十年來的研究證實,我們實際上有兩種不同的推理方式。這一突破性的工作使丹尼爾·卡尼曼[5] 獲得了諾貝爾獎,他與合作者阿莫斯·特沃斯基(Amos Tversky)一起在行為經濟學領域開宗立派。卡尼曼及其同事的工作表明,我們有「系統1」和「系統2」[6] 兩種思維方式。系統1快速、自發、事關小腦皮層,不怎麼費腦力,它與我們所說的直覺密切相關。系統2則相反,它是緩慢、有意識的,事關大腦皮層,很費腦力。正如卡尼曼在《思考,快與慢》(Thinking, Fast and Slow )一書中所寫:

系統1的運行是無意識且快速的,不怎麼費腦力,沒有自主控制感。系統2將注意力轉移到費腦力的活動上,包括複雜的計算。系統2的運行通常與行為、選擇和專注等主觀體驗相關聯。

這兩個系統都可以隨著時間的推移而改善。系統2通過學習數學或邏輯課程而改進,而系統1則通過謀生計、理解實例而變得更自如、更廣博。消防隊員久經歷練,能夠判斷大火如何在建築物蔓延;人事經理閱人無數,能夠看出誰更適合公司;圍棋選手用心下棋,終成大師。當然,這兩個系統可以——也應該同步改進。病理學家(診斷疾病的醫學專家)既研究生物化學,也觀察許多患病組織和健康組織的實例,從而改善自己的技能。當我們既瞭解基本原理,又通過活生生的個案將其實例化時,學習往往更深入、更快速。

商業教育的主導方式也是這兩個系統的結合。商學院學生通過會計、金融和微觀經濟學課程提高了系統2技能。他們還討論了企業家精神、領導力、道德和其他領域的許多案例,以此改善自己的直覺和判斷,這些是系統1技能。許多課程結合了兩種方法。醫學院和法學院也採取類似的措施。

關於人在系統1和系統2方面的能力,一個公認的終極發現是人與人的差別很大。有的人在解方程、動腦筋方面得心應手,但缺乏直覺和實踐智慧。有的人連算術都不會做,卻具有強大的直覺能力。

隨著技術的普及,後一類人不再低聲下氣。實際上,他們時來運轉。電腦做了所有合乎邏輯、合乎規矩的工作,使他們得以脫身,從事哈默和錢皮所倡導的事務:做判斷,做決定,與他人交流以解決問題,抓住機遇,服務顧客。

事實上,在我們看來,在當今大部分的商業場合中,系統1的重要性都在上升。卸任的公司老總寫書時用上了諸如「堅守初心,直面艱難」這樣的書名。而那些太過專注數據,與現實世界複雜性脫節的公司領導人,則背上了「技術控」的罵名。2010年出版的《重新思考MBA:十字路口商業教育》(Rethinking the MBA: Business Education at a Crossroads )一書將「在凌亂的非結構化環境中形成判斷和直覺」列為MBA課程未能滿足的重大需求之一。上述論據與《企業再造》的觀點不謀而合:讓人們發展、行使自己的直覺和判斷力,做出明智的決定,讓電腦做好計算和記錄。我們已經多次聽過、看過人腦與機器之間的這種分工,故而稱之為「標準夥伴關係」。

除非自己不靠譜

標準夥伴關係的說法很生動,但有時它根本不奏效。完全不靠人的判斷,甚至不靠那些經驗豐富、聲譽卓著的人的判斷,只依靠代入公式的數字,常常會帶來更好的結果。

這是一個違反直覺的發現。由於明顯的原因,它也不受人歡迎。所以我們必須「一站到底」。然而在這樣做之前,我們應該強調,系統1在商業上並非一文不值。事實上,它遠非如此。我們將會看到,人類的直覺、判斷力和快思維仍然具有重要的作用,領先的企業正在以新穎、精彩的方式運用它們,這些方式意味著人腦與機器之間新的、改進的夥伴關係。

但我們必須先說出系統1的一些弱點。看看下面這些標新立異的研究,它們表明,即使是專家的判斷和直覺也常常有嚴重的局限。

‧ 社會學教授克裡斯·斯奈德斯(Chris Snijders)用荷蘭企業購買的5 200台電腦建立了一個數學模型,可用於預測預算的遵從度、交貨的及時性及買家對每筆交易的滿意度。然後,他使用這個模型來預測在若干行業發生的一組交易的相關結果,並同時請這些行業的一組採購經理做同樣的預測。斯奈德斯的模型擊敗了經理人,甚至擊敗了處於平均水平以上的經理人。他還發現,資深的經理人比新手好不了多少,而且一般來說,經理人在分析自己所在行業的交易時,其結果與他們分析其他行業的交易差不多。

‧ 經濟學教授奧利·阿森費爾特(Orley Ashenfelter)建立了一個簡單的模型,它僅使用4個可公開獲取的氣候變量,在波爾多葡萄酒還未能品嚐的時候,該模型就成功地預測了它們的質量和價格。這些未熟酒的價格歷來深受知名葡萄酒專家意見的影響,但是阿森費爾特寫道:「這類研究提出的最有趣問題之一,就是它所暗指的專家意見對葡萄酒定價所起的作用……有證據表明,專家意見與葡萄酒質量的根本決定因素無關,亦即兩者彼此獨立……這自然而然地提出了一個懸而未決的問題,即究竟是什麼決定了對專家意見的需求。」

‧ 布萊恩約弗森與沃頓商學院教授吳林恩(Lynn Wu)合作研發了一個預測房屋銷量和價格的簡單模型。他們使用谷歌趨勢中的數據,這些數據顯示了美國各州每月搜索「房地產代理」「房貸」和「房價」等關鍵詞的次數。他們用該模型預測未來的房屋銷量,並將預測結果與美國國家房地產經紀人協會專家發佈的預測進行比較。結果,他們的模型以高達23.6%的優勢完勝專家。這反映出將谷歌搜索數據納入預測模型的威力。

‧ 布萊恩約弗森的另一個項目更接近本行,這是一個為學術界開發的「開腦洞」模型。他與麻省理工學院的迪米特裡斯·伯特西馬斯(Dimitris Bertsimas)、約翰·希爾伯霍茲(John Silberholz)和沙查爾·雷奇曼(Shachar Reichman)合作,預測誰將在頂尖大學取得永久教職。他們研究了青年學者早期出版記錄和引用形式的歷史數據,並利用網絡理論中的一些概念,觀察有哪些學者寫出最具影響力的論文。他們校正模型,預測哪些學者將最終在運籌學領域獲得永久教職。該模型的預測結果有70%與職稱委員會的意見一致,但是在不一致的情況下,通過模型預測產生的一批學者與職稱委員會遴選的學者相比,前者此後在頂級期刊上發表了更多的論文,其研究也被更多地引用。

‧ 沙伊·丹吉格(Shai Danzinger)及其同事的一項研究表明,以色列法官在一天的開始和用餐休息之後更有可能給予假釋。在法官休息之前,他們想必已經疲憊不堪,抑或血糖過低,因而更有可能建議繼續監禁。其他研究支持了司法決定往往受手頭罪案之外因素影響的觀點。經濟學家厄茲坎·埃倫(Ozkan Eren)和納吉·莫坎(Naci Mocan)發現,在美國某個州,畢業於某所區域名校的法官在母校橄欖球隊意外敗北之後,馬上就給出了極其嚴厲的判決,而且這些判決「多數由黑人被告背黑鍋」。

‧ 在佛羅里達州布洛沃縣學區,父母或老師的提名曾經是把孩子認定為天賦學生的第一步。布洛沃縣的大多數學生都是少數族裔,但天賦班的學生中竟然有56%是白人。21世紀的前10年,該區決定取消主觀選拔方式,嘗試使其盡量系統、客觀。他們讓區內每個孩子進行非口頭的智商測試。根據經濟學家戴維·卡德(David Card)和勞拉·朱利亞諾(Laura Giuliano)的記錄,這一變化的結果令人震驚:被認定為有天賦的非洲裔學生和西班牙裔學生分別增加了80%和130%。

‧ 法學教授泰德·魯格(Ted Ruger)、寶麗·金(Pauline Kim)與政治學者安德魯·馬丁(Andrew Martin)、凱文·奎因(Kevin Quinn)一起,對馬丁和奎因開發的一個6變量簡單模型進行了測試,看看它對美國最高法院2002年期間的裁決預測是否優於一個由83位著名法律專家組成的團隊的預測結果。這83位法律專家中,有38位擔任過最高法院法官,33位是法學講座教授,6位是現任或前任法學院院長。平均而言,該團隊的預測與法院裁決結果相符的略低於60%。而算法則預測對了75%。

以上所列事例是否有代表性?是否公平?或者說,我們是否有意無意地凸顯了人類判斷敗給純數據驅動方法的個例,同時忽略了人類勝出的例子?有足夠的研究表明,答案是否定的。

由心理學家威廉·格羅夫(William Grove)領導的一個團隊查找了50年的文獻,挑選出心理學和醫學領域公開發表且經同行評議的論文,這些論文研究的是臨床預測和統計預測的配對比較,即比較經驗豐富的人類專家判斷與100%數據驅動方法的預測。他們找到了136項這樣的研究,涵蓋從智商預測到心臟病診斷的方方面面。在48%的研究中,兩者並無顯著差異,換言之,平均來說,專家並沒有比公式做得更好。

然而以下發現給了人類判斷力的優越性當頭一棒:在46%的研究中,人類專家實際上表現得比純數字和公式差得多。這意味著人類只在6%的研究中勝出。作者由此得出結論,幾乎在人做得更好的所有研究中,「臨床醫生得到的數據比機械預測要多」。保羅·米爾(Paul Meehl)是一位傳奇心理學家,他從20世紀50年代初開始記載和描述人類專家判斷的不良記錄,正如他所總結:

像(統計預測與臨床預測的相對效度)這樣,展現數量如此眾多的、多樣化的定性研究,如此一致地指向同一方向,這在社會科學中是沒有爭議的。當你進行100多次調查,預測從足球比賽結果到肝臟疾病診斷之類的事情,而你卻很難找到幾項研究來表明哪怕是一點點有利於臨床醫師的趨勢時,就是給出實際結論的時候了。

我們認為,這個實際的結論就是:我們要更少依賴專家的判斷和預測。

越來越多的美國公司也得出了同樣的結論。布萊恩約弗森和多倫多大學教授克裡斯蒂娜·麥克爾赫倫(Kristina McElheren)與美國人口普查局合作,對一個包含1.8萬家製造工廠的代表性樣本進行了調查,結果發現,數據驅動型決策的應用正在快速增加,其動力來自日益增多的信息技術應用,以及採用這一做法的公司的優異業績。

儘管有這些令人信服的例子,我們仍需列出一些重要的條件,把關於算法成功的熱議冷卻一下。顯然,為了將人的判斷與數學模型進行比較,首先必須有一個模型。而如波蘭尼悖論所暗示,這並不總是說有就有。這類模型必須用多種相似實例的數據集進行測試和改進,而這種情況只代表了人類必須做出的決策的一小部分。不過總體格局是明朗的,一旦模型可以建立和測試,那麼在一個接一個的事例中,它的表現就與做類似決策的人類專家一樣好,甚至更勝一籌。然而在許多情況下,即使機器做得更好,我們還是繼續依靠人的判斷。

人心精妙,但有錯漏

僅靠系統2,一味對數字進行邏輯理性的計算,這種方法怎麼可能比結合了系統2和系統1的方法更好呢?畢竟,系統1是人類與生俱來的、深刻的本能思維工具,它已經做得足夠好,幫我們克服了各種無情的、全球75億人口仍需面對的達爾文進化挑戰,使人類獲得生存,繼續發展。它怎麼會讓我們這麼失望呢?

這些問題太大,只用一本書是說不清楚的,更不用說是書裡面的一章。但是在《思考,快與慢》一書中,卡尼曼對大量研究(許多是他自己進行的研究)給出了簡單總結:

系統1自發運行,不能隨意關閉,因此直覺的錯誤往往難以防止。偏見總是難免,因為系統2可能沒有錯誤的線索。

簡而言之,系統1很棒,但它同時也是錯漏的真正所在。它常常走捷徑,而不是透徹地推理。它還有一個驚人的偏見大集合。在心理學和卡尼曼幫助建立的行為經濟學領域,研究人員已經確認了許多系統1的錯漏並加以命名。

這些錯漏的完整列表會使人不勝其煩,灰心喪氣。羅夫·多貝爾裡(Rolf Dobelli)關於這一主題的專著《清晰思考的藝術》(The Art of Thinking Clearly )共有99章,而根據最近的統計,維基百科的「認知偏見清單」有175個條目。軟件公司Slack的產品經理巴斯特·本森(Buster Benson)找到了一種我們認為很好的方法,將這些偏見歸類,並提醒我們它們帶來的問題:[7]

1. 信息過載很糟糕,所以我們盡力過濾……(但是)我們過濾掉的一些信息實際上是有用的、重要的。

2. 意義的缺失令人困惑,所以我們填補空白……(但是)我們尋求意義時會產生錯覺。我們有時會想像由自己的假設所填補的細節,由此建構本來沒有的意義和故事。[8]

3. (我們)需要快速行動,以免失去機會,所以我們匆匆得出結論……(但是)快速決策可能有嚴重缺陷。我們草率做出的一些快速反應和快速決策是不合適的,自私的,甚至是適得其反的。

4. 全部記住不易,所以我們試著記住要點……(但是)我們的記憶強化了誤差。我們記住一些東西,留待他日所用,這只會使上述認知更有偏見,進一步損害我們的思維過程。

請注意認知能力的另一個嚴重問題:我們無法知道系統1何時奏效,何時失效。換句話說,我們拿不準自己的直覺。我們不知道自己做出的快速判斷或決定究竟是準確的,還是受制於自己的一種或多種偏見。於是,發生了與波蘭尼悖論相悖的怪事:對系統1的認知結果而言,我們所知的竟然少於我們所能說的。系統2的理性計算通常可以複查,但是正如卡尼曼所指出的那樣,系統1真的做不到,它只能靠自己。

最近的研究揭示了一種與波蘭尼悖論有關的鬼使神差般的偏差:往往是系統1得出一個結論,然後讓系統2來解釋它。心理學家喬納森·海德特(Jonathan Haidt)說:「判斷和舉證是兩個獨立的過程。」系統1激發的判斷幾乎在瞬間發生,然後系統2用理性、合理的說法給予肯定。[9] 這種「托詞」不僅經常愚弄別人,而且也愚弄始作俑者自己。事實上,正如心理學家理查德·尼斯比特(Richard Nesbitt)和蒂莫西·德坎普·威爾遜(Timothy DeCamp Wilson)所說,我們往往「說的比我們知道的更多」。所以說,我們標記為理性化和自適化的行為並不只是製造借口的手段,它們是一些更本質的事情:工作中的系統1。

2006年,在財捷集團和微軟工作的兩位數據分析專家阿維納什·考希克(Avinash Kaushik)和羅尼·科哈維(Ronny Kohavi)提出了首字母縮略詞「HiPPO」,用它來總結大多數公司的主要決策風格。HiPPO的意思是「最高薪酬的人的意見」(highest-paid person』s opinion)。我們喜歡這種速記並多次使用它,因為它生動地說明了標準夥伴關係。即使做出決策的人不領最高薪酬,他們也總是以觀點、判斷、直覺、本能和系統1為依據。很明顯,這種辦法通常效果不佳,而且HiPPO往往敗事有餘。

新人機關係

我們如何運用所有這些關於系統1和系統2的偏差與故障的知識呢?這些知識怎樣才能引導我們更聰明地做決策,以及做出更好的決策呢?最明顯的方法,就是在可能的情況下放手讓機器做決策,系統2的純數字化演繹因摩爾定律而功力大增,通過源源不斷地導入數據,讓它給出答案,無須系統1的輸入。這正是越來越多的公司隨著時間的推移而著手進行的事情。

第二經濟

據我們所知,在企業計算時代剛剛到來的時候就有了全自動化決策的先例,它就是體現人們信譽的數字化記分系統——評估人們償還一定數額貸款的可能性。傳統上,這一關鍵決策是由銀行分行的本地貸款人員做出的,他們根據自己的經驗評估貸款申請,有時也結合了相關規則或指南。然而比爾·法伊爾(Bill Fair)和伊爾·艾薩克(Earl Isaac)覺得用數據可以做得更好。他們於1956年創立了Fair Isaac(費埃哲公司),推出FICO(個人信用評分)計算信用評分。

自動信用評估很快成為常態。到1999年,《美國銀行家》(American Banker )雜誌報道說:「甚至無須(人)去評估任何5萬美元以下的(信用申請),電腦就搞定了。」FICO及同類系統已被證明是高度可靠的還貸預測工具,而且,隨著近年來個人數字信息的數量和類別的增加,這種「大數據」方法也被用來提升和延伸信用評分。

這些評分系統的開發人員必須小心翼翼,免得被誤認是從事數字化歧視業務(一種非法業務,以種族或部落人群為由,拒絕或降低某些地理區域的信貸)。一般來說,他們提供了一種有價值的服務,讓更多人獲得信貸機會,讓放款人有信心擴大業務。有證據顯示,隨著信貸決策趨於自動化,經濟歧視實際上是減少了。2007年,美聯儲報告說,信用評分模式「減少了從事非法歧視行為的機會……有助於降低信貸決策受個人特徵或法律禁止的其他因素(如種族、部落等)影響的可能性」。

今天,有價值、高質量的完全自動化決策事例比比皆是。亞馬遜和其他電子商務網站會為每位購物者的每次訪問給出推薦,儘管許多人錯過機會,但有些人受到極大的吸引。例如,亞馬遜估計,其銷售額的35%來自推薦項目之類的交叉銷售活動。飛機航班和酒店客房的價格一直在變,反映了供需預測的演化,以及每分鐘又如何發生實際的變更。對無數企業來說,這種被稱為收益管理的定價方法至關重要(我們將在第7章討論這個主題),但是,收益管理算法產生的價格在提交給客戶之前,很少(如果有的話)由人工複查一遍。實體商品現在也實行自動化的價格變動。2015年感恩節之後的第一天,亞馬遜和沃爾瑪在美國的所有存貨分別提價16%和13%。

事實上,諸多完全自動化的決策正在我們周圍發生,以至經濟學家布萊恩·阿瑟(Brian Arthur)用「第二經濟」來形容它,其中交易沒有人類的介入,其發生形態是「巨大的、沉靜的、彼此連接的、看不見的、自主的」。隨著時間的推移,這種自動化的第二經濟正延伸到我們熟知的以人為中介的經濟體,算法接管了專家和HiPPO人士的工作。全世界越來越多的信息被數字化了,由此帶來了大量數據,它們可用於改進工作,將直覺轉化為數據驅動的決策。

長期以來,廣告公司不僅幫助客戶從事製作新電視廣告片的創意工作,而且還幫他們確定在何時何地進行展示,即確定哪些電視節目、哪些地域市場和哪些時段最能匹配廣告客戶的目標和預算。就這項工作而言,數據和技術早有應用,熱播劇《廣告狂人》(Mad Men )的廣告代理1969年就買下第一台電腦(IBM System/360),以幫助其更好地投放廣告並吸引客戶,但該項工作仍主要受人的判斷和決策的驅動。

丹·瓦格納(Dan Wagner)在巴拉克·奧巴馬2012年成功連任的競選活動中擔任高級分析師,當時他發現機器分析原來可以這麼精準,還能帶來如此多的好處。瓦格納和他的同事為每位美國選民建立名冊。該分析團隊使用機器學習技術(下一章將詳細討論),為名冊上的每個人建立了三個單獨的評分:一個「支持評分」,用於預測每個人支持奧巴馬的可能性(相對於競選對手米特·羅姆尼);一個「投票評分」,用於預測每個人在11月實際去投票站投票的可能性;以及一個「勸說評分」,用於預測每個人在接收奧巴馬競選團隊的信息之後對他產生好感的可能性。

多年來,每個電視節目都有人口統計數據,例如,統計丹佛地區有多少18—24歲的男士在週二晚上10點觀看動畫節目《惡搞之家》(Family Guy )重播。傳統上,傳媒買家和戰略家在做決策時嚴重依賴這些信息。如果奧巴馬2012年的競選團隊想在科羅拉多州18—24歲的男士眼前發佈信息,那麼有很多公司和人士可以就週二晚上《惡搞之家》重播時是否插播競選廣告提供建議。

但是,像其他大多數廣告買家一樣,奧巴馬團隊知道依靠人口統計數據很不靠譜。他們的廣告受眾可能主要是羅姆尼的鐵桿支持者,又或者看廣告的人基本上都已經決定投票選舉奧巴馬,那麼這就是浪費時間。依靠人口統計意味著依靠判斷和粗糙的估計,這樣做幾乎等同於以下猜測:選舉期間特別抓取的一個更容易接受奧巴馬競選信息的群體,就是18—24歲的男士,或者說是《惡搞之家》的觀眾,甚至可以說是一般卡通片的觀眾。

瓦格納和他的同事們意識到,他們那份詳盡的選民名冊有可能生成一種好得多的媒體購買方式。有了這份名冊,競選團隊可以確定哪些人屬於最需要接觸的兩個群體:一是需要勸說以便在投票日真正去票站投票的奧巴馬支持者,二是有可能被說服支持奧巴馬的騎牆選民。前者是「出門投票組」,後者是「可說服組」。分析團隊認為,這兩組人分佈在廣泛的人口統計類別,所以僅僅基於人口統計數據來選定電視節目就會錯失團隊希望接觸的人群。該團隊還從早期的實驗結果中獲知,令兩組人有反應的廣告類型大不相同,因此在購買電視節目時段時要區分開來。

2012年,一些評級公司已經遠不滿足於抓取電視節目人口統計數據,它們能夠界定哪些人正在看節目。[10] 這正是瓦格納及其同事所需的第二類數據。他們向這些公司提供競選團隊的「出門投票組」和「可說服組」列表,然後拿到了每組中有多少人觀看每個節目的信息。[11] 這樣一來,他們就輕而易舉地找到最佳買點,也就是說,每一美元廣告開支所買下的電視節目都能讓最多屬於「出門投票組」和「可說服組」的人看到。瓦格納告訴我們說:「我們最終購買了美國有線電視台的深夜節目,這真的很奇怪。它就像冒出來似的,而它冒出來的原因無非就是很便宜。那些節目有很多『可說服組』的選民觀看,所以我們就買下來了。」

選舉後,瓦格納創立了Civis Analytics(一家大數據公司),將這種深受數據驅動的媒體購買方法做成產品,然後提供給企業和其他組織。他相信當下是這類產品的大好時機,在很大程度上,很多企業都有包羅萬象的個人名冊,如潛在客戶,可能有後續採購的現有客戶,等等。他說:「如果你銷售昂貴的輪胎,那麼會有一小部分人願意花大價錢買它,另有90%的人絲毫不在乎,因為他們不開車,抑或他們從不購買昂貴輪胎。你對目標客戶有相當好的判斷,但是說到他們在看什麼電視節目,你從沒辦法知道得同樣精準,同樣有把握。現在好了,你可以做到了。」對於廣告商來說,投放電視廣告是一個重要的決策,它用到一些數據,也用到許多判斷。Civis Analytics正在努力改變這一點,使得媒體購買成為一種近乎優化而不是直覺的工作。

誠然,即使是高度優化的數據驅動系統也未臻完美,當輸入的數據有質量缺陷時尤其如此。2016年,希拉裡·克林頓的競選團隊採取了許多類似的方法,卻以微弱劣勢落敗,其部分原因就是民調數據失准,本來預測她在中西部三個州大幅領先,最終卻全部惜敗。

另一種常見的風險是決策者不擅長優化正確的終極目標,也就是「HiPPO」一詞的首創者之一羅尼·科哈維所說的「整體評估標準」。就算瓦格納的團隊能夠成功地使克林頓在全民投票中的領先地位最大化,這也不是正確目標。決定美國總統大選結果的是選舉團而不是全民投票,它需要有更加微妙的針對各個州的戰略。同樣,衡量在線廣告活動產生的網頁瀏覽量或點擊率很容易,但大多數公司更關心的是長期銷售,它通常經由不同類型的廣告活動達到最大化。因此,仔細選擇正確的數據輸入和正確的績效指標,特別是整體評估標準,是成功的數據驅動決策者的一個關鍵特徵。

糟糕的算法

將決策交給機器的真正風險在於,算法系統中的偏見可能會延續甚至放大社會上的一些有害偏見。例如,哈佛大學教授拉坦婭·斯威尼(Latanya Sweeney)就有一段廣為人知的鬱悶經歷,有一次她在谷歌搜索引擎中輸入自己的名字,與搜索結果一起出現的還有這麼一段廣告:

拉坦婭·斯威尼,被捕?(1)輸入名稱和所在州(2)訪問完整的背景信息。立即檢查可至www.instantcheckmate.com。

該廣告提示她有犯罪記錄,但事實上她從未被捕。

隨著進一步的研究,斯威尼發現,與勞麗(Laurie)、布蘭登(Brendan)等白人的名字相比,搜索諸如特利文(Trevon)、拉基沙(Lakisha)或拉坦婭之類的非裔美國人名字更可能顯示「被逮捕?」的信息。雖然我們不知道為什麼會出現這種模式,但斯威尼提出了一種令人不安的解釋:谷歌的自動化廣告投放算法可能已經注意到,當廣告與貌似黑人的名字相關聯時,人們更可能點擊去看。因此,這一種族偏見並非反映任何投放廣告的人或谷歌公司的人有意歧視,它更可能是反映並放大了數百萬用戶點擊廣告而生成的全社會歧視決策類型。同樣,2017年1月,在谷歌的圖像搜索中輸入「科學家」或「祖母」時,產生的絕大多數是白人頭像。

在《自然》雜誌的一篇文章中,凱特·克勞福德(Kate Crawford)和賴恩·卡洛(Ryan Calo)指出了這麼一種危險:「在當前的一些情況下,人工智能系統的缺點不成比例地影響了因種族、性別和社會經濟背景等因素而處於不利地位的群體,這凸顯了考慮此類系統有意或無意的社會影響的重要性。」

我們認同這些關注,也看到越來越依賴算法決策的挑戰和機會。挑戰就是:這種方法會嵌入和延續不公平的、有害的和不必要的偏見。更糟糕的是,即使設計人員有創建無偏見系統的良好初衷,這些偏見也可能會出現,如果沒有廣泛的測試,它們可能難以識別。所有的系統設計都必須直面這一挑戰。

機會則是:人們通常可以測試和改進基於機器的系統。一經糾正,它們就不太可能再犯同樣的錯誤。相比之下,讓人類承認自己的偏見很難,有多少人會公開聲稱種族歧視或性別歧視呢?更不用說要克服這些困難了。採用一種決策系統(無論是基於機器,基於人類,還是基於兩者的某種組合)的最終標準實際上都不是完美的。任何系統都可能會出錯,都有偏見。因此,我們的目標應該是選擇使偏差和錯誤最小化,並能夠使之輕易快速被糾正的方法。

讓人類加入系統決策過程

人們應該在決策中扮演什麼角色?根據我們所知的系統1的偏見和錯漏,以及唾手可得的海量數據和計算能力,第二經濟看起來就要接管第一經濟了,而數字化的系統2也很快就能做出大部分的決定。有一個古老的笑話,未來的工廠只有兩個員工:一個人和一條狗。人的工作是餵狗,狗的工作是不讓人接觸任何機器。未來的企業果真如此嗎?

我們並不這麼看。雖然我們確實帶有電腦所沒有的偏見,但我們也有電腦不具備的優勢。首先,我們一直從感官中吸收非常大量的數據,沒有預先選擇,只是來者不拒。即使在短時間內,我們也難以只傾聽某些聲音或只看到某些事物。而電腦正相反,它們很難從其開發者和程序員所允許的數據源搜集多種多樣的數據。

這種差異為米爾所說的「斷腿角色」人群帶來了一項重要的工作。看一看他舉出的例子:幾年來,有位教授每週二晚上都去看電影。電腦模型會合理地預測她下周是否會再去看電影。不幸的是,教授週二上午摔斷了腿,臀部裝了固定器,沒法坐在電影院的座位上(這是1954年編造的故事)。任何一個人都會馬上知道教授的電影之夜將被取消,但這種「特殊力量」不容易被電腦算法複製。影響教授行為的「不尋常的、意料之外的因素」實在太多了。任何設計電腦系統的人都無法搜集所有這些因素的優質數據,以使程序能夠考慮它們。唯一的辦法就是建立一個比任何電腦系統都要全面得多的世界級模型。

人類擁有的另一個巨大優勢是古老常識。一些人比其他人有更多常識,但是所有人的常識都比最先進的電腦要多得多。人出生之後就開始學習關於世界如何運作的重要事情,我們認真、快速地學習。然而,儘管經過幾十年的研究,我們仍然不太瞭解人如何獲得常識,而且,正如我們在下一章所討論的,迄今為止,將常識植入電腦的嘗試是敗績纍纍。

因此,在很多情況下,讓人檢查電腦決策以確保萬無一失是有道理的。資深的數據分析和技術學者托馬斯·達文波特(Thomas Davenport)把這種做法稱為「看看窗外」。這句話不僅僅是一個令人深思的比喻。它是達文波特偶遇一位飛行員所得到的啟示,飛行員講述他自己如何嚴重依賴飛機的儀器,但發現視線偶爾掃向天際依然至關重要。這種方法非常有益,它不僅可以防止錯誤,而且還可以維護公司的聲譽。

打車服務商Uber在2014年年底艱難地掌握了這種方法。當時,該公司因其高峰定價(繁忙時段提高票價)而臭名昭著,這是一種許多用戶難以接受的方法。Uber堅稱高峰定價有助於平衡這些時段的供需關係,我們也同意這一點。該公司的算法給出高價,以期當實際或預期的汽車供應跟不上消費者需求時,鼓勵更多的司機參與進來。

2014年12月,當一名伊朗牧師在澳大利亞悉尼的一家咖啡館綁架18名人質時,這種做法使該公司受到非議。許多人逃離事發地區,其中有些人試圖呼叫Uber。Uber的電腦系統啟動高峰定價,應對這一突如其來的需求。對許多人來說,這是對一場危機的一個非常不合適的反應,於是該公司面臨激烈抨擊。

Uber發表了這樣的聲明:「我們沒有(在悉尼事件期間)直接叫停高峰定價。這是錯誤的決定。」該公司也顯然建立了在某些情況下推翻自動化高峰定價的能力。從2015年11月13日晚上開始,恐怖分子在巴黎進行了一系列襲擊。事發30分鐘內,Uber就取消了該市的高峰定價,並提醒其所有用戶進入緊急狀態。[12]

這些例子表明了讓人類的主觀判斷和算法同時發揮作用的明智之處。但是,企業採用這種方式時要非常小心。人類非常喜歡自己的判斷力,對此過分自信,所以即使電腦的決策更好,我們中的許多人(如果不是大部分人)也會很快地推翻它。本章前面提到克裡斯·斯奈德斯針對採購經理的預測進行研究,他發現,「你通常看到的是,有電腦輔助的專家的判斷效果處於模型和無電腦幫助的專家之間。所以說,如果你把模型給專家,他們會做得更好,但模型本身表現得更好」。

基於米爾和達文波特所描述的原因,我們支持讓人類進入模型決策過程,但是我們也主張企業盡可能地「保留分數」,即隨時跟蹤算法決策相對於人類決策的準確性。如果人類決策比基準算法更好,那麼一切就應該照常。不然的話,事情就需要改變,而第一步就是讓人們意識到自己真正的成功率。

這種反饋機制至關重要,因為它是系統1學習和改進的原理。正如卡尼曼和心理學家加裡·克萊恩(Gary Klein)所寫:「你不該相信自己的本能。你要把自己的直覺看作一個重要的數據點,但你必須有意識地、深思熟慮地評估它,看看它在此環境下是否有意義。」提高系統1的準確性並減少偏見的最好辦法是舉出很多例子,然後對系統1的準確性給出頻繁快速的反饋。

翻轉決策

一些公司開始使用另一種有價值的方法,那就是把人機分工的標準安排顛倒過來。人類做判斷時不再使用機器提供的數據作為輸入,相反,人類的判斷被用作算法的輸入。谷歌率先將這一方法用於招聘工作,這是公司的關鍵領域,有分析表明,以往的標準安排在該領域效果不佳。

拉茲洛·伯克(Laszlo Bock)擔任谷歌人事部負責人時就意識到,多數用於選擇新員工的技術幾乎無濟於事。在考察公司員工在職表現差異的實際影響因素時,他的團隊發現,招聘前的簡歷檢查僅解釋了約7%的差異,之前工作經歷的年份解釋了3%,非結構化的工作面試仍然是最常見的情形,它始於「你的最大優勢是什麼」或「請做自我介紹」等問題,但是只能解釋14%的差異。伯克說,這些面試存在的問題是:

它們創造了一個情景,在面試中試圖確認我們對某些人的看法,而不是真正評估他們。

心理學家把這情況稱為證實性偏見。我們基於輕度交流,做出了草率的、無意識的判斷,此判斷深受我們現有偏見和信念的影響。我們沒有意識到這一點,於是把評估申請人的工作變成尋找證據來證實我們的初步印象。

在這裡,系統1又一次運行了,然後把它的偏見和缺陷引入一個重要的決定。

那麼,更好的招聘方法是什麼?谷歌決定更加依賴結構化面試,它解釋了25%以上的在職表現。結構化面試包括一組預定義的問題,旨在評估一個人的一般認知能力等方面。該公司採用了一種招聘流程,在其中,所有面試官都進行結構化面試,提出的問題也基本相同。伯克解釋說,「然後我們用一致的量表對面試進行評分……面試官必須指出申請人是怎麼做的,每種表現水平都是明確的……一張簡潔的招聘量表……將凌亂、模糊和複雜的工作情況變成可衡量、可比較的結果」。

在這種方法中,面試官的個人判斷仍然有價值,但它們被量化了,用於為求職者打分。伯克認為,這種方法並非把面試過程平淡化、非人性化,而是恰恰相反。申請者本人喜歡受到客觀公正的對待,80%被重新設計後的面試過程拒絕的申請人表示,他們會把在谷歌的求職經驗推薦給朋友,招聘決策也變得更加容易。正如伯克所說,「你會看到優異和普通之間的清晰界限」。

決策太重要

對人機分工的標準安排做出重大改變,有時甚至推翻這種安排的想法使許多人感到不適。大多數人對人類的直覺、判斷和決策能力抱有很大信心,對於自己尤其如此。我們和很多人討論過這個話題,幾乎從未聽過有人承認其直覺或判斷力低於平均水平。然而,關於這個問題的證據是如此清楚,不容置疑:在大多數情況下,如果可以選擇,那麼數據驅動的系統2的決策要優於我們大腦產生的、融合了系統1和系統2的決策。這並不是說我們的決策和判斷毫無價值,只是說它們可以改進。我們所看到的多種方法——讓算法和電腦系統做決策,有時用人的判斷作為輸入,讓人們在適當的時候推翻電腦決策——就是這樣的一些改進方法。

我們聽過有人把這說成非人性化的方法。有些人覺得讓電腦主導決策會把人推到邊緣,趨於式微。我們知道,失去曾經擁有的決策權很不舒服,[13] 也沒人喜歡做電腦僕人的感覺。但是,這是否意味著我們可以將錯就錯,固守陳規呢?僅僅為了讓醫生和心理學家保住飯碗,誤診率就必須虛高嗎?僅僅為了讓面試官感覺良好,企業就應該用錯人嗎?

我們認為,這些問題的答案是否定的。良好的決策對於社會的良好運作至關重要,它們幫助把車流、職位、醫療保健等恰當的資源在恰當的時候、恰當的地方引向恰當的人群。實現以上目標的最佳方法,通常不是哈默和錢皮所倡導的標準夥伴關係——由電腦做記錄,由HiPPO人士行使判斷力並做出決策。

講到這裡,讀者可能對人類不善於預測未來不太驚訝了。畢竟,預測和決策是幾乎不可分割的活動。要做一個好的決策,我們通常要對未來某些方面有準確的預測,具體說,如果我們決定了某種方式,那麼可能會發生些什麼?所以如果我們做不好兩件事中的一件,那麼另一件也做不好。確實,系統1的許多捷徑和錯誤使我們做不了好的預測。

從1984年開始,政治學家菲利普·泰洛克(Philip Tetlock)和他的同事開展一個長達數十年的項目,對政治、經濟和國際事務等許多領域的預測準確性進行評估。其研究結論一如既往地清晰、引人關注。在一項涉及超過8.2萬次預測的測試中,泰洛克發現,就預測結果的準確性而言,「人類只是險勝黑猩猩而已」。

商業世界充斥著對未來的預測,因此以上發現應該引起重視。許多預測是直接清晰表現出來的:如某只股票的走勢,利率的未來移動方向和幅度,某國明年出售的智能手機數量,等等。在許多其他情況下,預測則隱含在擬議的行動計劃中。例如,網站的重新設計包含了一種隱性預測——訪客會更喜歡它,銀行分支機構的重新設計也是如此。一種吸引眼球的產品上市是建立在「顧客會喜歡它」這麼一種高風險的預測基礎之上,與之配合的營銷活動則包含一個如何塑造顧客偏好的預測。

狐狸、刺蝟與實驗

當然,所有這些預測並不都是錯的。泰洛克發現了一些「超級預測者」,[14] 他們真的能夠比常人更準確地給出預測。這些人傾向於從多個來源獲取信息,也許更重要的是,他們在看待事物時有一種採用多方觀點的能力。相比之下,不太準確的預測者傾向於在分析中固守一個視角,例如,熱心的保守派和頑固的自由派往往會做出糟糕的政治預測。泰洛克把前一組人稱為「狐狸」,他們是更成功的、多視角的預測者,然後把後一組人稱為「刺蝟」。他的這些標籤來自古希臘詩人阿基羅庫斯(Archilochus)的格言:「狐狸知道很多東西,但刺蝟只知道一件重要的事情。」[15]

因此,我們的一個建議就是盡可能依靠「狐狸」而不是「刺蝟」。「狐狸」可以通過其提出的多維度、多視角推理分析而發現,也可以通過一直以來的記錄查出。具有可查證的準確預測記錄的人可能就是「狐狸」。

少預測,多實驗

撇開「超級預測者」不談,我們對預測的最根本建議是少做預測。我們的世界越來越複雜,常處於混沌狀態,又總是快速流動。這使得預測事情變得要麼極其困難,要麼不可能實現,時間跨度越大,預測就越不準確。

在優秀企業中間正在發生根本轉變:遠離長期預測、長期計劃和大膽設想,開展持續的短期迭代、實驗和測試。這些組織採納計算機科學家艾倫·凱(Alan Kay)的重要建議:預測未來的最佳方式就是創造未來。它們從小處著手,步步為營,獲取反饋,在必要時進行調整,而不是根據自以為是的預測結果,對遙遠的事物自行其是。

相對來說,通過網站把這種方法落到實處比較直截了當。網站搜集了用戶活動的豐富數據,因此容易看出某項改變是否更好。一些電子商務網站對於與時俱進、革新求變是非常謹慎的。在20世紀90年代末的第一波網絡熱潮中,旅遊網站Priceline如日中天。像當時其他許多高調的同行一樣,它在世紀之交轟然墜地,究其原因,主要是用戶對該公司原創的自主定價方式產生不滿。

大約10年前,該公司將自己重新改造為一組更為傳統的旅遊網站。然而,令它重獲生機的是持續不斷的數據驅動型實驗。正如VentureBeat (互聯網行業新聞博客)的記者馬特·馬歇爾(Matt Marshall)所說:「導致增長井噴的通常是小創意,例如調整網頁上的顏色、措辭和數據安排,只求逐步提升,通過這些小小的努力來改善現有體驗……Priceline發現,將描述某個屬性的措辭從『停車』改為『免費停車』,就增加了2%的轉換率,即使這個描述放在頁面的不起眼處——一般讀者很難注意到它。」這樣的好處俯拾皆是。A / B測試是一種常見的在線實驗協議,其中一半的訪問者在訪問網站時看到選項A,而另一半訪問者則看到選項B。在一次嚴格的測試中,內衣公司Adore Me發現,讓模特擺造型時把手放在頭髮中,而不是放在臀部,就可以使一些品類的銷售翻番。在通常情況下,又快又準的方法是在線測試選項,而不是花費幾個小時、幾天乃至幾周,請專家對變革計劃進行分析和辯論。在線測試的結果通常也會令人驚訝。

實驗當然不局限於在線形式。它在實體環境的應用也會有成效。商學院教授戴維·加文(David Garvin)把許多大公司稱為「多單元企業」。這些組織佔有許多面向客戶的區位,所有區位看起來都差不多,運營方式也大致相同。許多商業銀行、連鎖餐廳、零售商和服務商都是多單元企業。根據對《財富》100強企業的一項估計,其中的20%在某種程度上屬於多單元企業。

多單元企業的多區位特點提供了絕佳的實驗機會。據創新學者史蒂芬·湯姆克(Stefan Thomke)和企業實驗家吉姆·曼茲(Jim Manzi)稱,科爾士百貨公司進行了一項涉及100家商店的實驗,以此瞭解工作日推遲開店一小時是否對銷售有害。結果表明,營業時間縮短不會使銷售額顯著降低,這對零售商而言是個好消息。不好的消息來自另一項實驗的結果。該項實驗涉及70家科爾士商店,它測試了首次出售傢俱的影響。實驗發現,由於傢俱佔用太多遠離其他產品的空間,因此商店的整體銷售額和客戶流量實際上是下降了。雖然許多高管對推出的新品持樂觀態度,但公司決定以實驗結果為依據,不再提供傢俱。通常情況下,在多單元企業的每個區位同步推行一種新舉措是不可行的,因此分階段實施就為實驗創造了一個自然的機會。通過一些規劃,企業可以從這樣的分階段實施中瞭解很多事情,從而將實施新舉措的區位與仍然用老辦法做事的區位仔細比對。

預測和實驗不像決策一樣易於自動化,但它們仍然非常適合嚴謹的數據分析。這些都是系統2的主要工具,也是第二次機器革命時代的主要工具。與此同時,系統1及其直覺、判斷和個人經驗累積等元素則需要給制定準確預測的手段讓路,這樣才會盡可能制定好的決策。簡而言之,HiPPO人士必然成為組織內的「瀕危物種」。

本章總結

‧ 歷時20年的人機標準夥伴關係往往過於重視人的判斷、直覺和本能。

‧ 為什麼人類的判斷經常如此糟糕呢?因為快速、不動腦筋的「系統1」式推理方式受制於許多不同種類的偏見。更糟糕的是,它出錯時不能自知,而且它劫持理性的系統2,為其草率的判斷提供令人信服的理由。

‧ 很明顯,如果可以選擇的話,與依靠有經驗的人類專家的判斷相比,單純依靠數據和算法通常會得到更好的決策和預測。

‧ 現在由人類做出的許多決策、判斷和預測都應該轉交給算法。在某些情況下,人應該留在決策過程中,提供常識方面的檢查。在其他情況下,他們應該完全退出決策過程。

‧ 在其他情況下,人的主觀判斷仍會被用到,若用在翻轉的標準夥伴關係中:判斷應該被量化,並被納入定量分析。

‧ 決策流程應該基於正確的目標和明確的指標,為做出最佳決策而建立,而不應因決策者自我感覺良好而定。

‧ 算法遠非完美。如果基於不準確或有偏差的數據,那麼它們就會做出不準確或偏倚的決策。這些偏見可能是微妙的、無意的。算法的應用標準不在於其是否完美,而在於它們是否優於相關度量上的可替代方案,以及它們能否隨時間而改進。

‧ 隨著技術的普及,我們有機會超越標準夥伴關係,以及使其擺脫對HiPPO人士的過度依賴並朝著更受數據驅動的決策發展。數據顯示,這樣做的公司通常比不諳此道者具有重大的優勢。

‧ 能夠從多個角度來看待問題的人,能夠有效迭代和實驗的公司,都是時代的佼佼者。

問題

A 你是否系統地、嚴謹地追蹤所在組織中由人和算法所做出的決策、判斷和預測的表現?你知道哪些方面做得好嗎?

B 在你的組織中,HiPPO人士最常見的決策在哪裡?為什麼是這樣?

C 你在什麼地方有過這樣的機會:將標準合作夥伴關係掉轉過來,從而將人的主觀評估納入數據驅動的分析,而不是與之相反?

D 一般來說,你認為算法和人哪一個更易產生偏見?

E 你覺得更有說服力的是「狐狸」還是「刺蝟」?

F 你所在的組織是傾向於開展少數長期的高風險項目,還是開展大量更具迭代性的短期項目?

[1] 1英尺=0.304 8米。——編者注

[2] 企業信息系統很快因其多種應用(名稱為三個英文單詞的首字母組合)而廣為人知,包括ERP(企業資源規劃)、SCM(供應鏈管理)、CRM(客戶關係管理)和HRM(人力資源管理)等。

[3] 或者更準確地說,是幾種軟件。即使是最自信的企業軟件供應商,也不會說單一的系統足以滿足一家公司要做的一切。

[4] 英國伊麗莎白女王於2004年授予伯納斯–李大英帝國爵級司令勳章,以表彰他實質上發明萬維網。安德森是2013年首屆伊麗莎白女王工程獎獲獎者之一。

[5] 卡尼曼是第一位被授予諾貝爾經濟學獎的非經濟學者,以此表彰他的工作。

[6] 「系統1」和「系統2」是特意挑選的中性、平淡的標識,以免引發長期存在的圍繞其他術語的分歧和辯論。

[7] 本森在休陪產假時研究了維基百科的認知偏見清單,然後提出了這一分類方法,並將其發表在「生活黑客」博客Better Humans 上(http://betterhumans.net)。這是源自在線大眾的洞察力,我們將在本書第三部分詳細討論這一現象。

[8] 它有一個奇怪的名字叫「apophenia」。統計和機器學習的模型可能會犯同樣的錯誤,通常被稱為數據的「過度耦合」。

[9] 正如喬納森·海德特在他所著的《象與騎像人:幸福的假設》中所說,「人們很容易編造理由來解釋自己的行為,這一發現被稱為『虛構』。虛構常常伴隨著裂腦患者和其他腦損傷人士,心理學家邁克爾·加扎尼加用『解釋模塊』表示大腦左側的語言中心,其工作是當場解釋自我所做的事情,當然它無法得知自我行為的真正原因或動機。舉例來說,如果『走』字在大腦的右半球閃現,患者就可能站起來走開。當被問到為什麼站起來時,他可能會說:『我要去拿一杯可口可樂。』解釋模塊善於編造理由,但它自己都不知道已經編出來了」。Jonathan Haidt. The Happiness Hypothesis: Finding Modern Truth in Ancient Wisdom (New York: Basic Books, 2006), 8.

[10] 這些信息來自人們同意安裝在家中的機頂盒。

[11] 由第三方處理匹配過程以保護隱私,奧巴馬競選團隊和評級公司不會看到彼此的名冊。

[12] 關於Uber在巴黎恐怖襲擊期間繼續高峰定價的謠言四處傳播。

[13] 實際上,在一項實驗中,心理學家塞巴斯蒂安·博巴蒂拉–蘇阿雷茲(Sebastian Bobadilla-Suarez)及其同事發現:即使人們得知自動化決策能使他們在整體上掙得更多,他們還是願意為了保住資金分配的決策權而付出代價。人們喜歡決策的權力。Sebastian Bobadilla-Suarez, Cass R. Sunstein, and Tali Sharot, 「The Intrinsic Value of Control: The Propensity to Under-delegate in the Face of Potential Gains and Losses.」SSRN, February 17, 2016. https://papers.ssrn.com/sol3/papers2.cfm?abstract_id=2733142.

[14] 菲利普·泰洛克在該領域撰寫的作品《超預測:預見未來的藝術和科學》由中信出版社於2016年7月出版。——編者注

[15] 「狐狸和刺蝟」也是哲學家以賽亞·柏林(Isaiah Berlin)的一篇文章的標題,該文將歷史上的思想家分為兩類:在整個職業生涯中孜孜以求一種大思想的人,以及那些探索許多不同想法的人。