讀古今文學網 > 人工智能:李開復談AI如何重塑個人、商業與社會的未來圖譜 > 第二章 AI復興:深度學習+大數據=人工智能 >

第二章 AI復興:深度學習+大數據=人工智能

這一次人工智能復興的最大特點是,AI在語音識別、機器視覺、數據挖掘等多個領域走進了業界的真實應用場景,與商業模式緊密結合,開始在產業界發揮出真正的價值。

第三次AI熱潮:有何不同?

2016年3月,似乎人人都在談人工智能。

Alpha Go與李世石的一盤棋將普通人一下子帶入科技最前沿。圍棋人機大戰剛剛塵埃落定,“人類是不是要被機器毀滅了”之類的話題就超出了科幻迷的圈子,在普通人中流行開來。每天,我都能在各種場合聽見人們談論人工智能,哪怕是在街頭的咖啡館裡,也能聽到“深度學習”這樣的專業字眼兒;大大小小的人工智能“論壇”或“年會”如雨後春筍般在北京、上海、廣州、深圳、杭州等地湧現出來,學術界的人工智能大師們在各種會議、商業活動和科普活動中奔波忙碌,馬不停蹄;一邊是專業的科研機構、高科技公司在談論人工智能,另一邊,銀行、保險、能源、家電等傳統行業廠商也都忙不迭地把“AI”或“AI+”的標籤貼在自己身上;創投領域就更是熱火朝天,包括創新工場在內,每家高科技投資機構都盯緊了人工智能領域的初創公司——這種火熱場面,和整個投資圈在2016年遇冷的大背景迥然不同。

可大家千萬不要忘了,這並不是人機對弈第一次激起公眾的熱情。1997年IBM的深藍戰勝卡斯帕羅夫的那一天,全世界科技愛好者奔走相告的場景絲毫不比今天人們對Alpha Go的追捧遜色多少。再往前看,1962年,IBM的阿瑟·薩繆爾開發的西洋跳棋程序就戰勝過一位盲人跳棋高手,那時,報紙也在追捧人工智能,公眾也一樣對智能機器的未來充滿了好奇。

從20世紀60年代到90年代再到今天,從西洋跳棋到國際象棋再到圍棋,三盤棋,三次人工智能在公眾中引發的熱潮——為什麼處在風口浪尖的偏偏都是人機對弈?為什麼會下棋的計算機程序如此風光?

圖17 三個時代、三盤人機對弈

縱觀人工智能發展史,人機對弈只是人工智能在公眾心目中的地位起起落落的一個縮影。對於人工智能的技術研發者而言,選擇人機對弈作為算法的突破口,這一方面是因為棋類遊戲代表著一大類典型的、有清晰定義和規則、容易評估效果的智能問題;另一方面也是因為具備一定複雜性的棋類遊戲通常都會被公眾視為人類智慧的代表,一旦突破了人機對弈算法,也就意味著突破了公眾對人工智能這項新技術的接受門檻。

的確,每次人機大戰以及計算機勝出的結果,都在公眾視野中激起萬千波瀾。可反過來想一想,人類對計算機在棋類項目上勝出的心理承受力又是何等脆弱和可笑。跳棋程序甫一成熟,公眾驚呼“智能機器威脅論”,可沒過幾年,習慣了計算機會下簡單棋類的公眾又轉而挑釁地說:“下個跳棋有什麼了不起,有本事去下複雜無比的國際象棋試試?”IBM的深藍剛剛戰勝卡斯帕羅夫的時候,全世界關心科技發展的公眾都在為人類的未來命運擔憂,可沒過幾年,國際象棋和中國象棋程序就變成了再普通不過的計算機應用,在大多數人心目中,“下個象棋算什麼智能?有本事去下奧妙無窮的圍棋試試?”

網上流傳著一幅有關“人工智能發展成熟度曲線”的漫畫,形象地展示出人們在此前兩次人工智能熱潮中,從被人工智能在某些領域的驚艷表現震撼,到逐漸認識到當時的人工智能還有各種局限,以至於產生巨大心理落差的有趣過程。

圖18 網上流傳的漫畫:人工智能發展成熟度曲線

與其說這是人類自身的心理落差,不如說這是計算機是否具有智能的判定標準在不斷被拔高。從會下跳棋就算智能,到會下象棋才算智能,再到會下圍棋才算智能……到底有沒有客觀的評價尺度?到底要給計算機設定怎樣的門檻,才能正式發給它一張“人類智慧”的鑒定證書?今天我們管Alpha Go叫人工智能了,3年之後呢?5年之後呢?

Alpha Go之前,人們至少喊過兩次“人類要被機器毀滅了!”20世紀60年代前後算一次,20世紀80年代到90年代前後也算一次。前兩次人工智能熱潮,每一次都釋放過人類關於未來的瑰麗想像力,每一次都讓許多人熱血沸騰。但很不幸,兩次熱潮在分別經歷了十數年的喧囂後,無一例外地迅速跌入低谷,並在漫長的寒冬中蟄伏起來。

1998年,我來到北京創立微軟亞洲研究院的時候,正值當時人工智能的熱潮開始消退,人們對熱潮中隨處可見的盲目情緒心有餘悸,很多人甚至不願再用“人工智能”這個詞來指代相關的研發領域。在學術圈子裡,一度有很多人覺得,凡是叫“人工智能”的,都是那些被過分誇大,其實並不管用的技術。結果,我們為微軟亞洲研究院設定科研方向的時候,就經常主動迴避“人工智能”這個字眼兒,而是選用“機器視覺”“自然語言理解”“語音識別”“知識挖掘”之類側重具體應用領域的術語。

僅僅因為人工智能的表現與普通人的期望存在差距,我們這些研究人工智能的人就羞於提及“人工智能”,這真是一件尷尬的事兒。

那麼,今天這次人工智能熱潮會如何發展呢?第三次人工智能熱潮有何本質上的不同?幾年後的我們是否還會像前兩次那樣,不但忘掉了曾經的興奮,還憤憤地說人工智能都是騙子?學術界、投資界、商業界乃至普通大眾還會像此前兩次那樣在熱鬧了一陣子之後就歸於沉寂,甚至跌入冰點嗎?

用高德納技術成熟度曲線看AI發展史

和前面那張搞笑的“人工智能發展成熟度曲線”不同,學術界、產業界和投資界在談到技術高潮與低谷時,經常會引用高德納咨詢公司(Gartner)推薦的技術成熟度曲線。

這條曲線顯示出,幾乎每一項新興且成功的技術,在真正成熟之前,都要經歷先揚後抑的過程,並在波折起伏中通過積累和迭代,最終走向真正的繁榮、穩定和有序發展。

圖19 高德納咨詢公司(Gartner)技術成熟度曲線(CC BY-SA 3.0,Wikipedia)29

如圖19中的曲線所示,一種新科技的研發過程通常是這樣的:初創公司接受第一輪風投,開發出第一代產品,雖然不成熟,但足以吸引一批早期接受者——粉絲。在早期階段,產品的優點被粉絲放大,大眾媒體跟風炒作,將該技術推向一個充滿泡沫的膨脹期。隨著盲目的追捧者激增,跟風研發、生產的初創公司越來越多,產品的不足被無限放大,負面報道開始出現,供過於求的市場競爭中,大批跟風入局的初創公司不是被兼併,就是走向倒閉,只有少數擁有核心競爭力的堅持了過來。跌入低谷後,第二輪、第三輪風投資金注入大浪淘沙後僅存的中堅企業,新一代技術和產品也隨之問世,整個技術曲線步入穩步攀升的平台期和成熟期,潛在用戶的接受程度也從5%以下逐漸提升到20%到30%,初創企業和風投資本開始迎來高額回報。

這條曲線概括了絕大多數高新技術的發展歷程。更重要的是,每年高德納公司都會根據當年度所有流行技術的發展、成熟狀況,製作出一張當年各流行技術在高德納曲線上的發展位置圖示,標示出每種前沿技術是處在萌芽期、泡沫期、低谷期還是成熟期,以及每種未達成熟期的技術還需要幾年才會真正成熟起來。技術人員、投資者經常根據高德納曲線來判斷時代潮流,選擇投資方向。

將高德納技術成熟度曲線對應到人工智能波折起伏的發展歷程中,其實不難看到,人工智能此前兩次表現出的熱潮,更多應該被理解為一項新興技術在萌芽期的躁動以及在泡沫期的過分膨脹。

20世紀50年代到60年代,伴隨著通用電子計算機的誕生,人工智能悄然在大學實驗室裡嶄露頭角。以艾倫·圖靈(Alan Turing)提出圖靈測試為標誌,數學證明系統、知識推理系統、專家系統等里程碑式的技術和應用一下子在研究者中掀起了第一撥人工智能熱潮。但那個年代,無論是計算機的運算速度還是相關的程序設計與算法理論,都遠不足以支撐人工智能的發展需要。例如,計算機科學和人工智能的先驅艾倫·圖靈就曾在1951年發表過一份寫在紙上的象棋程序30,可惜當年的計算機難以實現這樣複雜的運算。這就像探險家發現新大陸一樣,第一次踏足新大陸和真正讓新大陸蓬勃發展起來是根本不同的兩件事。於是,從20世紀60年代末開始,無論是專業研究者還是普通公眾,大家對人工智能的熱情迅速消退。

20世紀80年代到90年代,也就是我在卡內基-梅隆大學發明非特定人連續語音識別技術並將其用於蘋果計算機系統的時代——那的確是人工智能研究者和產品開發者的一個黃金時代。傳統的基於符號主義學派的技術被我和其他同時代研究者拋棄在一邊,基於統計模型的技術悄然興起,並在語音識別、機器翻譯等領域取得了不俗的進展,人工神經網絡也在模式識別等應用領域開始有所建樹,再加上1997年深藍計算機戰勝人類棋王卡斯帕羅夫,普通人的積極性一度高漲起來。但是,那個時代的技術進步還不夠好,不足以超過人類對智能機器的心理預期。拿語音識別來說,統計模型雖然讓語音識別技術前進了一大步,但還沒有好到可以讓普通人接受的程度,測試環境稍稍變化就會造成識別效果大幅下降。那時,我在蘋果公司開發的語音識別應用就更多被用於演示和宣傳,實用價值十分有限。從整體上看,那一撥人工智能熱潮仍然籠罩著濃厚的學術研究和科學實驗色彩,雖然激發了大眾的熱情,但更像是跌入谷底前的泡沫期,遠沒有達到與商業模式、大眾需求接軌並穩步發展的地步。

2010年前後,準確地說,是從2006年開始,隨著深度學習技術的成熟,加上計算機運算速度的大幅增長,當然,還有互聯網時代積累起來的海量數據財富,人工智能開始了一段與以往大為不同的復興之路。

例如,2012年到2015年,在代表計算機智能圖像識別最前沿發展水平的Image Net競賽(ILSVRC)中,參賽的人工智能算法在識別準確率上突飛猛進。2014年,在識別圖片中的人、動物、車輛或其他常見對像時,基於深度學習的計算機程序超過了普通人類的肉眼識別準確率31。

圖20 Image Net圖像分類比賽歷年來識別錯誤率的變化趨勢

人們在Image Net競賽(ILSVRC)中取得的非凡成就是人工智能發展史上一個了不起的里程碑,也是當今這一撥人工智能熱潮由萌芽到興起的關鍵節點。隨著機器視覺領域的突破,深度學習迅速開始在語音識別、數據挖掘、自然語言處理等不同領域攻城略地,甚至開始將以前被人們視為科幻的自動駕駛技術帶入現實。此外,基於深度學習的科研成果還被推向了各個主流商業應用領域,如銀行、保險、交通運輸、醫療、教育、市場營銷等,第一次實現了人工智能技術與產業鏈條的有機結合。

今天的人工智能是“有用”的人工智能

我覺得,和前兩次AI熱潮相比,這一次人工智能復興的最大特點,就是AI在多個相關領域表現出可以被普通人認可的性能或效率,並因此被成熟的商業模式接受,開始在產業界發揮出真正的價值。

心理學上說,人們接受一件新事物,就像人們感受一種外界刺激一樣,是有一個心理閾值的。外界刺激(比如聲、光、電)的強度太小的話,人們根本不會有任何感覺;只有外界刺激的強度超過了一個人能夠感知的最小刺激量,人們才有“聽到了聲音”“看見了東西”之類的明確感受。這個能引起人們感知反應的最小刺激量,心理學上叫絕對閾值(absolute threshold)32。

人工智能技術的發展正是如此。還是拿圖像識別來說,在人工智能發展早期,如果一個計算機程序宣稱可以識別出圖片中的人臉,但它的識別準確率只有五成左右,那普通人只會將這個程序看作一個玩具,絕不會認為它擁有智慧。隨著技術進步,當人臉識別算法的識別準確率提高到80%甚至接近90%的時候,研究者們當然知道,取得這樣的進步十分不易,但這一結果其實還是很難被普通人接受,因為每五個人臉就認錯一個,這明顯無法在實際生活中使用——人們也許會說這個程序挺聰明,但絕對不會認為這個程序已經聰明到可以替代人類的眼睛。只有計算機在人臉識別上的準確率非常接近甚至超過普通人的水平,安防系統才會用計算機來取代人類保安完成身份甄別工作。也就是說,對於人臉識別這個應用,接近或超過普通人的水平才是我們關心的“絕對閾值”。

所以,我們說“人工智能來了”,其實是說,人工智能或深度學習真的可以解決實際問題了。在機器視覺、語音識別、數據挖掘、自動駕駛等應用場景,人工智能接連突破了人們可以接受的心理閾值,並第一次在產業層面“落地”,發揮並創造出真正的價值。

人工智能之所以有今天的成就,深度學習技術居功至偉。谷歌最傑出的工程師傑夫·迪恩說:“我認為在過去5年,最重大的突破應該是對於深度學習的使用。這項技術目前已經成功地被應用到許許多多的場景中,從語音識別到圖像識別,再到語言理解。而且有意思的是,目前我們還沒有看到有什麼是深度學習做不了的。希望在未來我們能看到更多更有影響力的技術。”33

所以,關於第三次人工智能熱潮,我的看法是:

·前兩次人工智能熱潮是學術研究主導的,而這次人工智能熱潮是現實商業需求主導的。

·前兩次人工智能熱潮多是市場宣傳層面的,而這次人工智能熱潮是商業模式層面的。

·前兩次人工智能熱潮多是學術界在勸說、遊說政府和投資人投錢,而這次人工智能熱潮多是投資人主動向熱點領域的學術項目和創業項目投錢。

·前兩次人工智能熱潮更多是提出問題,而這次人工智能熱潮更多是解決問題。

到底本次人工智能熱潮是不是處於技術成熟度曲線的成熟上升期,到底能不能保持長期持續增長的勢頭,是不是會像此前的人工智能熱潮那樣,有跌入低谷的風險?我想,經過上面的分析,大家應該會有自己的判斷。

圖靈測試與第一次AI熱潮

2016年是計算機科學領域的最高獎項——圖靈獎設立50週年。1966年,美國計算機協會(ACM)以開創計算機科學和人工智能基本理論的科學巨匠——艾倫·圖靈的名字設立了這項“計算機界的諾貝爾獎”。

圖21 布萊切利園的圖靈雕像(CC BY-SA 3.0,Wikipedia)

艾倫·圖靈的人生本身就是一個傳奇。他利用自己卓越的數學、密碼學和計算理論知識,在第二次世界大戰期間,幫助英國軍方成功破譯了德軍使用的著名密碼系統——恩尼格瑪(Enigma)密碼機。他早在20世紀30年代就提出了指導所有現代計算機(那個時候,通用電子計算機還沒有誕生)的計算原理設計的圖靈機理論。他還是個擅長馬拉松的運動健將,卻因為性取向問題受到英國政府的迫害,最終服毒身亡。有關圖靈的傳奇故事,2014年的電影《模仿遊戲》很值得推薦,該片曾於2015年7月在中國大陸公映。

艾倫·圖靈是人工智能的開拓者,他所提出的圖靈測試,直到今天仍然是我們判定一部機器是否具有人類智慧的重要手段。那麼,到底什麼是圖靈測試呢?

AI小百科 圖靈測試

1945年到1948年,圖靈在英國國家物理實驗室負責自動計算引擎(ACE)的研究。1949年,圖靈出任曼徹斯特大學計算機實驗室副主任,負責英國最早的可編程計算機之一——曼徹斯特一號(Manchester Mark 1)的軟件工作。

這是通用電子計算機剛剛誕生的時代。電子計算機的用戶,無論是軍方、科學家、研究員,還是學生,都將計算機視為一台運算速度特別快的數學計算工具。很少有人去琢磨,計算機是不是可以像人一樣思考。圖靈卻走在了所有研究者的最前沿。

1950年10月,圖靈發表了一篇名為《計算機械和智能》(Computing Machinery and Intelligence)的論文,試圖探討到底什麼是人工智能。在文章中,圖靈提出了一個有趣的實驗:

假如有一台宣稱自己會“思考”的計算機,人們該如何辨別計算機是否真的會思考呢?一個好方法是讓測試者和計算機通過鍵盤和屏幕進行對話,測試者並不知道與之對話的到底是一台計算機還是一個人。如果測試者分不清幕後的對話者是人還是機器,即,如果計算機能在測試中表現出與人等價,或至少無法區分的智能,那麼,我們就說這台計算機通過了測試並具備人工智能。

簡單地說,圖靈從人們心理認知的角度,為“人工智能”下了一個定義。圖靈認為,人們很難直接回答一般性的,有關人工智能的問題,比如“機器會思考嗎?”但是,如果把問題換一種形式,也許就變得易於操作和研究了。圖靈所提出的新問題是:

在機器試圖模仿人類與評判者對話的“模仿遊戲”中,有思考能力的電子計算機可以做得和人一樣好嗎?

圖靈所說的“模仿遊戲”,後來也被人們稱為“圖靈測試”。這個定義更接近我們現在說的“強人工智能”或“通用人工智能”。另外,在論文中,圖靈還對人工智能的發展給出了非常有益的建議。他認為,與其去研製模擬成人思維的計算機,不如去試著製造更簡單的,也許只相當於一個小孩智慧的人工智能系統,然後再讓這個系統去不斷學習——這種思路正是我們今天用機器學習來解決人工智能問題的核心指導思想。

在20世紀50年代到60年代,人們對人工智能普遍持過分樂觀的態度。圖靈測試剛提出沒幾年,人們似乎就看到了計算機通過圖靈測試的曙光。

1966年,麻省理工學院(MIT)教授約瑟夫·維森鮑姆(Joseph Weizenbaum)發明了一個可以和人對話的小程序,名叫ELIZA。這個名字來自蕭伯納的戲劇《賣花女》——其中,賣花女的名字就叫伊萊莎·杜立德(Eliza Doolittle)。

第一次使用ELIZA程序的人幾乎都被驚呆了。約瑟夫·維森鮑姆將ELIZA設計成一個可以通過談話幫助病人完成心理恢復的心理治療師。人們不敢相信自己的眼睛,ELIZA竟真的能夠像人一樣,與病人一聊就是好幾十分鐘,而且,有的病人還特別願意與ELIZA聊天。

今天,我們還可以從網絡上找到許多不同的ELIZA的實現版本,比如,在程序員愛用的編輯器Emacs中,有一個名叫醫生(Doctor)的現代版本的ELIZA對話程序。圖22是病人與這位“精神治療醫生”的一段對話記錄。怎麼樣?還挺像兩個真人在聊天吧?

想像一下,20世紀60年代的人第一次看到類似這樣的人機對話,會是怎樣一種既驚訝又興奮的神情。但約瑟夫·維森鮑姆公佈出來的程序原理和源代碼又讓當時的人大跌眼鏡:ELIZA的程序邏輯非常簡單!

ELIZA所做的,幾乎就是在一個相當有限的話題庫裡,用關鍵字映射的方式,根據病人的問話,找到自己的回答。比如,當用戶說“你好”時,ELIZA就說:“我很好。跟我說說你的情況。”此外,ELIZA會用“為什麼?”“請詳細解釋一下”之類引導性的句子,來讓整個對話不停地持續下去。同時,ELIZA還有一個非常聰明的技巧,它可以通過人稱和句式替換來重複用戶的句子。比如,用戶說“我感到孤獨和難過”時,ELIZA會說“為什麼你感到孤獨和難過?”這樣一來,雖然根本不理解用戶到底說了什麼,但ELIZA表面上卻用這些小技巧“裝作”自己可以理解自然語言的樣子。

圖22 ELIZA對話程序的一個現代實現:Emacs Doctor

ELIZA是那種第一眼會讓人誤以為神通廣大,仔細看又讓人覺得不過爾爾的小程序。當年雖有人宣稱ELIZA可以通過圖靈測試,但更多人只是非常客觀地將ELIZA看成是人們第一次實現聊天機器人(Chatbot)的嘗試。追本溯源,ELIZA是現在流行的微軟小冰、蘋果Siri、谷歌Allo乃至亞馬遜Alexa的真正鼻祖!

針對圖靈測試,人工智能領域還專門設立了一個每年一度的羅布納獎(Loebner Prize),專門頒發給在圖靈測試中表現最優秀的計算機程序。所有聊天機器人程序都可以參加羅布納獎的評測,以判定是否有程序通過圖靈測試。羅布納獎的競賽規則和評測方式歷經許多次變化與調整。1995年以前以限定話題領域的測試為主,1995年起,羅布納獎不再限定話題領域。對話時長則從最初的5分鐘逐漸增加到2010年之後的25分鐘。

評測時,人類評判員坐在電腦前,同時與一個計算機程序和一個真人通過鍵盤和屏幕對話。對話結束後,評判員根據對話內容,判定與自己對話的兩位中,哪一位是電腦,哪一位是真人。如果判定錯誤,就表明計算機程序在這一次對話中“愚弄”了人類。如果計算機程序愚弄人類的次數超過30%(圖靈本人建議的比例數字),就可以認為,該計算機程序通過了圖靈測試。羅布納獎成立至今,尚未有任何程序超過30%的關口。2008年時,一個名叫Elbot的程序騙過了12名人類評測員中的3位,這已經很接近30%的界限 了34。

非常有趣的是,2014年,為了紀念圖靈去世60週年,雷丁大學在倫敦皇家學會舉辦了另一場圖靈測試。測試中,一個名叫尤金·古斯曼(Eugene Goostman)的聊天機器人程序取得了33%的成功率。這個聊天機器人程序是由一個名叫普林斯頓人工智能(Princeton AI,雖然叫普林斯頓,但和普林斯頓大學沒有任何關係)的小團隊設計實現的,它成功地在33%的評判輪次中,讓評判員誤以為尤金·古斯曼是一個真實的、13歲左右的小孩子。雷丁大學隨即宣稱,尤金·古斯曼第一次通過了圖靈測試!

尤金·古斯曼真的通過了圖靈測試嗎?消息剛一傳出,質疑聲就隨之而來。根據公佈的尤金·古斯曼的聊天記錄,羅布納獎的創立者休·羅布納認為,雷丁大學的測試時長只有5分鐘,遠沒有達到羅布納獎25分鐘的標準。用5分鐘的聊天記錄來判定一個程序是否具有智能,這太簡單和草率了35。許多學者在親自與尤金·古斯曼進行過網上聊天後,都覺得這個聊天程序離真正的智能還遠得很。至少到目前為止,尤金·古斯曼還沒有得到學界的一致認可。

我挑戰圖靈測試的故事

說起圖靈測試,我總會想起我在哥倫比亞大學讀書時的一段趣事。

在哥倫比亞大學,我讀的不是計算機系,卻對計算機相關的課程最感興趣。當時,教我們自然語言處理課程的老師是邁克爾·萊博維奇(Michael Lebowitz)。他為我們講述了諾姆·喬姆斯基(Noam Chomsky)的語言學基本理論,比如基本的詞法、句法關係,以及人是如何通過語法結構理解自然語言的。

學到了這些語言學方面的基本知識,年輕的我就大膽提出:“我能不能挑戰一下圖靈測試呢?”其實,我當時提出的想法很簡單,就是做一個聊天機器人,而且,是一個只關注自然語言處理這個領域,且在說話風格上模仿我們的老師邁克爾·萊博維奇的小程序。我當時和另一位非常有才華的華人同學胡林肯(Lincoln Hu)一起,完成了程序的設計和開發。

我們做的那個程序,名字就叫邁克爾·萊博維奇。學生可以把這個程序當作老師,與“他”聊任何與自然語言處理課程相關的話題。比如,我們可以問這個程序說:“你能告訴我,語言學是什麼嗎?”這個程序就會裝出老師邁克爾·萊博維奇的口吻說:“語言學就是關於人類語言的科學研究,包含句法、詞法、語音學等研究方向。”更有趣的是,這個程序甚至會講許多老師邁克爾·萊博維奇當年常講的課堂笑話。

我們的程序還很幼稚,有些時候表現得比較呆笨,根本不像一個聰明的人類對話者。但這個小程序還是讓老師邁克爾·萊博維奇笑逐顏開,無論是程序本身的幽默感,還是代碼中的技術含量,都超過了老師的期望。老師給了我們A+的高分。

從技術上說,今天那些流行的聊天機器人程序和我們那個時代做的小程序相比,已經有了很大的進步。它們都在模仿人類語言風格之外,引入了更大的知識平台作為後盾。例如,聊天程序基於搜索引擎索引到的互聯網網頁建立知識庫,從海量的頁面信息中搜集可能的常見問題、常見回答的組合,這已經成為一種非常成熟的技術。當我們與這些程序聊天時,實際上既是一次人機間的對話,也是一次對機器背後龐大知識庫的搜索操作。

另一方面,那些以參加圖靈測試比賽為目標的聊天機器人程序,往往在對話策略方面有著非常針對性的設計。比如,不少在羅布納獎測試中排名靠前的聊天程序,都刻意使用了一種攻擊性強的對話風格,它們試圖更多地控制聊天時的話語權,不給評判員太多深入追問的空間,並用挑戰性的問句或引導性的話語,盡量將聊天控制在自己熟悉的話題領域內。這也是羅布納獎測試為什麼在近年要將聊天的時長從5分鐘擴展到25分鐘的重要原因——沒有足夠的時間,評判員根本來不及根據自己的思路,與對方深入交流。

無論如何,圖靈測試以及為了通過圖靈測試而開展的技術研發,都在過去的幾十年時間裡,推動了人工智能特別是自然語言處理技術的飛速發展。我們憧憬著計算機程序真正使人信服地通過圖靈測試的那一天,但我們更希望看到自然語言處理技術在文本理解與分類、語音識別、自動客服應答、自然語言控制界面等領域取得更多商業上的成功。

語音識別與第二次AI熱潮

生不逢時的我

20世紀80年代到90年代的第二次AI熱潮中,語音識別是當時最具代表性的幾項突破性進展之一,而我自己恰恰在那個時代站到了人工智能特別是語音識別研究的最前沿。

讓計算機聽懂人們說的每一句話、每一個字詞,這是人工智能這門學科誕生第一天科學家就努力追求的目標。但直到我從事博士研究的那個時代,語音識別才真正取得實質性的進展——很大程度上是因為我和同時代學者對傳統符號主義方法的摒棄。

很多人說,我在人工智能的發展史上留下了自己的名字。這的確是事實。但就像人工智能前兩次熱潮中的許多研究者一樣,我提出的語音識別算法雖然在那個時代處於領先地位,但距離人們覺得系統可用的心理閾值還有一定的距離。我博士畢業後,在蘋果公司研發的語音識別系統就難以滿足當時市場上人們對聽寫、輸入、控制等功能的需要,很難真正變成暢銷的產品。

今天回想起來,我真的有些感慨自己生不逢時。如果我晚生30年,在2010年前後讀博士並從事人工智能的研究,那我一定會基於這個時代被證明最為神奇、最有效的人工智能算法——深度學習來重新打造語音識別的整個算法架構,就像今天谷歌、微軟乃至國內的科大訊飛在語音識別領域所做的那樣。如果我生在今天這個時代,我所開發的技術和產品一定會被億萬人使用,並深刻改變人們的生活方式。

科技發展瞬息萬變,每個時代都有每個時代的領軍人物和代表性的技術方向。從20世紀70年代末到20世紀90年代中,比爾·蓋茨和史蒂夫·喬布斯所代表的PC時代的創業者們,締造出微軟、蘋果等科技神話。從20世紀90年代末到2015年前後,谷歌、Facebook、騰訊、阿里、百度等科技巨頭以及後生可畏的優步、Snapchat、美團、滴滴、小米等新興獨角獸公司,先後在互聯網領域和移動互聯網領域引領科技大潮。錯過了PC時代的創業者,要在2010年前後去創立一家與聯想、惠普、戴爾競爭的PC公司,簡直就是癡人說夢。錯過了互聯網時代的企業家,要在今天去打造一個世界級的通用搜索引擎,就更沒有任何可行性。

今天的主角是人工智能。移動互聯網的浪潮尚未平息,人工智能的創投就已經進入了讓創業者無比興奮的上升期。只有順應潮流,在對的時間做對的事情,創業才最有可能成功。

正因為如此,當人工智能開始真正在產業發展中成為核心推動力的時候,我才不無遺憾地發現,如果晚生20年,如果在今天這個時代到來前夕才開始做人工智能相關的研究,那麼,我也能在一個對的時代站到科研第一線,享受科技風口帶給前沿研究者的巨大機遇與挑戰。

當然了,這樣說有些過於機會主義。而且,今天的人工智能熱潮離不開此前數十年中幾代研究者的耕耘與鋪墊。我當年毅然摒棄符號主義學派的方法,選擇使用統計模型破解語音識別難題,將識別準確率提升了一個層次,這與今天的研究者們在統計模型基礎上引入深度學習方法,真正將語音識別提升到實用化的高度是一脈相承的。這數十年裡,語音識別在技術選型上的波折與起伏,不正是人工智能技術螺旋形上升、發展的一個縮影嗎?

語音識別的研發故事

和其他人工智能技術相仿,我親身參與的語音識別技術也歷經了數次更新換代。

早在20世紀70年代,語音識別就曾經有過一些技術突破,小小地“火”過一陣子。有趣的是,今天異常成功的深度學習技術,當年曾在語音識別領域品嚐過失敗的苦澀。

在卡內基-梅隆讀書時,我有個同學叫亞歷山大·萬貝爾(Alex Waibel),他當時就跟目前在深度學習領域擁有絕對權威地位的傑弗裡·辛頓(Geoffrey Hinton)合作,將人工神經網絡應用於語音識別。但很遺憾,亞歷山大·萬貝爾也屬於生不逢時的類型,當時基於人工神經網絡的深度學習技術受限於計算能力和數據不足這兩大痼疾,遠遠達不到哪怕是可以演示的效果。我當時就很看不上亞歷山大·萬貝爾他們的研究,覺得在當時條件下不可能有實質性的突破。現在想想,要是我們不是在20世紀80年代,而是在今天從事基於人工神經網絡的語音識別研究,那該是一件多麼幸福的事!

當年做語音識別,有不少技術流派,也有不少精英參與。有一對夫妻,名叫詹姆斯·貝克(James Baker)和珍妮特·貝克(Jenet Baker),他們開發了名為“龍”(DRAGON)的語音識別技術,並一起創立了龍系統技術公司(DRAGON Systems)。之後這家公司被荷蘭公司Lernout&Hauspie收購,然後Lernout&Hauspie又被賣給了著名的Nuance公司(Nuance Communications,當時叫Scan Soft)。Nuance公司是今天歐美事實上的語音技術領導者,Nuance公司的語音識別產品線中至今還保留著“龍”(DRAGON)的品牌。

另外一位著名的語音識別研究者是卡內基-梅隆大學的布魯斯·勞埃爾(Bruce Lowerre)。他也是師從我的導師——圖靈獎得主拉吉·瑞迪教授從事語音識別研究的。20世紀70年代,在拉吉·瑞迪教授的領導下,卡內基-梅隆大學研發出了當時世界上最好的兩個語音識別系統,早期的一個叫Hearsay,稍晚的一個叫HARPY。

Hearsay是個很可笑的系統,我們當時管它叫“黑板架構模型”(blackboard architecture model)36。技術上講,它其實是專家系統的一種。拉吉·瑞迪教授和他的學生們把根據語言學知識總結出來的語音和英文音素、音節的對應關係用知識判定樹的方式畫在黑板上,每次從系統中得到一個新的發音,就根據黑板上的知識來確定對應的是哪個音素、哪個音節、哪個單詞。如果黑板上的知識無法涵蓋某個新的發音,就相應地擴展黑板上的知識樹。這樣的系統嚴重依賴於人的語言學知識,基本上無法擴展,只能識別很少的一組單詞,也無法適應不同人的語音特點。

布魯斯·勞埃爾覺得Hearsay完全不靠譜,他轉而用自己的方式改進專家系統,做出了名為HARPY的語音識別系統。布魯斯·勞埃爾的思路是把所有能講的話串成一個知識網絡,把每個字打開變成單獨的音節、音素,然後根據它們的相互關係,串聯在網絡裡,並對網絡進行優化,用動態規划算法快速搜索這個知識網絡,找出最優解答。但因為HARPY系統的本質還是專家系統,其可擴展性和可適應性並沒有好到哪裡去。布魯斯·勞埃爾的努力也無疾而終。

後來到蘋果工作後,我還將布魯斯·勞埃爾雇到蘋果的語音組來工作。他比我大十幾歲,是我的師兄,當時似乎已經厭倦了第一線的科研工作,在語音組裡工作時非常散漫,沒有太多業績,經多次打分和測評,他被列入了需要被開除、裁撤的人員名單。我當時下了很大的決心,才擺脫了同門情誼的羈絆,將這位師兄裁掉。這個決定讓我痛苦,因為它違背了我心底的憐憫和同情。師兄走的那天,我告訴他,將來有任何需要幫助的地方,我都會盡量去幫他。但布魯斯·勞埃爾顯然十分氣憤,他後來參加某些會議時,甚至還在自己的名片上印了一行紅字——“曾被李開復裁掉”(Fired by Kai-Fu)。

Hearsay和HARPY系統之後,為了將語音識別技術從稚嫩推向成熟,拉吉·瑞迪教授從美國國防部爭取到了300萬美元的經費,研發非特定語者、大詞庫、連續性的語音識別系統。瑞迪教授希望機器能聽懂任何人的聲音,而且至少可以懂得上千個詞彙,能識別出人們自然連續說出的每一句話。這三個問題當時都是無解的問題,而瑞迪教授大膽地拿下項目,希望同時解決這三個問題。他在全美招聘了30多位教授、研究員、語音學家、學生、程序員。而他也期望我加入團隊,並沿著當時人們普遍認為正確的專家系統的技術路線繼續努力,在這30多人的隊伍裡面發揮重要作用。

但他怎麼也沒想到,我很早就對專家系統有了質疑。我之前在奧賽羅(黑白棋)人機對弈系統中的工作讓我認識到,基於數據的統計建模,比模仿人類思維方式總結知識規則,更容易解決計算機領域的問題。計算機的“思維”方法與人類的思維方法之間,似乎存在著非常微妙的差異,以至於在計算機科學的實踐中,越是拋棄人類既有的經驗知識,依賴於問題本身的數據特徵,越是容易得到更好的結果。

我嘗試著脫離專家系統的研究,打算從準備數據著手,建立大型的基於語音數據的語料庫,並在大規模語料庫的基礎上嘗試基於統計模型的新方法。說起這段故事,其實還和我的另一個師兄彼得·布朗(Peter Brown)有關。彼得·布朗特別聰明,他跟當年卡內基-梅隆大學畢業的許多博士生一樣,進入了那個時代科學家們最嚮往的幾個超級樂園之一——IBM的沃森(T.J.Watson)研究中心。拉吉·瑞迪教授對此非常支持。

在IBM研究中心裡,彼得·布朗跟著弗雷德裡克·傑裡耐克(Frederick Jelinek)領導的小組做語音識別。那個時代的語音識別主流是做專家系統,可IBM裡的這一小撮人卻悄悄搞起了概率統計模型。其中原因說出來,就完全沒有了神秘感——IBM那撥人之所以去搞概率統計,倒不是真的因為他們預見到了未來,而是因為他們一時找不到語言學方面的專家。沒想到,弄一大堆訓練數據統計來統計去,效果還真比專家系統提升了不少,技術曙光初現。

彼得·布朗跟我透露了IBM正在研究概率統計模型的事情,但出於保密的需要,沒有告訴我任何細節。我並不知道概率統計模型是不是真的好用。但基於我在奧賽羅人機對弈系統中積累的經驗,我這次選擇相信彼得·布朗他們的方向,也決定順著這個思路走下去。IBM的語音識別小組要解決的是IBM關心的聽寫問題,目的是要用語音識別來代替打字機,代替字處理軟件,他們的應用可以先根據打字者的聲音進行適應性訓練,要簡單不少。而我要解決的是非特定語者連續語音識別問題,預先不能根據特定語者的語音進行訓練,技術挑戰更大。

可怎樣向瑞迪教授提出我要在他計劃的30多人團隊之外另闢蹊徑呢?我一直在猶豫,他已經向國防部立項,經費已經到位,專家系統的方向是勢在必行的,我是他一手調教出來的大弟子,如果我這麼不配合他的方向,他會怎麼處理呢?會試著說服我繼續做專家系統?會大發雷霆?還是會好言相勸?

再三思考後,我告訴自己,我必須向他坦承我的看法。我鼓足勇氣,向瑞迪教授直接表達我的想法。我對他說:“我希望轉投統計學的懷抱,用統計學來解決這個‘不特定語者、大詞彙、連續性語音識別’的問題。”

出乎我的意料,瑞迪教授一點兒都沒生氣。他只是好奇地問:“那統計方法如何解決這三大問題呢?”

對此,我已思考很久。我在瑞迪教授面前,長篇大論地說了10分鐘。瑞迪教授耐心聽完,用他永遠溫和的聲音告訴我:“開復,你對專家系統和統計的觀點,我是不同意的,但是我可以支持你用統計的方法去做,因為我相信科學沒有絕對的對錯,我們都是平等的。而且,我更相信一個有激情的人是可能找到更好的解決方案的。”

那一刻,我被深深感動了。對一個教授來說,學生要用自己的方法做出一個與他唱反調的研究,教授不但沒有動怒,還給予經費上的支持,這在很多地方是不可想像的。

最終的結果大家已經知道了,我硬是順著這條概率統計的道路走了出來,還走得更遠更好,研究出了比IBM發佈的聽寫系統好很多的語音識別技術,用我自己的論文宣告了以專家系統為代表的符號主義學派(Symbolic AI)在語音識別領域的完敗。

解雇語言學家的故事

我和同時代的彼得·布朗等研究者一道,將語音識別從符號主義時代推動到了統計時代。這可不是簡單的技術換代,這同時也意味著,那些來不及擁抱新技術的研究者在轉瞬之間,就會被時代的大潮淘汰。

在微軟創辦亞洲研究院後,2002年年初,我加入了Windows Vista團隊,並組建了一個新部門,叫自然互動服務部。當時,比爾·蓋茨總是對語音、語言、智能型助手式用戶界面情有獨鍾,於是,他要求全公司在這方面的團隊都加入我的隊伍,從事相關研發。

那時候,我發現在一個語言小組裡,居然有一個150人的團隊都在做著“無用功”。在這150人的語言處理項目團隊中,有一半是完全不懂技術的語言學家,而這些語言學家居然在指揮工程師的工作。負責這個團隊的高管有一個“瑰麗”的夢想:通過語言學家的介入,逐漸地形成一道“語言彩虹”,一步步解決人機界面問題,讓機器越來越多地可以理解人類的語言。

這絕對不行!基於我自己在語音識別領域的研究經驗,語言學家所掌握的人類語言學知識與計算機如何理解人類的語音乃至語言差別甚遠。微軟那些語言學家幾乎都在重複我所拒絕使用的類似專家系統的傳統解決方案,他們既得不到任何有說服力的學術成果,也沒法對實際研發進行任何指導。

我下定決心,要讓這個團隊中的工程師“解放”出來,專心地做更有前景的項目。當我把這個決定告訴該團隊的建立者時,他怎麼也不同意我將這個團隊解散和重組,於是他把狀告到了鮑爾默那裡,而鮑爾默又告訴了蓋茨。

蓋茨找到我說:“開復,我希望你的團隊能讓用戶自然地與機器交流。那為什麼你執意取消這個自然語言處理團隊呢?”

“因為,這個團隊走的方向是錯的。”

“但是,大衛也是專家,還拯救過公司。他不認可你的看法。”

“比爾,大衛是操作系統的專家。我才是語音語言的專家。”

“但是,這個項目我們的投入很多,我們特意批准了100多個人,圍繞著語言學家來解決人類語言理解的問題。”

“比爾,當你走錯方向的時候,投資越大,損失就越多,彌補也越難。”

“你確定這個方向不行嗎?”

“比爾,你還記得我加入公司的時候,你曾告訴我,微軟的許多技術決定都借鑒了我在其他公司的工作嗎?”

“當然!”

“如果我不在微軟時都借鑒我的做法,那我加入了微軟,請你一定也要相信我。”

蓋茨沉默了一下,沒有說話。

我看著蓋茨的眼睛,對他說:“在公司,很多人為了自己的利益會跟你說很多話。但是,我對你保證,我不會騙你。”

在那一剎那,我感覺我們的心靈有一個難得的碰觸。

“好,那就照你說的做。”蓋茨說。

蓋茨親自參與這個問題的解決,最後支持了我的決策。然後,我親自操刀,把這個團隊裁減了一半,才騰出了資源來做更多、更好的項目。

時代就是這麼無情,在人工智能的上一個時代,符號主義專家特別是語言學家們還風光無限,彷彿技術突破的美好前景都要由他們來描繪。但實踐結果表明,我所代表的統計學派真正可以解決問題,可以提高語音識別與自然語言處理的準確率,專家系統等老一代技術就被無情拋棄。老一代研究者如果不能盡快更新知識儲備,就只有面臨被解雇的命運。

今天,語音識別和更廣泛意義上的自然語言處理已經走進了統計方法與深度學習方法相結合,甚至是深度學習方法獨立起主導作用的新時代。與我們那個時代相比,今天的語音識別真正滿足了用戶的應用需求。這也意味著,像我這樣“上一代”的研究者就必須抓緊一切時間,轉換思維和知識儲備,擁抱以深度學習為代表的嶄新時代,否則,就有被時代淘汰的風險。

深度學習助力語音識別

我做研究時,沒有趕上深度學習技術革命。語音識別在第二次人工智能熱潮中雖性能提升明顯,卻始終無法滿足需要。在近年來的第三次人工智能熱潮中,語音識別領域發生了天翻地覆的變化。深度學習就像一個秘密武器,蟄伏多年,重出江湖,首先在計算機視覺領域,幫助計算機認識人臉、認識圖片和視頻中的物體,然後,拔劍四顧,衝入語音識別、機器翻譯、數據挖掘、自動駕駛等幾乎所有人工智能的技術領域大展身手。

2011年前,主流的語音識別算法在各主要語音測試數據集中的識別準確率還與人類的聽寫準確率有一定差距。2013年,谷歌語音識別系統對單詞的識別錯誤率在23%左右。也就是說,深度學習技術在語音識別系統廣泛應用之前,基本還停留在比較稚嫩的階段,說話者必須放慢語速,力求吐字清晰,才能獲得一個令人滿意的準確率。

但僅僅兩年時間,因為深度學習技術的成功應用,谷歌在2015年5月舉辦的Google I/O年度開發者大會上宣佈,谷歌的語音識別系統已將識別錯誤率降低到了驚人的8%37!

而IBM的Watson智能系統也不遑多讓,很快就將語音識別的錯誤率降低到了6.9%。

微軟則更進一步。2016年9月,微軟研究院發佈了里程碑式的研究成果:在業界公認的標準評測中,微軟最新的基於深度學習的語音識別系統已經成功地將識別錯誤率降低到了6.3%38。

圖23 近20年來語音識別錯誤率的下降趨勢

如圖23所示,在我從事語音識別研究的時代,統計模型崛起,並在隨後的一二十年中,將按照單詞統計的識別錯誤率從40%左右降低到20%左右。但在今天的深度學習時代,只用了兩三年的時間,微軟、IBM、谷歌等公司就將語音識別的錯誤率從20%左右降低到了6.3%!

這就是為什麼我們說,這一撥人工智能浪潮的最大特點是人工智能技術真正突破了人類的心理閾值,達到了大多數人心目中“可用”的標準。以此為基礎,人工智能技術在語音識別、機器視覺、數據挖掘等各領域走進了業界的真實應用場景,與商業模式緊密結合。

例如,今天我們拿出手機,使用蘋果手機內置的語音輸入法,或者使用中文世界流行的科大訊飛語音輸入法,我們就可以直接對著手機說話以錄入文字信息。技術上,科大訊飛的語音輸入法可以達到每分鐘錄入400個漢字的輸入效率,甚至還支持十幾種方言輸入。在不方便用鍵盤打字的場合,比如坐在汽車或火車上,我就經常用語音輸入法錄入文字,然後再將文字信息發給別人;有時候,我還直接用語音識別系統來寫大段的文章。

深度學習攜手大數據引領第三次AI熱潮

語音識別系統在近年來突飛猛進,技術上只有一個原因——深度學習!事實上,機器視覺領域,2014年在Image Net競賽(ILSVRC)中第一次超越人類肉眼識別準確率的圖像識別算法也是深度學習的傑作!

今天,人工智能領域的研究者,幾乎無人不談深度學習。很多人甚至高喊出了“深度學習=人工智能”的口號。

毋庸諱言,深度學習絕對不是人工智能領域的唯一解決方案,二者之間也無法畫上等號。但說深度學習是當今乃至未來很長一段時間內引領人工智能發展的核心技術,則一點兒也不為過。

人工智能大師、深度學習泰斗約書亞·本吉奧(Yoshua Bengio)說:“沒有可與深度學習競爭的人工智能技術。人工智能是循序漸進的耐心工作的成果,而且它總是站在巨人的肩膀上,並且這些進步在某種程度上促成了轉折點——我們可以在新服務中利用這些成果來生產新東西,進行經濟轉型以及改變社會。正如人們所寫的那樣,我們正在經歷另一場工業革命,它並不是簡單地增加人類的機械力;計算機將增加人類的認知能力和智力。我談到了深度學習,因為這些變化和突破在很大程度上正是由於深度學習的進步。”39

2006年開始的第三撥人工智能熱潮,絕大部分功勞要歸於深度學習!

從神經網絡到深度學習

深度學習究竟是何方神聖?

和許多人的想像相反,深度學習可不是一下子從石頭縫裡蹦出來、橫空出世的大神,它的歷史幾乎和人工智能的歷史一樣長。只不過,數十年裡,深度學習及相關的人工神經網絡技術由於種種原因,蟄伏於人工智能兵器庫的一角,默默無聞,任由其他門類的兵器在戰場上耀武揚威。蟄伏不等於沉寂,在漫長的等待中,深度學習技術不斷磨礪自己,彌補缺陷,打磨鋒刃。當然,最重要的,是等待最合適的出山時機。

2000年後,計算機產業的發展帶來了計算性能、處理能力的大幅提高,尤其是以谷歌為代表的前沿企業在分佈式計算上取得了深厚積累,成千上萬台計算機組成的大規模計算集群早已不再是稀罕物。而互聯網產業的發展則使搜索引擎、電子商務等公司聚集了數以億計的高質量的海量數據。大計算能力和大數據,正是深度學習這件深藏不露的千古神兵所等待的兩大時機。

終於,萬事俱備,只欠東風。2006年,深度學習泰斗傑弗裡·辛頓及其合作者用一篇名為《一種深度置信網絡的快速學習算法》40的論文宣告了深度學習時代的到來——當然,這麼說有些誇張。準確描述是,深度學習在2010年前後的興起是建立在以傑弗裡·辛頓為代表的一眾大師級人物數十年的積累基礎之上的,2006年前後的一系列關鍵論文只是加速了深度學習的實用化進程。

千古神兵重新披掛上陣!

我們可以由今天的深度學習追溯到它的核心計算模型——人工神經網絡的誕生之日。早在通用計算機問世前的1943年,神經科學家沃倫·麥卡洛克(Warren Mc Culloch)和沃爾特·彼茨(Walter Pitts)就提出了一種大膽假說,描述了人類神經節沿著網狀結構傳遞和處理信息的模型。這一假說一方面被神經科學家用於研究人類的感知原理;另一方面則被計算機科學家們借鑒,用於人工智能的相關研究。後者也被學術界稱為人工神經網絡。

20世紀40年代,唐納德·赫布(Donald Hebb)嘗試將人工神經網絡用於機器學習,創建出早期的“赫布型學習”(Hebbian Learning)理論。1954年,計算機科學家韋斯利·A.克拉克(Wesley A.Clark)在麻省理工學院嘗試在計算機上實現赫布型學習的基本模型。1958年,弗蘭克·羅森布拉特(Frank Rosenblatt)提出了“感知機”(Perceptron)的概念,這是一個基於人工神經網絡的兩層計算結構,用於簡單的模式識別。1965年,A.G.伊瓦赫年科(Alexey Grigorevich Ivakhnenko)提出建立多層人工神經網絡的設想,這種基於多層神經網絡的機器學習模型後來被人們稱為“深度學習”,伊瓦赫年科有時也被稱為“深度學習之父”。

1969年是人工神經網絡遭遇滑鐵盧的一年。麻省理工學院的圖靈獎得主、人工智能大師、人工神經網絡的早期奠基人之一馬文·閔斯基(Marvin Minsky)在這一年和西摩爾·派普特(Seymour Papert)出版了《感知機》(Perceptrons)一書,書中討論了當時人工神經網絡難以解決的“異或難題”(非專業讀者完全不需要瞭解這個古怪的名詞指的到底是什麼東西)。有些諷刺的是,馬文·閔斯基既是人工神經網絡的早期奠基人之一,也是人工神經網絡在1969年後陷入停滯的始作俑者。他在《感知機》一書中對“異或難題”的討論打消了大多數研究者繼續堅持人工神經網絡研究的心思。不少人至今仍認為,馬文·閔斯基在《感知機》裡是持悲觀態度並站在人工神經網絡發展的對立面的,但另一些人則認為,馬文·閔斯基當時是持開放的討論態度,而不是打算消極放棄。無論這段公案的真實情況如何,馬文·閔斯基都是值得我們尊敬的人工智能大師。2016年年初,馬文·閔斯基去世時,曾經對喬布斯和蘋果影響巨大的教父級人物艾倫·凱(Alan Kay)是這樣評價馬文·閔斯基的:

“馬文是為數不多的人工智能先驅之一,他用自己的視野和洞見,將計算機從一部超強加法器的傳統定位中解放出來,並為其賦予了新的使命——有史以來最強大的人類力量倍增器之一。”41

和那個年代的許多人工智能大師一樣,馬文·閔斯基在人工智能研究之外,也是一個跨界的天才。第二次世界大戰時,馬文當過兵。之後,馬文在哈佛大學學習數學期間,同時也修習音樂。除了鋼琴演奏,他還有一個特長——即興創作古典賦格音樂。他自己將音樂家分為“創作者”和“即興創作者”兩大類。顯然,馬文·閔斯基頗以具備即興創作的能力而自豪。

據馬文·閔斯基的女兒回憶,馬文·閔斯基的家中,每天夜晚的常態是群賢畢至,少長咸集,宏談闊論,琴聲悅耳。42為客人彈奏即興鋼琴曲的,當然是馬文·閔斯基本人。

基於音樂方面的才華,馬文·閔斯基還發明過一部名叫“音樂三角”(Triadex Muse)的音樂合成器。今天在蘋果電腦或者i Pad上玩Garage Band的體驗,不知道有沒有當年玩音樂三角那麼酷。而且,那個建造於20世紀70年代的音樂三角長得還非常前衛,非常時髦。據說,馬文·閔斯基這部合成器創造了好幾個歷史第一。但更加值得一提的是,這部合成器其實是馬文·閔斯基所做的一項融合了電子合成樂與早期人工智能探索的科技實驗。在馬文·閔斯基自己看來,理解音樂是理解人類大腦的一種有效途徑,反之,理解人類的大腦也有助於我們欣賞音樂的本質。

馬文·閔斯基說:“理解大腦這件事似乎比理解音樂要難一些,但我們應該知道,有時對問題領域的擴展可以讓問題變得更簡單!在好幾個世紀的時間裡,代數方程的平方根理論都受困於由實數構成的狹小世界,但在高斯揭示出更大的複數世界後,一切都變得簡單起來。類似地,一旦能穿透聽眾的心靈,音樂就會顯示出更為豐富的內涵。”43

1975年,馬文·閔斯基提出的“異或難題”才被理論界徹底解決。由此進入20世紀80年代,人工神經網絡的發展又回到正軌。但在整個20世紀80年代和90年代,甚至直到2000年後的若干年,人工神經網絡不過是作為機器學習的一種算法,與其他不同流派、不同風格的機器學習算法一道,在人工智能研究領域發揮作用。

隨著PC的普及和互聯網時代的到來,人們關於計算機識別圖像、文字、語音的需求越來越明確。研究者們嘗試著使用人工神經網絡來解決類似問題,但效果並不顯著。許多人試圖使用基於多層神經網絡的深度學習技術。據說,“深度學習”(Deep Learning)這個術語是從1986年起流行開來的44。但是,當時的深度學習理論還無法解決網絡層次加深後帶來的諸多問題,計算機的計算能力也遠遠達不到深度神經網絡的需要。更重要的是,深度學習賴以施展威力的大規模海量數據還沒有完全準備好,因而深度學習在真正橫空出世前,已經經歷了十幾年的等待和蟄伏期。

2006年是深度學習發展史上的分水嶺。此前提過,傑弗裡·辛頓在這一年發表了《一種深度置信網絡的快速學習算法》及其他幾篇重要論文,其他深度學習領域的泰斗、大師們也在這一年前後貢獻了一批重要的學術文章,在基本理論方面取得了若干重大突破。深度學習也由此進入了高速發展的全盛期。

說起來,傑弗裡·辛頓這個人很有意思,他曾在卡內基-梅隆大學做過5年教職。我在卡內基-梅隆大學讀博士時,傑弗裡·辛頓的辦公室就在我的辦公室的斜對面。有時候,人們會覺得傑弗裡·辛頓的思維和交流方式很奇怪,似乎是一種多維跳躍的模式。跟他講話時,時常陷入尷尬。如果對你講的東西沒什麼興趣,他就會茫然地看著某個地方。

當時,我在做奧賽羅(黑白棋)人機對弈系統的開發。我的導師讓我請傑弗裡·辛頓作為我這個項目的指導老師。我就去找傑弗裡·辛頓,跟他談我編寫奧賽羅程序的思路。

傑弗裡·辛頓問我:“你這個系統裡,有什麼是和人工神經網絡相關的嗎?”

我說,我這個程序裡用的是相對簡單的貝葉斯分類器,自動從每一盤對局中,提取四個原始特徵,然後用貝葉斯分類器將這些特徵綜合起來進行計算,以估算下一步走在某個位置的贏棋概率。在這個思路的基礎上,人工神經網絡是可以發揮作用的。此外,我當時也使用了一個與今天Alpha Go類似的思路,就是讓計算機程序自己和自己下棋,然後從幾百萬個已知的行棋步驟中,歸納出贏或者輸的概率,並用類似的方法不斷迭代,以達到最好的效果。

在我講這些細節的過程中,傑弗裡·辛頓就已經開始想其他事情了,他的眼睛不再看我,而是茫茫然的,不知道在注視哪裡。

好一會兒,辛頓對我說:“開復,沒問題,我來給你簽字吧。”

就這樣,我的奧賽羅人機對弈程序算是通過了他的審核。前後也就是半個小時的樣子。可我覺得,他根本沒有注意我所講的技術細節。雖然我當時對自己使用的技術很興奮,但在他眼中,也許那些都只是些小兒科的玩意兒,跟他當時正在做的有關人工神經網絡的研究不可相提並論吧。

谷歌大腦:世界最強大的深度學習集群

深度學習能夠大展身手的兩個前提條件——強大的計算能力和高質量的大數據,都是在2010年前後逐漸步入成熟的。深度學習、大規模計算、大數據三位一體,神兵出世,一下子就可以摧城拔寨、無堅不摧。其中,最有代表性的事件,就是谷歌大腦(Google Brain)的建立,以及谷歌、Facebook、百度等一大批頂尖科技公司紛紛將“人工智能優先”設定為公司的科技發展戰略。

谷歌大腦是在2011年由谷歌最資深的科學家與工程師傑夫·迪恩,以及後來在百度任首席科學家的吳恩達(Andrew Ng)帶領團隊創建的。這是一個龐大的深度學習計算框架,擁有數萬台高性能的計算機和頂級的圖形處理器作為計算單元(早期,谷歌大腦是只使用CPU作為計算單元,引入GPU是稍晚一些的事),可以完成大規模、多維度、多層次的深度學習模型訓練和演算。

2012年6月,谷歌大腦初戰告捷。據當時的《紐約時報》報道,谷歌使用了一個擁有16000個CPU的大規模計算機集群,讓計算機用深度學習模型自己“看”了一千萬段You Tube上的視頻,然後,計算機自己“學”到了如何從視頻中辨認一隻貓45!

谷歌大腦的創建者傑夫·迪恩在介紹谷歌大腦團隊時說:“我們專注於建造可用於機器學習的大規模計算系統,以及進行高級機器學習研究。我們同時擁有這兩方面的人才,而他們聯合起來解決問題,這常常會帶來顯著的進步,這種進步是只具有機器學習技能或只具有大規模計算技能的人無法單獨取得的。我認為這是我們團隊取得眾多成功的原因之一。它使我們既在這兩個領域取得成功,也讓我們能夠將‘為問題投入多少計算’和‘如何為我們關心的問題訓練大型、強大的模型’方面的最高水平進一步提升。”46

谷歌大腦的第一個版本建成後不久,吳恩達就離開谷歌,轉而幫助百度開展人工智能技術研究。深度學習大師傑弗裡·辛頓則在谷歌大腦項目成立的第二年加入了谷歌,主持谷歌大腦團隊中的理論研究。同時,傑弗裡·辛頓仍繼續他在多倫多大學的教職。他目前的生活被分成了兩部分:在多倫多的科研和教學生涯,以及在谷歌貼近產業前沿的研究實踐。最初,傑弗裡·辛頓並不想正式加入谷歌,他只想利用休假時間,試著在谷歌工作三個月。為此,谷歌不得不先與他簽訂了一份實習生合同。這樣,深度學習領域數一數二的大師級人物傑弗裡·辛頓,就以一個普通實習生的身份來谷歌上班了。傑弗裡·辛頓說:“直到有一天,有人在午餐時對我說:‘辛頓教授!我選修了你的課!你在這裡做什麼?’自此以後,再也沒有人質疑辛頓作為實習生的存在了。”47

今天,有深度學習助力,有基於互聯網的海量數據支撐,有數以萬計的強大計算機集群,谷歌大腦正在幫助谷歌公司解決橫跨多個領域的幾乎所有人工智能的相關問題:谷歌的搜索引擎正在使用谷歌大腦優化搜索結果的排序,或直接回答用戶感興趣的知識性問題;谷歌的街景服務使用谷歌大腦智能識別街道上的門牌號,以進行精準定位;使用了谷歌大腦的谷歌翻譯平台在2016年連續取得翻譯質量的革命性突破,將全世界一百多種語言的相互翻譯質量提升了一個層次;谷歌自動駕駛汽車正基於谷歌大腦對數百萬英里的行駛記錄進行訓練,以改進駕駛策略,保證絕對安全……

谷歌大腦是谷歌公司人工智能優先戰略的核心,也是類似谷歌這樣的頂級科技公司在人工智能方面全力投入的一個縮影。國內的高科技企業,如百度、阿里、騰訊、華為、小米、搜狗、滴滴、今日頭條等,都在近年紛紛建立了人工智能研究團隊,搭建了類似谷歌大腦的大規模深度學習集群,而這些集群已經在諸多產品中發揮著深度學習的神奇效能。

AI小百科 什麼是深度學習?

第三撥人工智能熱潮源於深度學習的復興。那麼,到底什麼是深度學習?為什麼深度學習能讓計算機一下子變得聰明起來?為什麼深度學習相比其他機器學習技術,能夠在機器視覺、語音識別、自然語言處理、機器翻譯、數據挖掘、自動駕駛等方面取得好得多的效果?

從根本上來說,深度學習和所有機器學習方法一樣,是一種用數學模型對真實世界中的特定問題進行建模,以解決該領域內相似問題的過程。

好了,好了,我知道一提“數學”二字,讀者就會跑掉一大半,更別說讓非理工科專業的人摸不著頭腦的“建模”一詞了。有沒有可能用非理工科專業也聽得懂的術語,解釋一下如今在人工智能領域如日中天的深度學習算法呢?

首先,深度學習是一種機器學習。既然名為“學習”,那自然與我們人類的學習過程有某種程度的相似。回想一下,一個人類小朋友是如何學習 的?

比如,很多小朋友都用識字卡片來認字。從古時候人們用的“上大人、孔乙己”之類的描紅本,到今天在手機、平板電腦上教小朋友認字的識字卡片app,最基本的思路就是按照從簡單到複雜的順序,讓小朋友反覆看每個漢字的各種寫法(大一點兒的小朋友甚至要學著認識不同的書法字體),看得多了,自然就記住了。下次再見到同一個字,就很容易能認出來。

這個有趣的識字過程看似簡單,實則奧妙無窮。認字時,一定是小朋友的大腦在接受許多遍相似圖像的刺激後,為每個漢字總結出了某種規律性的東西,下次大腦再看到符合這種規律的圖案,就知道是什麼字了。

其實,要教計算機認字,差不多也是同樣的道理。計算機也要先把每一個字的圖案反覆看很多很多遍,然後,在計算機的大腦(處理器加上存儲器)裡,總結出一個規律來,以後計算機再看到類似的圖案,只要符合之前總結的規律,計算機就能知道這圖案到底是什麼字。

用專業的術語來說,計算機用來學習的、反覆看的圖片叫“訓練數據集”;“訓練數據集”中,一類數據區別於另一類數據的不同方面的屬性或特質,叫作“特徵”;計算機在“大腦”中總結規律的過程,叫“建模”;計算機在“大腦”中總結出的規律,就是我們常說的“模型”;而計算機通過反覆看圖,總結出規律,然後學會認字的過程,就叫“機器學 習”。

到底計算機是怎麼學習的?計算機總結出的規律又是什麼樣的呢?這取決於我們使用什麼樣的機器學習算法。

有一種算法非常簡單,模仿的是小朋友學識字的思路。家長和老師們可能都有這樣的經驗:小朋友開始學識字,比如先教小朋友分辨“一”“二”“三”時,我們會告訴小朋友說,一筆寫成的字是“一”,兩筆寫成的字是“二”,三筆寫成的字是“三”。這個規律好記又好用。但是,開始學新字時,這個規律就未必奏效了。比如,“口”也是三筆,可它卻不是“三”。我們通常會告訴小朋友,圍成個方框兒的是“口”,排成橫排的是“三”。這規律又豐富了一層,但仍然禁不住識字數量的增長。很快,小朋友就發現,“田”也是個方框兒,可它不是“口”。我們這時會告訴小朋友,方框裡有個“十”的是“田”。再往後,我們多半就要告訴小朋友,“田”上面出頭是“由”,下面出頭是“甲”,上下都出頭是“申”。很多小朋友就是在這樣一步一步豐富起來的特徵規律的指引下,慢慢學會自己總結規律,自己記住新的漢字,並進而學會幾千個漢字 的。

有一種名叫決策樹的機器學習方法,就和上面根據特徵規律來識字的過程非常相似。當計算機只需要認識“一”“二”“三”這三個字時,計算機只要數一下要識別的漢字的筆畫數量,就可以分辨出來了。當我們為待識別漢字集(訓練數據集)增加“口”和“田”時,計算機之前的判定方法失敗,就必須引入其他判定條件。由此一步步推進,計算機就能認識越來越多的字。

圖24 計算機分辨“一”“二”“三”“口”“田”的決策樹

圖25 計算機學習了“由”“甲”“申”三個新漢字之後的決策樹

圖25顯示了計算機學習“由”“甲”“申”這三個新漢字前後,計算機內部的決策樹的不同。這說明,當我們給計算機“看”了三個新漢字及其特徵後,計算機就像小朋友那樣,總結並記住了新的規律,“認識”了更多的漢字。這個過程,就是一種最基本的機器學習了。

當然,這種基於決策樹的學習方法太簡單了,很難擴展,也很難適應現實世界的不同情況。於是,科學家和工程師們陸續發明出了許許多多不同的機器學習方法。

例如,我們可以把漢字“由”“甲”“申”的特徵,包括有沒有出頭、筆畫間的位置關係等,映射到某個特定空間裡的一個點(我知道,這裡又出現數學術語了。不過這不重要,是否理解“映射”的真實含義,完全不影響後續閱讀)。也就是說,訓練數據集中,這三個字的大量不同寫法,在計算機看來就變成了空間中的一大堆點。只要我們對每個字的特徵提取得足夠好,空間中的一大堆點就會大致分佈在三個不同的範圍裡。

這時,讓計算機觀察這些點的規律,看能不能用一種簡明的分割方法(比如在空間中畫直線),把空間分割成幾個相互獨立的區域,盡量使得訓練數據集中每個字對應的點都位於同一個區域內。如果這種分割是可行的,就說明計算機“學”到了這些字在空間中的分佈規律,為這些字建立了模 型。

接下來,看見一個新的漢字圖像時,計算機就簡單把圖像換算成空間裡的一個點,然後判斷這個點落在了哪個字的區域裡,這下,不就能知道這個圖像是什麼字了嗎?

很多人可能已經看出來了,使用畫直線的方法來分割一個平面空間(如圖26所示),很難適應幾千個漢字以及總計至少數萬種不同的寫法。如果想把每個漢字的不同變形都對應為空間中的點,那就極難找到一種數學上比較直截了當的方法,來將每個漢字對應的點都分割包圍在不同區域裡。

很多年裡,數學家和計算機科學家就是被類似的問題所困擾。人們不斷改進機器學習方法。比如,用複雜的高階函數來畫出變化多端的曲線,以便將空間裡相互交錯的點分開來,或者,乾脆想辦法把二維空間變成三維空間、四維空間甚至幾百維、幾千維、幾萬維的高維空間。在深度學習實用化之前,人們發明了許多種傳統的、非深度的機器學習方法。這些方法雖然在特定領域取得了一定成就,但這個世界實在是複雜多樣、變化萬千,無論人們為計算機選擇了多麼優雅的建模方法,都很難真正模擬世界萬物的特徵規律。這就像一個試圖用有限幾種顏色畫出世界真實面貌的畫家,即便畫藝再高明,他也很難做到“寫實”二字。

圖26 使用空間分割法的機器學習

那麼,如何大幅擴展計算機在描述世界規律時的基本手段呢?有沒有可能為計算機設計一種靈活度極高的表達方式,然後讓計算機在大規模的學習過程裡不斷嘗試和尋找,自己去總結規律,直到最終找到符合真實世界特徵的一種表示方法呢?

現在,我們終於要談到深度學習了!

深度學習就是這樣一種在表達能力上靈活多變,同時又允許計算機不斷嘗試,直到最終逼近目標的機器學習方法。從數學本質上說,深度學習與前面談到的傳統機器學習方法並沒有實質性差別,都是希望在高維空間中,根據對像特徵,將不同類別的對象區分開來。但深度學習的表達能力,與傳統機器學習相比,卻有著天壤之別。

簡單地說,深度學習就是把計算機要學習的東西看成一大堆數據,把這些數據丟進一個複雜的、包含多個層級的數據處理網絡(深度神經網絡),然後檢查經過這個網絡處理得到的結果數據是不是符合要求——如果符合,就保留這個網絡作為目標模型,如果不符合,就一次次地、鍥而不捨地調整網絡的參數設置,直到輸出滿足要求為止。

這麼說還是太抽像、太難懂。我們換一種更直觀的講法。

假設深度學習要處理的數據是信息的“水流”,而處理數據的深度學習網絡是一個由管道和閥門組成的巨大的水管網絡。網絡的入口是若干管道開口,網絡的出口也是若干管道開口。這個水管網絡有許多層,每一層有許多個可以控制水流流向與流量的調節閥。根據不同任務的需要,水管網絡的層數、每層的調節閥數量可以有不同的變化組合。對複雜任務來說,調節閥的總數可以成千上萬甚至更多。水管網絡中,每一層的每個調節閥都通過水管與下一層的所有調節閥連接起來,組成一個從前到後,逐層完全連通的水流系統(這裡說的是一種比較基本的情況,不同的深度學習模型,在水管的安裝和連接方式上,是有差別的)。

那麼,計算機該如何使用這個龐大的水管網絡,來學習識字呢?

比如,當計算機看到一張寫有“田”字的圖片時,就簡單將組成這張圖片的所有數字(在計算機裡,圖片的每個顏色點都是用“0”和“1”組成的數字來表示的)全都變成信息的水流,從入口灌進水管網絡。

我們預先在水管網絡的每個出口都插一塊字牌,對應於每一個我們想讓計算機認識的漢字。這時,因為輸入的是“田”這個漢字,等水流流過整個水管網絡,計算機就會跑到管道出口位置去看一看,是不是標記有“田”字的管道出口流出來的水流最多。如果是這樣,就說明這個管道網絡符合要求。如果不是這樣,我們就給計算機下達命令:調節水管網絡裡的每一個流量調節閥,讓“田”字出口“流出”的數字水流最多。

這下,計算機可要忙一陣子了,要調節那麼多閥門呢!好在計算機計算速度快,暴力計算外加算法優化(其實,主要是精妙的數學方法了,不過我們這裡不講數學公式,大家只要想像計算機拚命計算的樣子就可以了),總是可以很快給出一個解決方案,調好所有閥門,讓出口處的流量符合要求。

下一步,學習“申”字時,我們就用類似的方法,把每一張寫有“申”字的圖片變成一大堆數字組成的水流,灌進水管網絡,看一看,是不是寫有“申”字的那個管道出口流出來的水最多,如果不是,我們還得再次調整所有的調節閥。這一次,要既保證剛才學過的“田”字不受影響,也要保證新的“申”字可以被正確處理。

圖27 用“水管網絡”來描述教計算機識字的深度學習過程

如此反覆進行,直到所有漢字對應的水流都可以按照期望的方式流過整個水管網絡。這時,我們就說,這個水管網絡已經是一個訓練好的深度學習模型了。

例如,圖27顯示了“田”字的信息水流被灌入水管網絡的過程。為了讓水流更多地從標記有“田”字的出口流出,計算機需要用特定方式近乎瘋狂地調節所有流量調節閥,不斷實驗、摸索,直到水流符合要求為止。

當大量識字卡片被這個管道網絡處理,所有閥門都調節到位後,整套水管網絡就可以用來識別漢字了。這時,我們可以把調節好的所有閥門都“焊死”,靜候新的水流到來。

與訓練時做的事情類似,未知的圖片會被計算機轉變成數據的水流,灌入訓練好的水管網絡。這時,計算機只要觀察一下,哪個出口流出來的水流最多,這張圖片寫的就是哪個字。

簡單嗎?神奇嗎?難道深度學習竟然就是這樣的一個靠瘋狂調節閥門來“湊”出最佳模型的學習方法?整個水管網絡內部,每個閥門為什麼要如此調節,為什麼要調節到這種程度,難道完全由最終每個出口的水流量來決定?這裡面,真的沒有什麼深奧的道理可言?

深度學習大致就是這麼一個用人類的數學知識與計算機算法構建起整體架構,再結合盡可能多的訓練數據以及計算機的大規模運算能力去調節內部參數,盡可能逼近問題目標的半理論、半經驗的建模方式。

指導深度學習的基本是一種實用主義的思想。

不是要理解更複雜的世界規律嗎?那我們就不斷增加整個水管網絡裡可調節的閥門的個數(增加層數或增加每層的調節閥數量)。不是有大量訓練數據和大規模計算能力嗎?那我們就讓許多CPU和許多GPU(圖形處理器,俗稱顯卡芯片,原本是專用於作圖和玩遊戲的,碰巧也特別適合深度學習計算)組成龐大計算陣列,讓計算機在拚命調節無數個閥門的過程中,學到訓練數據中的隱藏規律。也許正是因為這種實用主義的思想,深度學習的感知能力(建模能力)遠強於傳統的機器學習方法。

實用主義意味著不求甚解。即便一個深度學習模型已經被訓練得非常“聰明”,可以非常好地解決問題,但很多情況下,連設計整個水管網絡的人也未必能說清楚,為什麼管道中每一個閥門要調節成這個樣子。也就是說,人們通常只知道深度學習模型是否工作,卻很難說出模型中某個參數的取值與最終模型的感知能力之間,到底有怎樣的因果關係。

這真是一件特別有意思的事。有史以來最有效的機器學習方法,在許多人看來,竟然是一個只可意會、不可言傳的“黑盒子”。

由此引發的一個哲學思辨是,如果人們只知道計算機學會了做什麼,卻說不清計算機在學習過程中掌握的是一種什麼樣的規律,那這種學習本身會不會失控?

比如,很多人由此擔心,按照這樣的路子發展下去,計算機會不會悄悄學到什麼我們不希望它學會的知識?另外,從原理上說,如果無限增加深度學習模型的層數,那計算機的建模能力是不是就可以與真實世界的終極複雜度有一比呢?如果這個答案是肯定的,那只要有足夠的數據,計算機就能學會宇宙中所有可能的知識——接下來會發生什麼?大家是不是對計算機的智慧超越人類有了些許的憂慮?還好,關於深度學習到底是否有能力表達宇宙級別的複雜知識,專家們尚未有一致看法。人類至少在可見的未來還是相對安全的。

補充一點:目前,已經出現了一些可視化的工具,能夠幫助我們“看見”深度學習在進行大規模運算時的“樣子”。比如說,谷歌著名的深度學習框架Tensor Flow就提供了一個網頁版的小工具,用人們易於理解的圖示,畫出了正在進行深度學習運算的整個網絡的實時特徵。

圖28 訓練深度學習模型時,整個深度神經網絡的可視化狀態48

圖28顯示了一個包含4層中間層級(隱含層)的深度神經網絡針對某訓練數據集進行學習時的“樣子”。圖中,我們可以直觀地看到,網絡的每個層級與下一個層級之間,數據“水流”的方向與大小。我們還可以隨時在這個網頁上改變深度學習框架的基本設定,從不同角度觀察深度學習算法。這對我們學習和理解深度學習大有幫助。

最後,需要特別說明的是,以上對深度學習的概念闡述刻意避免了數學公式和數學論證,這種用水管網絡來普及深度學習的方法只適合一般公眾。對於懂數學、懂計算機科學的專業人士來說,這樣的描述相當不完備也不精確。流量調節閥的比喻與深度神經網絡中每個神經元相關的權重調整,在數學上並非完全等價。對水管網絡的整體描述也有意忽略了深度學習算法中的代價函數、梯度下降、反向傳播等重要概念。專業人士要學習深度學習,還是要從專業教程看起。