讀古今文學網 > 智能革命:迎接人工智能時代的社會、經濟與文化變革 > 03 在大數據與深度學習中蝶化的人工智能 >

03 在大數據與深度學習中蝶化的人工智能

在歷史的重複中變化

當我們談論數據的時候我們在談什麼?

在大部分人的日常印象中,數據這個詞代表的可能是每月的水、電、煤賬單上的數字,或者是股票K線圖上的紅綠指數,還有可能是電腦文件裡那一大堆看不懂的源代碼。

人工智能眼中的數據含義遠比這些廣泛。數據的存在形式隨著人類文明的發展不斷改變,從最初的聲音、文字、圖畫和數字,到電子時代的每一張圖像、每一段語音、每一個視頻,再到如今互聯網時代人類的每一次鼠標點擊、用手機時的每一次手指滑動,乃至每一下心跳和呼吸,甚至還包括經濟生產中的一切人機動作、軌跡,皆已融入數據流。

不管是浩瀚永恆的引力波,還是複雜細微的DNA,今天的人類已經能夠將各種或宏大或微小的事物轉化為數據記錄,變成我們生活的一部分。數據已經浸染我們生活的每一個細節,就好比生物學家認為人體組織的一半是由微生物組成的,在數字時代,我們生活的一半已然是數據。

歷史總是螺旋式前進的。讓我們回溯過去,遠在人工智能誕生之前,人類在漫長的歲月中也踐行著對於數據的發掘、計算和利用。

五千多年前,古埃及人就通過觀測記錄星象的位置總結出規律:每年當天狼星清晨出現在東方地平線上的時候,尼羅河便開始氾濫。他們照此制訂農業耕作的計劃,並且將這個週期進行總結,確定了一年365天的太陽曆。遙遠的天狼星與地球並無任何因果關係,只是出現在那個位置的時候,正好地球運轉到一定的節氣——這正是大數據時代的相關性計算的前身。

四千多年前,在今天英國的土地上出現了巨石陣——每塊重達50噸的大石頭組成了一個圓陣。這是一塊原始鐘錶,夏至的時候,它的主軸線、通往石柱的古道和早晨的第一縷陽光就會處在同一條直線上;往相反的方向,冬至日的最後一縷陽光也會穿過石門。古人用笨重的石頭儀表點燃了數據測量的曙光。與中國的日晷一樣,這便是最早的數據可視化技術。

圖3-1 巨石陣

資料來源:https://baike.baidu.com/pic/%E5%B7%A8%E7%9F%B3%E9%98%B5/1179755/0/6d81800a19d8bc3ed2257b32808ba61ea8d3451c?fr=lemma&ct=single#aid=17270777&pic=ac4bd11373f08202f436987e4efbfbedaa641bce

兩千多年前,托勒密研究天地運動得出三大定律,為天文學打下基礎。他的方法很有趣,一言以蔽之,是錯誤的方法裡蘊藏著正確的思路。原本他誤以為天體運動的軌跡是圓形,而實際上天體以橢圓軌跡運行。為了強行用“圓”函數來表達天體的實際運動曲線,他採用多個圓形的嵌套運動模擬出天體運動。他模擬天象使用的嵌套圓圈多達40個,相當於用多個圓運動函數來擬合成一個總體函數。這已經有了最早的擬合函數思想。

什麼是擬合函數?當數據很多時,我們可以把數據想像為一個坐標系中分佈的很多點。怎樣尋找一個函數,使其曲線能夠穿越盡可能多的點呢?如果這些點分佈很規律,比如呈線性分佈,就可以用線性方程描述。

圖3-2 用線性方程表示函數

註:左圖中分佈的點可以用右圖中y=ax+b形式的線性函數來近似表達。

如果分佈點形成一個拋物線形狀,那麼函數也很容易得到,就是X2=2py的形式。但是如果這些數據點分佈看上去很不規則時就很難找到一個單一函數。現代人想到用多個函數疊加的方法來模擬出一個總體的函數。調節每一個函數的權重,從而能夠讓疊加函數曲線盡可能多地穿過這些點。托勒密記錄了大量天體運動的數據,然後嘗試用疊加多個圓函數的方法模擬出橢圓軌跡的函數,以便把他記錄的數據都包括進來。擬合函數方法適合從大量離散的數據記錄中找尋規律,而這正是今天人工智能的基礎,機器學習的基本數學方法。

由此可見,今天的很多基本數學方法古人已有,只是囿於能力無法盡情應用。

今天的人類可以用數字測繪來還原歷史。即便在“我的世界”這樣一款遊戲中,計算機已經可以計算出每一塊磚瓦的角度、長度,將幾千年前的古城牆以完美的三維圖像重現。那一刻,你會覺得所有古埃及、古希臘、古中國的壯美歷史又重新與我們連接。但比起那宮殿中早已褪色的金冠銀帶,古人使用數據的智慧或許才是人類最寶貴的傳承。

數據文明在進步,而大多數人還處在數據的懵懂之中。在日常生活中,數據的概念對於我們既親近又陌生。我們親近它,因為每個人從小就會接觸加減乘除這樣最基本的數據和算法。步入社會後不管從事什麼職業,我們這一生也免不了和各類文件、報表或者賬單打交道。但與此同時,當面對高科技產品中各種關於內存、分辨率等時髦又複雜的數據時,我們又越發覺得不瞭解它們甚至沒意識到它們的存在。隨著大數據、機器算法和人工智能的理念相繼到來,這種陌生感愈發加深。

那麼數據生活距離我們遙遠了嗎?正相反,在新的技術條件下,數據與我們日常生活的聯繫從未如此緊密過。我們的祖先很久以前就學會有條理地儲存數據,但是從沒像今天的我們一樣如此活躍、具體地記錄著自己與世界。

從最初的計算器、攝像頭,到家用計算機、智能手機,再到大數據和人工智能,我們不斷升級採集和利用數據的方式。而現在,從一輛車的每日碳排放量統計到全球氣溫的監測,從對每個人在網上發言喜好的分析到對總統選舉時投票趨勢的預測,從預測一隻股票的漲跌幅度到觀察評估整個經濟系統的發展,我們都可以做到。數據將人與人、人與世界連接起來,構成一張繁密的網絡,每個人都在影響世界,而每個人也在被他人影響。這種從微觀到宏觀的辯證關係就如同在全人類身上發生的量子力學現象,其中孕育著解答無數問題的真理。傳統的統計方法已經無法處理這種相互影響的數據。怎麼辦?答案是讓機器自己來處理數據,從數據裡習得知識。這便是當代人工智能的本質。

早在60年前,人工智能就已經被科學家當作一門嚴肅科學來研究。即便普通老百姓都對人工智能興趣盎然,然而人工智能卻在“二戰”後人類科技高速發展的幾十年間鮮有突破。直到今天,我們才忽然發現各種人工智能的概念如雨後春筍般冒出來,以大數據、AlphaGo、百度無人車等新面貌闖入我們的生活。

如果把人工智能的技術比作一顆早產的心臟,那麼它曾經患有兩個先天不足:一是在互聯網爆發之前,研究人工智能所能調用的數據量太少,這是“供血不足”;二是硬件上的不足導致缺乏解決複雜問題的計算能力,這是“心力不足”。數據如同血液,硬件如同血管,直到互聯網應用突飛猛進,計算機的計算能力平均1年翻一番且計算架構出現革命性變化,這兩個問題才迎刃而解。奔湧的數據血液進入物理身體的每一個角落,圖像識別、語音識別、自然語言處理……睜開了眼睛、豎起了耳朵、張開了嘴巴,機器之心“活”了!

數據書寫生活史

數據已經深深“浸入”我們的生活。計算機、智能手機、各種智能家居用品,貼身收集著我們的一言一行,通過計算建模越來越瞭解我們,使得看新聞、運動健身、吃飯、聽歌、出行等這些最簡單的日常活動都成為一次次隆重的數據盛典。

一部智能手機一天之內就可以為他的主人生產1G的數據。這大概是13套《二十四史》的總容量。我們每天都在用數據書寫自己浩瀚的“生活史”。

與傳統意義上的數據記錄定義不同,這種數據是有“生命”的。這種記錄不是客觀又絕對的數學測量,也不是一板一眼的歷史寫作。它更像是我們身體的一種自然延伸:傾聽我們的聲音、拓寬我們的視力、加深我們的記憶,甚至組成一個以數據形式存在的“我”。如果說智能手機已成為人類的新器官,那麼數據就是這個新器官所接收到的“第六感”。而處理這種“第六感”的新大腦正是冉冉升起的人工智能。

大數據——萬物皆數

既然人類運用數據已久,而且自工業革命以來,數據經歷過一次又一次的爆發,何以近年來才出現“大數據”的概念?僅僅是它所能記錄和計算的數據量更多而已嗎?自然數可以無限數下去,1、2、3、4,以至於無窮,但“多”是不夠的,還必須具有幾大特徵:

第一,大數據的“大”。毋庸置疑,這個“大”相對於人類傳統數據的儲存方式,不是一個量級上的大小之分,而是幾何量級的差距。想想百度地圖上每日720億次的定位請求,再想想互聯網上每天有多少次點擊、社交媒體上每天有多少文字和圖片發出……各種大數據平台一天之內收集到的數據量就可以超越人類幾千年來文字、圖像的總和。

第二,大數據的另一個重要特點是多維度。多維度代表著大數據可以對一個事物進行多方位的描述,從而更準確。

在電影《諜影重重》裡出現過一個大數據公司,能夠根據互聯網數據、交通數據、歷史檔案等各種維度的數據幫助美國中央情報局(CIA)迅速追蹤和定位疑犯。現實中美國的Plantir數據公司便是如此幫助美國政府追蹤本·拉登,提供反恐信息和社會危機預警。它們更常見的業務是識破金融詐騙。

以金融徵信應用為例,傳統金融機構在進行徵信時,一般採集20個維度左右的數據,主要包括年齡、收入、學歷、職業、房產車產、借貸情況等。然後綜合評分來識別客戶的還款能力和還款意願,決定信貸額度。

互聯網公司採用大數據方法,所獲得的維度可以讓傳統銀行嚇一跳。BAT都開設了自己的金融服務,因為擁有全面且巨大的用戶數據,可以查詢客戶的各種線上記錄,比如是否有批量申請貸款等異常行為;還可以將客戶信息與互聯網全局信息比對,通過欺詐行為模式的比對分析其可信度;更進一步,還可以分析客戶的消費行為和習慣,結合填報收入分析還款能力如何。當然,作為用戶的隱私,這些數據都不會被公開,用戶所能感受到的便利是徵信排隊時間極大地縮短了,因為大數據可以在幾秒鐘內就對申請者超過1萬條的原始信息進行調取和審核,迅速核對數萬個指標維度。

對一個陌生人進行徵信就好比“盲人摸象”,傳統方法是通過20個“盲人”去評估一個客戶的信用“大象”,注定是有缺陷的。而大數據的多維度就如同幾萬人同時“摸象”,再把這幾萬人的反饋匯總到一起。維度越多,結論就越準確。

第三,處理非結構化數據的能力。結構化數據中最基本的數字、符號等,可以用固定的字段、長短和邏輯結構保存在數據庫中,並用數據表的形式向人類展現(想一下常見的Excel表格),處理非常方便。但是互聯網時代產生了大量非結構化數據,對於圖片、視頻、音頻等內容,它們的數據量巨大卻沒有清晰的結構。對於圖像的數據,我們只能理解為一個二維矩陣上的無數像素點。非結構化數據增長量很快,據推測將占未來10年新生數據總量的90%。而大數據技術可以通過圖像識別、語音識別、自然語言分析等技術計算、分析大量非結構化數據,大大提升了數據維度。

非結構化數據的數量遠超結構化數據,蘊含巨大能量,應用前景廣闊。例如,在機場等公共場合的個人身份檢查,過去只能根據旅客提供的身份信息這一個主要維度去判斷其身份。而人臉識別、語音識別等技術應用成熟後,大數據可以直接通過攝像快速比對審核,增加對個人身份判斷的維度,進行既精確又高效的安全檢查。

第四,大數據是生生不息的“流”,具有時間性。它過去就不再回來,就像人無法兩次踏入同一條河流。這一方面是因為數據量太巨大,無法全部存儲;另一方面是大數據和人類生生不息的行動相關,瞬息萬變。百度大數據實驗室因此提出一個概念叫作“時空大數據”。

地圖就是時空大數據之母。百度地圖有一個路段擁堵預警功能。如果前方路段暢通會顯示為綠色;如果擁堵則會顯示成紅色,提醒用戶選擇其他路線。這是我們與數據互動的一個簡明例子。如果我們有A和B兩條路線可以選擇,此時A路線擁堵而B路線暢通,那麼我們都會選擇B路線;當越來越多的車主選擇B路線,那麼B路線將會變成擁堵而A路線又會暢通。此消彼長,變化萬千。依靠智能手機的定位功能,百度地圖可以實時更改當前的路況監測結果,精確地告訴每一個位置用戶當前自己所面對的路面情況。通過數據可視化技術和各種評估手段,可以描繪一座城市的日常脈搏,比如上下班的人流數據變化,彷彿城市在吞吐呼吸。除了被記錄下來的,更多數據只在當時有效。把數據全部存儲下來是不可能的,那樣需要的硬盤可能整座城市的地皮都堆不下,只能即時應用,用過就消失。

與時間數據博弈是富有挑戰性的工作。2016年11月,百度正式接入公安部兒童失蹤信息緊急發佈平台,每當有兒童失蹤事件發生時,百度地圖和手機百度就會把失蹤兒童的姓名、面貌特徵、失蹤時間等重要信息精準推送給失蹤地點周邊的用戶,使用戶可以第一時間參與找回失蹤兒童的過程。而在失蹤兒童被尋回後,百度地圖和手機百度也會及時更新結案標識,讓社會各界人士隨時瞭解進展。能將信息早1秒鐘提供給用戶,就能給焦慮中的家庭多一分希望。

最後一點,也是最重要的,大數據的“大”表現為無盡的重複。對於語音識別來說,正因為人們重複講述同樣的語句,機器通過反覆識別這些人類語音的細微差別,才能全面掌握人類語音。也正因為人們週而復始的運動,才讓系統能捕捉城市運動的規律。“重複”的數學意義是“窮舉”。以往人類無法通過窮舉法來把握一個事情的規律,只能採用“取樣”來估計,或者通過觀察用簡單明瞭的函數來代表事物規律,但大數據讓窮舉法這種“笨辦法”變得可能了。

量變促成質變,在機器智能領域,數據量的大小和處理速度的快慢可以直接決定智能水平的高低。谷歌通過數據量提升翻譯質量的故事早已不是秘密。

2005年,美國國家標準與技術研究所如往年一樣舉辦機器翻譯軟件評測。有許多大學機構、大公司都從美國政府申請了研究機器翻譯的科研經費,這些機構需要參加這個評測。沒有獲得政府資助的團隊或者公司也可以自願加入,谷歌就是後者。參與評測的還包括IBM、德國亞琛工學院等多家機器翻譯界老牌公司,個個實力雄厚,在機器翻譯領域深耕多年,只有谷歌是初出茅廬。

然而評測結果卻讓人大跌眼鏡:谷歌取得了第一名,並且得分遠遠高於其他團隊。在漢譯英這方面,谷歌的表現達到了51.37%的BLEU分數,第二名和第三名的公司則僅達到34.03%和22.57%。最後,谷歌公佈了自己的秘訣:用更多的數據!不只是比其他團隊多一兩倍,而是多上萬倍的數據!因為谷歌可以通過搜索引擎收集互聯網上人類給出的海量雙語語料數據。同樣一句漢語會有很多人給出譯法,計算機會通過這種重複來統計出最常用的譯法。在沒有更改其他主要方法的情況下,僅僅依靠數據樣本的增加就訓練、改造出了超越其他機器翻譯一個時代的產品。谷歌能贏,實際上就是因為“窮舉”能力超過了別人。

谷歌、百度這一類互聯網企業的數據優勢是全方位的,除了翻譯,還可以很容易地複製到其他領域,比如語音識別與圖像識別。百度的“為你寫詩”作為一個小遊戲,同樣結合了大數據與人工智能。百度主任架構師、機器翻譯技術負責人何中軍介紹,傳統的寫詩軟件一般運用統計模型,根據給定的關鍵詞生成第一句詩句,然後再生成第二句,不斷重複這一過程,直到全詩生成完畢。而百度寫詩的做法是這樣的:用戶可以輸入任意詞語或者句子,系統結合百度搜索引擎中的大數據對用戶表達進行深度分析與聯想,衍生出相關度較高的主題關鍵詞。用戶隨便輸入一個詞或一句話,比如“西湖”,百度寫詩系統通過對大量詩歌散文數據的分析,得出一首描寫“西湖”的詩歌應該包含哪些主題詞。對於“西湖”來說,得到的主題詞可能有“斷橋殘雪”“煙雨”“垂柳”等。接下來利用深度神經網絡技術,根據每一個主題詞生成一句詩。這些主題詞就相當於人類寫作時經常用的提綱,根據提綱來創作可以保證全詩在意境上是統一的,而且前後詩句的內容在邏輯上也是順暢的。之前大家說機器寫的詩看起來每句話都還不錯,但是整體意境不夠,現在已經能有效彌補了。對於每一句詩歌的生成,則用到了機器翻譯技術。對詩歌的第一句進行“翻譯”得到第二句詩,再對第二句進行“翻譯”得到第三句,以此類推。我們用“西湖”作為輸入,“為你寫詩”生成的七言詩意境優美、邏輯通暢。

圖3-3 手機百度的“為你寫詩”生成的七言詩

註:使用手機百度或智能革命App掃瞄圖片可見AR效果。

人類的數據鏡像

人類在科技產品的嬌慣下,口味日漸挑剔,大數據能從那些枯燥乏味的選擇之上給出一抹亮眼的色彩。以前的電視機不會回應我們的喜怒哀樂,但現在成熟的視頻網站正在耐心仔細地收集著我們的每一種反饋,不管是收藏還是下載,是關閉還是快進,都一一記錄,然後利用大數據計算出我們的喜好、消費能力等各種指標。

美劇《紙牌屋》風靡一時,劇中政客們斗牌,劇後則是大數據在下一盤看不見的大棋。出品人為美國著名的網絡電視公司Netflix。它深諳大數據分析的妙處,除了以上提到的用戶行為,還會盡力收集觀看時段、觀看設備、觀看人數和場景,分析用戶喜歡的節目中的主演狀況、導演是誰等。通過大數據分析,斷定《紙牌屋》的題材會火爆,於是從BBC(英國廣播公司)手中高價購買了翻拍版權,並預測凱文·史派西是最合適的主演人選。最終結果證明了Netflix對於《紙牌屋》的押注完全正確。當我們在螢幕前感歎史派西所扮演的總統擁有掌控一切的智慧時,卻沒有意識到“數據總統”的威力。

美國新任總統特朗普就是一位充分利用數據競選的總統。據彭博等媒體報道,他的技術團隊通過臉書、推特等平台上的用戶公開數據,如點贊、轉發、收藏行為等,精準描述選民畫像,向他們推送因人而異的競選廣告。甚至特朗普的每條推特、每條臉書都是有針對性的,不同內容對不同網民可見。

通過大數據對用戶進行精準畫像,這也是百度大腦擅長的領域。2016年十分火爆的電影《魔獸》的出品方傳奇影業與百度大腦合作,根據對百度海量用戶的分析,將電影廣告精準推薦給潛在觀眾。雖然這部電影在北美市場票房不佳,但在中國大賣2.21億美元。當魔獸粉絲在影院裡高喊“為了部落!”的時候,也許正是大數據悄悄賦予了他們原力。

中國人都說“民以食為天”,比起挑選電影,怎麼能“吃好”更是全民關心的熱門話題。2013年百度曾發佈過一個《中國十大“吃貨”省市排行榜》,讓網友樂此不疲。這個榜單利用了百度知道和百度搜索的大數據,根據網友們多達7700萬條關於“吃”的問答,總結出了各地不同的飲食習慣和特色。

海量數據中被挖掘出了不少有趣的現象:“吃什麼水果減肥最快”有多達30萬人提問過,看來許多網友在吃的同時還不忘顧及身材;“昨天晚上還活著的螃蟹死了,還能吃嗎?”這一問題有高達6萬條回復,看得出中國“吃貨”對於螃蟹的熱情特別高。當然更多的還是諸如“××能吃嗎”“××怎麼吃”這類的日常問題,光是“菠菜和豆腐能不能一起吃”就引起了無數討論。

這些問題數量龐大並且看似混亂重複。但重複正是大數據的妙處。大數據可以從中捕捉到更深刻的含義。如福建、廣東地區的網友經常會問某種蟲是否可以吃的問題;而西北網友則對海鮮的吃法頗感疑惑。不同用戶關心的食材、做法各不相同,百度大數據正是從中歸納出了各省市的“吃貨”屬性。在這背後大數據考量了網友的地理位置、提問回答的時間、問題中關於吃法或者做法等信息,甚至將網友使用的手機品牌等各種維度都納入計算當中。

除了對人類關注信息的描摹,大數據甚至在構造我們的身體。現在許多人都十分熟悉的健身腕帶,就是通過收集我們日常運動作息的數據,例如,行走步數、卡路里消耗、睡眠時長等來分析我們的健康狀況並提出建議。更進一步,未來我們可以將個人數據上傳,通過大數據檢測我們罹患各種疾病的可能性或者潛在威脅,更好地預防疾病。

關於生活中的大數據有許多例子。我們現在用到的絕大部分成熟的互聯網產品,無論是計算機還是智能手機,背後都或多或少有大數據的身影。當我們理所當然地使用這些服務時,就已經邀請大數據進入我們的生活。它默默注視著我們生活中的每一個細節,潛移默化地鼓勵和勸告我們做出選擇,強化了我們的角色。

突破:機器學習與人工智能

1950年,阿蘭·圖靈創造了一個針對機器的測試方法,即後來大名鼎鼎的“圖靈測試”。這位充滿傳奇色彩的科學家認為,如果一台機器能夠與人類展開對話(通過電傳設備)而不能被辨別出其機器身份,那麼就可以認為這台機器具有智能。這一簡化使圖靈能夠令人信服地說明“思考的機器”是可能的,而“圖靈測試”直到現在也被當作判斷人工智能的重要標準。

這個標準已經暗示了一個新的路徑,只要機器表現得像人類,我們可以不必過分關心機器的運作規則是什麼。有人提出讓機器自己來學習規則的辦法,人類不用操心那些規則是什麼。

1949年,唐納德·赫布基於神經心理學的學習機制,踏出了機器學習的第一步,創造了此後被稱為赫布學習規則的方法。赫布認為神經網絡的學習過程發生在神經元之間的突觸部位,突觸的聯結強度隨著突觸前後神經元的活動而變化,正確的反饋會讓兩個神經元的聯繫得到強化。這個原理機制類似巴甫洛夫的條件反射實驗:每次給狗餵食前都先響鈴,時間一長,狗的神經系統就會將鈴聲和食物聯繫起來。赫布用一套加權公式來模仿人類的神經網,權重就代表神經元之間聯繫的強弱。赫布給機器創造了一套可以簡單區分事物的方法,對於每個數據,讓決策樹程序做出判斷,判斷對了就獎勵(提高函數的權重),判斷錯了就懲罰(降低函數的權重)。他利用這個方法創造了一個分類器,可以提取數據集的統計特性,把輸入信息按照它們的相似程度劃分為若干類。看上去如同人類在觀察某種現象時,會觀察和總結並區分事物,但機器的這種“觀察”更接近一種通過訓練達成的條件反射,並非如人類那樣思考,重視的是數據中蘊含的相關性關係,而非人類思維中的因果性關係。

之後的十幾年中,關於人工智能的研究愈發熱烈,靈感一個接一個地湧出。1952年,IBM科學家亞瑟·塞繆爾成功開發了一個可以下得越來越好的跳棋程序。他創造了“機器學習”的概念,並將它定義為“可以提供計算機能力而無需顯式編程的研究領域”。

1957年,Rosenblatt(羅森布拉特)提出了感知機的概念,成為日後發展神經網絡和支持向量機(Support Vector Machine,SVM)的基礎。感知機就是一種用算法構造的“分類器”,是一種線性分類模型,原理就是通過不斷地訓練試錯以期尋找一個合適的超平面把數據分開(超平面可以這樣理解:三維坐標空間裡二維的形狀稱作平面,能劃分三維空間。如果數據是多維的,那麼N維坐標空間裡,N-1維就是超平面,能劃分N維空間)。如同你把寫著“正確”和“錯誤”的兩堆球輸入進去,感知機可以為你找出這兩堆不同球的分界線。

感知機好比在輸入和輸出之間只有一層的神經網絡。當面對複雜一點的情況時就力不從心了,比如當“正確”和“錯誤”的球互相混合的時候,或者又有第三種球出現的時候,感知機就無法找到那個分類的界線。這使感知機很難在一些即使看似簡單的問題上有所突破。

如今,不需要人類輸入規則(編程),而是讓機器自己尋找規則,這樣看上去機器就有了自己的智能。今天的人工智能便是在機器學習的基礎上發展起來的,只是成長速度受到硬件和方法的限制。

如果多台電腦、多個芯片聯網進行機器學習,而且具備多個芯片網絡層次,就進入了所謂的“深度學習”的範疇。在20世紀70年代末,Geoffrey Hinton教授等人已經發現,如果能實現多層的神經網絡,就可以逐層遞進找到模式中的模式,讓計算機自己解決複雜的問題。那時他們就開發了“反向傳播”算法神經網絡。但是多層神經網絡的複雜性也導致對其訓練的難度大大增加,數據不足和硬件計算能力成為掣肘。

從20世紀60年代中期到20世紀70年代末,機器學習的發展步伐幾乎處於停滯狀態。這種情況一直到20世紀80年代才有所好轉。隨著計算機性能的突飛猛進和互聯網的到來,人工智能研究終於如虎添翼,在20世紀90年代,現代機器學習初步成形。

互聯網在20世紀90年代投入商用,使分佈式計算方法獲得長足發展。超級計算機造價昂貴,而分佈式計算技術則發揮了“人多力量大”的優勢,讓多台普通計算機可以協同工作,各自承擔計算任務的一部分,並把計算結果匯總,效率可以超過超級計算機,而且分佈式的結構正好適應了日漸增多的數據量。

計算機神經網絡生長與深度學習

由於傳統人工智能一味依賴科學家輸入的規則模型,導致它只有在解決一些規則比較清楚的問題時才比較有效,比如擊敗卡斯帕羅夫的“深藍”就是這樣一種“人工智能”。當面對識別一張圖片這類人類在嬰兒階段就能學會的簡單問題時,這類人工智能卻無計可施,因為這種認知類問題只有一個模糊的概念,沒有清楚簡單的規則。而計算機神經網絡的特點就是它不需要人類提前告知規則,它會自己從海量的基礎數據裡識別模式(規則)。

顧名思義,神經網絡類似人類大腦,由一個個神經元組成,每個神經元和多個其他神經元連接,形成網狀。單個神經元只會解決最簡單的問題,但是組合成一個分層的整體,就可以解決複雜問題。

Geoffrey Hinton認為,傳統的機器學習方法只利用了一層芯片網絡,在遇到真正複雜的問題時,處理效率就會變得十分低下。深度學習的最核心理念是通過增加神經網絡的層數來提升效率,將複雜的輸入數據逐層抽像和簡化。也就是說,將複雜的問題分段解決,每一層神經網絡就解決每一層的問題,這一層的結果交給下一層去進行進一步處理。

有一層神經網絡,就可以找到簡單的模式;有多層神經網絡,就可以找出模式中的模式。以人臉識別為例,神經網絡的第一層只專注於邊長幾十個像素之類的圖像區域,從中識別出一些形狀(形狀就是模式)——眼睛、鼻子、嘴巴等。再把這些已經識別出的形狀交給下一層神經網絡,下一層網絡在已有的識別結果裡,又發現了更大的模式——眼睛、鼻子、嘴巴可以組合成人臉。如果描述得更數學一點,當下流行的深度神經網絡可分為應對具有空間性分佈數據的CNN(卷積神經網絡)和應對具有時間性分佈數據的RNN(遞歸神經網絡,又稱循環神經網絡)。

CNN往往用於圖像識別,正如上文描述的,網絡的第一層被訓練成可以完成這樣一個“小目標”——識別圖像中局部的獨立模塊,如一個方塊、一個三角形,或者一個眼睛。在這一層,人類輸入大量圖片數據,只為讓該層神經可以辨別基本的局部圖形“邊緣”,即一個像素旁邊沒有任何東西。接下來的每一層都在前一層得出的信息中尋找更高層次的模式。這種方法模擬了人眼組合信息的方式,丟棄次要細節,優先識別出某種顯著模式。如幾個小塊和一個圓圈合在一起成為一張臉,不論它出現在圖像中的什麼位置,人眼會首先注意這張臉,而不是平均注意圖像的所有部分。

RNN則往往用於語音識別和自然語言處理。因為語音和語言是一種按照時間分佈的數據,下一句的意義和上一句有關。RNN網絡可以記住歷史信息。假設我們需要開發一個語言模型,用前面的句子預測後面的詞彙。給定“I was born in China in 1976. My college major is mathematics. I speak fluent_____”這句話的最後一個詞顯然是Chinese(漢語),這對人類很簡單,計算機神經網絡則需要能夠調取到之前的“China”(中國)信息才能做到,這就需要有一種循環設計,使神經網絡能夠具有一種時間上的深度。

深度神經網絡大大優化了機器學習的速度,使人工智能技術獲得了突破性進展。在此基礎上,圖像識別、語音識別、機器翻譯等都取得了長足進步。語音輸入比打字快得多,機器翻譯讓我們基本可以看懂一篇外文資訊,圖像識別則早已可以憑借一張少年時期的照片就在一堆成人照片中準確找到這個人,甚至可以把很模糊的照片恢復成清晰且準確的照片。

基於深度學習的人工智能和過去的人工智能原理不同,但與我們所瞭解的數據挖掘有相似的邏輯:先得到結果,反向尋找模式。這個過程被稱作訓練。

我們用簡單的數學知識就能把機器學習、訓練和深度學習的基本思維方式解釋清楚。

這個方法堪比數學領域的哥白尼式倒轉,以簡單函數為例可以很好地說明這個倒轉。

過去我們解決數學問題,一般是先知道公式(函數),然後輸入數據,求出結果。就以y=ax+b這種類型的函數為例。比如,已知y=2x+1,令x=1,可以求出y=3。這裡x就是“輸入”,得到的y就是“輸出”。

更高階一點的數學能力是知道公式和輸出,要把輸入值求出來,比如已知y=2x+1,令y=5,求x。

再進階一步,就觸摸到了機器學習。當我們不知道a、b這些係數,但是知道y和x的值,需要把a和b求出來,也就是已知輸入和輸出,要把函數係數求出來。在y=ax+b這個函數里,我們只需要知道兩組x、y的值就能確認a和b。

更進一步,假設我們有一組輸入和輸出數據,但完全不知道函數的形式,又該怎麼辦呢?這就需要構造函數。比如,已知x=2,y=5,求f(x)。這在輸入和輸出數據很少的情況下是無法計算的,f(x)可能是2x+1,也可能是1x+3,甚至是x2+1,以及無數種其他情況。但是如果x和y的數量充足,數學家就能通過“逼近計算”方法,不斷調整公式權重,近似求得這個函數。

問題來了,現代生產和生活中產生的數據都無比巨大複雜,如果要從中求得蘊含的函數就需要非常“高能”。人類的腦力已經無法勝任,但是可以把這項工作交給計算機。擬合函數就在這裡大顯神通。深度學習神經網絡模擬了人腦的神經節點,每個節點實際上就是一個函數調節器,無數函數彼此交叉連接起來。通過數學上的矩陣、優化、正則式等各種方法,深度學習過程不斷調整著每個函數係數的權重,在數據充分、構造原理合適的情況下,不斷演化的函數會越來越準確地擬合大部分數據,於是我們就可以通過這套函數來預測尚未發生的情況。這個過程就是我們所說的“訓練”。

吳恩達在谷歌工作的時候,領導團隊訓練出了著名的計算機識貓系統。

如果用老式的符號式人工智能方法來編程,那麼人類首先要對貓進行細緻的定義,如尖耳朵、圓眼睛、直鬍鬚、四條腿、長尾巴……把這些特徵定義轉化為函數輸入計算機,然後向計算機展示一張圖片。電腦就會分解圖片中不同的元素,然後再將這些元素和程序中的規則進行比對。符合尖耳朵、圓眼睛、直鬍鬚、四條腿、長尾巴等特徵,那麼這就是一隻貓。

而機器學習的方法大相逕庭,科學家不會預先編寫貓的定義,而是讓計算機自己去尋找。科學家只是把圖片大量“喂”給計算機,讓計算機輸出標籤——是貓或者不是貓。在識別貓的神經網絡中有無數的通路,正如人的腦神經一樣,每個通路都會輸出自己的結果,如果答對了,科學家就會給這條通路加權(可以理解成亮綠燈);答錯了,就降低權重(可以理解成亮紅燈)。經過足夠多的嘗試,如用10萬張各種貓的圖片做測試之後,那些得到加權的神經通路就組成了一個識別裝置(一組複雜的函數聯結)。然後在沒有科學家告訴它識別結果的情況下,也可以識別出新的圖片中的貓來。訓練數據越多,這個函數集合就越複雜但也越精確。

這就是“監督學習”——依賴大量有標籤的數據。吳恩達領導的識貓項目甚至可以從零開始學習,不依賴標籤就可以辨識出貓。當研究者向神經網絡展示了幾百萬幀靜態的貓圖片,神經網絡自己就獲得了一個穩定的模型,從此,它可以和所有的兒童一樣,毫不猶豫地識別出貓的臉。

吳恩達的博士研究生夸克·維·樂為此撰寫了論文,表明機器學習同樣能識別原始的無標籤數據,並建立自己的知識模式,它的意義絕非只在於識別貓。

二十多年前,凱文·凱利以“蜂群效應”開始了傑出的新科技著作《失控》的敘述。他以此預測了分佈式計算等新技術的出現,那時他可能還沒有看到“蜂群效應”中蘊藏的機器學習原理。每一個蜜蜂的運動都是隨機的,但是蜂群總能向著一個方向飛去。大量蜜蜂各自的行動(輸入)匯總成一個總的運動(輸出),中間的邏輯(函數)就是“蜂群效應”。計算機神經網絡裡的信息運動就像超音速飛行的蜂群採集著數據花粉。在它們看似狂亂的飛舞軌跡中,一張貓的臉龐凸顯出來。百度大腦識別貓的能力已經遠超人類,它甚至能夠精確區分不同種類的貓。

所以對人類而言,機器學習往往在自己的“內部”形成一個“黑箱”。有人警告這種超越人類理解的黑箱會帶來危險,因為我們不知道機器如何思考,是否產生了危險思維。不過更多時候,深度學習會給人帶來意想不到的驚喜。

深“度”往事

百度語音識別開發團隊的劉洋工程師說過一件趣事:一位語音團隊成員在家測試語音識別程序時,無意間清唱了幾句歌詞,然後歌詞竟然被準確識別了出來。這令他很吃驚,其他公司的語音識別技術都還做不到這個事情。而百度團隊也並沒有針對清唱這種形式做過訓練,也沒有制定過這個目標。系統怎麼做到的他們也不知道,只能說訓練數據達到了足夠大的程度,程序在不斷訓練、學習的過程中,自己修得了這項令人稱奇的技能。

人們對世界的變化往往後知後覺。在沒有深度學習的日子裡,世界似乎也一切正常。但有些看不到的代價在被一些人默默承受。周克華這個連環殺手十多年間神出鬼沒,為了擒獲他,公安部門調集了幾乎所有的視頻監控材料要發現他的蹤跡。那時候公安幹警怎麼檢索視頻?全靠肉眼去看!幾百甚至幾千個小時的視頻一段段去看,有的幹警甚至累昏在崗位上。而基於深度學習技術的視覺識別將改變這一切。目前先進的監控系統背後都有強大的人工智能支持,在經過大數據訓練之後,可以瞬間從視頻裡識別出人臉、車牌、車型等,並且加以語義化,方便人類檢索。然後只要給計算機幾張嫌疑人的照片,神經網絡就可以飛快地從海量視頻中把與嫌疑人有關的鏡頭都找出來供人類參考。安防企業宇視科技就開發了這樣的智能攝像系統,再結合百度地圖,就可以迅速定位嫌疑人或者車輛的運動軌跡。

深度學習在許多用戶看不到的地方改變了我們的生活。為了採集和維護地圖信息,需要通過採集車拍攝沿路的圖像。傳統的採集車上要坐兩個人,採集過程分為內部作業和外部作業兩部分,外部作業就是要開車出去,把沿途的東西都錄下來。除了錄像,副駕駛要負責用聲音記錄,每經過一個地方,要說前方這裡有一個探頭,那裡有一個紅綠燈,這裡是四車道,左轉、直行、右轉……這是傳統的方式,就是一定要把所有看到的東西通過錄像和聲音的方式記錄下來,然後再把數據存儲寄到數據處理中心。數據處理中心負責內部業務的人員再一分鐘一分鐘地去記錄比對資料,最後把路面上的這些元素在地圖上標識出來,這基本上是一個勞動密集型的工作方式。

圖3-4 百度地圖採集車

而應用了智能圖像識別技術以後,我們先通過深度學習訓練機器去辨識紅綠燈、車道、探頭等路面元素,之後我們只需要將沿路拍攝的全景圖像直接交給機器辨識,就能得到完整的地圖信息。這就極大地節省了人力,也極大地提高了效率和準確性。

深度學習除了軟件算法,還有一件關於硬件的往事堪稱佳話。歷史上有很多發明在後來的應用中偏離了初衷。比如作為炸藥的硝酸甘油可以用於心臟病急救,為了發明戰略物資橡膠的人工合成替代品,結果卻造出了橡皮泥……在深度學習領域,GPU的作用也被改變了。GPU本來是顯卡,用來渲染圖像,給圖形計算加速,後來卻成為深度學習的主要硬件。因為顯卡芯片具備比CPU更強的浮點運算能力,原本就用於處理圖像這種矩陣數據,非常適合機器學習領域對數據的計算。早期當吳恩達團隊率先使用GPU進行機器學習的時候,很多人並不理解。不過今天這已經成為主流。

但最深的往事還是來自搜索引擎。

搜索引擎:人工智能的命運細線

對於今天的中國網民來說,遇到問題“百度一下”已經成為一種習慣。與百度今日的影響力和規模相對的,百度在人工智能領域的專注反而引起一些不理解。更專業的疑問是:電商、遊戲、社交、通信……從PC到移動互聯設備,無數個風口過去了,百度為何只對人工智能情有獨鍾?

問題的答案可能與很多人的思維相反,與其說是百度選擇了人工智能,不如說是人工智能選擇了百度。這是百度基因裡的使命,辜負這個使命,會是百度、中國甚至世界的損失。

一切都源於搜索

搜索引擎對於一般用戶來說只是一種工具,可以幫助他們找到需要的信息;對於提供內容的網站來說,搜索引擎是一種媒介,幫助它們將自己的內容傳遞給有需要的用戶。在這個過程中,首先搜索引擎要“傾聽”用戶的需求,即小小搜索框裡敲下的那幾個關鍵詞,究竟是想要找到什麼;其次,搜索引擎要“檢索”數量龐大的內容,從中挑選出最符合要求的那些結果提供給用戶。

我們審視一下這個過程,是否和我們描述過的深度學習概念模式十分相像?輸入和輸出在這裡都有了,甚至每一次搜索行為都可以看作是對搜索引擎的一次訓練。那麼誰來告訴搜索引擎輸出結果的好壞呢?是用戶。用戶的點擊就是一種回答,如果用戶沒有點擊排在前面的結果,而是去點擊第二頁的結果,這就是對系統的推薦做出了降權舉動。

在這個過程中,搜索引擎不僅提高了推薦的準確性,還越來越懂得判斷所收錄網頁的“好”與“壞”,漸漸學會了像人類一樣去分辨網頁。最初,它只會讀取標題、關鍵字、描述等頁面元素;而現在,百度這樣的搜索引擎已經可以辨識出哪些是隱藏的虛假信息,哪些是廣告,哪些是真正有價值的內容。

人通過搜索引擎獲取信息的行為就是人與機器對話的過程。與以往的人機交互不一樣,這個過程基於“自然語言”。相比圖像識別、語音識別等,自然語言處理(Natural Language Processing,NLP)是搜索引擎最核心的基礎技術。

王海峰認為思考和獲得知識的能力成就了今天的人類,這種能力需要通過語言來找到思考的對象和方法,並外化為我們看、聽、說和行動的能力。相對於這些能力,語言是人類區別於其他生物的最重要的特徵之一。視覺、聽覺和行為能力不僅為人類所擁有,動物也有,甚至很多動物的視覺、聽覺,包括行動能力比人類還強,但是語言是人類特有的。而建立在語言之上的知識總結、提煉、傳承以及思考,也都是人類特有的。

從人類歷史之初,知識就以語言的形式進行記錄和傳承,用來書寫語言的工具不斷改進:從甲骨到紙張,再到今天的互聯網。所以不管是百度還是谷歌,都認為自然語言處理對整個人工智能的未來都是非常大的挑戰。相比之下,語音識別,如聲音到文字,或是文字到聲音,實際上解決的是一個信號轉換問題,但語言不是,語言和人的知識、思維整體相關。

像AlphaGo這樣的項目,對於普通人來講是一件非常震撼的事情,我們也認為它是一個很大的成績。但是我們不能忽略它的特點:基於完全信息、規則是明確的、空間是封閉的和特定的。為圍棋訓練出來的智能系統下象棋就不好用。相比較而言,自然語言的處理是更難解決的一個問題。對於下圍棋來說,只要計算能力和數據充分,就幾乎沒有不確定性,而語言問題存在太多不確定性,如語義的多樣性。

為了讓計算機能夠“理解”和生成人類語言,科學家做了大量的工作。在百度,基於大數據、機器學習和語言學方面的積累,研發出了知識圖譜,構建了問答、機器翻譯和對話系統,建立了可以分析、理解問題(query)及情感的能力。

僅就知識圖譜來說,基於不同的應用需求可分為三類:實體圖譜(entitygraph)、關注點圖譜(attentiongraph)和意圖圖譜(intentgraph)。

在實體圖譜裡,每一個節點都是一個實體,每個實體都有若干個屬性,節點之間的連接是實體之間的關係。目前百度的實體圖譜已經包含了數億實體、數百億屬性和千億關係,這些都是從大量結構化和非結構化數據中挖掘出來的。

現在我們來看一個例子,假如有人搜索:竇靖童的爸爸的前妻的前夫。

這句話裡包含的人物關係是非常複雜的,然而,我們的推理系統可以輕鬆地分析出各實體之間的關係,並最終得出正確答案。

百度的自然語言處理技術還可以分析複雜的語法,甚至辨識句子的歧義,而不僅僅是字面匹配。

圖3-5 人物關係圖1

再來看另外一個例子:梁思成的兒子是誰;梁思成是誰的兒子。

圖3-6 人物關係圖2

如果使用傳統的基於關鍵詞的搜索技術,我們將會得到幾乎相同的結果。然而,經過語義理解技術的分析,機器可以發現這兩個句子的語義是完全不一樣的,相應地就能從知識圖譜中檢索到完全不同的答案。

還有第三句話:誰是梁思成的父母。從字面上來看,這跟第二個句子不同,但是經過語義理解技術,機器發現這兩個句子要找的是同一個對象。

深度學習技術進一步增強了自然語言處理能力。百度從2013年開始在搜索引擎中應用DNN模型,至今已經對這個模型進行了幾十次的升級迭代,DNN語義特徵是百度搜索裡非常重要的一個特徵。其實,不僅搜索結果相關度變得更高,在篇章理解、關注點感知和機器翻譯等方面也都有大幅提升。

搜索所需要的技術基礎也正是人工智能所需要的技術基礎。比如就雲計算來說,主管百度雲工作的張亞勤認為,搜索是最大的雲計算應用,沒有雲就沒有辦法做好搜索,百度是在雲裡出生的。

搜素引擎的繼續進化

隨著移動互聯網和人工智能的興起,搜索的形態在發生很大的改變。比如搜索入口變化了,除了通過網頁搜索框發起搜索外,基於不同平台和硬件的搜索也在增加,語音或圖像搜索部分代替了文字搜索。在人主動搜索信息的同時,信息也被推薦給需要的人。很多人從表象上看,認為這個過程是對搜索引擎的挑戰。但王海峰認為,搜索引擎一直同步感知著這個變化過程。

就以“信息主動找人”來說,做Feed(信息流)是當下很多互聯網企業的共識。但是“人找信息”和“信息找人”,或者搜索和Feed之間並不是非此即彼,而是相輔相成的關係,在不同場景、不同時段發生不同作用,各司其職,也會互相配合。比如有時候你需要主動找點東西,有時需要朋友推薦,有時候需要系統能猜測你的喜好並推薦。假設別人推薦一篇文章給你,閱讀過程中發現一個詞不太理解,這時你又需要發起搜索去查找詞義。當然機器也會猜哪些詞用戶可能有興趣。Feed不可能每天推送給你相同的內容,所以一條內容過了最熱的時候,你再想找它又得到搜索引擎裡找。在不同的狀態和場景下,用戶對於搜索和Feed的需求會相互轉換,而如何判斷這些狀態和場景,正是對系統智能化的考驗。有越多的數據和技術儲備就越可能做好。

有了做搜索的技術儲備和數據,做Feed至少在技術上是不難的。而單純從Feed起家,想去彌補搜索和數據的缺失就比較困難。百度搜索引擎採集分析的網頁量有上千億,如此規模的大數據為百度持續提升Feed產品效果提供了必要的保障。

搜索引擎在數據洪流中持續進化,Feed只是下一個必要的環節,最終形成無所不在的搜索引擎+推薦。越來越智能化的機器可以做到“舉一反三”,到最後用戶只說幾個詞,機器就可以知曉用戶想要表達的整個意思。另外還可以自動分析用戶所在的位置、身份、習慣等,利用這些信息來決定向用戶提供哪些搜索結果。未來在很多時候,我們無須再主動“搜索”,基於搜索引擎的Feed可以主動猜測並推送我們需要的信息。設想一下,比如在一個餐廳吃飯時,搜索引擎已經根據用戶之前的搜索內容推測出用戶下一步的安排,即使用戶還沒“問”,都會主動幫用戶收集好之後需要的信息,比如當前有什麼電影上映,最近的電影院在哪裡等。這種設想已經在百度的產品中有所嘗試。即使對於用戶暫時不關注的信息,不出現在Feed裡,也會合理存儲起來,像一座無形的圖書館,供用戶以後前往探尋。智能化的搜索引擎正在伴隨我們一起成長。

搜索是最大的人工智能項目

搜索引擎一刻不停地工作著,它就是人類學習精神的鏡像,每時每刻收集處理著大量數據,抓取整個互聯網上的頁面和內容,不管是電商、社交媒體還是新聞門戶,搜索引擎都會“訪問”它們。

搜索引擎是播種機、實驗場和數字對撞機,結合語音識別、圖像識別和機器翻譯,通過大量用戶的實際使用又可以採集回來更多有價值的數據,反過來幫助神經網絡優化訓練效果,形成一個良性的發展閉環。

自然語言處理技術的發展會帶來更多的驚喜。機器除了可以快速寫作具有一定格式的財經、體育新聞,即便在文學方面,機器寫出的“唐詩”也令人難辨真假。看籃球、足球比賽時,解說機器人不但能夠迅速通報賽場狀況,還可以同時回答很多人的提問。這有點像科幻電影《Her》裡的智能程序薩曼莎,她可以同時和無數人談戀愛。戀愛大概是人類最深度的語言、思想、情感交流。薩曼莎堪稱自然語言處理技術的一個高級象徵,描繪出人類與機器的深刻關係。也許未來,搜索引擎真的會像薩曼莎一樣,窮盡符號信息,闖進語言與意義的空隙之處,超出人類的想像。

嚴格來說,人工智能是一種“體力活”,要有足夠的體力才能經受住那樣巨大的數據和計算。而在一般的大學高校或者較小的互聯網公司,數據量和硬件成本上的門檻使得發展人工智能受到很大的限制。即使不考慮CPU、GPU等硬件的購置費用,光是運維這些硬件的成本就很高,AlphaGo下一場圍棋就要耗費3000美元電費。現在百度除了傳統的服務器、帶寬等基礎設施,還擁有數百台支持人工智能運算的GPU服務器,最高配置的服務器上可以安裝16張GPU卡。在這一切的基礎之上,將數據儲備、硬件基礎、市場規模和人才團隊統籌起來,最大限度地發揮優勢,所追求的就不是一時一地的得失,而是最大、最基礎的人工智能平台,為人類“知道更多,做到更多,體驗更多”而努力。

人工智能,這是百度的命運

可以說,人工智能對於百度、谷歌這樣的公司,是一種內在的訴求,也是互聯網、移動互聯網和數據大爆發自身的訴求。國內在這個領域很難有其他公司能與谷歌、微軟這些擁有規模優勢的公司抗衡。建立基礎設施基地和人才高地,是百度義不容辭的責任。

將人工智能的火種傳遞到更多人手中,創造實際價值,讓生活更美好,讓國力更強大。這樣的願望給了百度人動力,也是百度能夠集結眾多人工智能科學家的原因。

林元慶本來在NEC美國實驗室研究人工智能,那裡的條件和氛圍都很好,學術性很強,可以專注於研究和發表論文。但是他還是選擇離開熟悉的環境,選擇了百度。他說最重要的原因就是,作為一個人工智能的研究者,他覺得把深度學習的技術真正實踐到應用層面是非常關鍵的一環。現在中國有超過7億的互聯網用戶,超過12億的手機用戶,都是世界之首,如何讓廣大用戶都享受到人工智能帶來的改變並參與這種改變?這種探索的價值能夠影響全中國所有人的生活。他迫切感到“這是最好的時刻,是人工智能最有希望的機會,錯過了就太可惜了”。

但人工智能從不休息,當人類在睡夢中,它們依然在機器世界裡奔湧,在無盡的循環往復裡蟬蛻蝶化,終將飛向世界!

這裡想引用一位著名哲學教授寫在20世紀90年代的一段話作為結尾:

在天堂裡,人還不是人。更準確地說,人還沒有被投放到人的道路上來。現在,我已經被拋擲出來很長的時間了,循一條直線飛過了時間的虛空。在什麼深層的地方,還是有一根細細的繩子縛著我,另一頭連向身後遠處雲遮霧繞的天堂。個體靈魂不是她自己選擇的,而是從天堂拋出的繫在她身上的細線,使她的身體身不由己。薇娥麗卡自己不可能去找到一種生命熱情,只能從自己身上發現自己的生命熱情,這就等於發現把自己的身體與影子繫在一起的那根細線。從天堂那邊拋出來的細線決定了薇娥麗卡身體的生命方向和個體靈魂的在世負擔,感覺到自己的個體命運。所謂個體命運不過是,一個人感到唯有這樣的生命熱情的散發才讓自己有美好地活過的感覺,才有自己身體的在世幸福,以至於非如此生活不可。[1]

[1] 劉小楓。沉重的肉身〔M〕.北京:華夏出版社,1999.