讀古今文學網 > 終極智能:感知機器與人工智能的未來 > 第一章 什麼是人工智能 03. 嘗試製造一個人類大腦:深度學習的故事 >

第一章 什麼是人工智能 03. 嘗試製造一個人類大腦:深度學習的故事

人類大腦是如何工作的?這個問題已經困擾了人類數千年。古埃及人認為「自我」位於心臟,而公元前6世紀和公元前5世紀的希臘畢達哥拉斯學派學者則主張「思想」位於大腦。亞里士多德不同意這個充滿爭議的理論,並且在公元前4世紀表示,大腦的作用是冷卻血液,它並非思想的源頭。直到19世紀90年代顯微鏡和神經染色技術發明之後,1906年諾貝爾獎得主聖地亞哥·拉蒙 –卡哈爾(Santiago Ramon y Cajal)提出「神經元學說」,認為大腦的功能單元是神經元。18

拉蒙 –卡哈爾只是諾貝爾獎得主中探索大腦深層秘密的眾多科學家之一。1963年,艾倫·霍奇金(Alan Hodgkin)和安德魯·赫胥黎(Andrew Huxley)解釋了神經系統發送、連接和保存信息的基本原理,並因此贏得當年的諾貝爾獎。19他們的研究被普遍引用,並且對今天的神經科學產生了巨大的影響。

然而,在這兩人於1952年對他們的模型進行描述前,已經有人在嘗試使用機器模仿人類的大腦了。1943年,神經學家沃倫·麥卡洛克(Warren McCulloch)與沃爾特·皮茨(Walter Pitts)合作,就神經元的工作方式撰寫了一篇重要的論文。20瞭解這一原理後,他們開始研究如何通過電子器件構建簡單的神經元,這就是早期的人工神經網絡。到1960年,另外兩位研究者,亨利·凱利(Henry Kelley)和阿瑟·布賴森(Arthur Bryson)使用數學的分支學科動態編程,開發出人工神經網絡的學習算法。21該算法被稱為反向傳播。

多年來,反向傳播被成功地應用於神經學習,並且催生了20世紀80年代末和90年代初人工智能系統的熱潮。由於它能夠教會此類人工神經網絡幾乎任何事情,因此被視為一個誘人的機會和一種強大的能力。1989年,伊利諾伊大學厄巴納 –香檳分校超級計算研究和開發中心的研究員喬治·塞班科(George Cybenko)得出了一個驚人的發現。22他證明了在數據足夠並且神經元數量充足的情況下,神經網絡可以使連續數學函數接近任意精度。因此,全球擁有了一個受人腦啟發的計算機器框架,雖然笨重而緩慢,但它構建了一個充滿希望的數學基礎,這樣的組合前途無量。

不幸的是,這些早期研究者發現自己領先於他們所處的時代太多。當時的硬件無法有效地支持可以解決焦點問題的大型神經網絡。20世紀八九十年代的系統存儲量有限,因此無法捕捉或存儲大量數據,這進一步加劇了挑戰。

由於數據量極少且質量較差,人工神經網絡難以觀察、學習和行動。在使用反向傳播和其他類似的學習算法時,人們遇到了重大挑戰。雖然投入巨大,但神經網絡往往只能提供次優的解決方案。

這意味著什麼?訓練一個神經網絡就像搜索虛擬場景,在尋找解決方案的過程中會遇到「學習問題」。想像一個具有所有可能性的、場景不斷滾動的空間。我們眼前的這個空間組成了山谷、深坑、深谷和山脊。現在,這個場景的輪廓出現了測量誤差。我們在深谷中的深度越深,誤差就越小。如果我們將一個保齡球放在山峰上的任意一處,保齡球很有可能會滾動、下滑並找到一個低表面(局部最低),但最低的深谷(全局最低)可能距離很遠,位於我們想像的場景的另一端。保齡球出發的位置不太好,因此會陷入一些低地,但不是最低的地方。反向傳播就常常被局部最低所欺騙、所困住,這一問題為有效降低錯誤率增加了難度。

實際上,許多在20世紀90年代末和21世紀初嘗試語音識別產品的計算機用戶提前體會到了這些挑戰,而且他們可能沒有真正理解語音識別產品背後的技術。雖然這些產品在經過數小時的訓練後可以正常運行,還可以在一個完全無聲的房間中使用優質且昂貴的麥克風輸入指令,但它們稱不上真正的語音識別。

如今的情況截然不同。人工神經網絡被廣泛應用於聲音和圖像識別。Siri可以在有背景噪聲的情況下識別你的語音,而且你可以使用非常便宜的麥克風輸入語音指令。亞馬遜的Alexa還將識別能力提升到了一個更高的水平。

這一切是如何實現的?為何精度突然提高了?這主要歸功於深度學習,具體而言要歸功於計算機科學家傑弗裡·辛頓(Geoffrey Hinton)的工作。

辛頓生於1947年的英格蘭。23他在劍橋大學本科階段選擇的是心理學專業,因為他越來越想探索神經網絡,但很快他就意識到,他的教授並沒有真正理解神經元的學習或計算方式。雖然當時的科學能夠解釋電信號從一個神經元轉移到另一個神經元的原理,但沒有人可以向辛頓準確地解釋幾十億次互動如何產生智能。他覺得自己可以使用不斷發展的人工神經網絡工具更好地理解大腦的工作原理,因此他從1972年開始攻讀愛丁堡大學的人工智能博士學位。在之後的研究中,他嘗試使用硬件和軟件創造互相連接的信息層,就像人類大腦通過密集的神經元網絡傳遞信息一樣。20世紀80年代初,隨著反向傳播算法的出現,辛頓的人工智能研究開始探究人類大腦的工作原理。1992年9月,辛頓在《科學美國人》上發表的一篇文章中首次向大眾解釋了他的研究工作的核心。24

除了自動編碼器和玻爾茲曼機(同樣是由辛頓開發的)方面的技術細節之外,他找到了一種優化保齡球在錯誤場景中位置的有效方法。通過這種方法,保齡球可以自然地滾動到一個合理的低窪位置並停止,錯誤被大幅減少了。

今天,辛頓作為一名加拿大籍的科學家仍在繼續他的研究,同時他還擔任搜索引擎巨頭谷歌的顧問。他和同事的研究工作引起了人工智能界和大眾媒體的關注。2015年《紐約時報》(New York Times)科技版記者約翰·馬爾科夫(John Markoff)的報道《人工智能的學習能力匹敵人類》,只是無數此類文章中的一篇。25深度學習似乎真的已經解決了「感知」問題。計算機現在可以比人類更好地識別字符、圖像、物體、聲音、語言,甚至是視頻畫面中的物體。

這些進步正在引發硅谷對人工智能和機器人的新一輪關注和投資。機器人侍者、無人機和發明專家紛紛出現——不是作為科幻電影中的角色,而是出現在像勞氏這樣的大超市以及底特律大部分出廠的汽車內。根據市場研究咨詢機構Tractica的統計,美國2016年的人工智能支出達到6.4億美元,預計到2025年,這個數字將達到370億美元。26

然而,正如深度學習一樣,人工智能還停留在狹義人工智能(ANI)階段。通過深度學習等技術,機器越來越熟練,它們將能夠代替人類完成以前只有人才能做的工作。

無人駕駛汽車、倉庫機器人、軍隊中的機械騾、半自動武器、手機上的Siri和Cortana、來自IBM的著名計算機棋手「深藍」或者最近擊敗世界頂級圍棋棋手的AlphaGo算法,我們每天都在接觸各種各樣的狹義人工智能。

這些不同的狹義人工智能就像是對人類各種能力的放大,但隨著時間的推移以及這些狹義人工智能能力的增加,人與機器之間的距離會逐漸縮小。2017年3月,埃隆·馬斯克宣佈他正在投資成立一家名為Neuralink的新公司。27新公司的目標是創造計算機與人類大腦之間的直接皮層接口。他認為,可以通過將我們的思維與機器的思維合併來避免人類的滅亡。像Neuralink這樣的公司並不是孤軍奮戰,其他硅谷創業公司也開始進入神經科學領域。大部分公司表示,研究的最終目標是實現大腦電子受體,製造出被科幻作家伊恩·班克斯(Iain M. Banks)稱為人與機器智能之間的「神經織網」的東西。大部分神經學家都認為我們距離「神經織網」仍十分遙遠,但機器智能對人體機能的增強正在發展之中。截至本書撰寫之日,人類已經可以通過人工智能、增強現實和傳感器技術擴展自己的技能與推理能力了,較常見的有人工耳蝸(一種代替受損耳朵的電子醫療器械)和控制異常心率的心臟起搏器等。虛擬現實眼鏡、耳機、傳感器以及人工智能感知和控制算法領域的新成果使人類獲得了更加「超人」的能力,比如:

. 紫外 /紅外視覺:使用人工智能看見光。

. 完美聲音記憶:你所聽到的每一個聲音會被永久編目,並且可以查詢搜索。

. 聲音三角互證:當你聽到巨響或「砰」的一聲時,你的眼鏡就會顯示正在發生的事情。

. 完美圖像記憶:當你看到一個牌照時,就能捕捉牌照號碼和字母並且可以進行搜索。

. 提示:人工智能始終在你的大腦內提出建議並且添加Fitbit等設備增強身體機能。

.「上帝」視角:衛星照片和全自動小型無人機可以將照片直接發送到你的手機上,就好像你的雙眼在移動。

. LIDAR(激光雷達)傳感:可以使用脈衝激光測量距離的遠程傳感技術。

. 能夠預測附近任何物體的具體行動與速度。

. 能夠看到和探測無線電波:通過划動手勢將所感知到的無線電波從以太中抽出,然後進行解碼和編目。

. X光視覺:通過自動機器眼看到建築內部,從而檢查是否有漏水等技術故障。

所有這些增強方式仍然屬於狹義人工智能。只有當計算機科學與工程設計創新可以控制意圖或能夠設宏大目標並控制自我意識或「感知」時,我們才能實現廣義人工智能(AGI)。

為了成為廣義人工智能,人工智能系統需要像人類一樣成為通才。它需要通過海量數據進行學習,然後歸納所學到的東西,就好像我們在小時候學會將積木疊在一起、組合在一起或者墊在腳下去拿書架上的書。它需要理解含義和語境、能夠合成新知識、有自己的意圖並且在任何情況下具備自我意識,這樣它才能理解在這個世界上擁有決定權意味著什麼。