讀古今文學網 > 人工智能:改變世界,重建未來 > 神經網絡的守護神 >

神經網絡的守護神

傑夫·辛頓出生於1947年,是現代神經網絡最重要的人物之一。作為一名謙遜的英國計算機科學家,他對其所在領域的發展產生的影響很少有人能企及。他出生於一個數學家家庭:他的曾祖父是著名的邏輯學家喬治·布爾(George Boole),他的布爾代數曾為現代計算機科學奠定了基礎。另一位親戚是數學家查爾斯·霍華德·辛頓(Charles Howard Hinton),因提出「四維空間」這一理念而聞名,阿萊斯特·克勞利(Aleister Crowley)在其小說《月之子》中曾經兩次提到了辛頓。

辛頓說:「我一直對人類如何思考以及大腦如何工作很感興趣。」上學時,一個同學說大腦儲存記憶的方式和3D全息圖像儲存光源信息的方式是一樣的。要想創建一個全息圖,人們會將多個光束從一件物品上反射回來,然後將相關信息記錄在一個龐大的數據庫中。大腦也是這樣工作的,只是將光束換成了神經元。由於這一發現,辛頓在劍橋大學選擇了研究哲學和心理學,之後又在蘇格蘭愛丁堡大學研究人工智能。辛頓在20世紀70年代中期來到寒冷的愛丁堡,人工智能領域遭遇的首個冬天幾乎在同一時期到來。儘管傳統人工智能剛剛遭受打擊,但辛頓的博士導師仍急於讓他遠離神經網絡。辛頓說:「他一直試著讓我放棄神經網絡的研究並投入到符號人工智能領域。為了能夠有更多時間研究神經網絡,我必須不斷和他討價還價。」

辛頓並沒有獲得其他的支持。學生們認為他是瘋了才會在明斯基和派珀特完全否認神經網絡後還繼續研究。辛頓在愛丁堡期間,明斯基的學生帕特裡克·溫斯頓(Patrick Winston)出版了一本早期人工智能教材。書中記載著有關神經網絡的內容:

許多古希臘人都支持蘇格拉底的一個觀點,即深奧且令人費解的思想是上帝創造的。如今,對這些漂泊無定的人而言,甚至概率神經元都相當於上帝。很有可能的是,神經元行為的隨機性的提高是癲癇病患者和醉酒的人的問題,而不是聰明人的優勢。

人們對溫斯頓的思想十分不屑,但是他當時對神經網絡的類似於宗教信仰般的看法並不是完全錯誤的。辛頓對人腦必須以某種方式工作這一認識十分欣慰,很明顯,這是無法用傳統的符號人工智能來解釋的。他說:「大多數常識推理都是憑直覺或以類比的方式做出的,其中並不涉及意識推理。」辛頓認為,傳統人工智能的錯誤之處在於:其認為,任何事都是由一系列基本規則和有意識推理組成的。對符號人工智能研究人員來說,如果我們不能理解某一部分的意識,這是因為我們還沒有弄懂其背後的推理。

畢業以後,辛頓暫時在英國蘇塞克斯從事博士後工作,之後收到了一份來自美國的工作邀請。於是,辛頓打點行裝,搬到了加州大學,不久以後,又搬到了卡內基–梅隆大學。在接下來的幾年裡,他一直積極努力在神經網絡領域取得開創性進展,即便到了今天,其成就仍對人工智能的研究產生著影響。

他最重要的貢獻之一,要算是他對另一位研究人員戴維·魯梅爾哈特的幫助,幫助他再次發現「反向傳播」流程,這大概是神經網絡中最重要的算法,之後他們首次以可信的方式證明,「反向傳播」使神經網絡能夠創建屬於自己的內部表徵。當輸出與創造者希望的情況不符時,「反向傳播」使神經網絡能夠調節其隱藏層。發生這種情況時,神經網絡將創建一個「錯誤信號」,該信號將通過神經網絡傳送回輸入節點。隨著錯誤一層層傳遞,網絡的權重也隨之改變,這樣就能夠將錯誤最小化。試想一下,有一個神經網絡能夠識別圖像,如果在分析一張狗的圖片時,神經網絡錯誤地判斷為這是一張貓的圖片,那麼「反向傳播」將使其退回到前面的層,每層都會對輸入連接的權重做出輕微調整,這樣一來,下次就能夠獲得正確的答案。

20世紀80年代創建的「NETtalk」項目是「反向傳播」的一個經典案例。NETtalk的一個共同創建者特裡·謝伊諾斯基將其描述為用於瞭解電腦是否能夠學習大聲朗讀書面文字的「夏季項目」。該項目面臨的最大挑戰在於語言一點也不簡單。項目剛剛開始的時候,謝伊諾斯基去圖書館借了一本有關音韻學的書,即諾姆·喬姆斯基(Noam Chomsky)和莫裡斯·哈雷(Morris Halle)所著的《英語語音模式》。謝伊諾斯基說:「這本書裡都是各種事情的規則,例如字母e出現在單詞末尾的時候應該如何發音等。書中提到了例外情況,之後又列舉了例外情況中的例外。英語就是大量的複雜關聯。我們似乎選擇了世界上在規則性方面最糟糕的語言。」

一直以來,傳統人工智能都在不斷嘗試將這些單獨的例子插入到一個專家系統中。謝伊諾斯基和一位名為查爾斯·羅森伯格(Charles Rosenberg)的語言研究人員決定通過創建一個由300個神經元組成的神經網絡來實現這一目標。當時,辛頓正在實驗室訪問,他建議他們在項目的最開始使用兒童書籍來訓練該系統,這本書的詞彙量一定要小。起初,這項任務十分艱難,計算機一次只能讀一個單詞,而他們必須為每個字母都標注正確的音素。例如,字母e在「shed」、「pretty」、「anthem」、「cafe」或「sergeant」中的發音各不相同。謝伊諾斯基和羅森伯格每次進行說明的時候,他們創建的神經網絡都悄悄地調節對每個連接的權重。該系統面臨的最大挑戰是使機器能夠正確發出每個單詞中間部分的音節。為了做到這一點,神經網絡必須使用中間字母左邊和右邊的字母給出的提示。

一天下來,NETtalk已經全部掌握了書中的100個單詞。這一結果令他們感到震驚。接下來,他們讓NETtalk使用有20 000個單詞的韋伯詞典。幸運的是,詞典中的所有音素都已經標注出來了。他們下午把單詞輸入到系統中,然後就回家休息了。當他們第二天早上回到辦公室時,系統已經完全掌握了這些單詞。

最後的訓練數據是一本對兒童說話內容進行謄寫的書,以及一位語言學家記錄的兒童發出的實際音素的清單。這就意味著,謝伊諾斯基和羅森伯格能夠將第一個謄寫本用於輸入層,將第二個音素清單用於輸出層。使用「反向傳播」以後,NETtalk能夠學習如何像孩子那樣說話。一段NETtalk的錄音說明了該系統在這方面取得了飛速的進展。在訓練之初,系統只能夠區分元音和輔音,其發出的噪聲則像是歌手表演前做的發聲練習。在訓練了1 000個單詞以後,NETtalk發出的聲音更接近人類發出的聲音了。謝伊諾斯基說道:「我們完全震驚了,尤其是在當時計算機的計算能力還不如現在的手錶的情況下。」