讀古今文學網 > 語言本能:探索人類語言進化的奧秘 > 為什麼語音識別如此之難 >

為什麼語音識別如此之難

那麼,為什麼我們已經可以將人送上月球,卻製造不出一台具有聽讀功能的計算機呢?根據我前面的解釋,每個音素都擁有一個專有的聽覺簽名:對元音來說是一組共振,對擦音來說是一段噪聲,對塞音來說是一個氣流的爆破過程。按部就班的音位規則以可預測的方式對音素的排列次序進行規範調整。假設我們可以循著這些規則原路返回,想必就可以回到最初的起點。

語音識別之所以如此困難,是因為人類的大腦和口頭之間存在許多齟齬之處。世界上沒有兩個人的聲音是相同的,無論是聲道形狀還是發音習慣,都存在個體差異。說話的語氣和速度也會影響音素的聽覺效果。在快速交談的時候,許多音素會被直接略過。

但是,為什麼我們目前還無法製造出一台電子速記設備?主要原因就是一種肌肉控制現象的存在:「協同發音」(coarticulation)。假設在你面前放一個碟子,在碟子旁邊30厘米的地方放一個咖啡杯。現在要求你快速地觸碰一下碟子,然後再拿起咖啡杯。顯然,你會選擇觸碰離咖啡杯最近的碟子邊緣,而不會觸碰碟子的中心。而且,在你的手伸向碟子的同時,你的手指就已經做出了觸碰碟子邊緣的姿勢。這一組平穩、自然的重疊動作是運動控制的一個普遍現象,它縮小了身體移動的必要力量,降低了關節的勞損度。在這一點上,舌頭與喉頭也不例外。當我們要發一個音素的音時,我們的舌頭無法瞬間判斷出自己應該抵達的目標位置。舌頭是一塊份量不輕的肉,它的移動需要一定的時間。因此在舌頭移動的過程中,我們的大腦就已經通過軌道的計算,預測出了它的下一個位置,正如觸碰碟子、拿起咖啡杯的操作一樣。在條件允許的範圍內,我們總是將舌頭放在離下一個音素的發音位置最近的地方。如果當前的音素並沒有要求發音器官必須處於怎樣的狀態,我們就會預測下一個音素的發音位置,並將發音器官提前擺好。但大多數人根本察覺不到這種調整,除非被有意提醒。請念一下「Cape Cod」(科德角),如果不是本書提醒,你可能永遠都不會注意到這一點:在發這兩個[k]音時,舌面的位置其實不同。此外,「horseshoe」中的第一個[s]音變成了[sh]音,「NPR」中的[n]音變成了[m]音,「month」和「width」中的[n]音和[d]音的發音位置是齒部,而不是通常的齒齦。

由於聲波對共振腔的形狀極其敏感,因此這種協同發音會對語音造成嚴重干擾。每個音素的語音特徵都染上了前後音素的色彩,有時在其他音素的組合下甚至會喪失自己的語音特徵。這就是為什麼我們無法將錄有「cat」一詞的磁帶進行剪裁,從中找出包含一個單獨的[k]音的片段的原因。當你一路剪下去時,你得到的片段最終會從一個類似[ka]的音演變為類似一聲「喳喳」聲或口哨的聲音。從理論上說,語流中的音素疊加現象對語音識別器來說是一個福音。正如我在本章開頭部分提到的,輔音和元音的信號被同時傳遞出來,這極大地提高了音素的發音速度。此外,我們可以為每個給定的音素找到大量羨餘的聲音線索。但是,只有高度發達的語音識別器才能享受這一便利,這個識別器必須對聲道的混音機制有所瞭解。

顯然,人類的大腦就是這樣一台高度發達的語音識別器,但沒有人知道它是如何做到的。出於這個原因,研究語音知覺的心理學家和設計語音識別裝置的工程師密切關注著彼此的研究工作。語音識別的難度大得驚人,從理論上說,我們或許只能找到僅有的幾條解決方案。在這種情況下,大腦的工作原理可以為語音識別裝置的設計提供最好的參考,反過來說,一台語音識別裝置也可以幫助我們瞭解大腦的工作原理。

在言語研究的早期階段,人們已經發現聽者能夠預測說話者可能要說的內容。這種預測可以縮小聽者對語音信號的分析範圍。我們已經注意到,音位規則能夠提供一種可資利用的羨餘度,但人類的能力並非僅限於此。心理學家喬治·米勒曾用磁帶播放出一些夾雜著背景噪聲的句子,並要求被試複述他們聽到的內容。其中一些句子符合英語語法且合乎情理:

Furry wildcats fight furious battles.

毛茸茸的野貓們發生了激烈的搏鬥。

Respectable jewelers give accurate appraisals.

受人尊敬的珠寶商給出了準確的鑒定。

Lighted cigarettes create smoky fumes.

點燃的香煙散發出嗆人的煙霧。

Gallant gentlemen save distressed damsels.

勇敢的紳士們解救了受困的少女。

Soapy detergents dissolve greasy stains.

柔滑的洗滌劑溶解了油污。

而另一些句子則像「無顏的綠色念頭」一樣,由單詞胡亂拼湊成短語,雖然符合語法,但意思卻十分荒謬:

Furry jewelers create distressed stains.

毛茸茸的珠寶商們散發出受困的污漬。

Respectable cigarettes save greasy battles.

受人尊敬的香煙解救了油膩的戰鬥。

Lighted gentlemen dissolve furious appraisals.

點燃的紳士們溶解了激烈的鑒定。

Gallant detergents fight accurate fumes.

勇敢的洗滌劑與準確的煙霧發生了搏鬥。

Soapy wildcats give smoky damsels.

柔滑的野貓們給出了嗆人的少女。

還有的句子是將短語結構打亂,將相關的單詞放在一起,例如:

Furry fight furious wildcat battles.

毛茸茸打架激烈的野貓戰鬥。

Jewelers respectable appraisals accurate give.

珠寶商們受人尊敬的鑒定準確地給出。

最後是由單詞混亂堆砌而成的句子,例如:

Furry create distressed jewelers stains.

毛茸茸的創建受困的珠寶商們污漬。

Cigarettes respectable battles greasy save.

香煙受人尊敬的戰鬥油膩的拯救。

結果顯示,人們最擅長準確地複述那些既符合語法又合乎情理的句子,其次是符合語法但毫無意義的句子和不合語法但稍有意義的句子,最差的是不合語法又毫無意義的句子。

The

Instinct

Language

語言認知實驗室

數年之後,心理學家理查德·沃倫(Richard Warren)也進行了一個類似的實驗,他將一些句子的錄音放給被試聽,例如「The state governors met with their respective legislatures convening in the capital city」,只不過他將「legislatures」的第一個「s」剪掉,換上一個咳嗽的聲音。結果聽者根本沒有注意到這個被去掉的聲音。

如果我們將聲波認定為語言結構層級的最底層,即由聲音到音素,由音素到單詞,由單詞到短語,由短語到句子,最後由句子到思想,那麼我們所揭示的現象似乎表明,人類的語音知覺似乎採用的是由上而下,而非由下而上的工作機制。或許我們一直都在自覺或不自覺地利用所有可供支配的知識,猜測說話者下一句將要說出的內容:從協同發音對聲音的扭曲影響,到英語的各種音位規則和語法規則,再到有關現實世界的人際關係的固有印象,以及對說話者此時此刻心中所想的推斷。如果這些預測足夠準確,那麼大腦的聲學分析就可以不必那麼精確,聲波缺失的內容可以由背景知識來填補。舉例而言,如果你正在聆聽一場有關生態破壞的報告,你會特別留心與瀕危動植物相關的單詞,當你聽到一個含混的發音「eesees」時,你能夠將它正確地理解為「species」(物種),除非你是《週六夜現場》那位耳背的新聞評論員艾米麗·萊特娜(Emily Litella),對保護瀕危糞便(endangered feces)[6]運動大加鞭撻。事實上,喜劇明星吉爾達·拉德納(Gilda Radner)扮演的一些角色之所以許多笑話迭出,例如義正詞嚴地反對拯救「蘇聯珠寶」(Soviet jewelry)[7]、譴責制止「街頭小提琴」(violins in the streets)[8]、反對保護「自然賽馬」(natural racehorses)[9],並不是因為底層的語音處理系統出了問題,而是因為上層的知識結構存在缺陷,這個知識結構本可以阻止她得出錯誤的理解。

語音知覺由上而下的工作機制讓某些人深感不安,它驗證了相對主義的哲學理論:我們想聽到什麼,就聽到了什麼,我們的認識決定了我們的知覺,最終而言,我們與客觀世界並沒有直接聯繫。從某種意義上說,任由上層擺佈的知覺的確是一種受到控制的幻覺,這正是問題所在。一個感知者如果必須仰仗自己的預測,那麼他顯然處於十分不利的位置,因為這個世界是無法預測的,即便在最好的條件下也是如此。我們有理由相信,人類的語音知覺在很大程度上來自於客觀的聲音。

如果你有一個不怕麻煩的朋友,你可以嘗試下面這個實驗。首先,從詞典裡隨機挑選出10個單詞,然後給這位朋友打電話,將這10個單詞清楚地報給他聽。你的朋友很可能僅僅依靠聲波以及英語詞語、語音方面的知識,就足以將這10個單詞拼寫下來。此時,你的朋友不可能用到短語結構、背景知識或者故事情節等更高層級的預測能力,因為一組隨機出現的單詞提供不了任何相關信息。雖然我們在嘈雜的環境下會求助於更高層級的概念知識(即便在這種情況下,我們也無法確定到底是知識改變了知覺,還是它僅僅讓我們能夠在事後做出合理的猜測),但我們的大腦似乎天生就能夠將聲波所攜帶的語音信息完全提取出來,我們的第六感或許是將語音感知為語言,而非聲音。但它畢竟是一種知覺,是將我們和外部世界聯繫起來的媒介,而不僅僅是一種暗示性的幻覺。

還有一種現象可以證明語音知覺並不是一種源自幻覺的期待,這就是專欄作家喬恩·卡羅爾(Jon Carroll)所說的「幻聽」。卡羅爾曾經聽錯了蘇格蘭民謠《莫雷的伯尼伯爵》(The Bonnie Earl O』Moray)的歌詞:

They have slain the Earl of Moray,

And laid him on the green.

他們殺死了莫雷的伯爵,

並將他放在了青草地上。

他一直以為這兩句是「They have slain the Earl of Moray, And Lady Mondegreen」(他們殺死了莫雷的伯爵和莫德格林夫人)。幻聽是一種非常普遍的現象(它是前文提到的「the Pullet Surprises」和「Pencil Vaneas」的升級版),例如:

A girl with colitis goes by.

一個患有結腸炎的女孩走了過去。

A girl with kaleidoscope eyes.

一個雙眸如萬花筒的女孩。——出自甲殼蟲樂隊歌曲《綴滿鑽石天空下的露西》

Our father wishart in heaven; Harold be they name …Lead us not into Penn Station.

我們在天上的父威沙特,哈羅德是他們的名字……不要讓我們進入賓州車站。

Our father which art in Heaven; hallowed be thy name …Lead us not into temptation. From the Lord』s Prayer.

我們在天上的父,願人都尊你的名為聖……不叫我們遇見試探。——出自《主禱文》

He is trampling out the vintage where the grapes are wrapped and stored.

他正在踩踏摧毀包裹、儲藏葡萄的地方。

He is trampling out the vintage where grapes of wrath are stored.

他正在踩踏摧毀儲藏盛怒葡萄的地方。——出自《共和國戰歌》。

Gladly the cross-eyed bear.

快樂的斗眼熊。

Gladly the cross I』d bear.

我欣然背負的十字架。

I』ll never be your pizza burnin』.

我從來都不想成為你的烤比薩。

I』ll never be your beast of burden.

我永不會成為你的負擔。——出自滾石樂隊的歌曲

It』s a happy enchilada, and you think you』re gonna drown.

這是個快樂的辣肉餡玉米卷,而你卻認為自己就要被淹死。

It』s a half an inch of water and you think you』re gonna drown.

這裡的水有半英吋深,而你卻認為自己就要被淹死。——出自約翰·普林的歌曲《世界轉動的方法》

幻聽的有趣之處在於,聽錯的內容通常比歌詞本身更不合理。它們完全不符合一位理性的聽者對說話者表述內容所做的一般預期。在一個案例中,有個學生固執地將駭人藍樂隊(Shocking Blue)的熱門歌曲《我是你的維納斯》(I』m your Venus)聽成了「我是你的陰莖」(I』m Your Penis),他非常奇怪為什麼這樣的歌曲可以在電台中播放。這些幻聽的句子的確符合英語的語音、語法(有時)和詞語(雖然並不總是這樣,例如「mondegreen」一詞本身)。顯然,聽者被一組與語音相符的單詞所引導,這些單詞的組合形式或多或少地符合英語短語的結構規則,但合理性和一般預期卻沒有派上用場。

人工語音識別的研究史也提供了類似的證據。20世紀70年代,在雷伊·雷蒂(Raj Reddy)的帶領下,美國卡內基梅隆大學的一組人工智能研究人員設計了一個名為「HEARSAY」的計算機程序,它能夠依據人們的口頭指令移動棋子。在自上而下的語音知覺理論的影響下,他們設計的程序是一個由許多「專家」子程序構成的「社區」,這些子程序相互合作,對語音信號做出最為合理的解釋,其中有的子程序專門負責聲學分析,有的則負責語音、詞語或者語法,還有的專門負責棋子的走法,甚至下棋時的棋局策略。有一個故事是這樣的:國防部的某位將軍曾經蒞臨研究所,參觀這個由國防部資助的研究項目。當他坐在棋盤前,面對連著計算機的麥克風時,科學家們都不由得捏了一把汗。結果將軍清了清嗓子,程序立刻顯示:「王兵進兩格。」

本章前面提到的最新程序聲龍聽寫更側重於聲學、語音和詞法的分析,這似乎是它更為成功的原因所在。這個程序擁有一部包含單詞及其音素排列的詞典。為了準確預測音位規則和協同發音的影響,設計者讓程序掌握了每個英語音素在任何一個可能音素之前或之後的發音情況。對於每一個單詞而言,這種「音素-語境」關係構成了一個微型鏈條,並附帶有聲音單位的轉換概率。這個鏈條是人類語音機制的原始模型。當現實中的真人使用這個程序時,鏈條中的概率會進行調整,以捕捉說話者的語言習慣。此外,每個單詞也附帶有一個概率,這取決於該單詞在該種語言中的出現頻率和說話者的語言習慣。在這個程序的某些版本中,每個單詞的概率值會依據前面出現的單詞進行調整。這是該程序唯一用到的自上而下的信息。通過這些知識,這個程序能夠計算出輸入語音信號的說話者最有可能說出哪個單詞。即便如此,比起聽力正常的普通人來,「聲龍聽寫」還是更加依賴於預期判斷。在我所觀看的演示中,即便是在發音清晰無誤的情況下,這個程序也要經過一番周折才能分辨「word」和「worm」,因為它一直在計算概率,期待出現頻率更高的「were」的出現。

現在,你已經知道單個語音單位如何產生,它們在心理詞典中如何表徵以及在被說出之前又經過了怎樣的調整和修飾了。接下來就是本章的最後部分,也是最值得探討的一個問題:為什麼英語拼寫體系並不像乍看之下那麼令人抓狂。

當然,人們對英語拼寫體系的抱怨在於:雖然英語單詞的拼寫形式表面上與讀音相符,但實際上卻並非如此。有一首流傳悠久的打油詩說明了這一點,其中一節內容最為典型:

Beware of heard, a dreadful word

That looks like beard and sounds like bird,

And dead:it』s said like bed, not bead—

For goodness』 sake don』t call it 「deed」!

Watch out for meat and great and threat

(They rhyme with suite and straight and debt).

請注意「heard」,一個可怕的單詞

它看起來像「beard」,讀起來卻像「bird」。

還有「dead」,它讀起來像「bed」,而非「bead」。

看在老天的份上可別把它說成「deed」!

還要注意「meat」 「great」和「threat」。

(它們分別與「suite」 「straight」 「debt」同韻)。

蕭伯納曾經積極地倡導英語字母的改革。他表示,英語的拼寫體系完全不合邏輯,例如「fish」一詞就完全可以拼成「ghoti」,因為「gh」在「tough」中發[f]的音,「o」在「women」中發[i]的音,「ti」在「nation」中發[ʃ]的音。此外我們還可以將「minute」拼成「mnomnoupte」,將「mistake」拼成「mnopspteiche」。蕭伯納在遺囑中留下了一筆獎金,用以獎勵替代性英文字母表的設計者。這套字母表的特點是,口語中的每一種聲音都與表中的一個字母符號形成對應關係。他這樣寫道:

要瞭解使用42個音標字母所帶來的年際差異……你必須計算一年有多少分鐘,以及每一分鐘又有多少人在書寫英語單詞,鑄造英文字模以及生產英文打字機。當你面對這個天文數字時,就會充分地意識到,即便是一個音對應兩個字母符號的拼寫體系,也已經讓我們在幾百年的時間裡耗費了無數的多餘精力。一套包含42個字母的新英文字母表將為我們收回巨大的成本,每時每刻都能帶來幾百萬倍的回報。如果這套字母表得到推廣,所有用來區分「enough」「cough」和「laugh」的無謂精力都會被節省下來,簡化拼寫運動將變得多此一舉,而經濟學家和統計學家也能夠動手確立一套標準規範的文字使用規則了。

我並不想為英語拼寫體系進行辯護。雖然語言是一種本能,但書面文字卻不是。歷史上發明的書面文字只有少數幾種,而拼音文字,即字母與聲音相對應的文字,似乎只發明過一次。許多民族並沒有書面語言,那些擁有書面語言的民族也大都是從發明文字的民族那裡繼承或借用來的。兒童必須經過艱苦的學習才能掌握讀書和寫字的本領,拼寫知識的習得過程不存在爆炸式發展,而且有些人始終無法掌握這門技藝。由於缺乏教育而大字不識在世界上許多地方都是一種普遍現象。難語症(dyslexia),是一種被認為由於先天缺陷而導致的閱讀障礙,即便在工業化社會它也是一個嚴重問題,其患者人數約占總人口的5%~10%。

但是,雖然書面文字是一種連接視覺和語言的人工裝置,但它必須和語言系統形成清晰明確的對應關係,這使它也擁有了一定的邏輯規則。在所有已知的書寫系統中,文字符號通常指代三種語言結構:語素、音節或音素。如美索不達米亞的楔形文字、埃及的象形文字、漢語的意音文字以及日文漢字都屬於語素文字;徹羅基語、古塞浦路斯語以及日文假名都是音節文字;而現代所有的音素文字似乎都源自公元前1700年的迦南人發明的一套拼音符號。總之,沒有一套書寫系統的符號與實際的聲音單位相對應,使之可以在示波器或者聲譜圖上被識別出來,例如一個在特定語音背景下的音素發音,或者一個被攔腰斬斷的音節。

為什麼沒有一個書寫系統符合蕭伯納的理想?為什麼不能用一個符號對應一個聲音?就像蕭伯納自己在其他場合所說的一句話:「生活中只有兩個悲劇:一個是沒有得到你想要的,另一個是得到了你想要的。」只要回想一下音位規則和協同發音的工作原理,我們就可以明白其中的道理。一套標準的蕭式字母將不得不區分「write」和「ride」中的不同元音,又不得不區分「write」和「writing」中的不同輔音,另外還要用不同的拼寫方式來分別代表「slapped」「sobbed」和「sorted」的過去式後綴。「Cape Cod」將失去字面上的疊聲形式,「horse」(馬)的拼寫到了「horseshoe」(馬蹄)中就要發生改變。「National Public Radio」(國家公用無線電台)的縮寫將莫名其妙地變成「MPR」。我們需要用新的字母來表示「month」中的「n」和「width」中的「d」。我也許可以將「often」拼得與「orphan」不同,但我的在線好友恐怕就不會這樣。反過來說,我的網友拼出的「career」也許和我拼出的「Korea」一模一樣。

顯然,字母不能也不應該和聲音形成對應關係,它們最多只能對應到心理詞典中的某個特定音素。實際的語音會根據不同的語境發生變化,因此,絕對的音位拼寫只會模糊它們的內在身份。表層的語音可以通過音位規則進行預測,因此,我們沒有必要製造出一大堆雜亂無章的符號代表實際的語音。讀者只要掌握單詞的基本架構,就可以在需要的時候還原它的讀音。事實上,大約有84%的英語單詞是可以依據規則進行預測和拼寫的。此外,由於時間和地理的阻隔,方言的音位規則存在許多差異,而正是這些音位規則將心理詞典中的各個條目轉換為實際語音。因此,一套與心理條目而非實際語音相對應的拼寫體系可以為人們所通用。而那些拼寫方式頗為古怪的單詞(例如「of」 「people」「women」 「have」 「said」「do」「done」「give」)通常都是最為常用的單詞,因此人們有充分的時間去記住它們。

此外,即便是拼寫體系中較難預測的部分也表現出潛在的語言規則。請看下面這幾對單詞,每對單詞中都有相同的字母發不同的音的情況:

根據以上情形,我們可以為發音不同但拼寫相同的現象找到另一個原因:它可以幫助我們識別源自相同詞根的不同單詞。這表明,英語的拼寫體系並不完全以音素為基礎。在某些時候,英語字母的確代表音素;但在有的情況下,一組字母序列可以用來代表一個特定的語素。實際上,語素拼寫體系往往比你想像的更為有用。畢竟我們閱讀的目的是理解文章的意思,而不是把它朗讀出來。語素拼寫體系可以幫助讀者區分同音異義的單詞,例如「meet」和「mete」。它還可以提示讀者一個單詞中包含了另一個單詞(而不僅僅是一個語音上的冒牌貨)。例如,語素拼寫告訴我們「overcome」中包含了單詞「come」,因此它的過去式一定是「overcame」,而「succumb」雖然也包含了[kum]的音,但語素卻並不是「come」,因此它的過去式不是「succame」而是「succumbed」。同樣,「recede」的名詞形式是「recession」,而它的同音詞「re-seed」的名詞形式則是「re-seeding」。

從某種程度上說,語素拼寫體系一直為漢語使用者提供著良好的服務,儘管它也存在一些先天缺陷,例如當讀者遇到一個新字或罕見字時,就會感到無從下手。互不相通的方言可以共用一種書面語言,即便說話者南腔北調。同樣,現代人也可以讀懂數千年前的眾多歷史文獻。馬克·吐溫曾經說過我們自身的羅馬文字系統的這種惰性現象:「他們把它寫成『Vinci』,卻把它讀作『Vinchy』,外國人在拼寫上總是比發音要好。」

當然,英語拼寫體系還有不少可以改進之處,但它的表現已經比人們想像的要好得多,這是因為拼寫體系並不需要對應實際的語音,它的作用是代表潛藏於語音之下的抽像的語言單位,因為這才是我們真正聆聽的對象。


[1] 漢普蒂·鄧普蒂(Humpty Dumpty):英國童謠中從牆上摔下跌得粉碎的蛋形矮胖子。——譯者注

[2] 山梨正明故意用日本口音來說「election」(大選)一詞,使之聽上去像「erection」(勃起)。——譯者注

[3] 說方言:特指在宗教拜神儀式中講出一些不為人知的語言。——譯者注

[4] 20世紀美國作家,其作品常具諷刺意味。——編者注

[5] 「udder」為乳房的意思,與「utter」(徹底的)同音。——譯者注

[6] 實際為「endangered species」,瀕危物種。——譯者注

[7] 實際為「Soviet Jewry」,蘇聯猶太人。——譯者注

[8] 實際為「violence in the streets」,街頭暴力。——譯者注

[9] 實際為「natural resource」,自然資源。——譯者注