語言本能：探索人類語言進化的奧秘：語音模式_史迪芬·平克

不同的音素庫存給不同的語言帶來了獨特的語音模式。例如在日語中，[r]音與[l]音是不分的。當我在1992年11月4日抵達日本的時候，日本語言學家山梨正明（Masaaki Yamanashi）見到我的第一句話就是：「我們日本人非常關注克林頓的勃起（erection）。」[2]

即便是面對一段並不包含真實單詞的語音流，我們往往也可以辨析出某種語音模式，例如《布偶秀大電影》（The Muppets）中的瑞典廚師所說的「瑞典話」，或者約翰·貝魯西（John Belushi）扮演的日本武士所說的「日本話」。語言學家薩拉·湯姆森（Sarah G. Thomason）對聲稱能夠與亡靈交流或者「說方言」[3]的人進行過研究，發現他們所說的神秘語言與實際語言有著相似的語音模式。例如一位進入催眠狀態的通靈師宣稱自己是某個生活於19世紀的保加利亞婦女，正在和自己的母親談論鄉間遭受的兵燹之災。這段「偽斯拉夫語」聽起來就像這樣：

Ovishta reshta rovishta. Vishna beretishti? Ushna barishta dashto. Na darishnoshto. Korapshnoshashit darishtoy. Aobashni bedetpa.

當然，如果用一種語言的語音模式來拼讀另一種語言的單詞，這就是「外國口音」。以下這段文字摘自鮑勃·貝爾維索（Bob Belviso）編寫的童話故事《傑克與魔豆》（Jack and the Beanstalk），它是用意大利語的語音模式來拼讀英語單詞的：

GIACCHE ENNE BINNESTAUCCHE

Uans appona taim uase disse boi. Neimmese Giacche. Naise boi. Live uite ise mamma. Mainde da cao.

Uane dei, di spaghetti ise olle ronne aute. Dei goine feinte fromme no fudde. Mamma soi orais, 「Oreie Giacche, teicche da cao enne traide erra forre bocchese spaghetti enne somme uaine.」

Bai enne bai commese omme Giacche. I garra no fudde, i garra no uaine. Meichese misteicche, enne traidese da cao forre bonce binnese.

Giacchasse!

到底是什麼規範了語言的語音模式呢？它顯然不只是音素的簡單相加，例如下面這些字母組合：

以上出現的所有音素都可以在英語中找到，但任何一個以英語為母語的人都能發現它們的區別：雖然「thale」「plaft」「flutch」不是英語單詞，但卻可以成為英語單詞；而剩下的組合則既不是英語單詞，也不可能成為英語單詞。可見，說話者一定具備了某種隱性知識，知道本民族語言的音素的連接方式。

音素並不是以直線的形式、從左到右地裝配成單詞的。與單詞、短語一樣，它們先是組成一個個單元，然後再組成更大的單元，最終形成一種樹形結構。每個音節開頭的輔音群（C）被稱作「首音」（onset），跟著的元音（V）和所有輔音被稱作「韻腳」（rime）。

音節的生成規則規定了單詞的合法結構。在英語中，首音可以由一組輔音構成，例如「flit」「thrive」和「spring」，但也必須遵從一定的限制，例如「vlit」「sring」這樣的組合就不行。韻腳則可以由一個元音加上一個或一組輔音構成，例如「toast」「lift」和「sixths」。然而在日語中，首音只能由單個輔音構成，韻腳則必須是一個元音。因此，「strawberry ice cream」（草莓冰激凌）用日語口音來讀就是「sutoroberi aisukurimo」，「girlfriend」（女朋友）用日語口音來讀就是「garufurendo」。在意大利語中，首音可以由輔音群構成，但韻腳尾部不得出現輔音。因此在講述《傑克與魔豆》的故事時，貝爾維索特意使用了這一規則來模仿意大利語的語音模式，所以「and」變成了「enne」，「from」變成了「fromme」，「beans」變成了「binnese」。

首音和韻腳不僅規定了某種語言中可能出現的語音，同時，它們也是人們最為敏感的語音——詞音的構成部件，因此常常被用於各種詩歌或者文字遊戲中。押韻的單詞擁有相同的韻腳，疊聲的單詞擁有相同的首音（或者僅僅是起頭的輔音）。諸如「Pig Latin」「eggy-peggy」「aygo-paygo」等兒童暗語遊戲往往是在首音與韻腳的交界處大做文章，比如英語中的「fancy-shmancy」「Oedipus-Shmoedipus」等意第緒式構詞法。在1964年的熱門歌曲《名字遊戲》（The Name Game）中，如果捨麗·艾麗絲（Shirley Ellis）能夠採用首音和韻腳的說法，就可以不必費那麼多口舌來解釋這些規則了（「Noam Noam Bo-Boam, Bonana Fana Fo-Foam, Fee Fi Mo Moam, Noam」）。

再進一步，音節可以組成更大的節奏單位：「音步」（foot）。

音節和音步可以依據其他規則分為強音（s）和弱音（w），這種強弱分佈決定了每個音節發音時的輕重程度。與首音和韻腳一樣，音步也是詞音中的敏感成分，我們常常在詩歌和雙關語中使用到它。「韻律」（meter）是不同音步的排列方式。如果一串連續音步以「由強到弱」的方式排列，就是「揚抑格」（trochaic）韻律，例如「Mary had a little lamb」（瑪麗有只小羊羔）；如果以「由弱到強」的方式排列，就是「抑揚格」（iambic）韻律，例如「The rain in Spain falls mainly in the plain」（西班牙的雨區多是平原）。在日常對話中，我們通常將咒罵語置於重讀的單詞之前，例如有人問多羅茜·帕克（Dorothy Parker）[4]為什麼最近沒有去聽交響樂，她回答道：「I』ve been too fucking busy and vice versa.」（我不是忙著做事，就是忙著做愛）。此外，雖然一些年輕人喜歡將咒罵語插入單詞中間，但也總是置於重讀的音步之前，比如「fan-fuckin-tastic」（太他媽的棒了）、「abso-bloody-lutely」（絕對地）、「Phila-fuckin-delphia」（該死的費城），可見這一規則依然被嚴格地遵守，如果你硬要說「Philadel-fuckin-phia」，恐怕連街頭的不良少年都要嘲笑你了。

語素和單詞中的音素組合存儲於我們的記憶之中，它們在被實際說出之前還要經歷一系列調整，這些調整進一步規範了語言的語音模式。你不妨讀一讀「pat」和「pad」這兩個單詞，然後再讀一讀它們的「-ing」形式：「patting」和「padding」。在英語的許多方言中，這兩個單詞的讀音完全相同，[t]和[d]的差別不復存在，而消弭二者差別的是一種叫作「閃音」的音位規則：如果一個舌尖塞輔音出現在兩個元音之間，這個輔音的發音方式不再是舌頭靜止抵住齒齦，以積累足夠的氣流，而是改成舌尖輕彈齒齦，旋即離開。這種閃音規則不但適用於兩個語素相連的情況下，例如「pat」和「ing」，也同樣適用於由一個語素構成的單詞。雖然對許多說英語的人來說，「ladder」和「latter」似乎是由不同的音素構成的，並且在心理詞典中代表不同的意思，但它們的讀音其實是一樣的（尤其是在故作莊重的場合下）。因此當談話內容涉及母牛時，一些詼諧之士就會大談特談「udder mystery」（乳房的秘密）、「udder success」（乳房的成功）等諧音詞。[5]

有趣的是，音位規則的應用是一種有著固定步驟的有序操作，就如同一條生產流水線，將單詞依次裝配起來。比如「write」和「ride」，在大多數英語方言中，這兩個單詞中的元音在發音上是有一定區別的，至少「ride」中的「i」發音比「write」中的「i」要更長一些。在某些方言中，比如新聞評論員彼得·詹寧斯（Peter Jennings）、冰球明星韋恩·格雷茨基（Wayne Gretzky）以及筆者所說的加拿大英語（也就是電視劇《加拿大》中麥肯齊兄弟所操的搞笑口音），這兩個元音發音完全不同。「ride」包含的是一個從元音[ɑ]滑向元音[ee]的雙元音，而「write」包含的是一個從更高的元音[ʌ]滑向[ee]的雙元音。但是，無論這個元音如何改變，它都遵循著一個統一的規則：[t]之前不得出現長／低的「i」音，[d]之前則不得出現短／高的「i」音。在電影《超人》（Superman）中，女主人公露易絲·萊恩（Lois Lane）最終以非常難得的理智推斷出克拉克·肯特（Clark Kent）就是超人：他們從來沒有在同一時間出現在同一地點。我們也可以同理推斷說，心理詞典中只有一個「i」，在它被讀出來之前，音位規則會根據它是出現在[t]之前還是[d]之前進行發音上的調整。我們甚至可以猜測，儲存在記憶中的原始的「i」在發音上近似ride中的「i」，而「write」中的「i」則是音位規則的產物。證據是當「i」音的身後沒有[t]和[d]時，比如在「rye」中，它的發音與「ride」中的「i」相同，這顯然是沒有被規則改造的原始形態。

現在請再讀一下「writing」和「riding」。在閃音規則的操作下，[t]和[d]的讀音已經完全一致，但兩個「i」的讀音卻仍舊不同。這是怎麼回事呢？根據上文所述，「i」音的不同完全是因為[t]和[d]的區別，而[t]和[d]的區別已經被閃音規則消除。這表明在規則的應用上，「i」音的變化規則優先於閃音規則。換句話說，這兩個規則在應用上有固定的順序，元音變化在前，閃音變化在後。之所以如此，可能是因為閃音規則的存在是為了讓發音變得更加容易，因此它在由腦到口的加工鏈條中處於更為下游的位置。

元音變化規則還有另一個重要特徵。「i」音不只會在[t]前發生改變，它在許多輔音之前都會發生改變，試比較：

這是否意味著「i」音有5種不同的變化規則，分別用在[z]與[s]、[v]與[f]等5種不同的區別上？顯然不是。這些引起變化的輔音[t]、[s]、[f]、[p]、[k]與它們各自的對應輔音[d]、[z]、[v]、[b]、[g]有一個共同的區別：它們都是清音，而它們的對應輔音都是濁音。因此我們只需要一個規則：「i」的讀音在清輔音之前發生變化。我們可以通過一個事例來證明它是存在於人們頭腦中的真實規則，而不是為了節省筆墨而將5個規則硬湊成一個規則。如果一個以英語為母語的人能夠正確地讀出德語中的「ch」（如the Third Reich），他就會將德語中的「ei」讀成「write」中的「i」，而非「ride」中的「i」。英語中沒有輔音[ch]，所以以英語為母語的人不可能知道關於它的任何音位規則。但是，由於它是清輔音，因此只要元音變化規則對於任何清輔音都有效，那麼以英語為母語的人便會清楚地知道該怎麼做。

這種選擇性變化不僅出現在英語中，也在所有語言中有所體現。音位規則很少由單個音素觸發，它們往往適用於一整類有著某種共同特徵的音素，例如同為濁音，同為塞音或擦音，或者有相同的發音器官。這表明，音位規則並不是將音素看成一串符號，而是透過音素的外在形式，把握其內在的發音特徵。

因此，音位規則操縱的是發音特徵，而不是音素。請讀一讀下面這些動詞過去式：

在「walked」「slapped」和「passed」中，「-ed」讀作[t]；在「jogged」「sobbed」和「fizzed」中，「-ed」讀作[d]。現在你或許已經能夠推斷出這種差別背後的原因了：讀作[t]是因為它跟在[k]、[p]、[s]等清輔音之後，而讀作[d]是因為它跟在[g]、[b]、[z]等濁輔音之後。由此可見，我們的頭腦中必定存在一個特定的規則，它能夠回頭查看詞干的末尾音素，以確定其是否屬於濁音，然後依據檢查的結果來調整後綴「-ed」的讀音。為了證實這一假設，我們可以要求人們念下面這句話：「Mozart out-Bached Bach」（莫扎特比巴赫還巴赫）。動詞「out-Bach」包含了「ch」音，但英語中並沒有這個音。然而，每個說英語的人都會將「out-Bached」的後綴「-ed」讀作[t]，因為「ch」是一個清輔音。我們甚至可以用一些例子來證明後綴「-ed」是以[d]音儲存於記憶之中的，而[t]音則是規則變化的結果。例如單詞「play」「row」不是以輔音結尾的，而每個人都將它們的過去式讀成「plade」和「rode」，而非「plate」和「rote」。在沒有輔音觸發音位規則的情況下，我們聽到的顯然是存儲於心理詞典中的最初讀音，也就是[d]。這一現象揭示了現代語言學的一個重要發現：語素能夠以與其實際發音不同的形式存儲於心理詞典之中。

偏好理論的讀者恐怕還要忍耐一會兒，等我把下一段內容講完。請注意，在「[d]→[t]」變化規則的背後存在著一種奇特的模式：首先，[d]本身是個濁音，它也必須跟在濁輔音之後；[t]是一個清音，它則必須跟在清輔音之後。其次，除了清、濁之外，[t]和[d]在發音上是相同的：它們的發音器官都是舌尖，而且發音方法也相同，即用舌尖抵住齒齦，阻塞氣流，然後再釋放出來。因此，這條變化規則並不是隨意地變更音素，比如在高元音之後將[p]變成[l]，或者隨機挑選其他音素。整個變化過程就像是針對後綴「-ed」實施的一場「外科手術」，將它的發音調整為與其濁音相對應的清音，而保留其他的發音特徵。換言之，在將「slap ﹢-ed」的讀音轉變為「slapt」的過程中，音位規則是將清濁指令連同「slap」的[p]音一起打包，作用於後綴「-ed」之上的，如下所示：

「slapped」中的[t]音與「slapped」中的[p]音形成了匹配關係，是因為它們都是清音。它們在心理詞典中被視作同一個特徵，從而將兩個音段聯繫起來。這種情形在其他語言中也很常見。例如清濁、元音音質、語調等特徵可以為單詞中的各個音素提供一種橫向聯繫，彷彿每個特徵都住在自己的「音層」（tier）中，而不是與某個單獨的音素拴在一起。

可見，音位規則關注的是特徵，而不是音素。它們調整的也是特徵，而不是音素。前文說過，正是一類類特徵的排列組合，才形成了語言中的各種音素。這些事實表明，語音的原子是特徵，而不是音素，這些特徵存儲於大腦之中，成為大腦的操作對象。音素只不過是一組特徵的集合。因此，即便是在最小的語言單位——特徵的層面上，語言也是以組合系統的方式進行工作的。

所有的語言都有自己的音位規則，可它們又有什麼用呢？你或許已經注意到，這些規則可以使發音變得更加容易。對兩個元音之間的[t]或[d]進行閃音處理，可以幫助我們更快地發音，而不必讓舌尖為了積累足夠的氣壓而長時間地保持不動。將單詞詞尾的清音特徵作用於後綴之上，可以使說話者不必先關閉喉頭發詞尾的音，再打開喉頭發後綴的音。乍看之下，音位規則僅僅是一組偷懶的方法。從這個角度出發，人們很容易注意到其他方言中的語音調整現象，並將這種調整歸結為說話者的懶惰。這種心理非常普遍，無論是英國人還是美國人中。例如蕭伯納寫道：

英國人不尊重他們的語音，不肯教他們的孩子好好說它。他們無法正確地拼讀，因為他們擁有的是一套古老的外來字母系統，其中只有輔音（而且不是所有輔音）有一致的發音規則，因此只要一個英國人開口說話，就注定要遭到其他英國人的鄙視。

萊德勒在《如何聽懂美國人的含混口音》（Howta Reckanize American Slurvian）中寫道：

一直以來，語言愛好者都在為美國人說話時的拙劣發音而傷神。那些聽覺敏銳的人不得不承受極大的痛苦和憤懣，聽著人們把「government」念成「guvmint」，把「accessories」念成「assessories」。事實上，無論走到哪裡，我們都受到含混不清的口音的圍攻。

但是，如果這些悲憤者的耳朵能夠再敏銳一些，他們或許就能注意到這樣一個事實：沒有任何一種方言允許人們在發音上敷衍了事。音位規則一手提供方便，一手又把它拿走。一個鄉下人也許會因為將「Nothin』 doin』」中的「g」音省略而遭到嘲笑，但他卻很有可能清晰地發出「police and accident」中的元音[ə]，而那些自以為高人一等的知識分子卻會把它弱化為中性元音[uh]。當布魯克林道奇隊的投手韋特·霍伊特（Waite Hoyt）被球擊中的時候，一位球迷在看台上大聲叫道：「Hurt』s hoit!」（受傷了霍伊特）。喜歡「pahk their cah in Hahvahd Yahd」（即「park their car in Harvard Yard」，把車停在哈佛校園）的波士頓人也喜歡把自己的女兒叫作「Sheiler」（Sheila）和「Linder」（Linda）。1992年，馬薩諸塞州韋斯特菲爾德市（Westfield）的居民提交了一份法案，禁止本市學校僱用任何「帶有口音」的外來教師——這可是千真萬確之事。一位具有懷疑精神的女士曾給《波士頓環球報》（Boston Globe）寫信，說自己當年的老師—— 一位土生土長的新英格蘭人曾用「orphan」和「often」來解釋「同音詞」，另一位搞笑的讀者也說自己當年因為將「cuh-ree-uh」拼寫成「Korea」，將「cuh-ree-ur」拼寫念成「career」而讓老師氣憤不已。不過，很快，這個提議就被撤回了。

我們有充足的理由說明為什麼音位規則要對發音上的「懶惰現象」實施嚴格監管，為什麼所有的方言都不允許它的使用者隨心所欲地偷工減料。說話者的每一次偷工減料都會讓聽者付出腦力上的代價。如果一個社會由懶惰的說話者構成，那麼它也必然是一個勤奮的聽者社會。如果這個社會由說話者說了算，那麼所有的音位規則都將被取消；但如果由聽者說了算，語音就會走上相反的道路，它會迫使說話者在發音時嚴格遵守音位規則，以擴大易混音素的聽覺差異。事實上，許多音位規則也正是這麼做的。例如英語中有這樣一條規則：一個人在發[sh]音時必須將雙唇撮圓，而在發[s]音時則不必如此。這個額外動作的好處是：撮起的雙唇拉長了共振腔的長度，從而加強了將[sh]和[s]區分開的低頻噪聲，聽者也就能夠更加容易地識別出[sh]音。雖然每個說話者同時也是一個聽者，但人性的偽善使我們不敢貿然依靠說話者的遠見和體貼。相反，語言社區的每個成員都寧願接受一套相對嚴格、有張有弛的音位規則，並在牙牙學語的孩提時代就已掌握這套規則。

即便音位規則並未擴大易混音素的聽覺差異，它也可以給聽者帶來好處。它使得語音模式具有可預測性，從而增加了語言的「羨餘性」（redundancy）。據估計，就攜帶的信息量而言，英語文本的實際長度是其所需長度的2~4倍。例如，本書在我的計算機磁盤中佔了900 000個字符，但我的壓縮軟件可以利用字母排列順序的羨餘性，將其壓縮到400 000個字符，而不含英語文本的計算機文件則無法壓縮到這個程度。邏輯學家奎因解釋了為何許多系統都具有羨餘性特徵：

這是對最低需求的一種明智超越。這是一座設計精良的大橋在承受始料未及的壓力時依然屹立不倒的原因所在。這是未雨綢繆的保護之策。這也是為什麼我們在填寫郵寄地址時儘管已註明郵政編碼，卻仍要寫下城市和州名的原因，否則的話，一旦郵政編碼中的某個數字寫得不太清楚，就可能搞砸一切……據傳說，有個王國曾經因為缺少一個馬掌釘而滅亡。羨餘性正是我們防範這種不穩定因素的手段。

多虧了語言的羨餘性，即便將句子中的元音全部替換成「x」，你也能讀懂我所寫的內容（yxx cxn xndxrstxnd whxt x xm wrxtxng xvsn xf x rxplxcx xll thx vxwxls wxth xn「x」）；而如果把句中的元音都去掉的話，辨別起來就更難一些（t gts lttl hrdr f y dn』t vn kn whr th vwls r）。在傾聽別人說話的時候，音位規則所提供的羨餘性能夠補償聲波上的模稜兩可之處。例如，當聽者聽到「thisrip」這個音時，他知道這一定是「this rip」而不是「the srip」，因為在英語中，[sr]這個輔音連綴是不合法的。