讀古今文學網 > 解碼生命 > 第9章 霰彈槍法測序 >

第9章 霰彈槍法測序

如果你最終都不能讓大家明白你的研究成果,那麼你所做的工作就是沒有價值的。

——歐文·薛定諤,1933年諾貝爾物理學獎獲得者

儘管我們現在正以不可思議的速度揭示著人類基因,但是這些成就激發了我更大的胃口,我在考慮一項更為雄心勃勃的計劃。現在我想回過頭來全面觀察整個人類基因組,也就是讀取組成我們每個細胞中的所有染色體遺傳密碼的60億個鹼基對的每一個。儘管我早期的工作說明EST方法是一個可行的方法,但是我一貫的意圖是最終測序整個人類基因組。為了這個目標我不得不發展和嘗試新的途徑。我確信一定有比由全世界的政府基金資助的科學家所信奉的那些方法更好的方法,這些舊的方法正帶著中世紀的原始色彩。

我的批評者經常抱怨說,測序整個染色體,不論是從耗費的財力還是從付出的艱辛來看,我尋找基因所使用的表現序列標籤法都可謂是一種廉價且不夠水準的替代品。我能理解他們從哪來的這種想法:由於沮喪的心情,以及對沃森和其他人設法貶低我的方案的方式的回應,我的確曾經說過比較起人類基因組計劃的估計30億美元的報價,EST法是一個廉價經濟的方法。但我也認為EST法並不能承載讀取整個遺傳密碼的浩大工程;在我的第一篇描述它們的文章中我就表明過這一點,文章中我還斷定EST法在通往最終解讀人類基因組的方法的途中,它將作為決定性的里程碑,顯示基因在大面積深不可測的DNA上所處的位置。

從我1986年涉足基因組學和第二年使用第一台自動DNA測序儀開始,我就夢想著有一個這樣的工廠,在工廠裡一排排的機器在自動解讀DNA密碼。現在我有了歷史上第一台這樣的科學設備並且決意要使用它。如若此夢想破滅,做政府支持的基因組計劃也不失為理想之途。結果基因組計劃就如同在一條長路上緩慢爬行,對我漸漸失去意義。官方把它看作是一宗要耗費大量勞力的事。這個方案的原型是酵母基因組計劃,該計劃花費了10年左右的時間和艱辛勞動,牽扯了幾十個國家的1000多名科學家和技術人員。

每次序列解讀,現行技術僅可以提供幾百個編碼的鹼基對,那麼我們所面臨的挑戰是,要設計出如何迅速讀取整個編碼序列的方法。面對測序數百萬的鹼基對這樣繁重的任務,你如同一個苦行僧侶面對終生的修行苦役。你得學會把DNA打碎成容易處理的較小片段。為了處理它們你可以使用各種方法培育這些DNA片段。只有幾千個鹼基對的小片段可以簡單地移接在標準質體上繁殖;對於有1.8萬個鹼基對以上的小片段,可以使用一種λ細菌病毒或者噬菌體;對於當時認為極其巨大的大約有3.5萬個鹼基對的片段,可以使用一種名叫柯斯載體的特殊質體,在早期的基因組學界幾乎每個人都使用柯斯載體。這種規程是合理的,但是合理的不總是最快的;有時候倒不如隨機安排的好。

在他們費時、耗力又花錢的計劃中,苦行僧首先會小心地把柯斯載體按照生命之書中發現的正確順序排列好。這樣就得到基於柯斯載體的基因組圖譜了。只有在這個作圖階段完成後長老才會給苦行僧錢並祝福他們可以開始一個一個地測序柯斯載體了。在測序之前關鍵的一步是創建圖譜,雖然這可以完成,但要耗費太多的時間。佛瑞德·布拉特納(Frederick Blattner)花了3年時間研究埃希氏大腸桿菌,才把比人類染色體小1000倍的埃希氏大腸桿菌的染色體λ克隆成基因組圖譜,然後他才能開始測序。在人類基因組研究方面,為了建立染色體圖譜,已經消耗10年多的時間和15億美元的資金,但即使這樣該圖譜仍未完成。正如一個生物學家所評論的,「在一個字母一個字母、一個克隆一個克隆地測序人類基因組的漫長過程中,幾個優秀人物將耗去他們整個研究生涯。」[1]

縱觀這些計劃的進展,我堅信有一個更好的方法去完成它。在大規模使用EST方法時,我信任隨機,而不是有序。在建立我的早期DNA測序中心過程中,我也瞭解了DNA序列本身的價值。當時的科學家們處在一種奇怪的狀況中,他們好像害怕真正地投身到DNA測序中,腺嘌呤、胸腺嘧啶、鳥嘌呤及胞嘧啶是複雜的,而且一般通用的方法又是單調乏味低效的。大多數基因組的作圖階段看起來實際上都是為了避免測序DNA而設計的。可是EST數據清楚地表明,在只有幾百個鹼基對的DNA編碼中包含了大量信息:它不僅為繪製到基因組的片段提供了一個唯一的標記簽名,而且往往可以提供足夠的信息查看基因的結構和功能。那為什麼不利用這個序列的信息能量呢?為什麼不把單調乏味的克隆繪製和這種手工式的苦行僧方法擯棄掉呢?

幾年前我提議使用霰彈槍法測序天花基因組時,我就想到過一個替代方案,就是把它的基因組分割為數千段容易測序的DNA片段,然後通過尋找特定的重複序列,再使用個別片段的序列來重建基因組。當你把所有的片段鋪開,然後選擇其中的一個,把它和剩餘的進行對比直到找到相匹配的,對我來說這就像是拼圖遊戲的第一步。這個過程不斷重複直到拼圖被拼接好為止。然而,對於幾千到幾百萬個片段的基因組拼圖,尋找匹配的過程就不得不使用計算機來做了。在研究天花基因組時,我不得不放棄這種方案,因為我沒有必需的計算工具把這些序列重新組合起來。由於EST方法的進步,比如新的數學算法的出現,以及1993年3月在西班牙的比爾巴鄂偶然參加的一次會議,所有這一切不久就都改變了。

我曾經被邀請在一個由聖地亞哥·葛瑞掃利亞(Santiago Grisolia)組織的會議上做一個報告,他是西班牙遺傳學的領頭人物,也是堪薩斯州醫學中心大學生物化學系的高級講師。

我是最後一個做的報告,很多聽眾看起來被我們的EST方法得到的最新結果和TIGR的發現,包括克隆癌症基因震驚了。提問的方向不可避免地轉移到基因專利上來,一個天主教神學家對大會說尋求人類基因專利是不道德的。我問他是否尋求其他物種的基因專利也是不對的。他說不是,我就等他這句話呢。我告訴他TIGR正好測序了一個人類基因,這個人類基因與老鼠的一樣,兩者對應的是相同的一種蛋白質。難道尋求老鼠基因不等於尋求人類基因嗎?

他嚇了一跳,同時堅持認為人類基因組不會與任何其他的物種一樣。當我旁邊和我一對一說話的人們散開後,我面對著一個個子高挑、面容和善、滿頭銀髮的戴眼鏡的人。談到我在新聞輿論上的魔鬼形象,他說:「我想你被大家認為是個頭上長角的人。」這個人是約翰·霍普金斯大學的哈密爾頓·史密斯(Hamilton Smith)。我早就認識他了,他在該領域名氣很大並且獲得過諾貝爾獎。我一見到這個人就很喜歡他;很明顯,他對我和我的科學有自己獨特的看法,並沒有受到別人影響。

海姆(Ham)[14]曾經發現了限制酶,限制酶被比喻成分子剪刀,它可以在精確的位置剪斷DNA鏈。今天,我們發現了數百種限制酶,它們每一個都在一個精確序列把DNA切成薄片。一些限制酶辨認4個鹼基對,比如GTAC,那麼不管它在序列的什麼地方遇到GTAC,它都會把DNA鏈切開。另外一些限制酶只單獨辨認8個鹼基對,平均每隔10萬個鹼基對出現一次特定的8個鹼基對。剪切酶成鍵越多,它對應的位點就越少。海姆的發現有很多應用,如果沒有這些發現,分子生物學就不可能發展到今天這樣的水平。1972年保羅·伯格(Paul Berg)利用限制酶誘導細菌生成異體蛋白,從而開創了現代生物技術的先河。基於所用酶得到片段的大小,第一個基因組圖譜甚至被稱為「限製圖譜」。現在這些圖譜的用處之一是在法庭上對個人進行遺傳指紋識別。

海姆和我跑到一家酒吧裡喝酒,很快我就明白這個低調的人想的只是科學研究的樂趣而不是早年成就的光環。海姆啜飲曼哈頓雞尾酒,而我要了啤酒,他一直盤問我關於測序、序列精確度、自動化技術以及我們發現的基因等情況。我邀請他和我以及一些朋友共進晚餐,他解釋說他今晚得出席一個晚宴,在宴會上他將被作為一個諾貝爾獎盃來炫耀,「真他媽的」他接下來說。我們加入到當地一個飯店舉行的小型歡樂晚會中,這家飯店有真正的西班牙風格,我們在那裡待到凌晨。

晚宴結束後我們返回酒店繼續交談。儘管海姆比我大10多歲,我還是能發現我們在早期教養方面有很多的共同點。我們都喜歡建造建築物的遊戲,都曾被哥哥激勵(不幸的是,海姆的哥哥因為精神疾病被送進醫院了),都受過醫學訓練,海姆也曾被徵入伍並且就駐紮在聖迭戈。他甚至也和威廉·黑塞爾廷有過口角,因為海姆懷疑他試圖阻止競爭對手的論文發表。第二天我邀請他加入TIGR的科學顧問委員會。

第二年,海姆第一次出席了委員會會議,會議期間他舉手問道:「你把這兒稱為基因組研究所。願意做一個基因組測序嗎?」隨後他給我們介紹他研究了20多年的流感嗜血桿菌,解釋為什麼這個細菌比埃希氏大腸桿菌基因組小很多以及一些其他的特性可以讓其成為基因組測序的理想候補者。我一直在尋找一個合適的基因對像來試驗我的全基因組霰彈槍測序法,而且在我腦海裡琢磨過一個想法,即作為一項測試,快速測序埃希氏大腸桿菌並與公共計劃競爭(這一計劃將花費那些苦行僧們13年的時間去完成)。但是我更喜歡測序流感嗜血桿菌的想法。作為測試霰彈槍測序法計劃的對象,流感嗜血桿菌有很多優點,其中包括它有一個與人類DNA相同的成分(G/C鹼基對容量)。現在有一個機會去測試生物體的第一個基因組,一個海姆非常熟悉的生物體。

我們的首次合作一開始進展很慢,對此海姆解釋說,在生產含有流感嗜血桿菌基因組片段的克隆文庫時存在一些問題。只是在幾年後,他才坦率說出他的約翰·霍普金斯大學的同事對我們的計劃不為所動,由於沃森和其他一些人對我的攻擊,他們都用懷疑的眼光看我,而且也害怕他和我們結交會毀掉他的聲譽。即使他們中很多人將會把整個研究生涯花費在流感嗜血桿菌上,但是卻不能立即明白得到它的整個基因組序列的價值。海姆的一個博士後竟然問他,「我在這裡面會得到什麼好處?」他們的目光短淺且漠不關心迫使海姆繞開他的小組,就像我幾年前為EST方法所做的一樣。

不過,海姆認為他可以用嗜血桿菌製作一個文庫。儘管當時的計算機只要有1000個序列就會堵死,但是現在我們有一個更好的程序可以重新拼接片段。海姆曾經建立了一些模型去模擬這種拼接,他認為實現2.5萬的片段測序是可能的。雖然TIGR小組是充滿熱情的,但曾經設計過TIGR「彙編」算法的格蘭傑·薩頓(Granger Sutton)也不能確定代碼是否能承擔把所有的測序DNA放回一起成為一個由180萬個鹼基對組成的完整基因組的任務。正如他擁有安靜的性格一樣,格蘭傑也很謙虛:他的彙編程序事實上剛剛把超過10萬個EST序列連接成對應的DNA串,我確定他的算法可以處理流感嗜血桿菌基因組。

在1994夏天,我著手申請一筆NIH的基金資助,提交了一份嘗試我們新方法的申請。自然地,因為涉及相關政策我感到憂慮,NIH可能不會支持我們的新提議。海姆和我等不及答覆就開始著手嘗試新方法了。政府機構的酵母和埃希氏大腸桿菌基因組計劃已經獲得幾年的基金支持了,如果我們使用這種新方法勝過他們,這將會是一個意義深遠的里程碑:通過解讀這種有200多萬鹼基對的人類細菌的密碼,我們將會是第一個解碼一個非寄生有機體基因組的小組。我決定挪用一部分TIGR的預算,大約100萬美元,去支持流感嗜血桿菌基因組計劃,而不是為一個來自NIH可能的拒絕再等待9個月。這是一次賭博,但是我確信我一定會贏。

4個月後我們得到了2.5萬個流感嗜血桿菌的DNA片段的序列,而且格蘭傑小組已經行動了。幾周之後得到數據看起來是有希望的,從這些碎片中組合出幾個非常大的片段。但是許多的小片段還是無法解釋,它們是怎樣安置在環狀染色體上的,這一點還是不很清楚。

這些結果辜負了我們偉大的基因組夢想,我們夢想著所有來自於基因組的DNA複製體都是在埃希氏大腸桿菌中培植而且測序的,然後這些序列在計算機中比較和拼接,直到最後整個染色體跳出來。有很好的生物學原理解釋為什麼很少有這樣的結果。分子生物學中有一個與生俱來的缺陷是,總是依賴於在埃希氏大腸桿菌中培植外來DNA片段。一些DNA明顯對埃希氏大腸桿菌是有毒的,那些特別的片段會被細胞機制刪除掉。由於在我們的環境中到處都是DNA在傳播,包括通過病毒,因此限制酶也被細菌用來保護自己不受外來DNA的侵襲。

儘管如此,基因組缺失碎片之謎讓我充分意識到基因組圖譜會幫助我們排列序列和拼接片段,如同一個完整拼圖的照片會幫助我們拼裝拼圖一樣,即使有些片段已丟失。如同過去水手們使用簡單粗糙的航海工具去尋找他們的航線一樣,多年以來遺傳學家們也曾使用各種各樣的圖譜:例如,他們可以製作一種叫作功能圖或連鎖圖的圖譜。在繁殖過程中,親代生物體中的基因常常——並不總是——被一同遺傳給子代。基因在染色體上離得越遠,它們被傳給下一代的可能越小。通過研究兩個基因被一同遺傳給下一代的頻度,科學家們就可以估計出它們在染色體上的距離並且建立一個連鎖圖。第一個用這樣的方法繪製染色體的人要追溯到20世紀初美國動物學家托馬斯·亨特·摩根(Thomas Hunt Morgan)關於果蠅的開拓性研究。(基因的單位厘摩就是以他的名字命名的,一厘摩大約有100萬個鹼基對。)一厘摩解析度的圖譜長久以來就是遺傳學者的夢想。

另外一種基因繪圖法是尋找給定基因的物理地址:確定它呆在哪一個染色體上,誰是它的鄰居,以及近似在染色體的什麼地方可以找到它。這就是大家所知的物理圖譜。

但是我既不想將關聯圖也不想將物理圖作為測序的先決條件,那是那些政府資助的競爭對手們所做的事情。佛瑞德·布拉特納小組已經花費了3年時間去發展一個埃希氏大腸桿菌的λ克隆圖,最後的結果只是一個傳統基因技術的一流表演而已。1.8萬個鹼基對的克隆體疊成基因組就好像一塊塊樂高搭建玩具[15]。但是我不需要去繪製這樣的圖譜。如同任何一個玩過拼圖遊戲的人所知道的,如果你利用了邊緣或其他可辨認的特點,那麼即使你不知道較大的圖像,也可以從底到頂地把拼圖搭起來。畢竟,DNA序列自己最終是物理圖譜,即所有的鹼基對的確切順序都將被給出。

在沒有任何流感嗜血桿菌基因組圖譜的情況下,我們發展了幾種新的方法把大的片段集合拼接起來重新創造基因組。其中一種叫作PCR(基因擴增儀)的技術,我們用它從基因組裡克隆DNA。兩種被叫作引物的化學試劑決定了被克隆區域的開始和結尾。我們將使用的引物附於組合片段末端的序列,然後我們在每一個引物的聯合體間使用PCR,即依次從每個序列的末端使用一個PCR探針,而在其他的組合末端使用其他的PCR探針。如果基因組裡的任何DNA片段增強了,我們就很快地對它測序。這個序列然後會連接和排序這些片段裡的兩個。通過同時處理多重的復合體,我們可以相對快速地定位絕大多數的基因組。

PCR方法並不能處理每一個缺口,所以我提出了一個新穎的想法,該想法將會改變我們的測序方式尤其是人類基因組的測序方式。我們一旦使用計算機來盡可能地去拼接2.5萬個嗜血桿菌基因組的全部片段時,最後得到叫作重疊群(該名來自於連接一詞)的較大碎塊,該碎塊由一套重疊的DNA片段組成。為了把重疊群裝配成基因組,我想我們可以從幾百個任意λ克隆體的兩端比較序列。如果一個λ克隆體的一端與一個重疊群相匹配,另一端與另一個重疊群匹配,那我們自然就知道這兩個重疊群的次序和定位了。我們不得不設計一些新的方法去排序λ克隆體的端點,但是這項工作進展得很快。甚至從最初的幾對端序列,我們就可以把序列集以正確的順序連接起來。這種「配對端點」策略就如同知道了分開兩個基因拼圖特徵的碎片的確切數目一樣,並且成為全基因組霰彈槍法的關鍵。我們不久就得到了這個細菌的完整基因組,僅僅缺少了幾個序列間斷,而且我們有把握認為我們已經發現了制勝的策略。

基因組測序會議很快就要舉行了,我想在會上提出我們的結果。儘管我們對自己所取得的成功感到驕傲,而且我也盼望著會議的到來,但我更喜歡在有人打擊我們這個重要的劃時代工作之前徹底完成我們在洛克維爾的工作。我的關於如何開始測試的離奇想法,走到現在幾乎接近取得突破,即歷史上第一個非寄生生物的基因組將被測序。現在我們離真正的成功是如此接近,我可不想失去這次機會。

當年9月,羅伯特·弗萊施曼(Robert Fleischman)在南卡萊羅納的希爾頓海德舉行的基因組會議上描述了我們的結果的主要部分。我覺得報告贏得了很好的認可,但是當鮑勃·沃特斯頓[16](Bob Waterston)站起來抨擊我們的方法是無效的時我們驚呆了。他認為我們的方法永遠不會有效的,最後我們只能得到11個片段,這些片段不能以任何次序排列。海姆尤其不安,甚至直到今天提到沃特斯頓在1994年的攻擊時他還是感到不安。

在我們回到洛克維爾不久,我們就收到了NIH關於我們在年初時候提交的嗜血桿菌基金申請的答覆,結果意料之中,也是必然的。得分很低,甚至連得到基金的分數都不夠。評閱人的意見反映了基因組學界的看法:就如同沃特斯頓一樣,他們認為我們的計劃(已經開始實施了)是不會奏效的,甚至都不值得嘗試。令我有一點欣慰的是在NIH的一種(非常罕見的)少數派報告方式的回應中,一小群同行評閱者不同意大多數人的觀點,他們認為我們的計劃應該被資助。

我把這份拒絕信釘在我的辦公室門上。直到那時,我仍毫不懷疑我們一定會成功。海姆和我決定提出對那些批評的辯駁,並且請求弗朗西斯·科林斯直接支持該項目。我們列舉了最新的數據,這些數據顯示我們很有可能在很短的時間內得到有史以來的第一個基因組序列。我給弗朗西斯打電話告訴他我們可能的成功,並且向他保證我們的目的並不是阻礙他的NIH計劃而只是想簡單地想從它那裡得到資助。幾周後當我們收到NIH基因組中心的支持NIH否決意見的信件時,我們都感到震驚。信件的簽名是羅伯特·施特勞斯伯格(Robert Strausberg),當時他是測序基金部的頭。當鮑勃後來加入TIGR後,他向我表白他的職位要求他寫那份拒絕信,雖然他認為我們會成功的。

這非但沒有讓我們感到氣餒,反而激發了我們決心證明批評者們是錯誤的,沒過多久流感嗜血桿菌序列的最後一個缺口也被我們填上了。我們已經成為第一個測序活生物體遺傳密碼的團隊了,同等重要的是我們在完成這項工作中發展出一種新方法「全基因霰彈槍測序法」,憑藉著該方法我們可以在電腦中很快(比任何其他的對手快20倍)測序和重構一個完整的基因組,而且不用基因組圖譜。我們當然要感謝桑格,但是我們實現的東西與桑格的有非常重要的差異。桑格在他開創性的工作中所測序的病毒是無生命的結構複雜的有機物,為了繁殖病毒需要掠奪其他生物的細胞。為了測序基因組,桑格把這種病毒的基因組用限制酶打碎,所以他的霰彈槍方法不是真正任意的。儘管桑格也用計算機把這些碎片重新拼在一起,但是他的軟件如果用來處理我們這麼多的數據時,就會堵塞以致停止。