讀古今文學網 > 解碼生命 > 第13章 向前飛 >

第13章 向前飛

遺傳的基本方面最後應該是格外簡單的,這個信念支撐著我們的希望,即畢竟自然可能是完全可接近的。她被過分宣傳的神秘莫測再一次被發現是由於我們的無知而引起的錯覺。這是令人鼓舞的,因為如果我們生存的世界像我們的一些朋友要我們相信的那樣複雜,我們可能會相當失望,因為生物學將永遠也不能成為一門精確科學。

——托馬斯·亨特·摩根,《遺傳的本質》

很多人問我,為什麼在這個星球的所有生物中我選擇了果蠅,就好像也有很多人問我為什麼不直接測序人類基因組。事實是我需要一個測試平台;我需要進行概念驗證。在我花費近一億美元用我未經試驗的方法測序人類基因組之前,我需要某些安心尺度。而每個生物學家都知道,在這個小飛蟲上開展的研究曾擴大了生物學尤其是遺傳學的陣地。

果蠅的品種包括醋蠅、酒蠅、油渣蠅、葡萄蠅還有水果蠅等總共大約2600個品種。但是任何科學家一聽到果蠅這個詞就立刻想到其中一種,即黑腹果蠅。因為它的繁殖既容易又快,這種空中飛的小東西對進化生物學家而言是一種理想的模型生物。他們用它來認識從受精到長成成蟲的過程中的奇跡。在生物學家們提出的諸多真知灼見中,果蠅研究曾幫助人們揭示同源基因的作用,後者是控制所有生物基本形體的基因。

任何一名遺傳學的學生都對美國遺傳學之父托馬斯·亨特·摩根的果蠅研究耳熟能詳。1910年,他在一群野生紅眼果蠅中發現一隻白眼的雄性變種。他把這只白色眼睛的果蠅和一隻紅色眼睛的雌性交配,發現它們的後代都是紅眼睛的:該特徵是隱性的,我們現在知道,果蠅要長成白眼,需要來自父母各自基因的複製體都為白眼。當摩根繼續在這些變種間進行雜交時,他發現只有雄性表現出了白眼睛的特徵,於是他推論該基因可能是在性染色體上(Y染色體)。他和他的學生在一家企業裡又研究了幾千隻果蠅的這種遺傳特徵,時至今日這些研究還在世界上很多的分子生物實驗室裡進行著。有人估計全世界有超過5000人在研究這種小昆蟲。

我第一次直接感受到這一研究的價值是在我用果蠅基因的cDNA文庫做關於腎上腺素受體研究的時候,研究揭示了果蠅中的等價物——章魚胺受體,解釋了果蠅和人類的神經體系的共同進化遺傳。當我正試圖理解人類大腦cDNA文庫時,最具啟發作用的發現,來自於計算機匹配果蠅基因時,我們非常熟悉的果蠅基因暗示了相似的人類基因的可能功能。

果蠅基因組測序計劃是在1991年發起的,當時加州大學伯克利分校的格裡·魯賓和卡內基研究所的艾倫·斯普雷丁認定開展果蠅基因組計劃的時機已經成熟。那是在1998年的5月份,當時伯克利果蠅基因組計劃已經進行了NIH基金資助三年中的頭一年,並且已經完成了25%的測序,我在那次聲名狼藉的冷泉港會議上提出了這個建議,魯賓承認說「它是太好了以致無法拒絕」。然而出於同樣的原因,我的策略卻是危險的:我們的每一個基因字母都會被全世界接近一萬名果蠅科學家拿去研究,並且格裡的高質量的基因組數據會被人用來作為一個標準去衡量我們自己是否確有任何過人之處。最初的計劃要求在6個月內完成果蠅基因組測序,即在1999年的4月,以便我們準備好對人類基因組發起進攻。我很難想像再有什麼更為理想和公開的方法去證明我們的新策略是奏效的了。我安慰自己:如果我們失敗了,至少是很快地在果蠅這個項目上失敗的,這比拖到人類基因組時失敗還是要好點。但是事實是任何失敗都會是生物學最為壯觀的災難。現在格裡也已經把他的名聲拴在了這條線上,我們所有塞雷拉的人員都不會讓他倒下的。在該項計劃後期,我要馬克·亞當斯領導這一計劃,因為格裡在伯克利有一個一流的團隊,所以合作進行得很順利。

如同我們在所有的基因組計劃中所做的一樣,我們開始認真考慮我們要測序的DNA。如同人類一樣,果蠅在遺傳等級上是各式各樣的。如果一個族群的遺傳變異超過2%,並且我們有50個不同的個體作為一個樣本群,重組將會是困難的。第一步工作是,格裡去繁殖盡可能多的果蠅從而給我們一個果蠅DNA的同質集合。但是單憑這不足以保證遺傳純度:如果我們從整個果蠅身上萃取DNA,我們還是會有一個大規模的來自於食物和消化道中細菌的污染。格裡選擇從果蠅胚胎中分離DNA以避免這些問題。但是即使是從胚胎裡來的細胞也不得不被剖開分離出細胞核,在細胞核裡有我們想要的DNA,這樣我們就可以避免線粒體動力包中的DNA的污染,後者處於細胞核外。結果就是一瓶裝有果蠅DNA的稀薄溶液。

一旦海姆的小組在1998年夏天收到純果蠅DNA,他們就開始構建DNA片段文庫。對海姆自己而言沒有什麼事情比剪斷和結合DNA更讓他喜歡的了,他把助聽器調低,這樣什麼都不能把他從工作台旁拉開了。文庫本來應該啟動一個工業風格的測序操作,但是我們周圍全是崩鑿斧鋸的聲音。和一群建築工人一起,很明顯我們還在和主要的問題作鬥爭,其中包括調試測序機、自動機械和其他的裝置,我們打算用幾個月而不是幾年的時間白手起家建設一個測序工廠。

直到1998年12月8日,在人們大吹大擂和如釋重負的歎氣聲中第一台3700型DNA測序機才到達塞雷拉。一旦卸去包裝條,我們就把它放置在地下室的一個無窗的房間中,這裡將會是它的臨時住所,然後我們盡可能快地開始了測試運行。當它開始工作後,我們得到了質量非常高的DNA序列數據,但是那些最初的儀器是非常不穩定的。一些剛到就徹底壞了。那些工作的儀器也是不斷地出問題,常常是每天都有問題。控制自動機械臂的軟件也有一個大漏洞,有時這個機械臂會高速飛過這個裝置,砸進牆裡使測序機停下來直到一個修理組來把它裝好。一些機器的激光束飄移不定。我們用錫箔和透明膠帶防止過熱,過熱導致的蒸發使得測序機上的黃色的字母G都褪色了。

雖然現在機器已經如期安裝了,但是起先有將近90%的不能使用。ABI的維修小組人數太少根本不能應付和阻止情況的惡化。有一段時間我們甚至就沒有一台測序機可以正常工作。我曾對邁克·亨克皮勒信心十足,但是當他開始把失敗歸罪於我的小組、施工工程的塵土、不同樓層間的微小的溫度變化、月相等原因時,我對他的信任動搖了。我們中一些人已經因為這個壓力變得非常沮喪。

壞掉的3700測序機被放置在餐廳裡等著運回ABI,它待在那裡靜靜地看著這場危機,最後我們終於不用在這間測序機停屍房裡吃飯了。我的挫折感很快就讓新的恐慌所代替,我每天都需要一定數量的能用的裝置,確切地說就是230台3700測序機。對於7000萬的標價,ABI必須或者給我們提供230台全時工作的儀器,或者提供460台半時工作的儀器。邁克也將不得不把進行培訓的技師增加一倍,從而一旦有機器出故障就可以得到盡快修理。

但是邁克對不增加報酬的任何工作都不感興趣。現在他又有了另一個顧客,公眾基因組,他們已經開始購買幾百台儀器甚至都不加測試。雖然塞雷拉的未來依賴於這些機器,但是邁克看起來並沒有意識到ABI的未來也全靠它們。隨著爭論的升級,這個事件預示著將會是對阿普萊拉董事會和托尼·懷特的膽量的第一次真正考驗。在一次ABI工程師和我的塞雷拉設備管理人員的高級會議上,不可避免地提出了最後的攤牌。

在我們引證了這令人難以置信的失敗率——該定量表示兩次故障和修理之間的平均時間後,邁克又一次試圖歸罪於我的小組,但是這一次甚至他自己的工程師也不認同了。最後托尼·懷特站出來說:「我不關心成功的必要條件是什麼或者我們不得不槍斃誰。」這是他唯一的一次為我挺身而出。他命令邁克盡快提供新的裝置,即使他不得不從別的購買者那裡挪用,即使還不確定這樣做的代價有多高。

他還要求邁克提供超過20個人的修理團隊盡快保證這些儀器的正常工作狀態,並且找出這些問題的根本原因。這個說起來容易做起來就難了,因為缺乏培訓人員。埃裡克·蘭德已經把他最好的兩個工程師拐跑了,一開始據邁克所說這也是我們的過錯。他轉向馬克·亞當斯說道,「你該在別人下手之前就僱用他們。」這句評論使我對他的尊敬降到了一個低點上。事實上,因為我們的協議條款我是不能僱用ABI的人員的,但是蘭德和其他的公共基因組的科學家卻可以自由招募他們,不久這個公司最好的工程師都去為我們的對手工作了。在會議結束後我仍然感到壓力重重,但是也看到了一線希望,這種狀況正在好轉。

事情也的確如此,儘管進展緩慢。我們所進的機器總量從230台升至300台,這樣當有20%~25%的機器出了問題時,我們還有200台或等量的能力去達到我們的目的。技師們的出色工作已經把修理率穩定地提高了,而且損壞時間也縮短了。福斯特市的工程師們努力處理更基本的問題。在整個事件中我都堅持一個想法:我們所做的一定要成功。有一千個理由我們會失敗,但是對我來說失敗是絕不可能讓我接受的。

4月8日,我們開始認真地測序果蠅基因組,我們本來計劃在此時間前後完成工作。雖然我知道懷特想讓我出局,但是我還是盡力和他合作以達到我的目的。壓力和擔憂當然也伴隨著我回到家裡,但是我最好的紅顏知己也是我最不能和她分享我的問題的人。對我一頭扎進塞雷拉而且看起來又在重複TIGR/HGS的錯誤,克萊爾已經明確地表示了她的蔑視。到了7月份我開始感到格外的情緒低落,這種感覺我以前只在越南經歷過一次。

因為生產線流程還沒有建立和運行,所以我必須經受一項懲罰性的苦役——把這些基因組片段重新裝配起來,尋找重疊並且不要讓重複搞得心煩意亂。吉恩·梅爾斯搞出一個算法,該算法使用了我的霰彈槍測序法一個關鍵原理:測序所有複製產物的兩端。因為海姆已經製作了三個精確長度的複製體,我們已知道兩端的序列的精確的距離。像以前一樣,這個「配對策略」會給我們提供一個很好的組織方法把我們的基因組再組合起來。

但是既然每一個端點已經被分別測序,為了讓這個拼接工序發揮作用,我們必須仔細地進行計數以保證我們能夠把每一對端點序列再結合起來:如果我們一百次中有一次不能把一個序列與它的恰當配對者相結合,這次操作就是失敗。一個避免此類事件發生的方法是使用條碼和閱讀器來跟蹤過程的每一步。但是在開始時測序機缺乏這種必要的軟件和裝置,所以我們當時不得不手工操作直到條碼能夠被使用。對於一個老式的測序實驗室這不會構成障礙,但是對於塞雷拉這樣一個不到20個人的小團隊來說,每天處理的最高流量為20萬個複製體。我能想像到會有一些錯誤發生,比如以錯誤的方法讀取一個384孔培養盤,於是使用軟件去發現跡象分明的錯誤方式,然後糾正它。當然還是會有一些小錯誤的,但是這也證明了我們小組的技術和奉獻精神,我們可以處理我們發現的錯誤。

儘管有這麼多問題,我們還是成功地在4個月裡製作了315.6萬個高質量序列片段,大約有17.6億個鹼基對,處於151萬個DNA複製體兩端之間。現在輪到由吉恩·梅爾斯和他的團隊還有我們的計算機去把所有的碎片整理成果蠅染色體。測序準確度隨著碎片的伸長而降低。對於果蠅來說序列平均為551個鹼基對,平均精確度為99.5%。如果我們有兩個序列包含有500對鹼基,其中50%相互重疊,那麼我們大多數會通過滑動兩個序列直到鹼基對相互吻合的方法來尋找交疊點。這是苦行僧們的方法,但是對於霰彈槍測序,世界上還沒有足夠多的苦行僧們來完成這項工作。

對於流感嗜血桿菌而言,我們有2.6萬個序列。把它們每一個都和所有的其他的相比較一次,就是2.6萬平方次,也就是67.6億次,相當於100萬個苦行僧工作一年(一個苦行僧一年手工工作量比較數)。而有315.6萬序列片段的果蠅基因組將需要99000億或9.9萬億次比較。人類和老鼠有2600萬的序列片段,大約需要比較680萬億次。這也許可以解釋為什麼大多數的科學家對這種方法成功的概率表示懷疑。

儘管梅爾斯發誓不能失敗,但是他也有這樣的疑問。到現在他整天工作,看起來慘兮兮的而且筋疲力盡。他的婚姻面臨危機,他開始和當時一個讓我們很頭痛的新聞記者兼作家名叫詹姆斯·史瑞夫(James Shreeve)的人走得很近。為了讓吉恩散散心,我帶他去了加勒比海放鬆,駕駛魔法師號出海。但是大部分時間他都趴在筆記本電腦上,在明亮的陽光下他黑色的眉毛糾結在黑眼睛上。半年中,儘管承受著難以想像的壓力,吉恩和他的小組還是編寫了一個50多萬行的計算機編碼的新的拼接程序。

如果序列數據是百分之百的準確而且也沒有重複的DNA,那麼基因組拼接就會是一個相對簡單的任務了。但事實上,基因組充滿著各種類型、各種長度和頻率的重複DNA。就像在一個拼圖上,一個巨大的伸展開的藍色天空一樣。由少於500個鹼基對組成的較短的重複片段是相對容易處理的:它們比一個單獨的序列片段要短,所以它周圍唯一的序列使我們可以描繪出它們在什麼地方。但是較長的重複就具有挑戰性了。我們處理這種情況的方法是我們前面提到的配對操作,測序每一個複製體的兩端並且複製不同的長度從而提供最大的重疊。

被吉恩的團隊編譯成50萬行的計算機編碼的程序使用了階段式方法,它以最安全的步驟開始,例如簡單地把兩個序列重疊,然後逐步推進更為複雜的操作,例如使用配合對把重疊序列島連接起來。這就像拼接一個複雜的拼圖時先把碎片組成小的島嶼然後組成較大的島嶼,接下來再重複這個過程——只是我們的拼圖有2700萬片碎片。這些片段一定得是高質量的序列,這是一個關鍵:想像一下試著做一個拼圖遊戲,而其中一些碎片的圖案和顏色是模糊不清的。對於長程的基因組序列的排列,數據讀取的大部分必須在配位對中。如果所有的數據仍然由手工追蹤,我們會很放心地發現我們在配位對中已經有了超過70%的序列數據:電腦建模者曾對我們說有一點失誤短缺都意味著胖胖蛋先生將永遠都不能再被復原[26]。

現在我們可以使用塞雷拉組裝器來處理序列數據了:第一步,把數據裁剪成最高的精度;第二步,「篩子」會把來自於質粒體或埃希氏大腸桿菌的DNA污染序列剔除掉,只要有10個鹼基對的污染序列就會阻礙任何的拼裝匹配;第三步,「篩子」檢查每一個碎片是否與已知的果蠅基因組重複序列相配,這多虧格裡·魯賓的辛苦工作,部分交疊的重複區域被記錄下來;第四步,「交疊者」把每一個片段都和其他的片段進行比較,這是一個處理大量數據的過程,我們已經在粉碎公眾基因組的線蟲解碼中成功地測試過了,看看是否重疊者可以正確地拼裝它們[我們向公眾基金支持的線蟲基因組科學家們(沃特斯頓和薩斯頓)提過幾次要求,讓他們給出他們用來重構基因組的序列數據,但是都被拒絕了]。我們的計算機每秒進行3200萬次對比,至少可以找到40個鹼基對相匹配,差別小於6%。當兩個片段交疊時它們被拼裝到一個大的片段裡,即重疊群(相鄰片段)。

理想情況下,應該是可以把基因組重裝在一起的。但是我們不得不一再清理DNA密碼中的扭結和重疊,這意味著,一個單獨的DNA片段可以與幾個不同的碎片交疊,從而導致錯誤的連接。為了簡化這個難題,我們只保持唯一連接的碎片,我們稱之為「單連群」。處理這些操作的軟件被稱為「疊連群」,事實上就是把我們不確定的DNA剔除只保留單連群,也就是片段中正確的組件。實際上這一步不僅給我們提供了空間來改變我們關於怎樣把片段組裝在一起的想法,而且也把問題的複雜程度充分降低了,我們從315.8萬個片段揀出5.4萬個單連群,每個單連群包含兩個或更多的片段,將原片段總量壓縮到1/48。2.12億個交疊被減少到了310萬個,在操作規模上減小到1/68。這樣拼圖裡的碎片就被逐步系統地安放到位了。

在這點上,我們可以使用從相同的複製體中配對序列的知識,使用搭腳手架方法。所有可能的有相互確定的配位對的單連群被連接到腳手架上,把大標度序列安插到所有這些小編碼片段上。在一次演講中我把這一方式比喻為搭建小爐匠玩具,它由一大把可以插在木頭節點(小球或小盤)上面小洞裡的小棍組成,這樣就可以建成一個較大的結構。在我們這裡節點代表了單連群。知道了配對序列處於2000、1萬或5萬個鹼基對長的複製體的端點,它們就可以被連接起來。

使用格裡·魯賓的序列作為參照,該序列佔據了1/5的果蠅基因組,對這種方法進行測試的結果僅僅產生了500個缺口。當8月份測試我們的數據時,我們最後的小片段總數有80多萬個。這麼多的數據要處理意味著我們的工序做得很不好,與我們所期待的相反,它已失敗了。幾天後這種驚慌的感覺更為強烈了,可能的錯誤列表也增長了。腎上腺素被傳運到了2號樓的頂層被戲稱為靜海[27]的房間裡,這間房間對我來說簡直就是一個瘋狂的參照,它的名稱是相對我曾以地球上的海洋來命名主樓裡的會議室而得的。在尋找解決辦法的至少兩周時間內,這間屋子一點也不寧靜,大家走馬燈似的在屋裡兜圈子。

最後這個問題被亞瑟·德奇爾(Arthur L.Delcher)解決了,他曾研究過重疊問題。在15萬行編碼的第678行,他發現了細微的錯誤,稍微忽略一下意味著把一個意義重大的匹配項扔掉了。當它被修正安裝好,並且電腦也運行結束後已經是9月7日了,這時我們的134個基因腳手架,完整地覆蓋了果蠅的工作(彩色的)基因組。我們都感到狂喜和寬慰,是向全世界宣佈我們的成功的時候了。

我幾年前建立的基因組測序大會提供了一個絕佳的機會。我料想會有破紀錄的參會人數,大家都熱切地想看到我們是否可以履行我們的諾言。我認為馬克·亞當斯、吉恩·梅爾斯和格裡·魯賓應該在會議上分別描述我們的成就:測序、拼接和科學影響。最後由於情況需要,我不得不把會議地址從希爾頓海德酒店轉移到邁阿密的更大的楓丹白露(Fontainebleau)酒店。來自各大製藥公司和生物技術公司的代表、世界各地的基因組科學家以及大量的分析家、記者和其他來自投資界的人士都出席了。我們的競爭對手因塞特公司已經花很多錢準備了一場送別晚會和一套室內視頻,這些工作使代表們確信這次會議將是人類基因組最重要的一頁。我們所有人都聚集在大舞廳中,這也是會議舉辦地的一個傳統,這個舞廳呈巨大的衣架形,裝飾以中性顏色和枝形吊燈。

原本估計容納2000人,但是隨著人群的增大,很快就沒有可以立足的地方了。作為會議開幕式的一部分,格裡、馬克和吉恩在1999年9月17日就最新的果蠅基因組成就做了報告。一段簡短的介紹後,格裡·魯賓宣佈與會者將要聽到他曾參與的最好的合作成就。會場氣氛變得活躍起來。觀眾意識到如果我們沒有什麼激動人心的事情要宣佈,他是不會說這樣熱心的話的。