解碼生命：第14章第一份人類基因組_J. 克雷格·文特爾

一般來說，一想到被搶先報道的前景，第一反應就是既絕望又希望，希望你的對手「某人」死去。你可能會考慮要放棄，但是這可能會讓你沒有任何明確的東西顯示這幾年的辛勞結果……所以很難不考慮重新嘗試用你的對手相同的方法去和他競爭。雖然你現在落後，但是只要稍微比他聰明點你就可能趕上他。然後你的對手可能會徹底氣瘋了。

——詹姆斯·沃森，《傾情DNA：基因、基因組和社會》

在我們開始測序首例人類基因組很久以前，甚至在確信我們將能夠做這件事很久之前，我們就開玩笑地猜測誰的DNA將特別榮幸能從頭到尾被第一個閱讀。誰將擁有科學好奇心、自信心和安全平靜的頭腦願意測序他或她的基因組？尤其當大多數人被遺傳決定論者們嚇唬得認為這將揭露他們所有的生物秘密時，誰將有足夠的理解力理解遺傳和環境之間深奧的相互作用從而願意看到自己個人的遺傳程序發表在網上？

技術問題同樣也包括在內，很多問題歸納一下就是，比起微生物使用的初級的無性生殖，性是怎樣引入人類更多的遺傳多樣性的？當談到測序細菌基因組，我們選擇了參照複製品——所有這些都是相同的，正如稱呼所表明的——將提供一套同種DNA樣本。因為我們使用高度純係株的果蠅基因組確保我們擁有的DNA盡可能排除變異。但是當談到人類基因組時，就有許多遺傳變異，像地球上的人們一樣多。

因為人類DNA的結構是雙螺旋狀，有兩條互補鏈，我們測序哪條DNA鏈無關緊要。但是這裡存在一個人類複雜化的問題。人類23條染色體中的每一條都是成對存在的：23條來自我們的母親，包括X染色體，23條來自父親，或者包括一條X染色體代表女兒，或者包括一條Y染色體代表兒子（因此女性有兩條X染色體，而男性有一條X，一條Y）。

首先一個問題是，測序對像該選擇男性還是女性。男性有個優點，他既有X染色體也有Y染色體，但是缺點是X和Y染色體只有一半的DNA，而其他22對染色體卻擁有所有的DNA；如果我們選擇一位女性，那麼將有兩個X染色體而沒有Y染色體。如果我們只研究一個人，我們應該選擇一個普通人作為實驗對像還是總統克林頓呢？那個人的責任和風險是什麼？這個人會同意嗎？

早些時候，清楚的是，當技術準備甫定，要測定人類基因組變異的程度，將毫不懷疑地要付出巨大的努力，選擇誰做樣本真的不是那麼重要。無論如何，如果可以在遺傳測試中找到與疾病有關的序列差異的科學利益和商業利益，那麼對我們來說獲得盡可能多的遺傳多樣性是有意義的。這就意味著我們應盡可能從幾個人那裡測序公共DNA，並且創建一套一致的基因組序列，這個序列不代表任何個體，而是人類總體的融合，一份參照基因組。

吉恩·梅爾斯和他的小組做了幾個計算，看在這個公共DNA序列中，我們可以使用多少實驗對像而不致引進太多的變異，以至於它將危及我們使用現有的算法和計算機拼接參照基因組的能力。如果我們允許實際覆蓋一個人的基因組來幫助組裝的話，那麼5個或者6個人就是極限了。我們決定我們將盡力從男女雙方得到一份混合的DNA，並且包括一些種族多樣性。

在TIGR，塞雷拉成立之前，海姆·史密斯就發愁怎樣創立最好的人類基因序列文庫，這並不只是因為他沒有足夠研究人類DNA的經驗。海姆和我有過幾次討論，討論怎樣取得人類DNA，包括獲得商業來源。但是為了生成文庫，而且為了完全確定我們知道它們裡面包含什麼，海姆必須從頭開始。

人類取樣也意味著漫長的事先知情同意程序，這甚至將阻止我們在6個月建造塞雷拉的期間開始進程。由於海姆和我渴望前進，下一步很明顯：當開始尋找人類DNA捐獻者時，我們感到地球上再也沒有比我們更知情的人了——我們對於測試他們的基因組並公佈出來的可能的風險有深刻的理解。海姆和我都不認同過分簡單的基因決定論概念——認為我們僅是我們的基因所創造的「我們」，而且我們生活的軌道能從我們的遺傳密碼精確地預測到。同時我們都擁有一個對我們自己的基因組本能的好奇心。在我們心中，從來都不認為我們會承擔任何醫學風險，除了可能對我們的心理的影響：我們可以預料來自我們的誹謗者們的政治攻擊，如果他們知道了我們採用了我們自己的DNA。

一旦我們同意使用這個方案，我們每個人都決定我們要為文庫提供一個豐富而容易產生的DNA來源：以精液的形式（我們不久就開玩笑說誰將需要較大的試管）。最後我們確定使用標準50毫升的無菌試管並且冷凍其中的精液。雖然海姆能輕易地把他的樣本直接帶入實驗室而不讓他的技術員知道試管的來龍去脈，但是我們仍然認為如果我帶著冷凍的試管溜進實驗室並移交給他們，還是有些不宜。借助聯邦快遞裝有冷凍試劑的盒子幾乎每天從應用生物系統公司送到TIGR，於是我拿一個裝有乾冰的已打開的聯邦快遞盒子，裝入我的樣本，然後把它交給實驗室，這樣實驗室大多數人以為樣本來自於邁克·亨克皮勒或者托尼·懷特。這種詭計必須重複好幾次因為最初的實驗要消耗大量DNA。

一旦塞雷拉崛起並開始運轉，額外DNA測序的問題就變得和我們當初害怕的一樣複雜了。律師們介入其中，什麼應該做，什麼可以做，他們提供互相矛盾的意見。為了監視樣本的整個測試過程，我拜訪了國家癌症研究所前任主任薩姆·博德，他現在是塞雷拉的首席醫學官員，他建立了一個由外來專家組成的一流委員會。開始時，我通知薩姆我們已經有了兩個DNA樣本，這些樣本已經被海姆轉變成了TIGR的文庫，並且它們被用來做所有最初的測序以此啟動塞雷拉程序。我向薩姆透露海姆和我都是捐獻者，並解釋說其他人應該包括女性和保持盡可能多的人種和地域多樣性。我讓薩姆決定他是否應該通知委員會，我們已經進入對兩個人類捐獻者的序列的解讀工程；他認為最好不要通知，不過還是制定了一個與海姆和我曾做的不衝突的程序。

眼睛顯示了它

閱讀任何大眾化的遺傳學敘述，你會經常看見這些文字：DNA決定一切，從感情到疾病到智商（不論那是什麼）到眼睛顏色。在教室裡，全世界的孩子們都被告知，褐色眼睛是顯性的——也就是說，父母之一方，如果遺傳給你一個對應具有顯性特徵的基因，你將也會擁有這個特徵。由此，如果一個父親有褐色的眼睛，那麼他的孩子可能也有，而雙親都是藍色眼睛的話，幾乎總是會有藍色眼睛的孩子。

讓我們假設你還沒有遇見我或是沒研究過這本書的外封套，你已經決定通過研究我的遺傳密碼來找到我的眼睛顏色——就像租用瑪麗二世女王豪華游輪穿過哈德遜河一樣[28]。我的密碼的其中一卷，15號染色體，是一個好的開始之處。在那裡你會發現一個叫作OAC2的基因，它是褐色眼睛和藍色眼睛主要的決定因素。基因在專門的黑色素細胞中活動，後者產生黑色的色素，負責眼睛的顏色。我眼睛顏色的生理基礎像任何其他人一樣，被黑色素細胞的分佈和內容所支配，儘管過程比通常認為的要複雜得多[1]。

根據一項600多人的正常有色人種的研究表明，眼睛的顏色不太可能是基於藍色或灰色這種特殊基因的精確遺傳拼寫。（在一個變體中，非藍/灰色為字母A/T或T/T，在另一個變體中，為字母A/G或G/G，或者是兩個變體的結合）。根據這些數據，我的基因組顯示，我更有可能有藍色或灰色眼睛，而不是擁有科學家們所稱的「非藍/灰色」變體，我有兩個變體——一個是C/C和A/A，第二個是G/G和A/A，而且我確實是藍眼睛。然而我的基因組告訴我一個直截了當的結論，眼睛顏色實際上是依賴於幾個基因的，儘管不是很常見，但是兩個藍眼睛的父母是可以生出褐色眼睛的孩子的。並且，儘管藍色和褐色眼睛在高加索人中是顯性的，我們也有灰色/綠色/淡褐色和間於它們之間的色度。簡單和過分簡單化的教科書對於眼睛顏色的遺傳學描述沒有做出符合自然的公正評判。

委員會表達了兩點主要顧慮。第一，如果那個捐獻了他們的DNA的人被識別出來的話，而且如果他們基因組中的任何疾病基因被識別出來，他們就要冒可能失去他們的死亡保險和/或者人壽保險的風險。類似的，如果他們有與各種不良社會特性或病態人格有關的突變，那麼一旦他們的身份隨著他們的遺傳密碼顯示出來，它就能引發這些對應的問題。我們最終確立的政策是，由於責任和保護我們的捐獻者的需要，塞雷拉將不再公開他們的身份。然而，如果捐獻者們希望的話，委員會承認他們自己有權決定是否公開他們是捐獻者。

第二點顧慮是關於測序不同種族背景的基因組。我就「種族問題」只與委員會會面了一次，因為真正的擔心是數據可能被一些人用來替種族主義辯護。對我而言，測序5個白人男性的基因組來代表人類根本就是錯誤的。尤其是在遺傳層面上，我們看起來都是相同的。當委員會聽說這些爭論時，很快就差異性達成一致。我們想徵集大約20個可能的捐獻者並就此在《華盛頓郵報》上、塞雷拉公司以及應用生物系統公司周圍做了相應廣告，那麼至少有兩個記者提供了他們的DNA就不足為奇了，其中一個還寫了一篇有關塞雷拉捐獻DNA過程的文章[2]。

包括海姆和我在內的每個捐獻者都要求聽一節關於承擔風險和事先知情程序的課，並且簽訂必需的協議。當博德提供給我們一份他與顧問委員會一同起草的同意文件時，我開玩笑說我們不想從任何有能力把30頁的複雜法律文件通讀下來仍然有能力射精的人那裡得到DNA，因為他必須是一個律師。

每個捐獻者會因為他或她的樣本得到100美元的報酬，對於女性來說，樣本是血液，從胳膊上抽取，男人既要提供精液還得提供血液（儘管有幾個拒絕提供精液）。（當這個過程被描述給一位知名的公眾人物時，她譏諷道，「這場景真是無懈可擊：男人獲得高潮可以得到報酬，女人卻要被一根針刺一下。」）我們對獲得的每一份樣本，分配給它的捐獻者一個代號，只有博德有密碼。

我們試圖為每一個捐獻者培養細胞株並產生序列文庫，接著進行測試序列。那5個最後人選由我的高級職員來選擇，其中包括博德，以匿名的信息為基礎，其中包括代碼、性別和自認的種族以及既能提供永久細胞株又能提供好的序列數據的高質量的文庫：這些人是海姆、我，以及三名自稱的非洲裔美國人、中國人和女性西班牙人。我仍然不知道任何女性的身份。儘管幾名捐獻者，包括記者在內，後來公開了他們的身份，但是不重新測序他們的另一份樣本，就沒辦法在他們和測序的DNA之間建立連接。我們最終發表的序列是五個捐獻者的合成物，我們的基因組序列甚至可以組裝成一個合成物的事實證明了地球上的人類在DNA層面上的相似性。

在使用誰的基因組做測序這一點上，政府計劃甚至面臨著更大的麻煩。科林斯和他的同事們吹噓他們已經混合了15～20個個體的DNA，這樣最終的基因組序列將來自數個匿名者。數年後，眾多的DNA BAC文庫已經從博士後、實驗室捐獻者等人捐獻的樣本中產生了，但是這些捐贈者當時都沒有考慮過一些棘手的問題，比如倫理問題和知情同意問題。如果一個或更多的捐獻者自我識別並拒絕自己的基因密碼被公眾使用的話，所有的文庫就都要被擯棄，這使得公共計劃隨時面臨挫折和風險。然後幾乎所有的公共基因組最終都僅來自一個或兩個捐獻者（這樣有利於長時間地保守秘密）。

果蠅基因組最後的片段被測序後，我就把塞雷拉的設備轉移到對人類基因組發動全面攻擊的戰役上了。當時——1999年9月8日的早上——我們的技術小組和ABI員工的所有的努力已將測序機的故障率，從曾經高達90%降至10%。這就意味著我們仍然有至少30台價值30萬美元的測序機每天都需要修理，但是即使是故障率如此之高，我們還有足夠的能力在300台能運轉的機器上用不到一年的時間測序人類基因組。

但是那時，我們還有壓力：公共計劃宣佈它已經測序了大約1/4的基因組。在另一次重大修訂策略後，我的對手們宣佈他們將只製作基因組的一個粗略版本並且到第二年春天完成這個「第一草圖」，毫無疑問會伴隨有一個媒體狂歡活動了。我們在塞雷拉所做的和已改變的公共計劃所做的重要差異可歸結為標準和策略：全基因組霰彈式技術對比於傳統的分級測序法。我知道我們已經有了獲勝的策略，政府投資的實驗室即使用相同的或甚至更大的測序能力，也不能和我們競爭，除非他們放棄他們的標準，改變他們的計劃而採用我們的。

在開始我們的工作的前一年，1998年9月，公共計劃的線路圖已經改變：他們要在2003年前即在塞雷拉能夠完成工作前做一個基因組草圖，2003年是沃森聯合發現雙螺旋第50週年紀念。取代在10年間發表高質量數據的原始計劃，他們現在正努力盡可能快地把未分析的序列傾倒進公共數據庫中。我的自稱的競爭對手——倖存下來的5個基因組中心，他們給自己起了一個綽號G5（這個團隊是以G18開始的）——相信自己通過這樣做，他們會阻擋我對基因組申請專利，而且他們也會為首批完成人類基因組而獲得榮譽。我為他們思想的愚蠢和不成熟感到困惑。當我的許多批評者們正著迷於塞雷拉數據的發表時，公共投資的實驗室正不在意地把序列傾注到公共數據庫中，製藥公司正快樂地每夜下載這些序列，所以他們能在它們上面申請專利。因此，反對人類基因組申請專利的人們制定的這個天真的政策肯定起了相反作用：基因專利申請得又早又快，幾乎所有的專利都是基於政府數據，而不是塞雷拉的。

多虧了在公共關係方面的文過飾非的精彩工作，降低公共計劃的標準並沒有遭遇過許多批評和分析。似乎沒有人充分意識到公共計劃通過改變它的目標，即將有效地高精確地完成一個染色體一個染色體的努力的目標，改變為測序人類基因組的一幅又快又髒的「粗略草圖」，有關「質量第一」的最初真言就到此為止了；認為基因組草圖將削弱正確地完成工作的動機的擔憂也到此為止了。這使得我們在塞雷拉所承擔的工作呈現出徹底性和綜合性。

關於塞雷拉的核心儀器3700型的測序儀的負面報道很多，斯圖爾特的小組曾在《科學》雜誌上發表了一篇對該儀器的評論[3]，聲稱它作為較短的序列片段的專用儀器——「閱讀」——它沒有提供什麼優勢（「在資金投資方面，沒有馬上增加生產力」）。這篇評論引發了ABI和塞雷拉公司股票價格的下跌。具有諷刺意味的是，我決定使用3700型測序儀後，對儀器的評價判斷基本上被政府資助的小組忽視了，他們在購買這些昂貴的設備之前，沒有做通常要求他們做的令人討厭的評估和分析，並且我們的那些保守派競爭對手也在爭相盡快購買相對而言未經測試的3700型測序儀。塞雷拉創辦後的那年，ABI報道了10億的銷售額。威爾康信託基金在3700型測序儀上花了比塞雷拉更多的錢，以便它的桑格研究所可以測序25%～30%的人類基因組。同時，麻省理工學院借錢給埃裡克·蘭德購買比政府準備資助的更多的儀器，借錢的前提是他從弗朗西斯·科林斯那裡得到了資助（資助一年的金額為4000多萬）的基金管理費，這使他有了公共計劃裡最大的經營運作。

多虧了G5的策略的改變，我的老闆們站著就掙到更多的錢。亨克皮勒和懷特高興地給公共計劃提供產品，現在公共計劃打算買價值數百萬美元的3700型測序儀和試劑，懷特們就像軍火商發動一場戰爭以便他們可以把武器賣給交戰雙方。當我的小組注意到我們的企業「夥伴」以較快的速度裝備我們的對手們時，不免士氣低落，我不得不努力使他們精神振奮起來，這真令人喪氣。

用相同的儀器來閱讀遺傳密碼意味著——除了政府資助計劃的非同小可的10倍多的金錢和人力資源——塞雷拉和公共計劃之間勝負取決於我們各自的科學策略。用得最多的詞測序意味著遺傳密碼的字母真正地以適當的順序組裝；沒有人會認為只是通過往桌子上扔幾張碎片就能組裝一個拼圖玩具。然而，因為政府資助的實驗室正在做數千個微型基因組計劃，通過一次一個地測序BAC複製體，他們不得不處理數千個小型的拼圖，但是我們只要做一個大的就可以了。我從來不曾想像，他們會想要拼接他們所有的拼圖碎片——BAC複製體或者染色體。我正在為我的科學的完整性下賭注，希望它能佔據上風；也為我的程序員們、我的方法和我的高功能的計算機下賭注，希望它們把如此龐大的公共計劃淘汰出局。

用霰彈槍序列拼接一個DNA序列，只要求很少的序列覆蓋範圍。比如，1倍或單一的含有10萬鹼基對的BAC複製品，這意味著你已經生成了10萬鹼基對的DNA序列。但是這並不意味著你已經一次性測序了複製品的每一個字母。潛在的困難是這些被隨意生成的DNA片段（比如，如果你把一張報紙撕成50塊碎紙，把50張這樣撕成的碎紙混合放在一個盒子裡，然後隨意抽出50張碎片，那麼你肯定不可能最終拼成一份完整的報紙）。把這些任意片段再放回到一起，就像統計方法所預料的，你會發現1倍的覆蓋範圍實際上僅代表了66%的複製品的DNA序列。（一些部分將被複製；其他的將會丟失）。3倍的覆蓋範圍被要求覆蓋96%的序列。用政府計劃的序列聚合法，它將用8倍到9倍的覆蓋範圍安排和確定片段重構一個BAC複製品。我們曾認為我們也會需要那麼多。但是我們的果蠅試驗成功後，我知道我們能夠只利用很少片段就可以獲得比99.6%以上的人類染色體覆蓋範圍。多虧了我們的末端配對技術，我們在每一個複製品終端測序DNA，複製品有2000、1萬或5萬個鹼基對，只要5倍覆蓋範圍就可以得到正確順序和確定方向的序列。

與塞雷拉的競爭也使得我們的對手們把他們的努力相對集中。當公共計劃瓜分基因組開始時，一些實驗室極具領土觀念，並且打賭說他們具備了測序人類染色體和部分染色體的能力，而當時他們甚至根本沒有錢、設備和能力去做這些事。到1998年9月，整個基因組已被預訂瓜分，但不是每個當初下單的人都能夠很快繪製出圖譜，並進行高效率的測序。總的來說，因為BAC複製品圖譜的有限供應，公共計劃正處於崩潰的危險中，儘管它比塞雷拉整體測序能力要強得多。

可以理解，埃裡克·蘭德對這個狀態很不高興，1998年10月，他提議放棄瓜分基因組的協議，改為從一個覆蓋著整個基因組的文庫中隨意選擇的序列複製品。這個建議意味著不再看重公共計劃的脆弱的共識。然而，那年12月，他接受了妥協：薩爾斯頓和沃特斯頓將確保為公共計劃提供足量的對應複製體。到1999年3月，得到了「激動的」副總統艾爾·戈爾的支持，該協會宣佈，到2000年春天，它將生產至少90%的人類基因組序列，以「工作草圖」的形式完成，「比預期的早很多。」[4]加速的公共計劃中除了占支配地位的四個主要實驗室，他們作為次要的參加者們心理是壓抑和不平衡的，因為科林斯甚至冷靜地提出逐步淘汰進度不理想的中心，「他們的領導更沮喪。」[5]俄克拉何馬州的布魯斯·羅是一位早期的DNA測序者（結果證明，他還是在新聞界一些豐富多彩的引文的始作俑者），更簡單點說，他是「被國家衛生研究所用K-Y凝膠對待的傢伙。」[6]

雖然蘭德已經清楚地明白，不採用我的方法，政府項目的努力將不能組裝一份人類基因組序列，他相當確認我們的方法更好或者甚至更有用，在公開地攻擊它的同時，他開始私下採用它，更糟的是，科林斯和其他人試圖使用納稅人的錢秘密資助塞雷拉的一位商業競爭者，加利福尼亞的帕洛·阿爾托的因塞特基因組學。在這項秘密交易中，因塞特將提供配對的DNA序列以幫助政府資助的實驗室與我們競爭，具體就是他們在SNP協會的幫助下搜尋並提供單字母的核甘酸多態性（SNPs, or snips）。他們的秘密協議得到了威爾康信託基金和一些藥物公司的支持。它不僅推進政府計劃拼裝它的基因組數據的速度，而且意外收穫一個副產品SNP，有效地成倍增加了協會中對製藥公司有用的數據，所以他們使用相關數據不需要與塞雷拉交涉。通過SNP研究聯盟，科林斯也能否認「他」（國家衛生研究所）正資助因塞特並幫助它與塞雷拉競爭。科林斯使用SNP研究聯盟的另一個基本理由是他們無鬚髮表數據（該協會不受制於政府/威爾康信託基金的規則）。這樣他們既可以否認他們正使用我們的配對技術，又確保塞雷拉不能從這些數據中獲益。該協會的一名成員，格蘭素威爾康的艾倫·羅斯對這些手段感到憤怒，他告訴了我科林斯正在做什麼。科林斯曾大言不慚：「我們不認為世界上的研究者們沒有免費和開放的數據庫這一事實是正當的，這種情況甚至連一天都不應該存在。[7]」但是他和蘭德實際上正為數百萬的序列保密著呢（序列至今還從來沒有發表呢，除了已組裝的部分）。