DNA的雙螺旋結構代表了一個時代的科學,更神奇的是所有生命都使用相同的DNA編碼,似乎表明在地球上,生命隻誕生了一次。對於DNA結構的發現者克裏克來說,這暗示了外星生物的一次播種,我們有更好的答案嗎?
在劍橋的老鷹酒吧外牆上有一塊藍色的牌子,是2003年掛上去的,用以紀念50年前發生在酒吧裏的一段不尋常的談話。1953年2月28日,兩位酒吧常客詹姆斯·沃森(James Watson)和弗朗西斯·克裏克,在午餐時間衝進吧裏,宣布他們發現了生命的奧秘。雖然嚴肅緊張的美國人加上一位滔滔不絕的英國人,再時不時配上他們惱人的笑聲,看起來活似一對喜劇演員,但是這一次他們可是認真的,而且他們是對的,或者應該說對了一半。如果說生命真的有什麽奧秘的話,那一定是DNA。不過盡管沃森與克裏克再聰明,當時也隻知道一半答案。
其實在當天早上沃森與克裏克已經知道DNA是雙螺旋結構。他們的靈感來自他們的天賦,混合了模型結構、化學推論,以及一些“偷來”的X射線衍射照片。麵對他們當時的結論,沃森說:“太美了,這必須是對的。”整個午餐時間裏,他們越討論就越有信心。他們的研究結果發表在4月25日的《自然》上,是一篇隻占一頁篇幅的簡短論文,有點像登在地方小報上的出生公告。論文謙遜的語氣極不尋常(沃森有句對克裏克的評價廣為人知,說他從未見過克裏克謙虛的樣子,然而沃森本人也沒好到哪兒去),並在結尾十分委婉地寫道:我們也注意到了,我們假設的這種特定配對方式,暗示了這種遺傳物質可能的複製方式。
DNA是基因的物質基礎,當然也就是遺傳物質。它幫地球上所有的生物編碼,從人類到變形蟲,從蘑菇到細菌,隻有少數病毒例外。它的雙螺旋結構已經成為科學的標誌,兩條螺旋鏈彼此纏繞,一圈又一圈,直到天荒地老。沃森與克裏克展示了兩條螺旋鏈分子層級的配對方式。如果把這兩條螺旋鏈分開,其中任何一條都可以作為模板,去合成另外一條,於是原來的一條雙螺旋鏈就變成了兩條雙螺旋。微生物每次增殖時要把自己的DNA傳給下一代,那它隻需解開自己的雙螺旋鏈,做出兩條一模一樣的雙螺旋鏈即可。
雖然複製DNA的具體分子機製十分讓人頭痛,但在原理上卻非常完美、驚豔而且簡單。遺傳密碼就是一係列的字母(術語叫作堿基)。DNA總共隻有四個字母,分別是A(腺嘌呤)、T(胸腺嘧啶)、G(鳥嘌呤)以及C(胞嘧啶),不過你不必管這些化學名稱。真正的重點是,A隻能和T配對,而G隻能和C配對(見圖2.1)。這種配對方式是由分子形狀以及成鍵結構決定的。如果把一條雙螺旋解開,讓這些堿基露在外麵。這時每一個露出的A隻可以配T,而每一個露出的G隻可以配C,以此類推。堿基對不隻是彼此互補,它們是真的想要彼此結合。對於T來說,隻有和A配對的時候,它的化學生命才有意義。如果你把這兩個分子放在一起,它們的化學鍵會唱出完美的和弦。這就是化學,如假包換的“基本吸引力”。因此DNA不隻是被動複製的模板,每一條螺旋會主動放出磁力,吸引可以與自己配對的另一半。所以把一條雙螺旋拉開,它們會很快重新結合,單螺旋鏈會急切地尋找可以與自己配對的另一半。
一條DNA長鏈看起來無窮無盡。以人的基因組為例,裏麵有將近30億個字母,術語記為3Gb。等於說單個細胞核裏就含有30億個字母,打印出來的話,一個人的基因組可以填滿200冊書,每一冊都和電話簿一樣厚。不過人類的基因組絕對不是世上最大的,你或許會很驚訝,世界紀錄保持者是一隻小小的變形蟲——無恒變形蟲,它巨大的基因組包含了670Gb,大約是人類基因組的220倍。但是這些基因組裏麵似乎大部分都是“垃圾”,並不負責製造任何東西。
圖2.1 DNA的堿基配對。這些不同字母的幾何圖案代表的意義是:A隻能和T配對,而G隻能和C配對。
每次細胞分裂的時候,它就會複製所有的DNA,整個過程耗費好幾個小時。人體是由15萬億細胞組成的怪物,每個細胞都帶有相同的DNA模板(其實應該說有兩份)。從一個受精卵發育成人,這套雙螺旋長鏈要被解開,當作模板至少複製15萬億次(真正的次數當然遠多於此,因為還要加上細胞死亡、替換等因素)。細胞複製的精確度堪稱奇跡,它要把這些DNA長鏈從頭按順序寫起,每寫10億個字母才出一次錯。用人類抄書來做比較的話,那就等於要把整本《聖經》抄280次才錯一個字母。而人類抄寫的精確度遠低於此。現在已知被保存下來的手抄本《新約全書》約2.4萬本,沒有任何兩本是完全相同的。
然而在每條DNA裏,還是會夾雜一些錯誤,這是因為基因組實在是太大了。一個字母被抄寫錯誤的情況,叫作點突變。每次人類細胞分裂時,整套染色體裏麵大概會有3個點突變。細胞分裂的次數越多,錯誤累積越多,最終就可能引發癌症這類疾病。突變也可能傳給下一代。對女性來說,如果一個受精卵將發育成女性,那之後大約要經過至少30次細胞分裂才會形成一個新的卵細胞,每次分裂都會累積一些錯誤。男性更糟,因為細胞至少要經過100次分裂才可以產生**,而每次分裂大自然都會無情地加入一些突變。由於男性終生都可以製造**,所以隨著男性年齡的增加,**經過一輪又一輪的細胞分裂,情況隻會越來越糟。正如遺傳學家詹姆斯·克羅(James Crow)所說:老男人的**是威脅整個族群健康的最大突變災難。不過就算是一般年輕夫妻所生的小孩,也比他們父母多大約200處突變,但其中隻有少數可以造成直接損害。[1]
盡管細胞複製DNA的準確度極高,還是會發生改變。每一代的基因都和上一代不同,不僅僅因為我們的基因混合了父母雙方的,而且因為我們都攜帶了新的突變。大部分的突變都是前麵提到的點突變,隻有幾個字母被替換掉了。不過少數突變十分劇烈,有時候染色體複製好了另一份卻沒有分開;有時候整段DNA序列缺失不見;有時候病毒感染會插入許多新的片段;有時候部分染色體會整段顛倒,裏麵的DNA序列也顛倒了。各式各樣的突變都可能發生,不過最嚴重的突變往往會讓個體無法生存。如果能看到染色體的話,會發現它們像**的蛇窩一般,帶著條紋的染色體不斷結合再分開,無休無止。自然選擇會把絕大多數的突變怪物都剔除掉,因此起著穩固的作用。也就是說,DNA長鏈會扭曲變形,而自然選擇則將它們重新整理歸位,把所有好的變異都留下來,拋棄嚴重的錯誤或改變。而比較輕微的突變,則有可能導致日後的疾病。
當報紙雜誌上出現和基因有關的文章時,大概都不是在談DNA字母突變的問題,而是DNA獨特的排序。比如DNA指紋,它可以用來鑒定親緣,彈劾有性醜聞的總統,也可以在刑案發生幾十年後揪出嫌疑犯。這是由於每個個體之間DNA序列都存在差異。DNA序列如此不同,我們每個人都有一套獨一無二的DNA指紋。受到這些細微差異的影響,我們每個人對於各種疾病的耐受力也不同。平均來說,人類基因大概每千字出現一個差異,人類基因組整體共有約600萬~1000萬個“單字母”差異,稱為“單核苷酸多態性”,簡稱SNPs。SNPs就是說我們每個人所擁有的基因版本,或多或少都略有不同。雖然大部分的SNPs都無關緊要,不過根據統計分析,有一些變異與某些疾病,比如糖尿病或阿爾茨海默病有關聯,然而它們對疾病的影響究竟如何,目前所知甚少。
雖然每個人的DNA版本略有不同,我們仍然可以說存在一個“人類基因組”,畢竟每1000個字母裏除了那一個有可能不同以外,剩下的999個都一樣。不同物種的基因組構成,由時間和自然選擇兩個因素造成。在進化這一偉大的計劃之中,人猿變成人並沒有過去太久,老實說,動物學家會說我們其實還是人猿。假設我們的祖先和黑猩猩大約在600萬年前分家,然後以每代產生200個突變的速度累積差異,那到現在為止我們最多也隻能改變整個基因組的1%。由於黑猩猩也以同樣的速度突變,那麽理論上我們和黑猩猩應該有2%的差異,不過實際的差異要小一些。比對黑猩猩和人的DNA序列的結果顯示,我們和黑猩猩有98.6%的相似度。[2]這是因為自然選擇會踩刹車,剔除有害突變。如果自然選擇會剔除突變,那麽被保留下來的DNA序列,當然會比無監督情況下的突變結果更相似一些。如前所述,自然選擇會讓扭曲變形的序列重新歸位。
如果我們看得更久遠一點,就會看到時間和自然選擇這兩個條件如何共同作用,織出令人讚歎的精致生命之毯。從解讀出的DNA序列可以看到,地球上所有的生命都彼此相關。通過比對序列,我們可以用計算機去統計人類與任何一種生物的親疏,從猴子比到有袋類動物,也可以和爬行類、兩棲類比,或者和魚類、昆蟲、甲殼類、蠕蟲、植物、原生動物、細菌比,隨便你挑。所有的序列都由相同字母組成,所以是可比較的。因為受到相同自然的選擇,我們甚至會共用許多一模一樣的序列片段,而除此以外的序列則會變異到難以辨認的地步。如果試著解讀一段兔子的DNA序列,你會發現在這段無窮無盡的堿基序列中,有些和人類一樣,有些不一樣,彼此交錯,好像萬花筒一樣。再看看薊花也一樣,有一些片段和我們完全一樣或者很類似,但是不一樣的片段比兔子和我們之間的更多。這恰好反映出我們和薊花從共祖分家後曆經了更久的時間,最終導致我們走上完全不同的道路。盡管如此,我們最基本的生物化學反應還是一樣的,細胞仍然使用類似的機製在運作,而這些機製正是由相似的DNA序列決定的。
基於這種生物化學的共同性,我們期望找到一段和最古老的生命(比如細菌)共享的序列,我們也確實找到了。不過相似的程度會有點混亂,因為它並不是人們想象的100%~0%,而是100%~25%,這是因為組成DNA序列的隻有四個字母。如果其中一個字母被隨機替換,那總有25%的機會換回原來的字母。所以如果你在實驗室裏隨意合成一段序列,將這段序列和任意一段人類DNA序列相比,一定會有25%的相似度。“我們和香蕉的基因組序列有50%相似,所以我們是半個香蕉”的觀點是誤導視聽。不然隨意合成的一段DNA序列,都將是1/4個人類。因此,除非我們知道這些字母代表的意義,否則還是等於一無所知。
這也是為什麽,我之前說沃森與克裏克在1953年的那個早上,隻解開了生命奧秘之謎的一半。他們解開了DNA的結構,也發現了雙螺旋的每一條都可能是複製另一半的模板,因此可以當作生物的遺傳密碼傳給下一代。然而在他們那篇著名的論文裏並沒提到密碼代表的意義,還有待此後10年間無數傑出的研究者去發現。或許解開生命密碼並不像發現雙螺旋結構那般,具有崇高的象征地位,但是它的重要性可能大於雙螺旋本身,因為後者根本不在乎塞在序列裏麵的東西是什麽。克裏克對密碼的破解也有貢獻。從本章的內容來看,對我們來說更重要的是解開這串密碼(這曾是現代分子生物學裏最令人失望的解謎),這將會讓我們更透徹地了解在40億年前DNA是如何進化出來的。
現在我們如此熟悉DNA,所以你可能很難想象,1953年我們對這個分子生物學的基礎了解的有多麽少。當年沃森與克裏克原論文上的DNA圖像,那幅結構如兩條階梯互相旋轉纏繞的圖像,是由克裏克的藝術家妻子歐迪勒(Odile)繪製的,半個世紀來不斷被重複使用,從未改動(圖2.2)。20世紀60年代,沃森所寫的《雙螺旋》描繪了現代科學的麵貌,這本書的影響力如此之大,以致讓生命都藝術了起來。我還在讀書時就因看了這本書,整天夢想著獲得諾貝爾獎和能名留青史的貢獻。在那時,我對於科學的印象幾乎全部來自沃森的書。之後進入大學,發現現實與我對科學的期望並不一致,夢想破滅是必然的,其間我開始攀岩尋求刺激。等到好幾年之後,我才漸漸領悟研究的魅力,重新找回科學帶來的興奮。
然而當時我在大學所學的,幾乎全部都是沃森與克裏克1950年還不知道的,但在現在已是理所當然的事。比如“基因編碼蛋白質”,這一觀點在20世紀50年代早期還未在科學家之間達成共識。沃森1951年來到劍橋大學時,還因為被懷疑論者如馬克斯·佩魯茨(Max Pervtz)和約翰·肯德魯(John Kendrew)等人質疑而感到惱怒。然而對於佩魯茨與肯德魯而言,連最基本問題,比如“基因”到底是DNA還是蛋白質,都還沒有被完全證實,更遑論其他。盡管當時並不清楚DNA的分子結構,我們卻已摸透了它的化學成分,也知道它的成分在各物種間幾乎一樣。如果說基因是遺傳物質,並且決定了每個個體甚至每個物種之間的巨大差異,那麽像DNA這種化學組成單調的東西,從細菌到植物到動物的幾乎都一樣,怎麽可能解釋生命的豐富與多樣性?反而組成成分變化無窮的蛋白質,看上去更適合承擔這項遺傳工作。
圖2.2 DNA 的雙螺旋結構,顯示這兩條螺旋如何互相纏繞。把這兩條螺旋解開的話,每一條都可以當作模板,合成全新而互補的另一條。
當時隻有沃森以及少數的生物學家深信美國生物化學家奧斯瓦德·艾弗裏(Oswald Avery)的實驗結果。艾弗裏在1944年發表的研究顯示,遺傳物質是DNA。沃森的熱忱與信念鼓舞了克裏克,促使他動手解決DNA的結構問題。一旦結構問題被解決,解碼就近在咫尺。然而當時關於這方麵的知識是如此缺乏,必定會再次讓現代人覺得驚訝。DNA看起來就是一連串字母隨機組合成的無盡長鏈。要找出這個序列的某段順序如何對應某種蛋白質,在理論上似乎並不困難,因為蛋白質是由一連串的子單元組成的,所謂的子單元就是氨基酸。因此,想必DNA序列可以與氨基酸序列一一對應。而如果DNA字母是萬物通用的,畢竟似乎所有物種的DNA成分都一樣,那麽DNA對應氨基酸的方式應該也是萬物通用的。但這一切在當時還不為人知,而且幾乎也沒人想過這種對應關係,直到沃森與克裏克在老鷹酒吧裏坐下來,在午餐時間寫出那經典的20種氨基酸,就是今天教科書裏會寫的那20種。驚訝嗎?這兩人都不是生物化學家,但他們卻是第一個找到正確答案的人。
現在問題變成了一個數學遊戲,和詳細的分子機製無關(我們卻要死記硬背這些分子機製)。四種DNA字母要編碼20種氨基酸。絕不可能是一對一編碼,也不可能是二對一編碼,因為兩個字母最多隻能組成16種組合(4×4)。因此,最低要求是三個字母,也就是DNA序列裏麵最少要有三個字母對應到一個氨基酸,被稱為三聯密碼,後來被克裏克和西德尼·布倫納(Sydneg Brenncr)證實。但是這樣看起來似乎很浪費,因為用四種字母組成三聯密碼,總共可以有64種組合(4×4×4),這樣應該可以編碼64個不同的氨基酸,那為什麽隻有20種氨基酸呢?一定有一個神奇的答案來解釋為什麽4種字母,3個一組,拚成64個單詞,然後編碼20種氨基酸。
很巧的是,第一個嚐試解答這個問題的人也不是生物學家,而是熱情洋溢的俄裔美籍天文物理學家喬治·伽莫夫(George Gamow),他因提出大爆炸理論而廣為人知。伽莫夫認為,DNA序列可以直接生產蛋白質,氨基酸分子可以嵌入雙螺旋間的鑽石型凹槽內來合成蛋白質。不過伽莫夫的理論是純數學的,因此當他知道蛋白質並非在細胞核裏合成,所以也就不可能和DNA直接接觸時,也完全不在意。這個想法隻剩下理論性的內容,而沒有生物方麵的意義。伽莫夫主張一種相互重疊的三聯密碼,這是密碼學家的最愛,因為這可以使信息密度最大化。假設有一段DNA序列為ATCGTC,那第一個“字”(術語叫作密碼子)就是ATC,第二個字是TCG,第三個字是CGT,以此類推。重疊密碼必定會減少氨基酸的可能排列方式,因為如果第一個密碼子ATC可以對應某個特定氨基酸,那第二個氨基酸所用的密碼子,一定要是TC開頭才行,然後第三個一定要是C開頭。當你費力演算完所有的排列組合之後會發現,符合這些規則的三聯密碼不會太多,因為A旁邊一定是T,而T旁邊一定是C,以此類推,很多密碼子都會因不符合重疊規則而被排除。那麽計算之後還剩下多少種可能的三聯密碼呢?伽莫夫用魔術師從帽子裏變出兔子的口吻說:正好20個!
然而這是第一個被冷酷無情的實驗數據否定的聰明點子,之後還有更多被否定的。所有的重疊密碼都會作繭自縛。首先,根據這種編碼方式,某個氨基酸一定要排在另一個氨基酸旁邊。然而生物化學家弗雷德·桑格爾(Fred Sanger,這位安靜的天才獲得了兩次諾貝爾獎,一次因為蛋白質測序,一次因為DNA測序)那時正好在幫胰島素測序(破解胰島素蛋白質的氨基酸排列順序)。不久他發現,任何氨基酸都可以排在其他氨基酸旁邊,蛋白質的序列沒有任何限製。第二個問題是,根據重疊密碼理論,任何點突變(也就是一個字母被換成另一個)都會改變一個以上的氨基酸,但是實驗結果指出,點突變往往隻會改變一個氨基酸。顯然真正的密碼並沒有重疊,伽莫夫的重疊密碼理論早在我們知道正確答案之前就被推翻了。基因密碼學家已經開始思考我們的大地之母或許就是這麽浪費。
克裏克接著提出了另一個十分漂亮的理論,很快就被所有人接受了,他本人卻對此有些顧慮,因為該理論尚未被實驗證實。克裏克結合了許多來自不同分子生物實驗室的新發現,特別是沃森在哈佛大學新成立的實驗室的結果。沃森那時候鍾情於RNA,它像一小段單鏈的DNA,既存在於細胞核中,也存在於細胞質中。更有趣的是,沃森認為RNA是某個小細胞器的一部分(現在稱為核糖體),而這個小細胞器似乎是細胞合成蛋白質的場所。所以沃森認為,DNA長鏈安靜地待在細胞核裏不動,而當細胞要生產蛋白質時,其中一小部分序列就可以作為模板,複製出一小段RNA,這一小段RNA則會離開細胞核,與等在外麵的核糖體結合。這段敏捷的RNA很快就被命名為“信使RNA”或mRNA。早在1952年,沃森就寫信告訴克裏克:“DNA合成RNA, RNA合成蛋白質。”而現在克裏克真正感興趣的問題是,這一小段mRNA的字母序列,如何翻譯成蛋白質裏麵的氨基酸序列。
克裏克思考著,他認為mRNA可能需要一係列“適配器”來幫助完成翻譯,每一個適配器都負責攜帶一個氨基酸。當然每一個適配器一定也是RNA,而且都帶有一段“反密碼子”序列,這樣才能和mRNA序列上的密碼子配對。克裏克認為,RNA的配對原則和DNA的一模一樣,也是C配G, A配T,以此類推。[3]在當時適配器分子純屬假設,不過幾年之後就有研究證明,確實如克裏克所預測的,適配器分子由RNA分子組成。它們現在叫作“轉運RNA”或tRNA。現在整個工程變得有點像樂高積木,一塊塊積木接上來又掉下去,一切順利的話,它們就會這樣一個接一個地搭成精彩萬分的聚合物。
但是克裏克猜錯了蛋白質的合成機製。在這裏我要解釋得詳細一點,因為實際的機製比克裏克所想象的更古怪,但是他的構想可能和這套係統的起源有些關聯。克裏克認為,mRNA片段懸浮在細胞質裏,密碼子的部分像母豬**般突出,等著tRNA像小豬吸奶般一個個湊上來,和相對應的密碼子結合。當所有的tRNA都一個接著一個在mRNA上從頭排到尾之後,它們所攜帶的氨基酸就會像小豬尾巴般留在外麵,隨時可以被連接起來合成一個大的蛋白質分子。
克裏克理論的問題是,tRNA會隨機出現,然後連接到離它最近的密碼子上。如果它們不是按順序從第一個密碼子的起點開始,在最後一個密碼子的終點結束,那tRNA如何知道它現在所帶的這個密碼子的第一個字母在哪兒,最後一個字母在哪兒?它們要如何讀出一段有意義的信息呢?假設一段序列是ATCGTC,正確的順序是一個tRNA接到ATC上,另一個接到GTC上,這時候該如何阻止一個認識CGT的tRNA從半路殺出,接到中間的位置上然後毀了整段信息?克裏克的答案十分專製,就是不允許這種情況發生。如果要正確無誤地讀出一段信息,那就不能讓每種字母組合都有意義。那麽哪些組合必須被剔除?克裏克認為所有隻含單個字母A、C、U或G所組成的序列都不合格。比如一連串的AAAAAA就不可能含有任何意義。接著他找遍所有可能組合,按照如果ATC有意義,那麽同樣字母的其他兩種組合就必須被剔除的規則篩選(也就是說,如果ATC有意義,那TCA和CAT就不準有意義)。還剩下多少可能的組合?又是不多不少20個!(在64種排列組合裏,AAA、UUU、CCC和TTT都被剔除,在剩下的60種組合裏,如果每3種排列組合又隻有一種有意義,那60除以3就是20種。)
和重疊密碼理論不同的是,克裏克的密碼組並不會限製氨基酸序列的排列方式,而一個點突變也不會同時改變好幾個氨基酸。在當時,他的理論確實完美地解決了序列編碼的問題,也將64種密碼子成功縮減到20組有意義的密碼子,並且和所有已知的數據更吻合。盡管如此,這個理論還是錯的。數年之後,實驗證明如果合成一段隻含AAA密碼子的RNA序列(根據克裏克的理論,這組密碼子無意義),可以合成一種叫作“賴氨酸”的氨基酸,而且也能轉換出一條隻含賴氨酸的蛋白聚合物。
隨著實驗技術進步而且越來越精密,在20世紀60年代中期許多實驗室陸續解開了序列密碼。然而經過一連串不懈的譯碼工作後,大自然卻好像隨興地給了個潦草結尾,讓人既困惑又掃興。遺傳密碼子的安排一點也不具創意,隻不過“簡並”了(意思就是說,冗餘)。有三種氨基酸可對應六組密碼子,其他的則各對應一到兩組密碼子。每組密碼子都有意義,還有三組的意思是“在此停止”,剩下的每一組都對應一個氨基酸。這看起來既沒規則也不美,根本就是“美是科學真理的指南”這句話的最佳反證。[4]甚至,我們也找不出任何結構上的原因來解釋密碼排列,不同的氨基酸與其對應的密碼子間似乎並沒有任何物理或化學的關聯。
克裏克稱這套讓人失望的密碼係統為“凍結的偶然”,而大部分人也隻能點頭同意。他說這個結果是凍結的,因為任何解凍(試圖去改變密碼對應的氨基酸)都會造成嚴重的後果。一個點突變也許隻會改變幾個氨基酸,而改變密碼係統本身卻會從上到下造成天大災難。就好似前者隻是一本書裏無心的筆誤,並不會改變整本書的意義,然而後者卻將全部的字母轉換成毫無意義的亂碼。克裏克說,密碼一旦被刻印在石板上,任何想改動它的企圖都會被處以死刑。這個觀點至今仍有許多生物學家認同。
但是大自然的“偶然”密碼係統卻給克裏克帶來一個問題。為什麽隻有一個偶然?為什麽不是好多個偶然?如果這套密碼係統是隨機產生的,那理論上它不會優於其他密碼係統,因此也不會有什麽自然選擇“瓶頸效應”讓這套密碼係統勝出。用克裏克的話來說就是:“其優勢遠超其他密碼係統,因而獨活下來”。但是既然沒有選擇的瓶頸,那為什麽現今沒有好幾套密碼係統,存在於不同的生物體內呢?
答案很明顯,那就是地球上所有的生物都是來自同一個共祖,而這套密碼係統早在共祖身上就決定好了。更哲學一點的說法就是,生命隻在地球上誕生了一次,才使得這套密碼係統看上去如此獨特、罕見甚至反常。對於克裏克而言,這暗示了一次感染、一次播種。他猜測生命是由某個外星生物,將一個類似細菌的東西播種到地球上。他甚至進一步推測,認為細菌是外星人用宇宙飛船送到地球上的,他稱這一理論為“定向泛種論”,並在1981年出版的《生命:起源與本質》裏詳細闡述了該理論。如同科普作者馬特·裏德利(Matt Ridley)給克裏克寫的傳記所說:“這個主題讓許多人大開眼界。偉大的克裏克竟寫出外星生命乘坐宇宙飛船在宇宙間播種的故事,他是被成功衝昏頭了嗎?”
偶然密碼係統這樣的概念,是否可以證明上述的生命觀,取決於個人判斷。但這個理論是在說,密碼本身並不需要任何優勢或劣勢來決定能不能突破瓶頸,隻需某種偶然情況就可以選擇某些特定生命,甚至是某些不可思議的意外,比如小行星撞擊地球,就可以毀滅掉所有生命隻留下一種,然後就產生了一套唯一的密碼係統。無論如何,克裏克寫作的時機不對。因為早在20世紀80年代初期,克裏克還在寫書的時候,我們已經漸漸了解到這套密碼係統既不是意外,也沒有被凍結。在這套密碼裏暗藏著另一套固定模式,是一種“密碼子裏麵的密碼”,將帶給我們一條關於40億年前生命起源的線索。現在我們終於知道這套密碼,並不是當初被密碼學家嫌棄的雕蟲小技,而是唯一一套可以同時耐受各種變異又加快進化腳步的密碼。
這是一套夾帶在密碼子中的密碼!其實從20世紀60年代開始,科學家已經注意到這套密碼係統裏麵似乎存在某種模式,不過大部分的研究,包括克裏克自己都忽略了,覺得那隻是統計上的誤差。然而整體來看,這套密碼裏麵就算有模式,也顯得意義不大。為什麽模式看起來似乎沒有意義呢?來自美國加州的生物化學家布萊恩·戴維斯(Brian K. Davis)就在研究這個問題,他一直對遺傳密碼的來源非常感興趣。戴維斯認為許多人因為認同“凍結的偶然”,失去了研究密碼來源的興趣,因為如果隻是偶然,那又何必研究呢?而剩下的少數科學家,則被流行的原始湯理論所誤導。如果這套密碼是從原始湯中誕生,那麽這些分子的基本結構,必定是某些可以在原始湯中通過物理或化學反應產生的分子。如果是這樣,那應該會有一小群氨基酸曾是形成遺傳密碼的基礎,後來再漸漸加入其他的氨基酸。恰好也有一些證據似乎支持這種假設(雖然並不正確)。事實上,隻有當我們從生物反應的角度來看待密碼,也就是當原始細胞開始利用氫和二氧化碳為自己製造生命建材時,其中的模式才有意義。
這些難解的模式是什麽?所有三聯密碼的第一個字母都有特定的對應方式。第一個字母之所以引人注目,是因為它與前體合成氨基酸的反應有關。該對應方式讓人十分詫異,需要好好解釋一下。今天的細胞通過一連串的生物化學反應,把數個簡單的前體合成一個氨基酸。讓科學家驚訝的是,這些前體似乎都和三聯密碼的第一個字母有某種關係,舉例來說,所有以丙酮酸為前體合成的氨基酸,它們密碼的第一個字母都是T。[5]我這裏用丙酮酸舉例,是因為在第一章我們已經見過它了。我們提到這種分子可以在堿性熱泉,經由礦物催化劑的幫助,通過氫和二氧化碳反應合成。然而不隻是丙酮酸,所有氨基酸的前體,都是克氏循環這個生命基礎化學反應的一部分,因此都可以在前麵提過的堿性熱泉中合成。也就暗示了熱泉和三聯密碼的第一個字母有某種程度的關聯,我承認現在這樣說還很牽強,不過後麵會詳述。
那麽三聯密碼的第二個字母有沒有意義?第二個字母和氨基酸是否容易溶於水有關,或者說和氨基酸的疏水性有關。親水性氨基酸會溶於水,疏水性氨基酸不會溶於水,但會溶在脂肪或油裏,比如溶在含有脂質的細胞膜裏。所有的氨基酸,可以從“非常疏水”到“非常親水”排列成一張圖譜,而正是這張圖譜決定了氨基酸與第二個密碼字母之間的關係。疏水性最強的六個氨基酸裏有五個,第二個字母都是T,所有親水性最強的氨基酸第二個字母都是A。介於中間的有些是G有些是C。總結來說,不管是什麽原因,三聯密碼的前兩個字母和它翻譯的氨基酸之間確有關聯。
最後一個字母是造成密碼簡並的主因,其中有八個氨基酸存在所謂的四重簡並(科學家愛死這種術語了)。一般人聽到這個詞可能會在腦海裏麵想象一個搖搖晃晃的醉漢,連續掉進四條水溝。但是當生物化學家這麽講的時候,意思是三聯密碼的第三個字母不含任何信息,那麽不管接上哪一個字母都沒關係,這組密碼子都會翻譯出一樣的氨基酸。以甘氨酸為例,它的密碼子是GGG,但是最後一個G可以代換成T、A或C,這四組三聯密碼都編碼甘氨酸。
第三個字母的簡並性暗示了一些有趣的事情。前麵提過,二聯密碼可以編碼16種氨基酸。如果我們從20個氨基酸裏拿掉5個結構最複雜的(剩下15個氨基酸,再加上一個終止密碼子),這樣前兩個字母與這15個氨基酸特性之間的關聯就更明顯了。因此,最原始的密碼可能隻是二聯密碼,後來才靠“密碼子捕捉”的方式成為三聯密碼,也就是各氨基酸彼此競爭第三個字母。如果是這樣,那麽最早的15個氨基酸在“接手”第三個字母時,很可能會“作弊”。比如說,那15個由初期二聯密碼所編碼的早期氨基酸,占用了如今密碼組中的53個(總共有64組),也就是每個氨基酸平均使用3.5組密碼子,而剩下5個較晚出現的氨基酸隻使用了8組密碼子,平均每個氨基酸才用1.6組密碼子。顯然早起的鳥兒有蟲吃。
好,現在就假設最原始的密碼是二聯密碼而非三聯密碼,它們總共負責編碼15個氨基酸(外加一個終止密碼子)。這套早期的密碼看起來似乎非常符合決定論,也就是說,早期密碼完全由物理或化學因素形成。第一個字母和氨基酸前體之間的關係直截了當,而第二個字母又和氨基酸的疏水性相關。“偶然”在這裏恐怕沒太多插手的機會,因為物理定律不容許任何偶然。
但是第三個字母卻是另外一回事。這個位置有很大的彈性,因此可以隨機選擇,所以就有可能讓自然選擇去選出一個“最適當”的字母。至少這是生物學家勞倫斯·赫斯特(Lawrence Hurst)和斯蒂芬·弗裏蘭(Stephen Freeland)在20世紀90年代末提出的大膽主張。他們當時把天然基因密碼和計算機隨機產生的幾百萬組密碼拿去比對,結果轟動一時。他們想知道,如果發生點突變這種把一個字母換掉的變異,哪一套密碼係統最經得起考驗。最經得起考驗的密碼係統應該能保留最多正確的氨基酸,或將它代換成另一個性質相似的氨基酸。結果他們發現,天然的基因密碼最經得起突變的考驗。點突變常常不會影響氨基酸序列,而如果突變真的改變了氨基酸,也會由另一個物理特性相似的氨基酸來取代。據此,赫斯特與弗裏蘭宣稱,天然的遺傳密碼比成千上萬套隨機產生的密碼要優良得多。它不但不是大自然密碼學家愚蠢而盲目的作品,而且是萬裏挑一的密碼係統。他們還說,這套密碼除了可以忍受突變,還可以降低災難發生時造成的損失,因此可以加快進化的腳步。因為如果突變不是災難性的,那應該會帶來更多的好處。
除非承認存在神明,不然唯一能解釋這種傑作的就是自然選擇。如果這是真的,那生命的密碼就是進化出來的。事實上,我們已經發現這套“通用”的遺傳密碼,在細菌和線粒體之間存有一些細小的差異,如果這不是由其他因素造成的,那說明它們的密碼係統確實可以在某些特殊情況下進化。但你也許會問,這樣的改變為什麽沒有造成如克裏克所說的破壞呢?答案是偷偷地改。如果一個氨基酸使用四組甚至六組密碼子,那麽其中也許有幾組會更常用,那些較少用的就可以分配給其他不同(但是性質相似)的氨基酸,而不會造成災難,如此一來密碼係統就進化了。
總的來說,密碼子中的密碼是自然法則催生的,開始的時候,它和氨基酸的合成以及可溶性有關,接著則是增加多樣性以及優化。那麽現在的問題是,哪一種自然法則作用在誰身上?又是如何作用的呢?
關於這點目前還沒有肯定的答案,同時也還有許多難題尚未解決。最先遇到的難題就是蛋白質與DNA兩者誰先誰後,這種類似於雞生蛋蛋生雞的問題。因為DNA分子活性比較低,它需要特定蛋白質的幫助才能完成自我複製。但反過來講,特定的蛋白質不是無緣無故產生的,它們需要經過自然的篩選,而要通過自然選擇,它們就必須能被遺傳且能產生變異。然而蛋白質本身不是遺傳的模板,它要由DNA編碼。所以問題就是,蛋白質沒有DNA就無法進化,而DNA沒有蛋白質也無法進化。如果兩者缺一不可,那進化就永遠無法發生。
在20世紀80年代中期,科學家有一項超凡的發現,那就是RNA可以當作催化劑。RNA分子很少形成雙螺旋,它們常卷成小而複雜的形狀,同時具有催化作用。這樣一來RNA分子就可以打破前麵的困境。在這個假設的“RNA世界”裏,RNA既可以扮演DNA的角色也可扮演蛋白質的角色,它可以催化自我複製以及很多其他反應。現在密碼不再是DNA的專屬,它也可以通過RNA和蛋白質的直接作用來產生。
從現代細胞工作的角度來看,該假設是有意義的。今天的細胞裏,氨基酸並不會和DNA直接接觸,當細胞需要合成蛋白質時,許多基礎反應都是由核酶(一種具有催化功能的RNA)催化完成的。“RNA世界”這個詞,出自沃森的哈佛同事沃爾特·吉爾伯特(Walter Gilbert)發表在《自然》上的一篇論文。該論文可能是迄今為止《自然》上閱讀量最多的文章之一。該假設讓整個學界為之著迷,它讓生命密碼的研究方向,從“DNA密碼如何編碼蛋白質”轉向“RNA和氨基酸之間到底發生了什麽”,然而至今我們仍沒有明確的答案。
在對RNA世界充滿興趣的氛圍之下,你也許會很驚訝,小片段RNA分子的催化性質竟然被忽略了。如果較大的RNA分子具有催化能力,那麽很小片段的RNA分子,像單個或一對字母組成的那種RNA,或許也有催化力,盡管能力沒大段的那麽強。最近,受人景仰的美國生物化學家哈德羅·莫洛維茲(Harold Morowitz),與分子生物學家謝利·科普利(Shelley Copleg)以及物理學家埃裏克·史密斯(Eric Smith)合作,指出了這種可能性。他們的構想或許不完全對,不過我認為在解釋生命密碼起源時,這就是我們所需要的理論。
莫洛維茲他們假設由成對字母組成的RNA(術語稱為雙核苷酸)也可以作為催化劑。他們認為雙核苷酸會和氨基酸的前體(比如丙酮酸)結合,然後催化它們成為氨基酸。至於催化成哪一種氨基酸,則要看雙核苷酸裏的字母是什麽(規則就如前麵討論過的)。理論上第一個字母會決定氨基酸的前體,第二個字母決定反應形式。比如說,如果兩個字母是UU,那麽丙酮酸會先接上來,然後被轉換成疏水性極強的亮氨酸。同時莫洛維茲也為這個簡單而迷人的構想,提供了許多可行的反應機製,讓它們看起來可行。不過我還是希望有一天能看到這些反應真的在試管裏發生。
現在,從這裏到三聯密碼隻剩下兩步了(至少理論上如此),而它們都隻需要簡單的字母配對即可。首先,一段較大的RNA分子和雙核苷酸通過慣常的堿基配對法則配對,也就是G配C, A配U。接著氨基酸會被轉移到這個較大的RNA分子上,因為分子較大,吸引力也比較大。[6]結果就是一段RNA分子接了一個氨基酸,而氨基酸的種類取決於最初攜帶它的雙核苷酸字母。這其實就是克裏克當初提倡的“適配器”原型:一段RNA鏈帶著一個“正確的”氨基酸。
第二步則是將二聯密碼變成三聯密碼,配對規則不變。如果三個字母配對的效果比兩個字母配對來得好(也許好處是分子間有較多空間或結合力較強),那三聯密碼自然會勝出。此時前兩個字母就由前麵的條件所決定,而第三個字母則可以在一定範圍內改變,使得密碼可能變異從而優化。我認為克裏克當初的假設中可能正確的地方是,他認為帶著氨基酸的RNA會像小豬吸吮母豬**一樣湊上來,那麽空間太小就有可能將相鄰的RNA分子推開,從而促使它們“平均”間隔三個字母。此時還沒有閱讀起始點的問題,也沒有蛋白質參與,僅有氨基酸和RNA兩者作用。這時整套密碼的基礎已經完備,後來新增加的氨基酸可以直接使用還沒被用過的密碼組。
當然整套理論都還隻是假說,目前也沒有太多證據可以證明。但是重要的是它為解開密碼起源之謎帶來希望之光,從簡單化學反應到三聯密碼誕生,看起來也有可能發生,也可以被實驗檢驗。盡管如此,你也許會認為這一切雖然聽起來很好,但是我一直在講的RNA分子好像直接長在樹上,隨便摘就有似的。而且我們是如何從簡單化學反應,走到對蛋白質進行自然選擇?又如何從RNA進步到DNA?最近幾年的研究結果提供了一些不俗的答案。而新的發現恰好支持第一章提到的生命誕生於海底熱泉的假設。
第一個要問的問題就是,RNA分子是從哪裏來的。雖然我們對RNA世界已經研究了20年,然而這個問題卻幾乎從來沒有被好好地問過。一個大家絕口不提但是極為愚蠢的假設是:RNA不知為何就這樣存在於原始湯中。
我不是開玩笑的,科學家的研究大多解答極其專一的問題,他們不可能一次回答所有的問題。美妙又威力無窮的RNA世界假說,其實建立在一個“恩賜”上,也就是RNA事前已經存在了。對於提倡RNA世界的先驅來說,重點不在於RNA從哪裏來,而在於它們能做什麽。當然還是有人對RNA的合成過程感興趣,然而他們卻很快地陷入各自的小圈子裏,循環往複地為自己所擁護的假說爭辯。或許RNA是在外太空由氰化物合成的,或許它們是閃電擊打地球上的甲烷和氨氣合成的,又或許它們是在海底火山口冶煉愚人金時一起產生的。這些假設都各有各的優點,但是也都麵臨一個非常基本的問題,那就是“濃度問題”。
要製造單一的RNA字母(核苷酸)並不容易,不過如果核苷酸濃度夠高,它們會很快形成聚合物(也就是RNA分子)。大量的核苷酸分子會自動聚在一起變成RNA長鏈。但是當核苷酸濃度降低時,逆反應就會發生,RNA會自己降解成單一核苷酸。問題就在這裏,RNA每自我複製一次,就會消耗核苷酸,因此導致核苷酸濃度降低。除非有辦法持續快速地生產核苷酸(且一定要比消耗速度快),否則RNA世界不可能行得通,當然也無法解決任何問題。這樣當然不行。所以,任何人如果想要在科學上獲得一點實質的進展,那最好先把RNA當作天賜的禮物。
當RNA起源的解答遙遙無期時,他們忽略這個問題確實有其正當性。不過解答最後出現得頗有戲劇性。RNA分子當然不是長在樹上,而是長在堿性熱泉裏,或者至少可從模擬的泉口中得到。不屈不撓的地質化學家羅素(我們在第一章已經介紹過他)、迪特爾·布勞恩(Dieter Braun)與他的德國同事,在2007年發表了一篇極為重要的理論論文,文中提到,在堿性熱泉環境下核苷酸的數量可以累積到驚人的程度。這與熱泉區可以產生極大的溫度梯度有關。羅素認為,在第一章提到的堿性熱泉裏,泉水通過許多細小而互相連接的孔洞,而熱泉的溫度梯度會通過這些孔洞循環製造出兩種流動。第一種是對流,就像煮開水時會看到的。第二種則是熱擴散,也就是熱會往較冷的海水裏擴散。借著這兩種流動的交互作用,熱泉會漸漸在較低的孔洞中填滿各種小分子。在他們的仿真熱泉係統中,核苷酸的濃度可以達到起始濃度的數千甚至數百萬倍。如此高濃度的核苷酸很容易產生RNA分子。因此他們推論,這樣的環境會強迫生命分子從高濃度的環境中開始進化。
不過堿性熱泉還可以做得更多。理論上較長的RNA鏈或DNA鏈,因為體積較大更容易堵塞在孔洞中,會比單一核苷酸累積更多。據估計,100個堿基大小的DNA分子可以累積到起始濃度的1000萬億倍。如此高的濃度足以讓我們前麵討論過的各種反應發生,比如RNA分子彼此結合之類。最有趣的是在這裏忽高忽低的溫度環境中(如熱循環一般),可以生發全世界實驗室裏隨處可見的聚合酶鏈式反應(簡稱為PCR)來促進RNA分子複製。在進行PCR時,高溫會讓DNA分子解旋,然後DNA就可作為模板,等溫度較冷時就有一條單鏈可以開始複製。結果導致分子複製的速度呈指數級增加。[7]
總結一下,熱泉區的溫度梯度可以讓核苷酸濃度增加到某種程度,從而促進RNA分子形成。同樣的梯度也會增加RNA的濃度,有利於分子接觸。而忽高忽低的溫度可以促使RNA複製。我們恐怕很難找到一個比這裏更適合形成RNA世界的地方了。
那麽關於第二個問題,我們如何讓RNA分子從自我複製、彼此競爭的世界,走向一個比較複雜,並開始製造蛋白質分子的世界呢?同樣,熱泉也許可以給我們答案。
如果在試管裏加入RNA,然後再放入一些材料以及所需的能量(比如ATP),它就會自我複製。事實上,除了自我複製以外,它還會開始進化,這是20世紀60年代美國分子生物學家索爾·斯皮格曼(Sol Spiegelman)和其他人所觀察到的現象。RNA在試管裏麵複製幾代之後,複製速度會越來越快,近乎瘋狂。雖然實驗過程有人工參與,但它們自發變成了會不斷加速自我複製的RNA鏈,超乎想象,簡直就是“斯皮格曼的怪物”。有趣的是,你可以從任何東西開始反應,不管是如病毒那樣複雜的RNA,或者是人工合成的簡單的RNA。你甚至也可以隻加入一些核苷酸外帶一些聚合酶去把它們連在一起。不管你從哪裏開始,它們最後都會趨向相同的結果,就是變成一樣的“怪物”,一樣瘋狂自我複製的RNA鏈。這些斯皮格曼怪物的長度很少超過50個字母,就像分子版的《土撥鼠之日》[8]。
重點就在這裏,斯皮格曼怪物不會再變得更複雜,它會停在50個字母的長度,因為這恰好是複製酶所需要的長度。沒有複製酶,RNA鏈就無法繼續複製。當然,RNA分子本身目光如豆,所以在這樣的溶液裏它也不會變得更複雜。那麽,最原始的RNA憑什麽要開始犧牲自己的複製速度,來換取製造蛋白質的能力呢?要跳出這個框架,唯有當選擇發生在“更高層級”時才有可能。也就是說,自然選擇的對象變成某個整體(比如細胞),而RNA隻是整體中的一部分。問題是今天所有的有機體細胞都太過複雜,它們不可能未經進化就一下子出現。所以自然選擇一定要作用於細胞,才不會允許RNA拚命複製。這還是一個雞生蛋蛋生雞的兩難問題,就像蛋白質和DNA誰先誰後的問題一樣,雖然它沒有後者那麽出名。
我們已經看過RNA可以完美地解決DNA和蛋白質誰先誰後的問題,那麽現在誰來打破RNA出現的問題?其實答案就在眼前,那就是堿性熱泉已經做好的無機礦物細胞。這樣的礦物細胞大小恰好和真的細胞一樣,而且熱泉區又無時無刻不在製造它們。所以如果一個細胞內包含的所有分子,可以源源不斷地產生新的材料幫助自我複製,那麽這個細胞就會開始“繁殖”,也就是說,細胞內的材料會集體侵入其他無機細胞的空腔。相反,如果是一群隻曉得盡快複製自己的“自私”RNA,那最終它們就會輸掉競爭,因為它們不會持續產生複製自我所需的新材料。
換言之,堿性熱泉環境會漸漸地淘汰隻會快速複製自我的RNA分子,而選擇出具有完整代謝功能、能獨力運作的完整細胞。畢竟蛋白質才是真正能夠支配代謝的主角,不可避免地,它們一定會取代RNA。不過蛋白質當然不會突然出現,最早的代謝一定是由礦物質、核苷酸、RNA、氨基酸和一些複雜一點的分子(比如接在RNA上的氨基酸)共同協力完成。這裏的重點是,原本隻是簡單的分子間化學親合力,在這個允許細胞自由增生的環境中,變成篩選複製整體的能力,也就是說,篩選出能夠自給自足,最終可以獨立自主的生命。而DNA起源的最後一條線索,正是從已經自主的生命裏找到的。
細菌之間有一道巨大的鴻溝,將它們分成兩群。在第四章裏我們將會看到這鴻溝對進化來說有多重要。在此,我們隻要關注它和DNA起源的關係即可,不過這關係也夠深厚了。鴻溝的一邊是真細菌(eubacteria,希臘文的意思為“真正的”細菌),另一邊是一群從許多方麵來看都和真細菌一樣的細菌。這第二群細菌現在叫作古生菌,或古細菌。古細菌之所以得名,是因為當初認為它們存在已久非常古老,不過現在有部分學者認為,古細菌未必比真細菌古老多少。
也許就是這麽巧,真細菌和古細菌有可能都是從海底熱泉中誕生的,否則很難解釋為何兩者使用一模一樣的基因密碼,合成蛋白質的方式也一樣。不過它們似乎是後來才各自獨立學會如何複製DNA的。DNA和基因密碼必定隻進化過一次,但是複製DNA,這個在各細胞代代相傳的重要機製,卻似乎進化過兩次。
如果該主張不是來自聰明又嚴謹的計算遺傳學家尤金·庫寧(Eugene Koonin),那我大概會滿腹懷疑地掉頭走開。庫寧是位俄裔美國科學家,現在任職於美國國立衛生研究院。庫寧的團隊並非一開始就試圖去證明這個全新的觀點,他們是在係統地比對真細菌與古細菌的DNA複製係統時,無意間發現的。細致比對真細菌與古細菌的基因序列之後,庫寧他們發現這兩種細菌使用的蛋白質合成機製大同小異。比如說,它們從DNA轉錄到RNA,再從RNA翻譯成蛋白質的過程非常類似,而且使用的酶也顯然來自同一個共祖(這是基因序列比對的結果)。但是它們複製DNA所使用的酶就不是一回事了,這兩者之間幾乎沒有什麽共通性。我們隻能用這兩種細菌分異太久來解釋這一奇怪的現象,但是問題就是,為什麽分異時間一樣久的DNA轉錄和翻譯係統,卻沒有產生這樣極端的差異呢?最簡單的解釋,就是庫寧所提出的那個全新假說:DNA的複製係統曾經進化過兩次,一次在古細菌裏,一次在真細菌裏。[9]
該假說對大多數人來說十分駭人,不過對一位傑出而個性溫和、在德國工作的“得克薩斯人”來說卻正好滿足需求。我們在第一章提到過生物化學家馬丁,此時他已經和羅素一起合作在探索堿性熱泉的生化反應了。馬丁和羅素在2003年發表了一篇完全不合當代主流意見的論文,提出他們自己的獨到見解。他們認為古細菌與真細菌的共祖,並非可以自由生活的有機體,而是受困在多孔礦物岩石區的某種會自我複製的東西,但它們尚未逃離迷宮般的熱泉礦物細胞腔。為了支持自己的觀點,馬丁和羅素還列出了一長串古細菌與真細菌之間難以理解的差異。特別是兩者的細胞膜和細胞壁的構造完全不同,似乎暗示了兩群細菌為了從相同的岩石禁錮裏出逃,各自進化出了不同的逃離機製。這樣的假說對大部分的人來說都太過新異,但是對庫寧來講,簡直就是為他的觀察結果量身定做的。
很快馬丁和庫寧就開始合作,討論基因與基因組起源於堿性熱泉的可能性,然後在2005年發表了那些充滿啟發性的想法。他們認為古老礦物細胞的生命周期,或許與現在的反轉錄病毒十分類似,比如艾滋病毒。反轉錄病毒的基因組通常都很小,成分是RNA而非DNA。當反轉錄病毒入侵細胞後,它會用一種“反轉錄酶”把自己的RNA反轉錄成DNA。這段DNA就會插入宿主細胞的基因組中,當宿主細胞讀取自己的基因時,也會一起讀到病毒的基因,從而幫助病毒完成複製。所以當病毒複製自己時,使用的是DNA,然而它卻把RNA作為遺傳物質,傳給下一代。病毒缺乏的正是複製DNA的能力。一般來說,這種比較複雜的程序都需要許多酶共同參與。
這種生命周期有優點也有缺點,最大的優點就是繁殖迅速。既然病毒可以利用宿主細胞的整套機器把DNA轉錄成RNA,再翻譯成蛋白質,那病毒自己就可以丟掉一大堆基因,省下不少時間和麻煩。而最大的缺點是,病毒必須依賴“適當的”細胞才能生存。第二個比較小的缺點是,RNA能儲存的信息和DNA相比十分有限。RNA分子的化學穩定性較差,不過反過來說,又比DNA分子容易反應,這是RNA分子具有化學催化性的原因。但也因為這種化學活性,大段的RNA分子容易斷裂,而這種尺寸限製將會影響病毒獨立自主的能力。一個反轉錄病毒必須包含的信息量,差不多就是RNA所能儲存的最大信息量了。
不過在礦物細胞裏就不一樣了。礦物細胞可以提供至少兩個好處,讓RNA式的生命進化得更複雜。第一個好處是許多獨立生活所需的物資,熱泉都可以免費提供,這樣至少讓細胞有個好的開始。比如快速增加的礦物細胞已經有完整的外膜,也會提供能量。就某方麵來說,廣布在熱泉口的會自我複製的RNA,已是病毒了。第二個好處則是這些群聚在一起的RNA分子有很多機會,可以通過互相連通的礦物細胞彼此混合,任意配對。“合作融洽”的RNA分子們,如果可以一起擴散到鄰近的細胞裏,就有可能在選擇中勝出。
馬丁和庫寧所設想的,就是這樣一種出現在礦物細胞中的互助合作式的RNA分子,每段RNA分子各自攜帶相關基因中不同的幾個。這種生活模式當然有缺點,其中最大的致命傷就是RNA族群有可能麵臨找不到配合對象的窘境。然而如果有一個細胞能夠把所有合作愉快的RNA片段都轉換成一整段DNA,那它就掌握了所有的“基因組”,可以保存所有的優點。它可以用類似反轉錄病毒的方式繁殖,把所有基因轉錄成一群RNA,然後感染鄰近的細胞,讓它們也有能力把所有的遺傳信息再存回DNA銀行裏。每一群RNA都從這個銀行裏直接鑄造,所以不太容易出錯。
礦物細胞要在這種情況下“發明”DNA有多難?可能不會很難,事實上,應該會比發明複製DNA的整套機器簡單得多(複製RNA比複製DNA簡單)。DNA和RNA在化學成分上隻有兩處小小的不同,但是加在一起卻讓整個結構大不相同:一個是卷曲又具有催化能力的RNA分子,另一個是具象征意義的雙螺旋DNA(在沃森與克裏克1953年發表在《自然》上的論文裏曾經不經意地這樣預測過)。[10]這種細小的變異在熱泉區恐怕很難不發生。這個反應第一步要先從核糖核酸(RNA)上移走一個氧原子,讓它變成“脫氧”核糖核酸(DNA)。這種機製牽涉到一些活性很強的中間物(活性自由基),至今仍可在堿性熱泉中發現。反應的第二步則要在尿嘧啶(U)上麵加上一個甲基,讓它變成胸腺嘧啶(T)。同樣,甲基是甲烷的自由基碎片,在堿性熱泉口更是信手拈來。
現在我們知道了,要製造DNA並不難,它很可能和RNA一樣在堿性熱泉中自行合成(我是說它可能從簡單前體,然後由核苷酸、氨基酸、礦物質等東西催化而來)。比較麻煩的地方是要維持密碼信息的正確性,也就是要製造出一段和RNA一模一樣的序列,但是字母要換成DNA。當然這也不是不能克服,因為從RNA轉換成DNA,隻需要一個酶,那就是反轉錄酶,而這個酶現在依然存在於反轉錄病毒中(比如艾滋病毒)。讓人意外的是,反轉錄酶過去被認為是打破生命中心法則(就是由DNA製造RNA然後製造蛋白質的法則)的酶,而如今這種酶也可以把病毒RNA所感染的早期多孔岩石,變成現在我們熟知的生命形態。或許,我們真該感激這些微小的反轉錄病毒,為我們帶來生命的起源。
故事中還有太多細節沒有講到,還缺少很多的片段,但我試著把故事拚湊得完整而有意義。我不會假裝本章裏所討論的假說都已成定論,它們隻不過是遙遠的過往透露給我們的一點線索而已。但是這些線索都非常有用,並且有朝一日一定可以被某個可信的理論解釋得更完美。在生命的密碼裏麵確實隱藏著某種模式,是化學反應和自然選擇一起作用才形成的。海底熱泉的熱流確實可以濃縮核苷酸、RNA和DNA,並讓這迷宮般的礦物細胞變成理想的RNA世界。而在真細菌和古細菌之間,也確實存有著無法簡單解釋的差異。種種跡象都顯示生命的初始形式始於反轉錄病毒。
我由衷地認為在本章講的故事很可能就是真相,這讓我十分興奮。不過在內心深處,卻仍有一個疑點困惑著我,那就是某些線索暗示生命曾經在堿性熱泉口進化了兩次。究竟是成群的RNA從一個熱泉感染到鄰近的另一個熱泉,最終遍布大海,讓自然選擇在全球進行,還是在某一個特別的熱泉,其特殊的環境讓古細菌與真細菌可以同時誕生?或許,我們永遠也不會知道答案。在偶然與必然之間,仍有許多空間留給我們思考。
[1] 你也許會懷疑,如果有這麽多的突變,為什麽到現在我們還沒被突變給毀了?這個問題同樣困擾著許多生物學家。不過答案就在一個字:性。關於這點我會在第五章詳述。
[2] 這個數據是指DNA序列的相似性。在黑猩猩和人類分家之後,還發生了其他較大的基因改變,比如染色體融合或缺失,導致兩者全部基因組的相似性大概在95%。相較之下,人和人的基因差異非常微小──大家的基因有99.9%都一樣。這種有限的差異代表我們的族群經曆過人口的“瓶頸效應”,也就是說,大約在15萬年以前,非洲的某一個小族群,通過一波又一波的遷徙,形成現在全世界所有的人類。
[3] 在RNA裏麵不像DNA一樣使用胸腺嘧啶(T),它被置換成另一個略微不同的分子,叫作尿嘧啶(U)。這是DNA與RNA分子的不同之一,另一個不同之處則是RNA使用的糖類叫作核糖,而不是DNA使用的脫氧核糖。此外這兩者就沒有差異了。稍後我們會看到這兩處小小的化學差異如何造成巨大的功能差異。
[4] 那麽大自然如何解決序列順序的問題?很簡單,它一定從mRNA的起點開始讀,在終點結束。這過程其實極度機械化。tRNA並不像小豬尋找母豬**那樣接上來,而是mRNA穿過核糖體中間,就像錄音帶通過磁頭一般,然後核糖體會一個密碼子一個密碼子地念,一直念到終止密碼子。因此,氨基酸也不是等全部就位了之後才接起來,而是一個一個地照順序接出來,等核糖體念到終止密碼子,氨基酸長鏈也就完成並被釋放出去。一段mRNA也可以同時接上好幾個核糖體,每個核糖體都製造一個獨立的蛋白質。
[5] 你可以不管這些化學分子名稱,但是我還是要介紹一下:所有由α-酮戊二酸所合成的氨基酸,其三聯密碼第一個字母都是C;所有由草酰乙酸合成的氨基酸,第一個字母都是A;所有由丙酮酸合成的氨基酸,第一個字母都是T;最後,幾種簡單前體通過單一步驟所合成的氨基酸,第一個字母都是G。
[6] 氨基酸和哪一小段RNA連接,很可能取決於這段RNA的序列。美國科羅拉多大學的邁克爾·雅魯斯(Michael Yarus)與他的同事曾經研究過,含有比較多反密碼子的小段RNA,與“正確氨基酸”的結合力,比與其他任何氨基酸的結合力都大好幾百萬倍。
[7] 在實驗室裏進行反應需要酶──DNA聚合酶,而看起來在熱泉要促進DNA或RNA複製也需要酶,但這並不是說一定要蛋白質做成的酶才行,一個由RNA形成的複製酶應該也可以。現在尋找這種由RNA形成的複製酶變得像在尋找聖杯一樣,科學家認為它極有可能存在。
[8] 該片主人公偶遇暴風雪後,一直重複過同一天。
[9] 真核生物複製DNA的方法,來自古細菌而非真細菌,至於為什麽,我會在第四章討論。
[10] 沃森和克裏克注意到:“不太可能用核糖代替脫氧核糖做出這種結構(雙螺旋),因為多出來一個氧原子會太擠,對於產生範德華力(分子間作用力)的距離來說太近了。”