在未來(lái)某一天,DNA所記錄的將不僅僅是一個(gè)人的生命藍(lán)圖,它將可以存儲(chǔ)大量的文件、音樂(lè)、視頻,并且用它小到難以置信的身量保存這些文件至幾千年。
DNA,即脫氧核糖核酸,在普通人的認(rèn)識(shí)中,它是一種傳承生物遺傳物質(zhì)的分子,一部分DNA序列負(fù)責(zé)攜帶遺傳訊息被稱為基因,另一部分DNA序列,有些直接以自身構(gòu)造發(fā)揮作用,有些則參與調(diào)控遺傳訊息的表現(xiàn)。在地球生命伊始,DNA就承擔(dān)起了自然并且是必須的信息存儲(chǔ)和傳遞的功能。因此DNA所攜帶的信息常被比喻為生命的“藍(lán)圖”。
既然DNA可以存儲(chǔ)生物的遺傳信息,并且可以持續(xù)上萬(wàn)年,是否有可能成為一種新的存儲(chǔ)電子數(shù)據(jù)的媒介?
指尖上的莎士比亞
位于英國(guó)欣克斯頓的歐洲生物信息研究所的研究員利用一種新的方法,將大約739KB的文件存儲(chǔ)到了DNA片段上。研究人員稱,待DNA編碼和合成的價(jià)格不斷下降后,這種生物存儲(chǔ)介質(zhì)將在數(shù)十年內(nèi)形成競(jìng)爭(zhēng)力。他們的論文發(fā)表在1月23日的《自然》雜志上。
團(tuán)隊(duì)負(fù)責(zé)人尼克·戈德曼(Nick Goldman)在接受《中國(guó)科學(xué)報(bào)》記者郵件采訪時(shí)說(shuō),研究所的團(tuán)隊(duì)在幾乎不可見(jiàn)的微量DNA中儲(chǔ)存了154首莎士比亞十四行詩(shī)、一張JPG格式的照片、一篇PDF的科學(xué)論文和美國(guó)民權(quán)領(lǐng)袖馬丁·路德·金《我有一個(gè)夢(mèng)想》演講中的26秒時(shí)長(zhǎng)的片段。總共大約739KB。
DNA含有用一種簡(jiǎn)單卻無(wú)比強(qiáng)大的編碼寫成的遺傳指令,這些指令由腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四種被稱作堿基的化學(xué)物質(zhì)組成。
為了將文件存入DNA,戈德曼和他的同事將文本、圖片或音頻數(shù)據(jù)轉(zhuǎn)成二進(jìn)制代碼。之后,用戈德曼編寫的程序?qū)⑦@些二進(jìn)制代碼的“0”和“1”再轉(zhuǎn)換成代表DNA的4個(gè)堿基的代碼A、T、G、C。通過(guò)這串字母,他們繪制了幾千個(gè)DNA片段的藍(lán)圖,每一個(gè)都包含文件的一段。戈德曼說(shuō),文件被分成片段,每一個(gè)片斷要用指數(shù)代碼標(biāo)記,代碼包括片段所歸屬文件以及在文件中的位置,就像是一本書中的頁(yè)碼和每頁(yè)的標(biāo)題一樣。
通過(guò)兩周的努力,他們將這些文件成功的完成了一個(gè)寫入和讀取的過(guò)程。“我們把這些片段合成完整的DNA,然后用DNA測(cè)序儀讀取堿基A、T、G、C的順序,”戈德曼說(shuō),“再用軟件將堿基翻譯成二進(jìn)制代碼‘0’和‘1’,這樣就可以成功的將文件讀取了。”
論文一發(fā)表,就引來(lái)了媒體的一片評(píng)論,很多國(guó)外媒體評(píng)論說(shuō),他們將DNA帶入了一個(gè)革命性的數(shù)據(jù)存儲(chǔ)時(shí)代,只需手掌般大小的人造DNA,便可容納全世界高達(dá)30億TB的數(shù)據(jù)。要想讀取這些內(nèi)容可以通過(guò)DNA測(cè)序,使其轉(zhuǎn)換成計(jì)算機(jī)編碼即可。
哈佛大學(xué)DNA專家喬治·丘奇(George Church)稱,這種技術(shù)能夠讓一個(gè)人在指尖上存儲(chǔ)維基百科的全部?jī)?nèi)容,而且現(xiàn)在全世界存儲(chǔ)在磁盤上的信息都能夠儲(chǔ)存在手掌上。
1克DNA等于300萬(wàn)張CD
實(shí)際上,在2012年就已經(jīng)先后有兩篇相關(guān)的研究論文發(fā)表,一篇來(lái)自斯坦福大學(xué),一篇來(lái)自哈佛大學(xué)。
2012年5月21日,《美國(guó)國(guó)家科學(xué)院院刊》刊登了斯坦福大學(xué)研究人員的研究成果,他們成功地將電腦文件編入了噬菌體的DNA片段并植入大腸桿菌的DNA,實(shí)現(xiàn)了在活體細(xì)胞的DNA中重復(fù)擦寫數(shù)字信息。
但是這種方式有一些不足之處。首先,細(xì)胞會(huì)死亡,這并不是你存儲(chǔ)學(xué)期論文的好方法。另外,細(xì)胞還會(huì)分裂、復(fù)制,其中會(huì)不斷發(fā)生變異,從而改變數(shù)據(jù)的內(nèi)容。
為了解決這些問(wèn)題,喬治·丘奇領(lǐng)導(dǎo)的研究團(tuán)隊(duì)發(fā)明了一種DNA信息歸檔系統(tǒng),完全不需要利用細(xì)胞。2012年8月17日,《科學(xué)》雜志報(bào)道了這一實(shí)驗(yàn),并且評(píng)論該實(shí)驗(yàn)可能會(huì)為人類開(kāi)發(fā)遠(yuǎn)超當(dāng)前電腦芯片和磁盤容量的數(shù)據(jù)存儲(chǔ)設(shè)備指明方向。他們將一本《創(chuàng)世紀(jì)》約610KB的內(nèi)容寫入DNA片段。
丘奇告訴《中國(guó)科學(xué)報(bào)》記者,他們利用一臺(tái)噴墨打印機(jī),將“0”轉(zhuǎn)換為堿基中的A或C,“1”轉(zhuǎn)換為堿基中的G或T,這4個(gè)堿基相當(dāng)于4種墨水。每一個(gè)“點(diǎn)”都用159層“墨滴”被印刷在一片玻璃上。每一點(diǎn)中的每一個(gè)分子都有159個(gè)堿基的長(zhǎng)度(159位)。
通過(guò)這樣的轉(zhuǎn)換,數(shù)據(jù)被存儲(chǔ)在DNA片段中,同樣的每段DNA中也包含著記錄數(shù)據(jù)在源文件中位置的信息。
在讀取信息時(shí),需要DNA測(cè)序儀和電腦將所有片段按序重新組合起來(lái),并轉(zhuǎn)換為數(shù)字的格式。計(jì)算機(jī)還需要負(fù)責(zé)處理錯(cuò)誤信息,因?yàn)槊總€(gè)數(shù)據(jù)塊都可能會(huì)被復(fù)制上千次,經(jīng)過(guò)比對(duì),任何小錯(cuò)誤都可以被發(fā)現(xiàn)和糾正。
戈德曼說(shuō),與丘奇團(tuán)隊(duì)所做的工作的區(qū)別就是,他們的方法避免存儲(chǔ)中的錯(cuò)誤,但需要一些冗余信息,冗余技術(shù)是計(jì)算機(jī)系統(tǒng)可靠性設(shè)計(jì)中常采用的一種技術(shù),是提高計(jì)算機(jī)系統(tǒng)可靠性的最有效方法之一,但也會(huì)占用空間。他們希望在未來(lái)能將這些冗余部分盡量縮小而有更多的有效存儲(chǔ)空間。
丘奇說(shuō):“DNA原本就是一個(gè)自然數(shù)據(jù)庫(kù)。它記錄著與生命有關(guān)的一切數(shù)據(jù)。我們只是簡(jiǎn)單地利用它的高容量達(dá)到一些新的目的。”
戈德曼告訴《中國(guó)科學(xué)報(bào)》記者,如果將一個(gè)小試管裝滿DNA,大約是0.5克,而1克DNA可存儲(chǔ)2.2PB(1PB等于1024TB)的數(shù)據(jù),相當(dāng)于300萬(wàn)張CD的存儲(chǔ)量。DNA的信息存儲(chǔ)密度是目前已存在的存儲(chǔ)介質(zhì)的至少1000倍。
價(jià)格昂貴難接地氣
利用生物技術(shù)存儲(chǔ)信息這條路,人類實(shí)際上已經(jīng)探尋了幾十年。丘奇說(shuō):“1974年,我19歲開(kāi)始作為一名核糖核酸的研究者,就已經(jīng)在思考關(guān)于我們熟知的電子數(shù)據(jù)‘0’和‘1’與DNA當(dāng)中4個(gè)堿基代碼(A、C、G、T)之間的關(guān)系。”同時(shí),他也在研究如何能降低在DNA上讀寫數(shù)據(jù)的成本。
他告訴《中國(guó)科學(xué)報(bào)》記者,麻省理工學(xué)院的喬·戴維斯(Joe Davis)在1986年將像素為5×7的電子圖片編碼錄入到DNA。“到了2012年,我們終于將成本降低到可以將一本書《創(chuàng)世紀(jì)》的內(nèi)容寫入DNA,并且進(jìn)行了700億次的復(fù)制。”他說(shuō),“我用了十幾年研究這種方法,但是僅僅用了幾周就測(cè)試出了這個(gè)新想法。700億次的復(fù)制僅僅用了幾分鐘和幾美元。”
丘奇認(rèn)為,哈佛大學(xué)和英國(guó)研究人員進(jìn)行的這兩次實(shí)驗(yàn),是DNA存儲(chǔ)研究領(lǐng)域的一次跳躍,可以預(yù)見(jiàn)的是很快會(huì)有更多的成就出現(xiàn)。他甚至表示,在未來(lái)的兩年,DNA存儲(chǔ)技術(shù)就有可能普及。
戈德曼告訴《中國(guó)科學(xué)報(bào)》記者,他們之所以選擇了莎士比亞的著作和馬丁·路德·金的演講作為存儲(chǔ)內(nèi)容,就是因?yàn)?,他們希望通過(guò)這些重要的著作體現(xiàn)此次研究的重要性。另一方面是說(shuō)明DNA可以作為一種長(zhǎng)期儲(chǔ)存的方式,因?yàn)檫@些著作是要長(zhǎng)久流傳下去的。而那一篇PDF的科學(xué)論文正是生物學(xué)家沃森和克里克描述DNA雙螺旋結(jié)構(gòu)的文章,也具有重要的意義。同時(shí)戈德曼也希望能通過(guò)他們的方法,實(shí)驗(yàn)不同的文件格式的存儲(chǔ),比如文本文檔,圖片、視頻以及PDF。他說(shuō):“雖然這種存儲(chǔ)方法目前很昂貴,卻可以為子孫后代保存下重要的歷史和信息。DNA擁有令人驚奇的穩(wěn)定性,因此它可以用任何簡(jiǎn)單的、便宜的而且不消耗能量的方法保存上幾千年。”
存儲(chǔ)數(shù)字信息的常規(guī)方法在其存在的很長(zhǎng)一段時(shí)期內(nèi)都在不斷地顯現(xiàn)問(wèn)題。磁帶是最具代表性,不僅易碎,而且磁條上的涂層用不了幾十年就會(huì)消失。即使是其他的用于存儲(chǔ)信息的物理媒介,存儲(chǔ)格式也總是發(fā)生變化。這意味著一些數(shù)據(jù)總要通過(guò)轉(zhuǎn)換成一種新的格式去存儲(chǔ),不然就有可能丟失。與此相比,隨著時(shí)間的流逝,DNA更加穩(wěn)定,并且只有一種存儲(chǔ)格式。
但到目前為止,DNA的合成成本依然很高。戈德曼的團(tuán)隊(duì)估計(jì),目前在DNA中編碼每MB的數(shù)據(jù)成本需要1.24萬(wàn)美元,讀取則需要220美元。如果價(jià)格能降兩個(gè)數(shù)量級(jí),那么在接下來(lái)的10年DNA存儲(chǔ)器的價(jià)格將很快低于磁帶。“我們有可能在10年內(nèi)將DNA存儲(chǔ)用于商業(yè)存儲(chǔ)。”
丘奇認(rèn)為,目前DNA的缺點(diǎn)就是讀寫比較慢,并且很昂貴。但實(shí)際上噴墨打印的方式已經(jīng)加快了速度并降低了成本。
美國(guó)杜克大學(xué)半導(dǎo)體研究公司存儲(chǔ)技術(shù)項(xiàng)目主管維克多·芝諾夫(Victor Zhirnov)認(rèn)為,由于目前DNA存儲(chǔ)的成本太高,在它進(jìn)入實(shí)用階段初期時(shí)使用頻率不會(huì)很高。
丘奇也表示他還在研究這個(gè)問(wèn)題,他說(shuō):“我們正在提高我們讀取和寫入DNA數(shù)據(jù)的能力,但是我想完全跳出目前的框架去思考這個(gè)問(wèn)題。”
②③DNA含有用一種簡(jiǎn)單卻無(wú)比強(qiáng)大的編碼寫成的遺傳指令,這些指令由腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四種被稱作堿基的化學(xué)物質(zhì)組成。