兩斤DNA裝下“全世界”

責(zé)任編輯:editor005

作者:晉楠

2016-09-12 15:09:44

摘自:《中國科學(xué)報》

或許最多10年之后,沒有人會再相信磁帶儲存。利用DNA作為儲存介質(zhì)的最新實驗信號已經(jīng)超越了基因組學(xué)的范疇:全世界正面臨數(shù)據(jù)傾軋

現(xiàn)代數(shù)據(jù)存儲技術(shù)瞄準(zhǔn)基因序列

  或許最多10年之后,沒有人會再相信磁帶儲存。圖片來源:Wes Fernandes

對于Nick Goldman來說,在DNA中編碼數(shù)據(jù)的想法始于一個笑話。

那是2011年2月16日,Glodman和一些生物信息學(xué)領(lǐng)域的朋友在德國漢堡聊天,話題是他們?nèi)绾尾拍軆Υ嫒澜缬縼淼幕蚪M序列和其他數(shù)據(jù)洪流。他記得當(dāng)時談話的科學(xué)家因為傳統(tǒng)計算機(jī)技術(shù)成本昂貴和具有局限性而懊惱不已,他們開始開玩笑說或許可以嘗試科幻方法。“我們想,‘有什么能阻止我們利用DNA儲存信息呢?’”

隨后,笑聲戛然而止。“那是恍然明悟的一刻。”Goldman說,他是英國辛克斯頓歐洲生物信息學(xué)研究所(EBI)的一名團(tuán)隊負(fù)責(zé)人,那時他們想到的是與硅基記憶芯片讀寫信息的微秒時間量程相比,DNA儲存可能會非常緩慢。它可能需要花費數(shù)個小時,通過合成DNA鏈條以形成具體的基礎(chǔ)模式來編碼數(shù)據(jù),還會花費更多時間利用一種測序機(jī)器恢復(fù)這些信息。但是如果采用DNA,整個人類基因組都能夠裝入人類肉眼看不見的一個細(xì)胞中。對于信息儲存的純粹密度來說,DNA可能是硅以外進(jìn)行長期數(shù)量級信息儲存的最好方式。

“我們坐在酒吧里拿著餐巾紙和圓珠筆。”Goldman說,然后開始記錄我們的想法:“需要做些什么讓它發(fā)揮作用呢?”研究人員的最大擔(dān)心是DNA合成和測序經(jīng)常發(fā)生錯誤,而且比值高達(dá)每100個核苷酸基中就會出現(xiàn)一例錯誤。這會讓大規(guī)模數(shù)據(jù)儲存完全不可靠,除非他們能夠找到一種可用的糾錯方法。他們能夠編碼這些信息成為堿基對從而辨別并解除錯誤嗎?“經(jīng)過一個晚上的商討。”Goldman說,“我們知道我們可以。”

DNA數(shù)據(jù)儲存

Goldman和EBI的同事Ewan Birney將這一想法搬進(jìn)了實驗室,兩年后,他們宣布成功利用DNA編碼了5個文件,其中包括莎士比亞的十四行詩和一小段馬丁·路德·金的《我有一個夢想》的演講。而那時,美國哈佛大學(xué)生物學(xué)家George Church及其位于馬薩諸塞州劍橋的團(tuán)隊已經(jīng)公開了利用DNA編碼的單獨示范。但是當(dāng)時EBI的文件為739千字節(jié)(kB),直到今年7月,來自微軟和華盛頓大學(xué)的研究人員宣稱編成200兆字節(jié)(MB)的文件之前,它一直是曾經(jīng)編碼的最大DNA檔案。

利用DNA作為儲存介質(zhì)的最新實驗信號已經(jīng)超越了基因組學(xué)的范疇:全世界正面臨數(shù)據(jù)傾軋。到2020年,從天文學(xué)圖像和期刊論文到Y(jié)ouTube視頻,全球數(shù)據(jù)檔案預(yù)計將達(dá)44萬億千兆字節(jié)(GB),是2013年信息儲量的10倍。

這正是為什么難以獲得的數(shù)據(jù)現(xiàn)在需要依賴?yán)鲜降拇疟P記錄永久檔案的原因。這些信息媒介儲存比硅的儲存密度大得多,但是讀起來卻非常慢。然而,即便這一方法也變得日益不可持續(xù),華盛頓特區(qū)美國情報先進(jìn)研究計劃署(IARPA)計算神經(jīng)學(xué)家David Markowitz說。

他表示,很難想象一個數(shù)據(jù)中心的磁帶驅(qū)動器上擁有艾字節(jié)(10億GB)的信息。這樣的一個中心將需要10年間花費10億美元來建造和運行,并且需要數(shù)億瓦的電量。“分子信息儲存具有將這些條件減少三個數(shù)量級的潛力。”Markowitz說。如果信息能被打包成類似大腸桿菌基因的密度,那些全球的信息儲存需求可能只需要大約1公斤的DNA。

實現(xiàn)這一潛在目標(biāo)并不容易。在DNA能夠作為傳統(tǒng)儲存技術(shù)的可行競爭者之前,研究人員需要克服從DNA編碼信息可靠性和恢復(fù)用戶需要的信息到讓核苷酸鏈獲得價格低廉、方便迅捷的一系列挑戰(zhàn)。

盡管如此,解決這些挑戰(zhàn)的工作正在進(jìn)行。北卡羅來納州半導(dǎo)體研究公司(SRC)正在進(jìn)行DNA信息儲存工作。“10年來,我們一直在尋找硅以外的物質(zhì)”進(jìn)行數(shù)據(jù)儲存,SRC主任及首席科學(xué)家Victor Zhirnov說,“它很難置換。”他說,但是DNA作為其中的一名具有實力的候選途徑,“似乎很有可能實現(xiàn)”。

長期記憶

第一個用4個DNA堿基對繪制1和0等數(shù)據(jù)信息的人是藝術(shù)家Joe Davis,他在1988年曾與哈佛大學(xué)研究人員合作。他們在大腸桿菌中插入了DNA序列,編碼了僅僅35個比特。在組成5×7的矩陣后,使所有的1均對應(yīng)暗像素,所有的零均對應(yīng)亮像素,形成了記錄生活和女性故事的古德國詩歌。

現(xiàn)在,Davis正在與Church的實驗室合作,從2011年開始探索DNA數(shù)據(jù)儲存。這個哈佛團(tuán)隊希望,這一應(yīng)用有助于減少合成DNA的高成本,正如基因組學(xué)已經(jīng)降低了測序成本那樣。Church在2011年11月與現(xiàn)在加州大學(xué)洛杉磯分校工作的Sri Kosuri以及約翰斯·霍普金斯大學(xué)基因組專家Yuan Gao合作,進(jìn)行了概念驗證實驗。該團(tuán)隊利用許多DNA短鏈編碼了一本Church共同編著的659kB的書籍。每個短鏈的一部分都是一個地址,闡述了這些片段經(jīng)過測序之后應(yīng)該如何整理,而其余的短鏈則包含了數(shù)據(jù)。最終,在對這些鏈條進(jìn)行測序之后,Kosuri、Church 和Gao發(fā)現(xiàn)了22處錯誤,對于可靠信息儲存來說,這些錯誤顯然過多。

同時,在EBI,Goldman、Birney及其同事也在利用大量DNA鏈條編碼其739kB的數(shù)據(jù)儲存,其中包括圖像、文本、視頻文件以及Watson和Crick關(guān)于DNA雙螺旋結(jié)構(gòu)的一篇標(biāo)志性論文的PDF文件。為了避免重復(fù)性的堿基和其他錯誤,ENI團(tuán)隊采用了更加復(fù)雜的方式。通過使用被25個堿基逐漸改變的相互重合的100個堿基長鏈,ENI科學(xué)家還確保堿基組件中都有不同的糾錯以及相互對照版本。

盡管如此,具有諷刺意味的是,他們依然丟失了25個堿基中的兩個。然而,這些研究結(jié)果讓Goldman相信,DNA擁有成為價格低廉、長期數(shù)據(jù)儲存介質(zhì)的潛力,那將需要極少的能量實現(xiàn)海量數(shù)據(jù)儲存。“或許最多10年之后,沒有人會再相信磁帶儲存。如果你需要保證文件復(fù)本的安全,一旦你能夠?qū)⑵鋵懺贒NA上,就可以把它丟在一個洞穴里忘掉它,直到你希望重新讀取它的那一天。”

新興領(lǐng)域

自從在2013年訪問英國時聽到Goldman談起DNA儲存之后,這種可能性已經(jīng)吸引了華盛頓大學(xué)計算學(xué)家Luis Ceze和雷德蒙德微軟研究公司的Karin Strauss的關(guān)注。“DNA的密度、穩(wěn)定性以及成熟度讓我們對它非常感興趣。”Strauss說。

在伊利諾伊大學(xué)香檳分校,計算學(xué)家Olgica Milenkovic及其同事已經(jīng)開發(fā)出一種隨機(jī)存取方式,可以重新編輯編碼的數(shù)據(jù)。他們的方法可以在處理DNA長鏈兩端的序列時儲存數(shù)據(jù)。研究人員隨后或是利用聚合酶鏈反應(yīng)或是利用CRISPR-Cas9等方法挑選、增加以及重新編寫DNA鏈條。

DNA數(shù)據(jù)儲存方面面臨的其他挑戰(zhàn)是規(guī)?;约凹铀俸铣煞肿?,Kosuri說,他承認(rèn)因為這些原因,他本人對該方法并不看好。他回憶說,在哈佛大學(xué)做實驗的初期,“我們做到了700kB。使其增加1000倍達(dá)到700MB,才是一張CD的容量”。而若要真正解決全世界的數(shù)據(jù)檔案問題,至少需要拍字節(jié)的儲存能力。“這并非不可能。”Kosuri說,“但是人們需要意識到這樣大的規(guī)模是建立在提高百萬倍的基礎(chǔ)上。”而這肯定不容易。

Goldman堅信這只是時間問題。“我們的估計是需要使其儲存能力提高10萬倍才能讓這種技術(shù)的效益看得見,我們認(rèn)為它非??煽?。”他說,“過去的表現(xiàn)或許不能說明什么?,F(xiàn)在每一兩年就會出現(xiàn)新的讀取技術(shù)。六個數(shù)量級的增長對于基因組學(xué)來說只是小菜一碟。請拭目以待。”

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號