4月21日,由中國企業(yè)家俱樂部主辦的2015年中國綠公司年會在沈陽舉行。華大基因CEO王俊出席大會,并作了題為“基因、大數(shù)據(jù)與人工智能”的演講。
王俊從基因的存儲原理、基因測試大數(shù)據(jù)和人工智能深度學習等角度說明了保持健康,應(yīng)該不是一個感性的意愿,更重要的是理性選擇,這種理性選擇是基于數(shù)據(jù)基礎(chǔ)之上,基于人工智能的判斷,是對基因的了解基礎(chǔ)上形成的。
他將基因組比喻為一個個程序,每個基因是程序運行的一個功能模塊。因為一個基因所能完成的只是一個功能,只有將眾多基因聯(lián)合起來才能尋找到不同的生存策略。而優(yōu)質(zhì)基因的存儲對于醫(yī)學、美容等都有深刻意義。同時他還提到目前基因大數(shù)據(jù)的情況,雖然目前成本很高,但他有信心未來基因數(shù)據(jù)的價值會遠大于產(chǎn)生基因數(shù)據(jù)的成本,到那時,測序就會免費了。
王俊說:“基因蘊藏著所有生老病死的規(guī)律,如果從基因談健康,必須要學會對人的基本狀況的預(yù)測及預(yù)防,而不是簡單治療。”精準醫(yī)療對于醫(yī)療行業(yè)有非常大的改變,其概念核心點把人群細分,對其治療、診斷要精準,對其個體化的行為和數(shù)據(jù)要有非常精準的解讀,以給出一個精準的、對應(yīng)化的解決方案。
以下為王俊演講實錄精編:
很高興在講基因的相關(guān)事情,我改了一下我這個題目,原來講基因改變世界,我改了一下題目,把它變成BGI,華大基因的縮小是BGI,給一個新的詮釋,華大要做三件事,第一件事就是B,做大數(shù)據(jù),G是做基因,I是做人工智能。
基因
先從G基因講起。生命本身是數(shù)據(jù)化的,我們可能習慣了以硅為基礎(chǔ)的,忘記了以碳為基礎(chǔ)的生命運營規(guī)則,大家可能很難想象,為什么這個生命體本身也是一種計算,為什么本身也是數(shù)字化的。
如果把全世界所有的圖書,我們看見的書,都用DNA的方式來存儲,可以存在巴掌大小的DNA里面,所有的全世界圖書管理的書,都可以放在巴掌大小的DNA里面,可以存儲多少年呢?上千萬年。任何一個現(xiàn)在的計算機,無論光盤還是硬盤介質(zhì)都不可以,但現(xiàn)在DNA可以存儲上千萬年,是自然界里面最高效的最持久的存儲形式。
讓我們假想整個宇宙是一個大的計算機,我們每個人,每個個體只不過是在那兒運行的一個程序。我們所說的基因組,是一個完整的程序,每個基因是程序運行的一個功能模塊,就像寫計算機一樣,寫一個功能模塊,這一個代碼是為了執(zhí)行一個功能。
再往前追溯的時候,有一本書叫《自私的基因》,追溯在最原始的十幾億年前,在原始湯的形態(tài)存在的時候,基因是以分子形式存在,這些東西要不斷擴張自己。如果寫出一段好的代碼,會經(jīng)常把這段代碼用到不同的程序體系里。為什么用到不同程序,因為它好,這邊要用到,那邊也要用到。一個基因本身最重要的事情就是不斷擴張自己。
而如果說基因本身是自私的,在往前走的時候就會發(fā)現(xiàn)可能需要合作。因為一個基因所能完成的只是一個功能,如果把兩個基因合起來,三個基因合起來,五個基因合起來,一堆基因合起來,就可能尋找到不同的生存策略。
我們現(xiàn)在看見的大千世界,每個物種,事實上是各種基因的不同組合,或者反過來講,是這些基因的組合所采取的不同的生存策略。這種生存策略是不是成功,它的判定的唯一標準就是環(huán)境,你如果適應(yīng)環(huán)境,你就會有更多的機會傳播后代。你有更多的機會傳播后代,你的基因就得到擴張,在所謂的基因池里面就不斷增加你的份額。
你的基因的一半來自于父親,基因的另外一半來自于母親,除了父母之間的重組交換之外,因為這個東西本來不同的組合會產(chǎn)生不同的個體,還有一個非常重要的東西,就是除了父母之間的重組交換,在每一代里面,這個孩子跟父母之間會有60到100個基因突變,很多人都不知道這60到100個基因突變里面到底是一些什么東西。
以腫瘤細胞為例,腫瘤細胞就像是寫程序的黑客一樣,只要他寫變了,這個程序變成不斷擴張,它的適應(yīng)性比其他細胞都要強,所以他不斷的往前走變成了腫瘤。我們?nèi)タ醋詈笠粋€腫瘤細胞,其實如果你不斷往前追溯,你都可以追溯到受精卵細胞,也就是說,你的生命的起源。個體生命起源就是一個細胞——受精卵細胞,受精卵細胞在不斷進行分化和變成一代一代的時候,都會累計各種各樣不同的突變。
大數(shù)據(jù)
生命科學已經(jīng)不再像以前在簡單的在實驗室里面做實驗,或者是觀察科學。從基因開始一直到表型,是一個巨大的海量數(shù)據(jù)的輸入,這些數(shù)據(jù)的輸入需要起碼做到一百萬人,比如身高,對身高基因的判斷,身高顯然是遺產(chǎn),在營養(yǎng)均衡的情況下,顯然是遺傳,到底跟哪個基因有關(guān)系,現(xiàn)在不清楚,需要多少人弄清楚,需要一百萬人,如果一百萬的基因數(shù)據(jù)和他的身高數(shù)據(jù),我們可以很準確的把他身高給預(yù)測出來。
測一百萬人要花多少錢呢?我們在1999年做第一個人類基因組計劃的時候,花了10億美金,測一個人的基因圖譜序列,2007年測定一個亞洲人基因圖譜序列的時候花了三千萬人民幣。我們在今年6月份,因為我們自己的知識產(chǎn)權(quán),我們可以做到三千塊錢人民幣,三千塊錢可以把一個人的完整基因全部讀出來,這個數(shù)字還會往下降,降到什么時候可以不要錢呢?五年?三年?還是今年就可以不要錢?事實上真正所謂這件事情的拐點,是在于我們?nèi)绾文軌蜣D(zhuǎn)化這個數(shù)據(jù)本身的價值。如果這個數(shù)據(jù)的價值遠大于產(chǎn)生這個數(shù)據(jù)的成本,測序就會不要錢了。
除了基因的數(shù)據(jù)之外,還要收集很多別的數(shù)據(jù),比如說物聯(lián)網(wǎng)數(shù)據(jù)。把所有的這些數(shù)據(jù)全部都擱在一起,和你基因合在一起的時候,我們才能得到更多答案。而且數(shù)據(jù)的可視化會成為很大的問題,這些數(shù)據(jù)都是呈EB級別的數(shù)據(jù),怎么讓老百姓看懂是非常大的問題,最終還需把基因數(shù)據(jù)全部連成網(wǎng)絡(luò)。
人工智能
最后一個可以講的就是人工智能,我們做了一個嘗試,小米是中國飯桌上最常見的食物之一,我們做了幾千株的小米,小米有各種各樣剛才我講的大型數(shù)據(jù),用人工智能的方法訓練,先把所有大數(shù)據(jù)收集,做人工智能的深度學習,最后到一種什么準確性,可以到任何一株小米。我測一下它的基因,可以準確猜出在這片地里面它長出來什么樣,準確性可以達到90%。
一個孩子剛出生的時候,把臍帶、胎盤各種各樣干細胞存起來,那時候是最好的程序運行的狀態(tài),那些可以用來做各種各樣的東西,可以用來修復(fù)干細胞,修復(fù)神經(jīng)細胞,肌肉細胞,白血病各種各樣的東西。
有人說皮膚干細胞保存,歲數(shù)大了,也沒臍帶血了,胎盤也早沒了,這個時候還能不能存?越年輕的時候存越好,因為存的細胞是那個時候生命體信息,比如皮膚,皮膚細胞可以用于美容。
脂肪干細胞存起來以后,可以開始我們叫為生命保駕護航了,干細胞的注射、抗衰老,很多東西,抗衰老就是在你老年的時候,運行一個年輕程序,就抗衰老了。
保持健康,應(yīng)該不是一個感性的意愿,更重要的是理性選擇,這種理性選擇是基于數(shù)據(jù)基礎(chǔ)之上,基于人工智能的判斷,是對基因的了解基礎(chǔ)上形成的。