例如,科學(xué)家們更多地依賴大數(shù)據(jù)在生物學(xué)方面進行新的定量發(fā)現(xiàn),例如基因組,微生物組,個性化醫(yī)學(xué)和疾病建模。利用當(dāng)今的技術(shù),科學(xué)家們能夠生成有關(guān)細胞或生物體的完整基因,蛋白質(zhì),RNA譜,代謝物以及更為人所知的原子數(shù)據(jù)的數(shù)據(jù)。利用omic數(shù)據(jù),科學(xué)家們可以對復(fù)雜的生物相互作用進行建模,并對不同的細胞過程有更全面的了解。但挑戰(zhàn)在于分析和理解這些大型數(shù)據(jù)集。
“在進行大數(shù)據(jù)分析時,重要的是要了解所有這些不同的數(shù)據(jù)類型是如何相關(guān)的?,F(xiàn)在我們有一種方法可以連接多種不同的數(shù)據(jù)類型來生成生物學(xué)問題的基本答案,”Galetti生物工程教授Bernhard Palsson說。加州大學(xué)圣地亞哥分校雅各布工程學(xué)院和該研究的高級作者。
“雖然所有這些數(shù)據(jù)類型都是從同一個單元格派生出來的,但它們代表了以不同規(guī)模發(fā)生的過程。我們的工作是讓多個不同的數(shù)據(jù)類型同步,以便我們能夠理解這些過程的協(xié)調(diào)并從中獲得意義,” Elizabeth Brunk,Palsson實驗室的博士后研究員,也是該研究的共同第一作者。
這項研究是解決國家衛(wèi)生研究院提出的一項名為“知識大數(shù)據(jù)”的重大挑戰(zhàn)的一部分 - 將大型復(fù)雜的生物數(shù)據(jù)集轉(zhuǎn)化為可以基于基本原理理解的信息。
在這項研究中,研究人員從不同生長環(huán)境中生長的大腸桿菌中收集了多種數(shù)據(jù)類型(RNA序列,核糖體譜,蛋白質(zhì)數(shù)據(jù),代謝數(shù)據(jù))。然后,該團隊將這些不同的數(shù)據(jù)類型整合到下一代基因組規(guī)模的代謝模型中,這些模型是在Palsson的實驗室中開發(fā)的。
他們檢查了原子數(shù)據(jù)類型之間的關(guān)系,發(fā)現(xiàn)了新的規(guī)律,這是環(huán)境變化的生物一致性。他們發(fā)現(xiàn)的規(guī)律之一是,在蛋白質(zhì)翻譯過程中,核糖體始終在信使RNA轉(zhuǎn)錄本上的特定位點停留,并且這些暫停位點決定了蛋白質(zhì)的三維結(jié)構(gòu)。
Palsson解釋說,暫停位點的存在使得蛋白質(zhì)有時間折疊并形成其整體形狀,這對蛋白質(zhì)正常運作很重要。這些知識對于研究癌癥生物學(xué)非常有用。如果腫瘤具有消除暫停位點的基因突變,則翻譯將產(chǎn)生不能正確折疊并且發(fā)生故障的蛋白質(zhì)。
帕爾森說:“現(xiàn)在我們對這些我們以前沒有過的暫停站點有一個基本的解釋。就好像我們正在以一定的節(jié)奏目睹錯綜復(fù)雜的舞蹈,以確保蛋白質(zhì)以正確的方式形成。”
該團隊還開發(fā)了所謂的參數(shù)化模型,該模型可用于預(yù)測當(dāng)細胞經(jīng)歷環(huán)境變化時表達哪些基因。
“由于Palsson博士實驗室開發(fā)的基因組規(guī)模模型中提供的高質(zhì)量拓撲信息,我們可以更好地了解基因,蛋白質(zhì)和代謝物之間的聯(lián)系,并將多元數(shù)據(jù)置于這些生物化學(xué)的背景中網(wǎng)絡(luò),“布蘭克說。