現(xiàn)如今,在大數(shù)據(jù)時(shí)代下,當(dāng)我們提到大數(shù)據(jù),我們通常想到的網(wǎng)站:十億社交媒體的用戶,數(shù)以百萬(wàn)計(jì)的手機(jī)感應(yīng)器,成千上萬(wàn)的維基百科的貢獻(xiàn)詞條等等。由于最近的創(chuàng)新,網(wǎng)絡(luò)級(jí)數(shù)據(jù)現(xiàn)在也可以來(lái)自一個(gè)小但非常復(fù)雜的對(duì)象——大腦。
分布式計(jì)算的新進(jìn)展正在改變神經(jīng)科學(xué)家處理結(jié)果數(shù)據(jù) 的方式,并可能在這個(gè)過(guò)程中,改變我們對(duì)計(jì)算的看法。
大腦由許多神經(jīng)元組成,一只蒼蠅或斑馬魚(yú)幼體有十萬(wàn)的神經(jīng)元,老鼠有數(shù)百萬(wàn)的神經(jīng)元,人有數(shù)十億的神經(jīng)元。其功能依賴(lài)于神經(jīng)元的活動(dòng)以及它們彼此如何溝通。長(zhǎng)期以來(lái),神經(jīng)活動(dòng)的記錄一度僅限于少數(shù)的神經(jīng)元,但最近的一些進(jìn)步使我們能夠監(jiān)測(cè)整個(gè)成千上萬(wàn)個(gè)神經(jīng)元,在某些情況下(如斑馬魚(yú)幼蟲(chóng)),甚至是整個(gè)大腦的反應(yīng)。
許多這些方法是光學(xué)方法:動(dòng)物被基因工程改造以使它們的神經(jīng)元的字面點(diǎn)亮?xí)r的這些活動(dòng)模式顯微鏡捕獲圖像的活性,以及動(dòng)物表現(xiàn)出不同的行為。由此產(chǎn)生的數(shù)據(jù)到達(dá)每小時(shí)TB級(jí),對(duì)分析和理解提出了重大挑戰(zhàn)。它們需要兩個(gè)低層次處理(“munging”)和高級(jí)別分析。因此,我們要用多種方式查看每個(gè)數(shù)據(jù)集,如有關(guān)動(dòng)物行為或?qū)嶒?yàn)的神經(jīng)反應(yīng)方面,或通過(guò)識(shí)別大量的的相關(guān)活動(dòng)模式。我們永遠(yuǎn)無(wú)法提前知道答案,有時(shí)我們甚至不知道從哪里開(kāi)始。
我們需要探索大型數(shù)據(jù)集以及開(kāi)發(fā)新分析的靈活性的互動(dòng)工具。到現(xiàn)在為止,單一的工作站解決方案,如在一個(gè)功能強(qiáng)大的機(jī)器上運(yùn)行Matlab,已經(jīng)成為神經(jīng)科學(xué)的標(biāo)準(zhǔn),但這些解決方案擴(kuò)展很差。在分布式計(jì)算替換中,我們發(fā)現(xiàn)Apache Spark的平臺(tái)提供了核心優(yōu)勢(shì)。首先,Spark的抽象的內(nèi)存緩存使得夠在數(shù)秒或數(shù)分鐘內(nèi)迅速找到大型數(shù)據(jù)集,加速了數(shù)據(jù)探索。其次,Spark提供在Scala、Java和Python中強(qiáng)大,靈活,直觀的API。Python的API是 特別有吸引力,因?yàn)樗梢宰屛覀兘Y(jié)合Spark與各種現(xiàn)有的Python工具進(jìn)行科學(xué)計(jì)算(NumPy,SciPy和scikit-learn)和可視化(matplotlib,seaborn,mpld3)。
用Spark為大型計(jì)算平臺(tái),我們正在開(kāi)發(fā)名為迅雷的開(kāi)放資源庫(kù)來(lái)模塊式地表達(dá)、分析Python常用工作流的時(shí)空數(shù)據(jù)。(這個(gè)庫(kù)以及應(yīng)用實(shí)例,在最近同米沙阿倫斯實(shí)驗(yàn)室合作發(fā)表的論文中被提及。)
通過(guò)將大腦反應(yīng)與外部世界屬性相聯(lián)系,很多分析建立了大腦的統(tǒng)計(jì)“映射”。比如,斑馬魚(yú)呈現(xiàn)了正朝著不同的方向的模式,我們可以計(jì)算出一個(gè)抓住了每個(gè)神經(jīng)元的反應(yīng)呈現(xiàn)出不同的方向的映射。這很像投票取向映射——人民投票支持的候選人,神經(jīng)投票支持方向。在另一個(gè)例子中,我們比較了神經(jīng)元對(duì)動(dòng)物的游泳的反應(yīng),發(fā)現(xiàn)當(dāng)動(dòng)物在游泳時(shí),腦部的大部分反應(yīng)激烈,但另一部分在不游泳時(shí)反應(yīng)激烈,這些神經(jīng)元的功能仍然是個(gè)謎。
這種映射是靜態(tài)的,但我們的數(shù)據(jù)基本上是動(dòng)態(tài)的,因?yàn)樯窠?jīng)元活性隨時(shí)間變化。一系列基于降維(這里審查)的方法從高維時(shí)間序列數(shù)據(jù)開(kāi)始,恢復(fù)低維表示,用于捕獲關(guān)鍵動(dòng)態(tài)特性,盡管用的是簡(jiǎn)單的形式。這些一次性檢查了全部數(shù)據(jù)的分析特別依賴(lài)于分布式計(jì)算。
我們的長(zhǎng)期目標(biāo)是要利用這些技術(shù)來(lái)揭示神經(jīng)編碼原則。大多數(shù)神經(jīng)科學(xué)家認(rèn)為,大腦的計(jì)算引擎非常有效,比一臺(tái)筆記本電腦消耗的能量少,切能夠在毫秒內(nèi)識(shí)別目標(biāo),定位一個(gè)充滿障礙的環(huán)境,并協(xié)調(diào)復(fù)雜的運(yùn)動(dòng)計(jì)劃。了解這些功能將反過(guò)來(lái)刺激人工智能的進(jìn)步的想法由來(lái)已久。實(shí)際上,所謂的神經(jīng)網(wǎng)絡(luò),包括最近的深信念網(wǎng)絡(luò)熱潮,大腦結(jié)構(gòu)的模擬物:它們由許多彼此傳遞信號(hào)的類(lèi)似“神經(jīng)細(xì)胞”的節(jié)點(diǎn)建立。有些網(wǎng)絡(luò)解決任務(wù),如對(duì)象和語(yǔ)音識(shí)別,以及令人印象深刻。
但是,這些網(wǎng)絡(luò)和現(xiàn)實(shí)的大腦之間仍存在著顯著差距。在大多數(shù)的人工網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)本質(zhì)上不一樣,任何時(shí)候我們都能看到大腦的多樣性。成百上千種不同的神經(jīng)元,具有不同的形態(tài),功能,連接模式,以及溝通的方式。真正的生物不解決只是一個(gè)有明確目標(biāo)(如人臉識(shí)別)、非常具體的任務(wù)。它們靈活地同一個(gè)動(dòng)態(tài)的、不斷變化的世界進(jìn)行互動(dòng)。這種神經(jīng)多樣性的作用與生物計(jì)算的基本原則仍是一個(gè)謎。但大量的努力,映射整個(gè)神經(jīng)系統(tǒng)的活動(dòng),以及有系統(tǒng)地表征神經(jīng)元形態(tài)和解剖連通,將有助于鋪平解決問(wèn)題的道路。
在短期,可能還有另一種神經(jīng)科學(xué)的研究方法會(huì)影響計(jì)算,數(shù)據(jù)挖掘和人工智能。數(shù)據(jù)神經(jīng)學(xué)家正在進(jìn)行收集,與其它數(shù)據(jù)進(jìn)行對(duì)抗,不僅是在規(guī)模上,而且在復(fù)雜性上。神經(jīng)科學(xué)會(huì)越來(lái)越受益于更廣泛的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的社區(qū)。例如,我們的映射分析類(lèi)似于從大的衛(wèi)星圖像數(shù)據(jù)或地理統(tǒng)計(jì)學(xué)習(xí)功能。而且,只要我們的數(shù)據(jù)是時(shí)間序列的集合,它們會(huì)像網(wǎng)站上隨時(shí)間變化的用戶統(tǒng)計(jì)數(shù)據(jù)或出現(xiàn)在我們的身體的傳感器和我們家里的信號(hào)。
D1Net評(píng)論:
不管是什么來(lái)源,科學(xué)家們?cè)诓煌瑢用娑济媾R著類(lèi)似的挑戰(zhàn)——前處理、分布式管道、算法模式發(fā)現(xiàn)和可視化,我越來(lái)越相信我們可以,而且應(yīng)該,開(kāi)始一起解決這些問(wèn)題,只是時(shí)間問(wèn)題。