目前,風頭正勁的三種企業(yè)技術無疑是人工智能、區(qū)塊鏈和物聯(lián)網(wǎng),它們背后的驅(qū)動因素都是數(shù)據(jù);人們甚至宣稱:“數(shù)據(jù)就是新的石油!”新數(shù)據(jù)能夠使數(shù)據(jù)的收集、共享、分析以及基于這些數(shù)據(jù)的決策自動化成為可能,而這在以前基本上是一個數(shù)據(jù)價值鏈。
數(shù)據(jù)價值鏈
在這三種技術中,區(qū)塊鏈技術是將各種技術組合在一起,并且還出現(xiàn)了一個由數(shù)據(jù)驅(qū)動的區(qū)塊鏈項目組成的完整生態(tài)系統(tǒng)。這種分散的生態(tài)系統(tǒng)旨在鼓勵人們貢獻數(shù)據(jù)、技術資源和努力:
第一代項目專注于創(chuàng)建連接和集成數(shù)據(jù)的數(shù)據(jù)基礎設施,如 IOTA。IoT Chain、IoTex(用于連接的 IoT 設備的數(shù)據(jù))或 Streamr(用于數(shù)據(jù)流)。
第二代項目專注于創(chuàng)建數(shù)據(jù)市場,例如 Ocean 協(xié)議、SingularityNet 或 Fysical,以及群體數(shù)據(jù)標注平臺,例如 Gems 或 Dbrain。
隨著解決方案涵蓋了數(shù)據(jù)價值鏈成熟的第一步,我的朋友 @sherm8n 和 Rahul 開始研究 Raven 協(xié)議,這是第一個第三代項目,它將縮小在分析階段的一個重要差距:用于人工智能訓練的計算資源。
據(jù) OpenAI 最近的一份報告稱(http://u6.gg/e6XWV):“在最大規(guī)模的人工智能訓練中使用的計算量呈指數(shù)級增長,增加了 3.5 個月的時間”,這是自2012年以來的 30 萬倍增長。
OpenAI 報告:人工智能與計算
由此產(chǎn)生的直接后果是:
更高的成本,因為使用的計算速度比供應更快;
更長的新解決方案的交付時間,因為模型訓練所需時間更長;
更高的市場準入壁壘,更難獲得資金和資源。
對小型企業(yè)和研究人員來說,這些后果是可怕的,因為這樣一來,限制了他們在沒有大量資金的情況下創(chuàng)建有競爭力的模型的能力。就算有資金,如果供應商視他們?yōu)楦偁帉κ?,他們就有可能被列入資源黑名單。
但是,考慮到資源的增長率和人工智能工作的增長率都在成倍增加,即便是大型企業(yè)也會感到成本增長帶來的壓力。在過去的幾個月里,我與《財富》500 強公司的一些首席數(shù)據(jù)官促膝長談,盡管他們認為這一問題不足為慮,但也不得不承認,可以用比購買 HPC 資源更好的方式進行投資。
區(qū)塊鏈生態(tài)系統(tǒng) 的美妙之處在于,它可以利用其他未使用的資源,完成本不可能進行的貿(mào)易資源的交易,還可以使人們參加原本無法參與的市場活動。從經(jīng)濟角度來看,它提高了對現(xiàn)有資源的利用率。
在第一代和第二代數(shù)據(jù)區(qū)塊鏈解決方案中,若使用這種解決方案,可以降低訪問帶注釋的質(zhì)量數(shù)據(jù)的障礙,Raven 協(xié)議將解決這種由訓練帶來的成本挑戰(zhàn)。阻礙這條眾所周知的鏈得以維系的鴻溝,正被 Raven 協(xié)議抹平,而這條鏈的堅固程度取決于它最薄弱的環(huán)節(jié)(提示:這是數(shù)據(jù)價值鏈)。
總之,這個區(qū)塊鏈數(shù)據(jù)生態(tài)系統(tǒng)中的解決方案創(chuàng)造了新的機會并降低了成本。尤其是第二個關鍵因素,它降低了新創(chuàng)新的準入門檻,讓更多的人能夠做出貢獻,從而有望加速我們整個社會的進步。
如果上面所說的一切聽上去有點抽象的話,那么你只需看看人工智能可以發(fā)揮作用的領域就會明白了:醫(yī)療。我們的全球醫(yī)療體系正陷入嚴重的困境。成本正呈爆炸式增長,盡管成本已經(jīng)達到一個國家 GDP 的 18%,但預計未來十年將會增長 117%。與此同時,新藥的研究也正面臨風雨飄搖的處境。
為了保證平價醫(yī)保,我們的醫(yī)療系統(tǒng)需要大量的創(chuàng)新才能實現(xiàn)這一點,人工智能解決方案有很多可以幫助達到這一目標。因此,醫(yī)療保健是人工智能投資最多的行業(yè),多年來一直如此。
CBInsights:2018 年人工智能狀況
然而,數(shù)據(jù)獲取之難,成本之高昂,帶來了準入壁壘,限制了現(xiàn)有企業(yè)和其他大型企業(yè)對新解決方案的研究。區(qū)塊鏈數(shù)據(jù)生態(tài)系統(tǒng)改變了這一狀況,為我們帶來了及時找到正確解決方案的機會。Raven 協(xié)議可能不會是最后一個這樣的機會,但卻是實現(xiàn)這一目標的重要基石。
Raven 協(xié)議簡介
對于深度學習研究者來說,計算能力非常關鍵,但 CPU 和 GPU 資源往往是有限的。Raven 協(xié)議正是解決這一問題的良方。Raven 協(xié)議可以利用空閑的計算資源來訓練深度神經(jīng)網(wǎng)絡,而這些資源均來自個人用戶設備的分享。分享空閑計算資源進行深度學習訓練的概念可以為資源使用者節(jié)約大量的研究成本,而資源的貢獻者則可以得到 Raven 幣(RAV)作為補償 / 回報。
近年來,盡管人工智能和機器學習領域里關于民主化和去中心化的呼聲越來越高,這些領域中的項目開發(fā)卻沒有真正地應用這些概念。開發(fā)者和企業(yè)家們形成了一種思維定式,即只要大量使用深度學習作為工具,就能改善產(chǎn)品質(zhì)量和用戶體驗。然而,深度學習項目的經(jīng)濟規(guī)模化、產(chǎn)品化會受到計算資源的限制。這些限制對于大型科技公司當然不是問題。大公司有條件訪問海量數(shù)據(jù),而且坐擁龐大的計算資源,完全可以輕松應對計算密集型任務,從而推進自己的 AI 研發(fā)工作。同時,他們提出了 AI 的“民主化”概念,用以補償他們所欠下的技術債務,并聲稱這會對廣大 AI 社區(qū)有所幫助。因此,AI 社區(qū)便擁有了訪問大型 GPU 集群的權限,并有機會學習機器學習技術、使用開源框架以及觀看 MOOC 在線課程。
然而,這場技術狂歡之下隱藏的問題卻鮮有人發(fā)現(xiàn)。對高級 AI 解決方案的突然增長的需求使得這一問題凸顯出來――計算能力的經(jīng)濟規(guī)?;?。
當前深度學習存在的困境
在一個普通的、計算能力有限的計算機上訓練一個 AI/ML 模型往往需要數(shù)周甚至數(shù)月的時間。對于更好的計算芯片(GPU)的需求是一個必須考慮的成本因素。密集和頻繁地使用高速計算資源來操作計算數(shù)據(jù)、計算和更新深度神經(jīng)網(wǎng)絡中不同神經(jīng)元的梯度,其需要的成本往往是小型到中型公司和開發(fā)者無法擔負的。云計算在一定程度上對這一問題有所幫助,但獲取云資源來支持 AI 研發(fā)仍是一筆難以負擔的開支。目前,在絕大部分云計算平臺上,每小時所需支付的金額都在 2.5~17 美元之間。
對于中小型企業(yè)來說,要解決算力資源問題最簡單的方式是通過眾包。眾包這一概念從很早之前便開始挑戰(zhàn)傳統(tǒng)經(jīng)營模式,就像《圣經(jīng)》中并不強壯的勇士大衛(wèi)戰(zhàn)勝巨人哥利亞一樣,以小勝大、以弱勝強,使得計算資源服務更加便宜、更加容易獲得。Uber 和 Airbnbs 就是通過眾包存活下來的“大衛(wèi)”的代表。AI 世界也注意到了這種優(yōu)秀的模式。Kaggle 平臺的開發(fā)就是通過眾包,利用海洋協(xié)議(Ocean Protocol)來收集數(shù)據(jù)。AI 生態(tài)系統(tǒng)非常歡迎這種新方法。而 Raven 協(xié)議的目標就是將眾包火炬?zhèn)鬟f下去,通過對空閑計算資源的充分利用,建立第一個真正去中心化、分布式的深度學習訓練系統(tǒng),使深度學習模型的訓練更為經(jīng)濟。
希望進行技術革新的 AI 愛好者和企業(yè)家們現(xiàn)在可以從 AI 研究中有所收獲了,因為眾包資源可以解決計算資源短缺難題。AI 社區(qū)中的許多成員,如 Singularity.net、Ocean Protocol、OpenMind、Deep Brain Chain 等等,都建立起了資源共享平臺,用于在安全的區(qū)塊鏈內(nèi)共享計算和數(shù)據(jù)資源,進而助力機器學習 / 深度學習算法向商業(yè)模型的轉變。
Raven 協(xié)議成功建立起了去中心化、激勵性和安全的機器學習 / 深度學習模型訓練機制。
深度神經(jīng)網(wǎng)絡的“去中心化、分布式”訓練
經(jīng)過幾十年的發(fā)展,傳統(tǒng)的神經(jīng)網(wǎng)絡相關算法已進化為深度神經(jīng)網(wǎng)絡(DNN),并在各種應用領域取得了巨大成功,尤其是模式識別領域。
這種基于訓練的方法的理論局限是,一個 DNN 架構怎樣在一個節(jié)點上訓練、在多個不同的服務器上應用,或分割成數(shù)個部分并分發(fā)到數(shù)個服務器上訓練。顯然,這種訓練方式極其消耗算力,所以只能在強大的 GPU 和服務器上進行操作。Raven 解決這一問題的方式是裝配動態(tài)節(jié)點分配機制,對網(wǎng)絡中的設備進行分工。這樣,Raven 就可以消除主節(jié)點的所有依賴,并顯著地減少任務所需的計算能力。
Raven 協(xié)議相較于其他相似規(guī)則的突出之處在于它處理異步更新及數(shù)據(jù)碎片的并行所產(chǎn)生的延遲的方法。這種延遲問題用其他方案無法解決,而且延遲在模型訓練過程中是一個主要耗時因素,可能會消耗數(shù)周甚至數(shù)月。即使是擁有大量計算資源,對這一問題也無能為力。另外,如果想要讓數(shù)據(jù)實現(xiàn)并行化,用戶必須擁有可處理龐大計算資源的平臺。這一因素使得規(guī)模較小的用戶群無法訪問該平臺。
Raven 可以成功地將模型訓練過程中所需的數(shù)量龐大的小型異步運算,搭建為一個動態(tài)圖。
空閑計算能力的激勵分享機制
Raven 協(xié)議允許個人用戶貢獻、分享空閑設備的計算資源,使得研究者對性能強大的 CPU 或 GPU 硬件的需求降到最低。分享空閑計算資源來進行訓練的概念,會大大降低成本。作為補償 / 回報,計算資源的分享者們會得到 Raven 幣(RAV)。
只需要在以太坊區(qū)塊鏈中通過智能合同進行兩步簡單的校驗,這種激勵機制便可實現(xiàn)。
未來的趨勢
經(jīng)濟的 AI 規(guī)模化和積極的實驗
由于沒有資本支出,Raven 所提供的計算服務的價格將遠低于市場上的任何供應商。由于在貢獻者 / 主機節(jié)點上沒有任何依賴,資源的獲取將變得更為高效和快捷。使用 Raven 的公司可以進行在線 AI 實驗,并根據(jù)市場需求對 AI 產(chǎn)品進行規(guī)?;鵁o需將大量的錢投進硬件這個無底洞里。
統(tǒng)一的生態(tài)系統(tǒng)
Raven 已經(jīng)認識到,接下來的最大問題是如何在生態(tài)系統(tǒng)中交易已有合作者的數(shù)字貨幣。為確保使用方便,RAV 幣將在 Raven 生態(tài)系統(tǒng)內(nèi)和其他合作服務間均可交易。所有人都仍可以在 Raven 內(nèi)部使用其他合作服務幣。這可以使區(qū)塊鏈中的其他 AI 社區(qū)積極參與 Raven 協(xié)議。
絕大部分人還沒有意識到,AI 社區(qū)中的一小部分人正在為使 AI 觸手可得、為所有人所用而不懈奮斗著。這是因為他們堅信,AI 將會以我們可能想像不到的各種方式融入我們的生活,變成我們生活的一部分。常規(guī)的 AI 公司以及想要在自己系統(tǒng)中應用 AI 的公司,都在努力用 AI 改善著我們的生活,但他們可能會由于資源的局限,難以大展拳腳。Raven 的目標就是幫助這樣的個人及公司,讓他們能夠經(jīng)濟地充分發(fā)掘自身在 AI 方面的潛力,實現(xiàn) AI 夢想。