2016年8月,清華大學(xué)宣布與Hadoop開發(fā)社區(qū)的頂級貢獻者Cloudera公司聯(lián)合推進大數(shù)據(jù)人才教育項目,在大數(shù)據(jù)開源社區(qū)方面開展合作。在Hadoop生態(tài)領(lǐng)域,Cloudera是規(guī)模最大、知名度最高的企業(yè),也是當(dāng)前大數(shù)據(jù)領(lǐng)域最強有力的解決方案服務(wù)商之一。帶著對中國大數(shù)據(jù)市場的滿滿誠意,Cloudera創(chuàng)始人、董事長兼首席戰(zhàn)略官Mike Olson以及Hadoop之父、Cloudera首席架構(gòu)師Doug Cutting來到清華,為三百余位現(xiàn)場聽眾及兩千余名在線直播聽眾講述了Hadoop的發(fā)展歷程,并與清華大學(xué)軟件學(xué)院副院長、黨委書記王建民及現(xiàn)場的同學(xué)們展開了深刻而有趣的對話。
Doug Cutting口述:
Hadoop十年,撬動未曾料及的魔法時代
10年前我開創(chuàng)Hadoop時,存儲企業(yè)數(shù)據(jù)和商業(yè)數(shù)據(jù)系統(tǒng)的使用和現(xiàn)在大不相同。對大多數(shù)機構(gòu)來說,企業(yè)數(shù)據(jù)建立如果不依賴關(guān)系型數(shù)據(jù)庫,就完全沒可能了解數(shù)據(jù)。但關(guān)系型數(shù)據(jù)庫使用起來很昂貴,也不適用于所有形式的數(shù)據(jù)。那時人們關(guān)注很多數(shù)據(jù)只是聚焦在關(guān)鍵字、任務(wù)、業(yè)務(wù)等(編者注:可數(shù)據(jù)庫領(lǐng)域的查詢條件)。世事變遷,Hadoop是如何帶來一些改變的呢?
因興趣創(chuàng)建Lucene,試水開源社區(qū)
在大約18年前,當(dāng)時我在Excite負(fù)責(zé)做搜索引擎。事實上,我做過多個搜索引擎,從就職Xerox開始,到蘋果再到Excite。我喜歡做搜索引擎并且一直有一個想法,用一個新的方式去寫搜索引擎,Excite對這個想法并不感興趣,于是只能自己鉆研。我嘗試用一種新的編程語言,并認(rèn)為它會成為一種通用計算機語言,就是當(dāng)時并非主流的Java。
1998年我完成了Lucene的第一個版本。當(dāng)時并沒有想好能用它做什么,只是有興趣嘗試并在業(yè)余時間完成了。兩年后,也就是2000年,我還沒想好用Lucene能做什么,但我決定不能就這樣冒然地成立一家新公司,因為我不清楚財務(wù)、人事、合同等公司常規(guī)流程。我真心希望人們能用上這個產(chǎn)品,這也是我開發(fā)這個產(chǎn)品的動機,我也希望能讓更多人發(fā)現(xiàn)它的實用性,并從中發(fā)現(xiàn)價值。我決定把它貢獻到開源社區(qū)。
在把Lucene的代碼貢獻到開源社區(qū)的第二年,它被一些小的社區(qū)使用,我也因此被邀請加入Apache軟件基金會。Apache專注于開源,集合了一群軟件界擁有最強大腦的工程師。它追求開放自由,讓人們利用軟件變得無所不能。在市場需求推動下,我們合作將軟件出版成商業(yè)產(chǎn)品,但Apache不強調(diào)歸屬于某個社區(qū),而且所有的社區(qū)都開放,歡迎新成員加入。Apache社區(qū)上所有功能和提供的信息都及時共享并不斷更新。從2001年加入Apache到目前為止,這種模式已經(jīng)得到了令人驚嘆的成果。
其中一點,就是隨著越來越多的開發(fā)者,這種開放模式讓人們可以隨時隨地的使用開源軟件,也可以向其他推薦。當(dāng)需要向老板匯報卻又不在辦公室時,可以下載之后在家處理,信息也可以實時同步。這使得人們處理程序、改進程序、理解程序變得容易,能隨時和其他開發(fā)者溝通。如果從事軟件開發(fā),你會發(fā)現(xiàn)以往只有機會和公司的同事討論工作,而做開源項目則可以和全世界討論,有很多表現(xiàn)的機會,甚至可以和自己在業(yè)內(nèi)的“粉絲”去溝通。這種自我展現(xiàn)的方式有很好的激勵作用,為了更好地在觀眾面前展示自己,人們會更努力地工作,讓項目日臻完美。
此外,開發(fā)者通過做軟件會被很多機構(gòu)了解并認(rèn)可,你的軟件很可能會富裕一個行業(yè)全新的生命力,所以每個方案每次改變都要有普適性。要做到為每一個人服務(wù),還要堅持一段時間,用最好的方法做正確的事。開源并不僅是幫助開發(fā)者,它更會孕育出一批高質(zhì)量的軟件,讓人們會越來越有動力去把事情做好。
從Lucene進入開源平臺感受到的第三點,也是最有意思的一點:這是一條突飛猛進的捷徑。Lucene對原有的搜索引擎造成了很大的沖擊,因為Lucene使用成本很低,且使用效果大大好于通用的商業(yè)產(chǎn)品。經(jīng)過大量的實踐與反復(fù)改進,Lucene已經(jīng)成為世界上最受歡迎的搜索技術(shù)之一。這并非是因為它創(chuàng)造了一個軟件技術(shù)的開端——也許有這個因素——但更重要的是它是開源技術(shù),能讓每一個人都能參與進來,學(xué)習(xí)并改進它,享受這個過程。這種開源的方法很強大,能讓技術(shù)走近更多人,也促使技術(shù)變得更好更快。
此外,就像Mike Olson說的,當(dāng)人們有選擇的時候,在企業(yè)專用軟件和開源軟件之間,人們總是傾向于選擇開源軟件。一輪又一輪迭代后,你會發(fā)現(xiàn)開源軟件在任何領(lǐng)域都會勝出。
Nutch、GFS和MapReduce, Hadoop萌芽在即
我開始了另一個名為Nutch的項目。在Lucene的基礎(chǔ)上將開源的思想繼續(xù)深化,我們從網(wǎng)頁上收集大量數(shù)據(jù),基于這些建立一個全新的開源搜索引擎,就像Google、微軟bing或其他搜索引擎,收集特定的網(wǎng)頁及鏈接,提取信息,同時處理數(shù)十億的網(wǎng)頁請求。一臺PC無法存儲如此大量的信息,也無法在合理時間內(nèi)響應(yīng),所以我們嘗試用分布式系統(tǒng),Nutch在5臺電腦上運行起來。我們也把Nutch資料總結(jié)成文本放入開源社區(qū)中。
大約2003年到2004年的時候,Google發(fā)布了一些相關(guān)的研究報告,介紹了他們基于現(xiàn)有搜索引擎做的改進,吸引了我的關(guān)注。這些技術(shù)成果對我的研發(fā)有著十分直接的指導(dǎo)意義。運用這些技術(shù),我們可以將原本需要手工操作的大量繁瑣的數(shù)據(jù)分配和空間管理等操作步驟實現(xiàn)自動化。這兩個平臺一個是GFS(Google File System),將不同設(shè)備所產(chǎn)生的海量數(shù)據(jù)統(tǒng)一管理在同一個存儲空間內(nèi),與所有電腦都自動關(guān)聯(lián),其中一個設(shè)備出現(xiàn)障礙,數(shù)據(jù)不會丟失,而且程序可以遷移到其他設(shè)備繼續(xù)運行,所有數(shù)據(jù)資源可以共享。這種具備自動關(guān)聯(lián)能力的數(shù)據(jù)管理是Google實現(xiàn)的一個核心突破,這使我們的操作能力可以從五臺電腦提升到成百數(shù)千臺。同時,Google發(fā)布的另一個研究是有關(guān)MapReduce的,內(nèi)容是關(guān)于運行在GFS上時,如何用MapReduce進行大規(guī)模數(shù)據(jù)的處理。
Mike Cafarella和我開始基于這兩項技術(shù),在開源平臺上校準(zhǔn)我們原有的程序Nutch。2005年,我們開始有數(shù)據(jù)基于20臺硬件設(shè)備在Nutch上運行,這是當(dāng)時我們能借調(diào)到設(shè)備的最大數(shù)量。我當(dāng)時在一個非營利組織工作,Mike還沒從大學(xué)畢業(yè),20臺設(shè)備已經(jīng)是我們能籌備到的極限。以這20臺設(shè)備所支持的開發(fā)和測試情況來看,我們意識到這種數(shù)據(jù)分配的程序存在太多的bug,自動關(guān)聯(lián)很難實現(xiàn),測試往往以失敗告終。當(dāng)你交叉驗證時,你會發(fā)現(xiàn)使用兩臺機器所產(chǎn)生的測試結(jié)果不一樣。
雅虎助力,Hadoop潛能釋放
我意識到這是一個很好的機會,通過開源平臺對世界上所有的主流數(shù)據(jù)處理模式做出徹底的革新,而且基于低廉的硬件成本。如果靠單槍匹馬去實現(xiàn)這個宏偉的計劃,它會耗費十年甚至更長時間才能最終替代現(xiàn)有的解決方案。我們需要其他幫助。
2005年底,經(jīng)過一番篩選我把目光聚焦在雅虎。雅虎對我的研究項目很感興趣,因為當(dāng)時在做搜索引擎的過程中他們也有類似的困惑,合作研發(fā)也會同時幫他們解決問題。2006年,我們加入雅虎,把Nutch分布式數(shù)據(jù)管理部分重新命名為Hadoop,名字來源于我兒子的黃色毛絨玩具——一只小象。為了新項目Hadoop的運行,雅虎做了大量投入。從一開始的10人工程師團隊迅速增加到20人然后更多;機器數(shù)量也從一開始的100臺,在6個月后增加到數(shù)千臺。六個月內(nèi)我們不斷測試、開發(fā)、運行,逐漸有了成效。
從2007到2008年,切實改進了數(shù)據(jù)關(guān)聯(lián)能力的技術(shù),其他人也開始使用,這項技術(shù)也開始釋放富有魔力的潛能。任何人都能下載這個開源軟件,在并不昂貴的設(shè)備上運行非常大量的計算。Yahoo、Facebook、eBay、LinkedIn、Twitter等公司都開始以Hadoop為基礎(chǔ)搭建他們的業(yè)務(wù)。
未料及的行業(yè)滲透 Hadoop創(chuàng)造歷史
曾一度以為Hadoop能做的事情已經(jīng)完成,一切都在按預(yù)期發(fā)生。但我沒意識到的是,所有的傳統(tǒng)行業(yè)都在醞釀著變革,硬件設(shè)備已遍布如此廣泛,可用于計算的硬件已滲透到各行各業(yè)中,比如卡車、拖拉機、飛機、汽車等。所有這些傳統(tǒng)行業(yè)都在做數(shù)字化轉(zhuǎn)型,這正在產(chǎn)生更加海量更加有效的數(shù)據(jù)。運用好這些數(shù)據(jù)能幫助人們更高效更精準(zhǔn)的管理生活。起初我并沒有意識到這一點,曾以為只有互聯(lián)網(wǎng)公司、媒體公司才需要Hadoop技術(shù),但Mike Olson告訴我,這項技術(shù)已在更多行業(yè)領(lǐng)域釋放出更大的能量。所以他在2008年創(chuàng)建了Cloudera——第一家專注特定領(lǐng)域的企業(yè),也是迄今為止特定領(lǐng)域規(guī)模最大的企業(yè)。
2009年,為了參與這個讓人振奮的過程,見證更多的人利用我?guī)椭鷦?chuàng)建的軟件技術(shù)發(fā)揮更大的潛能,我加入了Cloudera?,F(xiàn)在,我們見證預(yù)言變成了現(xiàn)實,比如汽車生產(chǎn)商特斯拉,通過實時收集汽車動態(tài)數(shù)據(jù),了解駕駛者的行為喜好,從而改進他們的下一代汽車;航空公司在飛機上安裝了數(shù)百個傳感器,根據(jù)回傳的數(shù)據(jù),優(yōu)化航線。這真是令人矚目的改變!甚至在農(nóng)業(yè)、重型機械、鐵路、零售、健康醫(yī)療等所有我們能想到的行業(yè),數(shù)據(jù)都在發(fā)揮強大的影響力。
Hadoop切實推動了這些令人矚目的改變的實施。在今天,Hadoop還在日益強大,但我覺得圍繞Hadoop發(fā)生的事情將更加有趣。在這個長期的過程中,它已經(jīng)孵化了更多偉大的技能。從單機項目開始,然后有了分布式的文件系統(tǒng)GFS和信息專家MapReduce,搭建的調(diào)度程序讓人們能夠基于Hadoop分享資源,并開發(fā)其他類型的引擎,類似于YARN。越來越多的軟件技術(shù)基于Hadoop衍生出來,比如在線鍵值存儲;比如面向列的開源數(shù)據(jù)庫技術(shù)HBase;超越了MapReduce的Spark,在實時批處理上表現(xiàn)更卓越;Impala能以SQL語義,快速查詢PB級大數(shù)據(jù),Lucene擅長的搜索也被充分整合。每年都有更多的新技術(shù)刷新我們的視野。
試想一下,每一個系統(tǒng)的進化迭代,每一個開源項目的建立,都可能帶動一次技術(shù)革新。其中一些非常有用的技術(shù),越來越多的人會開始使用。這些技術(shù)將會慢慢變成所有人認(rèn)可的通用標(biāo)準(zhǔn),還有一些不流行地將慢慢被人們遺忘。時代在急速變化,關(guān)系型數(shù)據(jù)庫的世界幾乎固化了30年,只有非常細微的改變。在Hadoop誕生的近10年間內(nèi),技術(shù)界發(fā)生了翻天覆地的變化。我們見到了許多新的模型,它們支持實時處理、機器學(xué)習(xí)的新功能,實現(xiàn)新事件的新方法……很多現(xiàn)在無法想象的事都將在隨后幾年發(fā)生。我認(rèn)為這就是Hadoop留給世界的最寶貴的財富。它平穩(wěn)運行10年之后,還將影響到未來的數(shù)十年。它不設(shè)中心控制的強大軟件系統(tǒng)孵化了各種不同的項目,有的失敗有的成功,但這種由平臺衍生的復(fù)雜多樣性不可能在一家公司的掌控下實現(xiàn)。
未來,為我們而來
今天,來自世界不同地方的我們通力合作,將決定下一個劃時代的平臺。時間的推移將證實我們的設(shè)想。這個平臺將更加強大靈活,適用范圍更廣,功能更多。我們能用它來應(yīng)對幾乎每一個問題,不僅是關(guān)系型問題,還能輕松完成機器學(xué)習(xí),能搜索、對大數(shù)據(jù)實時批處理,將有更多的工具箱,讓我們在開源平臺以更低的成本更好地探索世界。我相信這是一個光明的未來。同時,硬件也在進步,英特爾發(fā)布了讓人驚喜的新技術(shù),使硬件可以儲存更大量的數(shù)據(jù),閃存與讀取速度更快,成本和以往差不多。當(dāng)可以在內(nèi)存里儲存PB級的數(shù)據(jù)并且訪問,甚至通過網(wǎng)絡(luò)訪問時,很多事情也會因此改變。我們很快將看到一個全新的時代,一個進步的框架,一個被充分提升的有價值產(chǎn)品。我們將這種理念運用于Impala、Kudu等新產(chǎn)品研發(fā)中,但仍有很多事情是我們尚未想到的。
這是一個令人振奮的時代,但我希望各位不僅僅是觀望,而是切身參與,加入到開源社區(qū)來,甚至是開創(chuàng)一個新的開源項目。我也看到越來越多的項目從中國出現(xiàn),比如Apache Kylin(麒麟)。我相信在這個新世界里,改變才是常態(tài),新的技術(shù)每年都會出現(xiàn)。這些年中國發(fā)生了巨大的變化,有很多機會可以應(yīng)用這些新技術(shù),大數(shù)據(jù)開源社區(qū)將會在中國落地生根。我會很期待看到,有多少人采用它,中國產(chǎn)生貢獻,在接下來的幾年衍生出越來越多的機會。
巔峰對話實錄:
Hadoop未來,事實將碾壓今天所有的質(zhì)疑
人物簡介
Mike Olson:畢業(yè)于加利福利亞大學(xué),曾作為Sleepycat軟件公司CEO主導(dǎo)開發(fā)了全球應(yīng)用廣泛的開源數(shù)據(jù)庫Berkeley DB,后被甲骨文收購,任甲骨文嵌入式技術(shù)副總裁。2008年與其他三位合伙人創(chuàng)立Cloudera,將其打造成國際領(lǐng)先的大數(shù)據(jù)數(shù)據(jù)管理和分析平臺的服務(wù)商,2014年12月Cloudera進入中國。
Doug Cutting:畢業(yè)于美國斯坦福大學(xué),Lucene、Nutch等開源項目的發(fā)起人,打造了目前在云計算和大數(shù)據(jù)領(lǐng)域里如日中天的Hadoop,讓大數(shù)據(jù)推動業(yè)務(wù)的數(shù)字化轉(zhuǎn)型有了開源的技術(shù)平臺。他擅于把高深莫測的搜索技術(shù)形成產(chǎn)品并貢獻于市場及大眾,現(xiàn)任Cloudera首席架構(gòu)師,同時也在Apache軟件基金會董事會任職。
王建民:清華大學(xué)軟件學(xué)院副院長、清華大學(xué)軟件學(xué)院大數(shù)據(jù)中心主任,國家科技部中青年科技領(lǐng)軍人才,國家基金委杰出青年基金獲得者,國家“核高基”科技重大專項總體組成員,國家863計劃先進制造領(lǐng)域?qū)<摇倚l(wèi)計委信息化專家委專家、我國第一個大數(shù)據(jù)專項“核高基”-“非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)”負(fù)責(zé)人;工信部“中國制造2025”:“操作系統(tǒng)與工業(yè)軟件”工作組組長。
一、 關(guān)于HADOOP與Spark、GPU,及商業(yè)化未來
1、面對Spark這類新興技術(shù)的發(fā)展,以及MapReduce市場萎縮的情況,你們?nèi)绾慰创@種市場變化?
邁克:Hadoop由很多部分構(gòu)成,第一層是HDFS,完全做分布式存儲,此外MapReduce用來做分布式處理;有分布式地面向列的開源數(shù)據(jù)庫技術(shù)HBase;Impala可以在支持Hadoop的HDFS系統(tǒng)上,直接做SQL的查詢;也有Cloudera做的Kudu這樣的新型存儲技術(shù)。
Spark只是其中的新技術(shù)之一,并不是好像全世界都只用Spark。當(dāng)然,我們?nèi)绻ケ容^Spark和MapReduce,從現(xiàn)在的情況來看,Spark的確會勝出,但基于Hadoop還會不斷涌現(xiàn)出更多新技術(shù)。
道克:沒錯,Spark的確非常好。在實時批處理上表現(xiàn)優(yōu)異,但它不是全能的,比如它不具備SQL訪問查詢、Solr和Lucence搜索倒排索引、HDFS、Kudu的數(shù)據(jù)存儲能力等。Spark僅僅是Spark,它不代表Hadoop所有的技術(shù),Hadoop將會孕育更多新技術(shù)出來。
2、王建民:計算機和大數(shù)據(jù)技術(shù)都在日新月異的變化,特別在硬件方面,我們看到很多下一代硬件不斷的涌現(xiàn),這些新產(chǎn)品的涌現(xiàn)對于大數(shù)據(jù)技術(shù)的未來會有什么樣的影響?
邁克:像網(wǎng)絡(luò)、CPU在未來會出現(xiàn)非常多的變化,正確的方法是軟件去適配硬件,而不是無視硬件的變化。硬件的升級并不會妨礙未來大數(shù)據(jù)技術(shù)的發(fā)展,反而大數(shù)據(jù)系統(tǒng)會更好的去利用這些新硬件去改變世界,兩者不存在替代關(guān)系。
過去十年,我們已經(jīng)看到了很多這類變化。Cloudera有著非常深厚的英特爾背景,我們的很多員工來自于英特爾,英特爾也是我們的投資人之一。我相信我們和英特爾的密切關(guān)系,未來會更多的幫助下一代軟硬件技術(shù)的融合與適配。
道克:很多人在問我,怎么把GPU和Hadoop結(jié)合,這其實是一個錯誤的命題。Hadoop實際上是基于IO Intensive的系統(tǒng),它整個系統(tǒng)的瓶頸是在系統(tǒng)的IO上,包括磁盤IO、網(wǎng)絡(luò)IO,所以它需要解決的根本并不是CPU的問題。未來當(dāng)IO不再困擾我們的時候,也許那時再來談怎么用CPU加速的技術(shù)解決更多問題更有意義。
像谷歌Tenzing的機器學(xué)習(xí)系統(tǒng)就可以很好的利用GPU,而不是現(xiàn)在吧的大數(shù)據(jù)系統(tǒng)來加速。但我相信在這個領(lǐng)域?qū)頃懈嗟臋C會,我們將看到很多數(shù)據(jù)結(jié)構(gòu)、系統(tǒng)結(jié)構(gòu),會適應(yīng)新硬件的變化趨勢而發(fā)生轉(zhuǎn)變。
3、Hadoop3.0的關(guān)鍵特性
邁克:Hadoop3.0的確會有一些側(cè)重,排在首位的就是多租戶技術(shù),將來我們會在Hadoop 3.0的平臺上看到更多不同的像MapReduce、Spark這樣的技術(shù),可以同時在一個平臺上被不同的用戶運行,就像Yarn正在做的一樣。所以Hadoop 3.0的特點就是支持更多的系統(tǒng)可以更好的運行,更好的去實現(xiàn)多租戶這個概念。
另外,Hadoop3.0更多的是適配新硬件技術(shù)的改變,比如英特爾新推出的優(yōu)化存儲、CPU的新技術(shù),特別是SSD技術(shù)。硬件價格的走低,讓我們更有可能去利用這些技術(shù)。Cloudera新啟動的一個Apache開源項目叫Apache Kudu,這是一個新型的存儲系統(tǒng),Kudu就正在利用這樣一些這樣的新硬件技術(shù)。
道克:現(xiàn)在還有另一個我們在做的項目,內(nèi)容是基于HDFS和新型硬件結(jié)合做系統(tǒng)復(fù)制。這種復(fù)制技術(shù),不只能加快系統(tǒng)的速度,還會提升系統(tǒng)的容量。這個項目的開發(fā)者就在英特爾中國公司,中國已經(jīng)出現(xiàn)了很多很好的創(chuàng)新技術(shù)。
4、問題分段:CDH商業(yè)產(chǎn)品的未來怎么樣?
邁克:Cloudera一直在保持這個系統(tǒng)的開源,雖然上面有很多收費的工具,但是這樣做的目的并不是阻止用戶。因為現(xiàn)在有很多商業(yè)軟件巨頭會利用我們的開源系統(tǒng),把它作為商業(yè)軟件,去獲得更多的市場機會,去贏取更多的利潤。所以我們一方面會保持底層數(shù)據(jù)存儲、處理引擎系統(tǒng)的開源,讓用戶可以把這個技術(shù)用得更好、讓系統(tǒng)變得更易用;同時,堅持收費的舉措也讓我們能夠有能力在大數(shù)據(jù)系統(tǒng)市場上和大型商業(yè)軟件公司競爭。
開源將有利于更多人參與系統(tǒng)的開發(fā),讓更多的大學(xué)可以參與學(xué)習(xí),讓更多的用戶可以接受新知識。所以大家看到了Impala和Spark。我很高興看到作為一家公司Cloudera在大數(shù)據(jù)市場上越來越多的成長機會。
道克:開源平臺上,Apache僅僅是把所有技術(shù)囊括在一起,但Apache上面可能有二十多種不同的打包方式,怎么去安裝?怎么去配置?怎么去打包?這些其實對很多用戶來講都非常具有挑戰(zhàn)性。所以我們推出CDH Commercial版,已經(jīng)幫大家把對應(yīng)的系統(tǒng)打包好了,通過CDH我們會幫助大家更好的管理數(shù)據(jù),管理大數(shù)據(jù)系統(tǒng)。
如果用戶愿意去使用免費開源系統(tǒng)這沒有任何問題,但是如果用戶需要我們的幫助,可以去訂購Cloudera的商業(yè)版。這就是硅谷現(xiàn)在的開源文化,有越來越多的公司在做開源。開源的東西是免費的,但我們在不斷提供增值服務(wù)。我們也需要有更多的客戶認(rèn)可這樣的服務(wù)價值并愿意幫助Cloudera這樣的公司在市場上存活下去,跟我們建立更長期的合作關(guān)系,支持我們的業(yè)務(wù)。
二、 關(guān)于大數(shù)據(jù)系統(tǒng)的應(yīng)用,選擇與困擾
5、如果我們現(xiàn)在有一個項目剛開始,面對這么多大數(shù)據(jù)系統(tǒng),應(yīng)該怎么選擇一個合適的平臺?
道克:這的確很難,我們可能需要去熟悉所有的系統(tǒng)和工具,需要更多的實驗,去測試這些系統(tǒng)。在滿足工作負(fù)載的前提下,比較在哪個系統(tǒng)工具上工作得更好。但幸運的是,這類測試的確越來越容易了,現(xiàn)在有越來越多的工具可以進行輔助。
但是真正在設(shè)計的過程中需要去考慮很多技術(shù)細節(jié),比如系統(tǒng)處理速度和系統(tǒng)吞吐的平衡。這個過程更像是一門藝術(shù),而不像一個技術(shù)。
邁克:你選Cloudera就行了,不用去想更多的(哈哈)。
6、王建民:我們現(xiàn)在碰到的很大問題是面對系統(tǒng)的版本升級,用戶需要不斷去升級他們建好的系統(tǒng),Cloudera怎么看待這樣的挑戰(zhàn)?
邁克:當(dāng)然,商業(yè)版的更新很簡單,一鍵安裝新的系統(tǒng)就好了。如果是開源的系統(tǒng)就會很難,因為開源你需要去選擇一個適合的文件包,需要自己去重新搭建,需要自己去測試,而這些在Cloudera商業(yè)版里都已經(jīng)幫你做好了。
道克:如果不兼容,就只能來找Cloudera,這樣我們的商業(yè)服務(wù)就能有發(fā)展空間了(哈哈)。
王建民:看來這樣的機會、這樣的服務(wù)對于Cloudera而言是一個很有價值的業(yè)務(wù)。
邁克:我們是一家創(chuàng)新公司,所以首先我們是一群創(chuàng)新者,我們的首要工作是設(shè)立未來大數(shù)據(jù)系統(tǒng)發(fā)展的方向。第二件事,我們的確做商業(yè)軟件,我們會把這些開源系統(tǒng)打包、測試,會在上面做很多工具,我們也會利用它來提供服務(wù)。
7、大數(shù)據(jù)服務(wù)的云平臺未來應(yīng)該如何選擇?
邁克:在商業(yè)層面上各種主流的云平臺Cloudera都支持,我們在北美和AWS、谷歌等都有合作,在中國將和騰訊、百度等有更多的合作,可以看到云服務(wù)市場增長非???。
道克:如何選擇云服務(wù)有很多因素要考慮。第一個是經(jīng)濟角度上,到底哪種方式更具性價比,并不是所有的公有云都比私有云更便宜。第二個是安全,雖然我們可以用多種加密的方式解決這個問題,讓別人更安心,但是安全永遠是影響抉擇的重要因素。還有另一個問題,我們需要考慮得非常清楚,通常我們遷移大數(shù)據(jù)系統(tǒng)是非常昂貴的,所以我們在選擇一個云的運營商之前,首先要意識到,這個運營商給我們提供的技術(shù)是不是我們需要的。一旦需要在這個平臺上進行轉(zhuǎn)換,是不是很容易操作。我能見到的最大錯誤就是選擇了某個云平臺之后被吃定,無法遷移轉(zhuǎn)換。
邁克:我們選擇開源有一個非常大的好處,因為底層的技術(shù)其實都是一樣的,是完全兼容的。如果我們選擇了不合適的云運營商,或者不合適的大數(shù)據(jù)商業(yè)軟件合作伙伴,我們可以比較容易完成系統(tǒng)遷移。
道克:還有一個融合的問題。比如企業(yè)內(nèi)部有架構(gòu)存儲一部分?jǐn)?shù)據(jù),同時在公有云上也存儲一部分?jǐn)?shù)據(jù),如果我們選擇混合云的方式,可能會讓我們在處理數(shù)據(jù)時非常困難,因為這兩個架構(gòu)之間任一方向的數(shù)據(jù)遷移,都非常昂貴。是否需要把數(shù)據(jù)放在不同的地方,這也是我們在選擇云計算架構(gòu)時必須要非常認(rèn)真考慮的一個問題。
8、如何去發(fā)掘Hadoop系統(tǒng)的應(yīng)用性領(lǐng)域,尤其在中國?怎樣去發(fā)現(xiàn)中國真正的大數(shù)據(jù)市場?
邁克:大數(shù)據(jù)分析、機器學(xué)習(xí)等技術(shù)發(fā)展,都在真實發(fā)生著,這些事情觸發(fā)了我們會有更多的數(shù)據(jù),需要更多的處理能力,需要有更多的分析應(yīng)用,這樣正是我們希望看到的市場需求。
2006年我代表Oracle來中國,當(dāng)時正好是中國“十一五”開端的第一年,中國政府第一次在“十一五”的五年規(guī)劃中開始強調(diào)創(chuàng)新,今年是2016年,是“十三五”的開局之年,中國政府不但強調(diào)創(chuàng)新,還強調(diào)了創(chuàng)業(yè),我認(rèn)為中國現(xiàn)在有一個非常好的開端。
對于Cloudera而言,在中國市場需要尋找更多的合作伙伴。我們看到像GM跟上汽合作為全球市場設(shè)計新車,中國已經(jīng)出現(xiàn)越來越多的垂直細分領(lǐng)域,比如像電信、保險,有越來越多的中國公司在使用大數(shù)據(jù),成為很好的行業(yè)范例。中國大數(shù)據(jù)的應(yīng)用前景非常好,已經(jīng)取得了令人刮目相看的成就。中國市場的體量非常大,增量也會很大,不只是大數(shù)據(jù)市場,中國在其它細分領(lǐng)域一定會出現(xiàn)更多更好的創(chuàng)新,會孵化出更多大數(shù)據(jù)的技術(shù)與應(yīng)用。
三、 關(guān)于開源及未來
9、事實上,人們對開源還有困惑,很多中國團隊的想要致力于開源,你們有什么建議給那些想要參與進來的人?
道克:第一件事是找到一個恰當(dāng)?shù)念I(lǐng)域,現(xiàn)在的開源項目不是那么容易做好,首先要確保你的產(chǎn)品是有用的。
提問:這個領(lǐng)域是什么?
道克:這個很難去做預(yù)測,每個細分行業(yè)都有不同的現(xiàn)實情況,但相信大家是可以找發(fā)掘的。第二點,明確領(lǐng)域后,我們要建立對應(yīng)的大數(shù)據(jù)系統(tǒng);第三點,系統(tǒng)做出來之后我們需要有更多的參與者,需要讓大家意識到這個系統(tǒng)的價值,并愿意投入去改進你現(xiàn)在做的系統(tǒng),愿意加入這個的社區(qū)團隊。這就是我們講到的開源文化。
這三步做到之后,你的項目規(guī)模自然而然就會增長,就會吸引更多的人參與,而且在這個過程中,所有參與項目的人需要非常開放,樂于幫助,更多這樣的人加入才會促使這件事成功。反之,如果我們做的是非常狹隘的一個領(lǐng)域,并希望它控制在一個什么樣的范圍內(nèi),通常這樣的項目就難以成功。
邁克:在成為Cloudera的Leader之前,我曾是一個開發(fā)人員,做伯克利的數(shù)據(jù)庫。在我的經(jīng)驗中,社區(qū)是最重要的。并不是說一個開源社區(qū)做出來就是為了免費,關(guān)鍵是有更多人參與。現(xiàn)在中國的團隊不只是參與到既有的項目中,有的已經(jīng)開始去創(chuàng)造自己的新項目。比如說來ebay中國的一群人創(chuàng)造了麒麟這個項目,這個項目現(xiàn)在已經(jīng)變成了Apache的一個典型項目。所以我非常樂于見到更多來自中國的技術(shù)可以貢獻在全球。
王建民:現(xiàn)在中國有非常好的開源文化,很多年輕一代都非常熱情,愿意去做這件事情,但苦于我們沒有找到正確的門路和方法。清華正在做這方面的努力,清華數(shù)科院和Cloudera的戰(zhàn)略合作,其中非常重要的部分就是如何幫助中國開源社區(qū)的成長,我們也希望通過這樣的方式,培養(yǎng)更多的中國本土的Leader,將來他們可以去創(chuàng)建多樣化的開源社區(qū),去領(lǐng)導(dǎo)更多的項目。
道克:需要強調(diào)一下,開源并不是一件容易的事情,它意味著我們需要投入更多的努力。我們需要有大量來自全球的有關(guān)需求的溝通,可能你的團隊在中國,你的需求來自于英國或者是美國,語言障礙會帶來挑戰(zhàn)。此外,選擇做開源,選擇一個更多人可以用的東西,一定意味著需要有更多付出。
舉一個例子,我和我孩子做飯,可以選擇我自己做,讓我的孩子做,或者教我的孩子做。讓我做飯很簡單,但是讓我的孩子做飯一定是個災(zāi)難。如果讓我選擇,教我的孩子如何做飯,雖然培養(yǎng)的過程需要花很多的精力,但最終當(dāng)孩子學(xué)會做飯之后,就能一勞永逸。
開源社區(qū)也是這樣,開始階段需要投入比我們現(xiàn)有項目更多的努力,但是一旦我們很好的建立一個社區(qū)和社區(qū)文化,這個項目就會有一種自我生長、自我繁殖的能力。
10、中國另一個現(xiàn)狀就是天賦的缺失,你們有什么建議?
道克:這個的確很難,因為現(xiàn)在大數(shù)據(jù)技術(shù)的變化演進非常快,如果你希望成為一個大數(shù)據(jù)人才,就必須有非常強的學(xué)習(xí)新技術(shù)的能力。技術(shù)變化太快了,只有最好的人才能做到。真正能夠解決的方式只有自我不斷的學(xué)習(xí),以及可以有第三方提供的培訓(xùn)來幫助大家。Cloudera提供了一些課程出來,這個課程對大學(xué)是免費的。
王建民:為了解決大數(shù)據(jù)人才的問題,中國已經(jīng)有很多大學(xué)開設(shè)了大數(shù)據(jù)教育的課程,清華數(shù)科院就有相關(guān)的碩士計劃,第一屆已經(jīng)有150名以上的學(xué)生,來自清華不同院系的師資支持這個課程,但是這個課程到底應(yīng)該怎么去上呢?
參與授課的學(xué)生基本上可以分成三類,第一類是有很強的IT背景,可以做很多數(shù)據(jù)工程的事情;第二類來自社會信息學(xué)的領(lǐng)域,在他的工作中有很大部分就是在處理數(shù)據(jù)。第三類人是來自傳統(tǒng)行業(yè),比如像機械工程這樣的領(lǐng)域,他們以前沒有足夠的IT知識和處理數(shù)據(jù)的技能。
我們在去年的授課過程中也在不斷的調(diào)整課程,我們認(rèn)為更好的解決方法,是理論和實踐結(jié)合,讓大家在學(xué)習(xí)理論課程的同時有更多的實踐機會,能夠更好的去解決技能問題。Cloudera提供的這些免費課程將會被引進到清華大數(shù)據(jù)碩士教育的計劃中。
11、大數(shù)據(jù)技術(shù)在中國未來會怎樣發(fā)展?
王建民:第一點,大數(shù)據(jù)在中國的進步會非常好,數(shù)據(jù)來源會非常多,中國有越來越多的人、越來越多的機器、越來越多的在線交易,都在產(chǎn)生大量的數(shù)據(jù)。但是在這個過程中我們要改變現(xiàn)在的文化,讓決策聽從數(shù)據(jù)驅(qū)動。第二點,不要把大數(shù)據(jù)神化,認(rèn)為大數(shù)據(jù)可以做更多的事情,要有耐心把大數(shù)據(jù)和我們的業(yè)務(wù)更好的結(jié)合起來。第三點,我們需要更多的注意安全和隱私,我們會有越來越多的數(shù)據(jù),數(shù)據(jù)安全實際上是這個發(fā)展的前提。第四點,要更多發(fā)展中國自己的技術(shù)。
邁克:中國大數(shù)據(jù)有非常好的未來,清華這邊也在做很多和大數(shù)據(jù)相關(guān)的事情,大數(shù)據(jù)在全球的發(fā)展已經(jīng)非常成功,在中國經(jīng)濟方面、社會方面都會涌現(xiàn)非常多的機會。
道克:是的,中國一定會有很多的機會,而且中國的技術(shù)也已經(jīng)很先進了,更重要的是現(xiàn)在開源社區(qū)給了我們更多的機會去參與學(xué)習(xí)。
12、大數(shù)據(jù)技術(shù)的未來又是什么樣的?
道克:這個非常難預(yù)測,現(xiàn)在不太可能會知道,如果要知道我就去做了。我認(rèn)為更可能知道的是在座的各位,如果大家有什么樣非常好的想法,可以去積極嘗試。
邁克:在中國,小米正在使用Kudu,而Spark社區(qū)現(xiàn)在也變得越來越熱,這個情況在五年前我們都是見不到的。所以現(xiàn)在開源社區(qū)給我們一個非常好的環(huán)境和生態(tài)系統(tǒng),像Hadoop這樣,可以幫助大家更好的去發(fā)展更多新的技術(shù)。
王建民:我們能夠看到的是,大數(shù)據(jù)系統(tǒng)對于中國的很多用戶來講,非常難使用,已有的開源技術(shù)并不能被很好的利用起來。在我們實驗室現(xiàn)在就有這樣一個項目,可以幫助大家更簡化的使用今天Hadoop的系統(tǒng),是一種用機器學(xué)習(xí)的方法更多去完成自動化的參數(shù)、自動化的控制,我們正在做更多的努力。
邁克:這個方向很好,機器學(xué)習(xí)一定是未來的趨勢,我們應(yīng)該思考怎么在更多方面結(jié)合這項技術(shù)。