2020国产不卡一区二区三区,久久香蕉国产线

Hadoop將取代MPP，混合架構即將消失

責任編輯：王李通

作者：資深記者老魚

2015-04-27 14:33:24

來源：企業(yè)網D1Net

原創(chuàng)

在大數據基礎架構選型時，經常聽到的一個說法是——“如果數據規(guī)模在TB級可以選擇MPP架構的關系型數據庫，如果數據規(guī)模上升到PB級則應該選擇Hadoop”。

《企業(yè)網D1Net》4月27日訊

在大數據基礎架構選型時，經常聽到的一個說法是——“如果數據規(guī)模在TB級可以選擇MPP架構的關系型數據庫，如果數據規(guī)模上升到PB級則應該選擇Hadoop”。但事實上MPP架構的關系型數據庫與Hadoop的理論基礎是極其相似的，都是將運算分布到節(jié)點中獨立運算后進行結果合并。區(qū)別僅僅在于前者跑的是SQL，后者則是MapReduce程序。跑什么其實只是形式而已，是用戶使用習慣，相對而言SQL作為數據庫領域的事實標準語言使用更加廣泛，從而限制住用戶快速進入Hadoop大數據時代的步伐。

隨著Web2.0、Web3.0、移動互聯網、物聯網等等事物的興起，人們創(chuàng)造了更多的數據，收集更多數據成為可能，業(yè)務的需求促進了大數據技術包括Hadoop的發(fā)展。不少公司都在加快SQL開發(fā)，而星環(huán)科技則是其中的一員。星環(huán)科技CTO孫元浩在2015年第六屆中國數據庫技術大會(DTCC)上表示，隨著Hadoop上SQL性能上及安全容錯上的不斷提升，Hadoop在未來兩三年將會取代MPP，混合架構會逐漸的消失。

作為國內數據庫與大數據領域最大規(guī)模的技術盛宴，2015年第六屆中國數據庫技術大會(DTCC)在一場北京近年來最大的沙塵暴中拉開了序幕。4月16日，大會第一天上午，來自星環(huán)科技的CTO孫元浩給我們帶來《大數據基礎技術發(fā)展的兩大方向和最新研發(fā)成果》的主題演講。

大數據基礎技術發(fā)展的兩大方向是什么?為什么會是這兩個?星環(huán)科技在這兩方面有那些研發(fā)突破?為何Hadoop能取代MPP，混合架構會消失?為何星環(huán)科技會與眾不同，定位基礎軟件公司?星環(huán)的產品策略又是什么呢?帶著這些問題，老魚在會后專訪了星環(huán)科技CTO孫元浩，就這些問題進行詢問和解答。

老魚：孫總，您好!一直聽說你是個富有傳奇色彩的人，今天終于見到真人了，先請您跟我們的網友打聲招呼，簡單介紹下自己和公司產品。

孫元浩：大家好，我是孫元浩，其實我的經歷還是比較簡單的，大學碩士畢業(yè)后加入英特爾，在英特爾工作了10年(曾任英特爾亞太研發(fā)有限公司數據中心軟件部亞太區(qū)CTO)。2013年離開英特爾創(chuàng)業(yè)2年，也就是星環(huán)科技，從事大數據時代核心平臺數據庫軟件的研發(fā)與服務。公司研發(fā)團隊大多來自知名外企，員工的85%為研發(fā)工程師，以博士碩士為主。

我們的產品Transwarp Data Hub (TDH)是基于Hadoop和Spark的分布式內存分析引擎和實時在線大規(guī)模計算分析平臺，相比開源Hadoop版本有10x~100x倍性能提升，可處理GB到PB級別的數據。星環(huán)科技同時提供存儲、分析和挖掘大數據的高效數據平臺和服務。

老魚：您在演講中提到Hadoop技術經過10年的發(fā)展，到目前為止還沒有被大面積普及的制約因素有2個：SQL技術制約和彈性計算的需求沒被得到滿足，這2個因素限制了Hadoop的普及，解決這2個問題將成為大數據技術發(fā)展的兩大方向。Hadoop普及涉及的問題有很多，為什么您覺得解決這2個問題會成為大數據技術發(fā)展的方向?能否給我們具體分析下?

孫元浩：這其實是過去幾年，我們從市場上觀察到的現象，Hadoop還沒有被大面積普遍采用，障礙來自兩個方面：

1、SQL on Hadoop的技術進展制約了企業(yè)原有應用的遷移以及新應用的開發(fā);

2、Hadoop加速Docker化，企業(yè)在建設大數據平臺或者Data Lake時，往往有多租戶資源管控和彈性計算的需求，這些需求現有的YARN或者虛擬化技術沒有滿足。

第一個方面，過去大家談大數據，做一些數據挖掘的工作，但實際上企業(yè)更多的應用是在結構化數據的處理，主要用的操作語言是SQL，我們發(fā)現60%的Hadoop應用是用在SQL統(tǒng)計領域。

當我們把Hadoop運用到企業(yè)中去時，新應用有待驗證，老應用其實已經出現了數據量很大，急需用Hadoop來加速的需求，但現在的問題是，客戶想遷到Hadoop上，形成效率降低成本，卻遷不過來!其中的關鍵因素是大量客戶的SQL極端復雜，這種情況我們在運營商和銀行都有發(fā)現，銀行貸款風控SQL非常復雜，要完成遷移需要太多時間去改造，有些語法甚至沒辦法改造，因此SQL支持的完整程度比性能更加重要，沒有這些語法支持，要想把現有應用遷移到Hadoop上來是不可行的。

SQL作為數據庫領域的事實標準語言，相比較用API(如MapReduce API，Spark API等)來構建大數據分析的解決方案有著先天的優(yōu)勢：一是產業(yè)鏈完善，各種報表工具、ETL工具等可以很好的對接;二是用SQL開發(fā)有更低的技術門檻;三是能夠降低原有系統(tǒng)的遷移成本等。因此，SQL語言也漸漸成為大數據分析的主流技術標準。而要想讓SQL用戶快速進入Hadoop大數據時代，就必須要解決這個問題。

第二個方面，也來自真實的用戶訴求。我們有三分之一以上的客戶要求把Hadoop跑在虛擬機上，但每次我們都只能無情的拒絕，因為Hadoop放在虛擬機上，性能瓶頸是非常嚴重的，穩(wěn)定性很差，主要原因是因為傳統(tǒng)的虛擬機是把一臺物理機變成多個虛擬機，CPU負載很低。而虛擬機跑大數據應用， CPU利用往往達到99%，很少有人在虛擬機上把CPU用到99%，這個時候hypervisor就撐不住了，穩(wěn)定性成為一個大問題，這也就阻礙了用戶使用Hadoop第二個大問題。

因此，這2個方向都是我們希望幫助客戶解決的，市場非常大，如果把這2個問題解決，我相信Hadoop在使用上就能再上一個量級。

老魚：孫總，能否在這里給我們介紹下星環(huán)針對這2個問題，取得的最新技術研發(fā)成果?

孫元浩：其實我們最新技術研發(fā)成果都是被客戶逼出來的，我們的研發(fā)成果是源于用戶需求。有客戶問我們，我這里有21萬2千行的SQL你能不能跑?也客戶有30幾萬行SQL，說你們Hadoop不是很牛嗎?試試能不能跑?這迫使我們在2013年組織一個由編譯器專家組成的團隊，開發(fā)了一個Hadoop PL/SQL編譯器，當時的目標是選擇跟Oracle兼容，先把Oracle用戶遷移過來，經過2年的發(fā)展，我們星環(huán)的Transwarp Inceptor實現了自己的SQL解析執(zhí)行引擎，可以兼容SQL 99和HiveQL，自動識別語法，因此可以兼容現有的基于Hive開發(fā)的應用。由于Transwarp Inceptor完整支持標準的SQL 99標準，傳統(tǒng)數據庫上運行的業(yè)務可以非常方便的遷移到Transwarp Inceptor系統(tǒng)上。此外Transwarp Inceptor支持PL/SQL擴展，傳統(tǒng)數據倉庫的基于PL/SQL存儲過程的應用(如ETL工具)可以非常方便的在Inceptor上并發(fā)執(zhí)行。另外Transwarp Inceptor支持部分SQL 2003標準，如窗口統(tǒng)計功能、安全審計功能等，并對多個行業(yè)開發(fā)了專門的函數庫，因此可以滿足多個行業(yè)的特性需求。

另外一個相當大的突破，是我們開辟了一個新的產品線TOS(Transwarp Operating System)，TOS是為大數據應用量身訂做的云操作系統(tǒng)?；贒ocker和Kubernetes，TOS支持一鍵部署TDH，基于優(yōu)先級的搶占式資源調度和細粒度資源分配，讓大數據應用輕松擁抱云服務，不限于跑Hadoop集群，也可以跑傳統(tǒng)的數據庫業(yè)務如MySQL, PostgreSQL, Redis等，解決第二個挑戰(zhàn)。這個操作系統(tǒng)正式發(fā)布是今年的6月份，目前其實已經提供給客戶開始試用了。在國內Docker化的Hadoop系統(tǒng)，我們是領先的。

老魚：我們經常聽到的一個說法，用MPP處理PB級別的、高質量的結構化數據;用Hadoop實現半結構化、非結構化數據處理。這樣可同時滿足結構化、半結構化和非結構化數據的處理需求。而您今天談到一個觀點，隨著SQL在性能上及安全容錯上的不斷提升Hadoop會取代MPP，混合架構架構會消失!這個觀點的依據是什么?

孫元浩：混合架構本身就是一種無奈而折中的選擇，同時維護多個系統(tǒng)運維難度非常大。當初，Hadoop的誕生是為了更方便地處理非結構化數據和半結構化數據，但是處理結構化數據的時候功能就顯得不夠完整。用戶還需要使用數據庫或者MPP(大規(guī)模并行處理)數據庫，協(xié)助Hadoop處理結構化的數據。另外，Hadoop是為處理幾百TB和幾PB數據而設計的，但是，當數據量小于10TB的時候，Hadoop的處理性能往往還不如MPP數據庫。

隨著SQL on Hadoop技術的快速發(fā)展，SQL完整程度的大幅提高和性能的提升，我們做的第一個判斷是混合架構會逐漸的消失，過去MPP數據庫有三個優(yōu)勢，第一個SQL支持完整，現在我們的SQL支持程度已經接近MPP數據庫;第二個它比Hadoop性能高，但我們看到現在Hadoop性能可以超過MPP若干倍。第三個優(yōu)勢就是說它上面的BI工具，外延工具非常全，傳統(tǒng)的BI廠商都已經轉向Hadoop，Hadoop系統(tǒng)的BI工具也越來越豐富，還有一些新興的創(chuàng)業(yè)公司在Hadoop上開發(fā)全新的BI工具，這些工具原生支持Hadoop，從這個角度來講Hadoop的生態(tài)系統(tǒng)將很快超越傳統(tǒng)MPP數據庫。

我們覺得在未來一年兩年之內，Hadoop將逐漸取代MPP數據庫，大家不需要用混合架構，不需要在不同數據庫之間實現遷移了。有人說我MPP也在遷移，慢慢向Hadoop靠攏，這也是事實，整個MPP的數據庫在慢慢消失，完全走到Hadoop上面來。我們希望最后結果就是數據全部放在Hadoop上，不管數據在幾個GB級別還是10個PB級別，都可以在Hadoop上處理，真正做到無限的線性擴展。

老魚：星環(huán)科技我理解是一個做基礎軟件(數據庫)的公司，不知道這么理解對不對?為什么當初是這個定位?

孫元浩：你這個問題很好，現在有很多客戶也問我同樣的問題，客戶把我們定位成一個大數據應用和解決方案的公司，是因為國內大部分大數據公司都是這種類型，其實我們定位是大數據平臺，是做基礎軟件的。為什么要做基礎軟件?因為我們看到一個明顯的技術演進趨勢，從單機計算，多核計算到分布式計算，這個趨勢是技術的潮流，是一次至下而上的架構革命，這種機會可能10年或者20年才能碰到一次，而這一領域正是我們擅長的，所以我們準備投入到這個領域。在中國，用戶數眾多，除了美國，中國企業(yè)的數據量普遍要多于國外企業(yè)一個數量級;中國企業(yè)的應用場景也非常復雜，很少有國外產品不經修改在中國能夠不出故障地運行，因此中國也是需要這樣一個大數據的基礎軟件公司，所以我們認為在中國市場發(fā)展的機會很大，這也我們在基礎軟件發(fā)力的原因。我們在中國也有很多的合作伙伴，開發(fā)著各種應用，我們也在建立生態(tài)系統(tǒng)。

綜上所述，第一，技術趨勢在向這個領域發(fā)展。第二，市場環(huán)境對我們有利。第三、我們創(chuàng)始人和團隊的技術儲備和經驗在這個領域很深厚。這就是我們創(chuàng)立星環(huán)科技的初衷，致力于提供優(yōu)秀的大數據基礎軟件，來解決這些問題。

老魚：做基礎軟件是一件非常難的事情，資金、人才、技術、規(guī)模等等要求都非常高，您在創(chuàng)業(yè)的是否有考慮過這些問題?

孫元浩：這也是個很好的問題，我們有思想準備。做基礎軟件確實是一個投入非常大的事情，動輒上千萬上億投入，才能把產品做好。如果我們去做應用，在大數據應用領域我們沒有太大的創(chuàng)新點，也沒辦法去區(qū)別于其他公司，而基礎軟件是我們擅長的。

我們的目標并不是追逐短期內獲益或者說是個人財富短期迅速增長，我們目標放的更長遠，那就是要把這個事情做好。星環(huán)的大部分人都是從外企走出來的，大家放棄了高薪，唯一的目的就是想把這個事業(yè)做好。

做基礎軟件，人才一直是比較難解決的問題，不過創(chuàng)業(yè)型公司跟大型外企和互聯網公司相比，我認為有幾點還是比較有吸引力：

第一、我們的工作是創(chuàng)新的前沿的，比較挑戰(zhàn)性，這對技術高手是比較有吸引力的。

第二、員工激勵，我們是全員持股，每個人都有公司期權，這跟在外企打工有很大不同，大家都是平等的，都是指揮官，大家一起奮斗。

第三，國內創(chuàng)業(yè)環(huán)境氛圍很好，國家鼓勵創(chuàng)新創(chuàng)業(yè)，對于人才的加入創(chuàng)造了一個有利的環(huán)境。

當然除此之外，招聘依然還是個老大難的問題，因此我們一方面與招聘機構合作，另一方面也自己在培養(yǎng)新員工，引進一些技術高手。

老魚：從架構圖中，我看到星環(huán)對Spark, Shark, Hbase等Hadoop生態(tài)圈的組件都進行很多的改造和優(yōu)化，也常關注國內外大數據的最新技術動態(tài)并且考慮如何加入到產品中來，星環(huán)新增功能和產品功能改造將會依據一個什么樣的規(guī)則?

孫元浩：我們的產品策略，得從我們的產品架構圖上講起。如下圖

Hadoop這層我們會與社區(qū)同步，并向社區(qū)反饋貢獻。在Hadoop之上這層，我們會有3大組件Transwarp Hyperbase, Transwarp Stream，Transwarp Inceptor,這3個組件我們定位成自己的產品，我們會獨立開發(fā)和發(fā)展，這塊產品啟用標準的SQL，或者開放API，這是個分割線。Hadoop生態(tài)系統(tǒng)的組件我們保證和開源版本全兼容的，包含Spark也會跟接口做兼容性測試。

Hadoop 大數據 MPP