本次名人堂專訪,我們有幸邀請(qǐng)到了來(lái)自阿里數(shù)據(jù)技術(shù)與產(chǎn)品部的墨冶(本名陳敏敏),他在阿里主要支持和負(fù)責(zé)零售通的數(shù)據(jù)業(yè)務(wù),同時(shí)橫向負(fù)責(zé)集團(tuán)五條To B業(yè)務(wù)線的數(shù)據(jù)技術(shù),包含采集、計(jì)算、存儲(chǔ)一直到數(shù)據(jù)展示端的技術(shù)。墨冶老師參與撰寫和翻譯了《Storm技術(shù)內(nèi)幕與大數(shù)據(jù)實(shí)踐》、《軟件設(shè)計(jì)之道》和《HBase應(yīng)用架構(gòu)》等書籍,曾擔(dān)任過(guò)多個(gè)全國(guó)、全球性IT技術(shù)會(huì)議中架構(gòu)或大數(shù)據(jù)專場(chǎng)的出品人,也曾在一些500強(qiáng)企業(yè)先后就任過(guò)工程師、架構(gòu)師、總監(jiān)、公共數(shù)據(jù)部門的技術(shù)總負(fù)責(zé)人。
墨冶老師在大數(shù)據(jù)領(lǐng)域擁有豐富的閱歷與見(jiàn)識(shí),也有深厚的實(shí)踐經(jīng)驗(yàn)。所以這次我們談?wù)摯髷?shù)據(jù)的“星空”和“土地”,他無(wú)疑是最適合的人選之一。
大數(shù)據(jù)“星圖”繪制未半
今天,全球范圍內(nèi)的數(shù)據(jù)量呈現(xiàn)出井噴式的增長(zhǎng),大數(shù)據(jù)技術(shù)在很多企業(yè)的業(yè)務(wù)場(chǎng)景中都有非常普遍的應(yīng)用,也因此涌現(xiàn)出了很多的開(kāi)源技術(shù)和工具。如此繁榮的業(yè)態(tài)容易給人造成一種整個(gè)大數(shù)據(jù)行業(yè)已經(jīng)完全成熟的錯(cuò)覺(jué),其實(shí)不然,墨冶老師認(rèn)為從數(shù)據(jù)量和數(shù)據(jù)類型上看,大數(shù)據(jù)還處于上半場(chǎng)。這片星空的星圖有待進(jìn)一步完善。
“目前僅IOT的數(shù)據(jù)量全社會(huì)就有1.1萬(wàn)億T,但大量的半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)還未采集,隨著傳感器價(jià)格越來(lái)越便宜,物聯(lián)網(wǎng)的普及,5G的全面商用,數(shù)據(jù)應(yīng)當(dāng)會(huì)暴增。”
除了數(shù)據(jù)井噴現(xiàn)象仍將持續(xù)進(jìn)行且愈演愈烈外,墨冶老師認(rèn)為,實(shí)時(shí)計(jì)算框架、數(shù)據(jù)倉(cāng)庫(kù)等技術(shù)也將不斷進(jìn)化,未來(lái)幾年我們可能會(huì)看到以下三個(gè)重大變化:
1、半結(jié)構(gòu)化\非結(jié)構(gòu)的數(shù)據(jù)湖會(huì)逐步成熟。 在Google Trends上,Data Lake熱度已經(jīng)超過(guò)Data Warehouse。支撐數(shù)據(jù)湖的幾個(gè)開(kāi)源框架的社區(qū)也比較活躍,如Apache Atlas已經(jīng)發(fā)布1.0.0版。佛羅斯特研究公司甚至認(rèn)為數(shù)據(jù)湖最終會(huì)進(jìn)化成Data Fabric,未來(lái)各種數(shù)據(jù)源會(huì)更加自動(dòng)化、智能化、安全的采集到一個(gè)平臺(tái),在統(tǒng)一平臺(tái)里提供可信的、360°視角的客戶和商業(yè)數(shù)據(jù)。
2、流和批處理技術(shù)統(tǒng)一開(kāi)發(fā)模式。 Spark和Flink等實(shí)時(shí)計(jì)算框架,不僅上層的功能相互借鑒,從最近來(lái)看,架構(gòu)設(shè)計(jì)上也相互參考,比如micro batch模式的Spark,規(guī)模提升后性能會(huì)存在一定問(wèn)題,所以當(dāng)前Spark也在開(kāi)發(fā)類似Flink的Continuous Processing Mode。
3、ETL會(huì)更方便。 目前僅僅用SQL和UDF仍存在不少限制,如缺少關(guān)鍵的繼承、不支持遞歸等,隨著一些云廠商推出可視化數(shù)據(jù)清洗工具,以及處理語(yǔ)音、圖像、視頻的數(shù)據(jù)湖逐步完善,以后ETL更加可視化,很多甚至可以通過(guò)拖拽完成。
在這樣一個(gè)技術(shù)發(fā)展背景下,開(kāi)源社區(qū)的力量是不容忽視的。墨冶老師認(rèn)為,好的開(kāi)源項(xiàng)目最好有一家對(duì)應(yīng)的商業(yè)化公司,開(kāi)發(fā)相應(yīng)解決方案,完善外圍功能,幫助開(kāi)源項(xiàng)目實(shí)現(xiàn)商業(yè)化,這樣對(duì)項(xiàng)目本身的發(fā)展會(huì)更加良性。同時(shí),墨冶老師特別提到了上層功能標(biāo)準(zhǔn)化的重要性,特別是對(duì)于很多新技術(shù),行業(yè)標(biāo)準(zhǔn)化會(huì)減少很多不必要的麻煩與成本。
“從編程語(yǔ)言的發(fā)展史來(lái)看,工具和平臺(tái)最終都會(huì)朝著降低大家理解世界的成本的方向發(fā)展,數(shù)據(jù)和智能應(yīng)用的開(kāi)發(fā)會(huì)越來(lái)越方便,門檻會(huì)越來(lái)越低,解放出更多的人從商業(yè)和業(yè)務(wù)角度思考問(wèn)題。”墨冶表示。
在大數(shù)據(jù)之路上站穩(wěn)扶好
很多企業(yè)都在開(kāi)始搭建自己的大數(shù)據(jù)平臺(tái),這既是時(shí)代趨勢(shì)使然,也是業(yè)務(wù)場(chǎng)景需要。但大數(shù)據(jù)平臺(tái)從技術(shù)選型、搭建到落地,整個(gè)過(guò)程一定是困難重重的。
設(shè)計(jì)大數(shù)據(jù)平臺(tái)時(shí),墨冶老師建議,首先要考慮預(yù)算和交付周期。若預(yù)算緊、交付周期短,且團(tuán)隊(duì)還不具備提交Patch或者二次開(kāi)發(fā)的條件,那么可以先選擇部分組件用商業(yè)化;其次要評(píng)估應(yīng)用場(chǎng)景的復(fù)雜度和數(shù)據(jù)量,以及保障要求的性能、容錯(cuò)等非功能性需求,這些可以分幾個(gè)階段建設(shè);最后是根據(jù)平臺(tái)如何設(shè)定配套管理流程、制度、規(guī)范等。
·常見(jiàn)的挑戰(zhàn)
確實(shí),很多團(tuán)隊(duì)在平臺(tái)建設(shè)初期會(huì)先選擇部分工具使用商用產(chǎn)品,等后期再根據(jù)業(yè)務(wù)需求將其替換到開(kāi)源軟件,這的確是一個(gè)不錯(cuò)的方式。但這樣一來(lái),在后期進(jìn)行過(guò)渡時(shí),應(yīng)用遷移將成為一個(gè)不小的挑戰(zhàn)。
再者,對(duì)于部分業(yè)務(wù)場(chǎng)景,現(xiàn)有的開(kāi)源項(xiàng)目無(wú)法支撐。而且部分功能有時(shí)需要對(duì)正在使用中的開(kāi)源項(xiàng)目進(jìn)行二次開(kāi)發(fā),這可能會(huì)對(duì)平臺(tái)造成“傷筋動(dòng)骨”般的影響,產(chǎn)生較大的麻煩。最后還應(yīng)注意的問(wèn)題是,數(shù)據(jù)存儲(chǔ)和處理分散、煙囪式數(shù)據(jù)開(kāi)發(fā),可能導(dǎo)致后期各個(gè)部門數(shù)據(jù)口徑不統(tǒng)一、維護(hù)成本高。
·如何應(yīng)對(duì)
“業(yè)務(wù)發(fā)展到一定階段,老的報(bào)表平臺(tái)上指標(biāo)口徑繁多,數(shù)據(jù)經(jīng)常對(duì)不上,維護(hù)成本越來(lái)越高,問(wèn)題逐步暴露了出來(lái)。”針對(duì)這些典型的問(wèn)題與挑戰(zhàn),墨冶老師以個(gè)人經(jīng)驗(yàn)為例,分享了一些應(yīng)對(duì)辦法:
第一,自研自己的自主分析平臺(tái)和統(tǒng)一指標(biāo)平臺(tái),再結(jié)合OLAP的優(yōu)缺點(diǎn),選型Druid等OLAP做加速,方便自主分析和報(bào)表查詢。
第二,梳理各BU的指標(biāo),提取出公共的原子指標(biāo)、衍生指標(biāo)等,錄入統(tǒng)一指標(biāo)平臺(tái),統(tǒng)一指標(biāo)口徑和指標(biāo)服務(wù)。
第三,遷移工作中,自主分析平臺(tái)可以直接接入ETL加工后的表,也可以接入統(tǒng)一指標(biāo)平臺(tái),不用一套標(biāo)準(zhǔn)限制死,否則遷移工作會(huì)耗時(shí)很長(zhǎng),可以在過(guò)程中再慢慢進(jìn)化。
·上云也是一個(gè)很好的選擇
云的靈活性、便利性是促使企業(yè)在云上搭建大數(shù)據(jù)平臺(tái)的一大原因,而且,云也可以提供更專業(yè)的大數(shù)據(jù)技術(shù)能力,對(duì)于一些技術(shù)水平尚缺的公司來(lái)說(shuō),上云可以說(shuō)更具優(yōu)勢(shì)。
“這方面國(guó)外比較好,國(guó)外超級(jí)獨(dú)角獸Airbnb、市值千億美金的Netflix都用別人的云。”墨冶老師表示,“專業(yè)的事情可以交給專業(yè)的公司來(lái)做,自己專注到業(yè)務(wù)增長(zhǎng)上面。國(guó)內(nèi)很多公司到了一點(diǎn)規(guī)模,還處于虧損狀態(tài),就喜歡全部自建。我看到有些公司因?yàn)檫@塊壓力,拖累管理精力和成本而死掉。”
什么是優(yōu)秀架構(gòu)師的基本素養(yǎng)?
很多初入IT行業(yè)的年輕朋友致力于走上架構(gòu)一途,但往往苦于不知該如何前行,難以拿捏方向。那么,要成為一名優(yōu)秀的架構(gòu)師應(yīng)該具備哪些基本能力和素養(yǎng)呢?墨冶老師表示,自己接觸過(guò)的優(yōu)秀架構(gòu)師主要具備以下三方面的能力:
1、技術(shù)層面。 對(duì)分布式、高并發(fā)、高可擴(kuò)展、性能優(yōu)化等基本原理有一定了解,最好深入了解過(guò)一個(gè)框架。保持好奇心,有精力跟一條技術(shù)線的發(fā)展趨勢(shì)。
2、業(yè)務(wù)層面。 了解業(yè)務(wù)目標(biāo)、策略和場(chǎng)景,知道盡可能全的業(yè)務(wù)場(chǎng)景,有助于設(shè)計(jì)好的產(chǎn)品。其中,業(yè)務(wù)流程的抽象能力對(duì)應(yīng)用架構(gòu)師就特別重要了。要知道,垂直領(lǐng)域的業(yè)務(wù)專家可是比技術(shù)架構(gòu)師吃香,業(yè)務(wù)專家和老板基本無(wú)縫溝通,技術(shù)型架構(gòu)師很多還是很吃力的,深入業(yè)務(wù)是一個(gè)優(yōu)秀應(yīng)用架構(gòu)師必備的能力。
3、溝通、協(xié)同能力。 很多重要系統(tǒng)往往是跨團(tuán)隊(duì)、跨大型組織的,要想成為一個(gè)優(yōu)秀的架構(gòu)師,必須具備在復(fù)雜組織下協(xié)調(diào)和推進(jìn)能力,能求同存異,協(xié)同兄弟團(tuán)隊(duì)把方案落下來(lái),才能拿到結(jié)果。
2018中國(guó)系統(tǒng)架構(gòu)師大會(huì)(SACC)即將盛大開(kāi)幕,10月17日到19日,這一由IT168旗下ITPUB企業(yè)社區(qū)平臺(tái)主辦的技術(shù)盛會(huì)將走過(guò)第十個(gè)年頭。
作為SACC的重要參與者,墨冶老師親身見(jiàn)證了許多架構(gòu)師的技術(shù)成長(zhǎng)之路,他表示:“在技術(shù)日新月異的今天,每個(gè)人或多或少都有危機(jī)感,唯有持續(xù)充電,方能不被淘汰,SACC是一個(gè)挺好的平臺(tái),對(duì)于架構(gòu)師或者想成為架構(gòu)師的朋友是個(gè)很好的充電機(jī)會(huì),幫助自己捕捉到前沿技術(shù)發(fā)展趨勢(shì),增加自己的寬度和深度。”