引言:現(xiàn)在越來越多的公共突發(fā)事件當(dāng)中,尤其是像人為的突發(fā)事件,比如說最近像上海的踩踏事件,互聯(lián)網(wǎng)也好,大數(shù)據(jù)也好,能不能發(fā)揮一些正能量的作用?防止這種悲劇的再度重演呢?本期IT名人堂的訪談嘉賓是星環(huán)科技的聯(lián)合創(chuàng)始人孫元浩先生,我們在2015中國Hadoop技術(shù)峰會上對他進行了獨家訪談。
孫元浩認(rèn)為,完全可以用一些新的技術(shù)手段來檢測外灘人流的變化,為公安部門和交通部門提供一些信息指導(dǎo),比如攝像數(shù)據(jù)充當(dāng)數(shù)據(jù)源來做一些提前的預(yù)警。通過地鐵刷卡數(shù)據(jù)、和軌道交通數(shù)據(jù)來判斷人流量,發(fā)現(xiàn)地鐵數(shù)據(jù)的異常,公安部門可以直接和交通部門協(xié)調(diào),從而疏散人流。其次,我們還可以結(jié)合數(shù)據(jù)源運營商基站的信號對數(shù)據(jù)進行分析,它們包含了用戶手機的大致位置,我們能夠迅速的判斷出人群密度以及變化趨勢。隨著手機的移動,根據(jù)基站里手機的移動方向可以預(yù)測密度的范圍,這些信息綜合起來可以形成從軌道地下、地面到空中的全方位檢測,這些信息可以迅速反饋給公安,為治安提供導(dǎo)向性的方案。此外,還有一個車流信息數(shù)據(jù)的采集也是非常重要的,機動車輛經(jīng)過外灘、乃至全市交通,都會留下一條記錄,我們可以迅速判斷哪些機動車沒有離開,逗留了,從而推斷出這里的車輛可能發(fā)生了擠壓狀況。在這種情況下,我們可以立刻反饋給交通部門,所有的營運車輛不允許經(jīng)過外灘,這種方式也能緩解交通情況,所以綜合這些措施也是能夠做到預(yù)防的。
皮皮:在大數(shù)據(jù)的時代里,數(shù)據(jù)是一個讓企業(yè)很糾結(jié)的話題,很多人會認(rèn)為數(shù)據(jù)是死的,人是活的,數(shù)據(jù)挖掘的世界既是一個地雷陣,同時又是金礦,那大數(shù)據(jù)到底能給我們帶來什么呢?如何在海量的數(shù)據(jù)里挖掘出有價值的數(shù)據(jù)為己所用呢?
在采訪中,孫總為我們概括了大數(shù)據(jù)的三種典型應(yīng)用場景,其用武之地小到個人、家庭,大到國家,大數(shù)據(jù)可謂是無所不能。今天Hadoop主要應(yīng)用場景集中在技術(shù)處理上,但是已經(jīng)有一部分的應(yīng)用開始偏向機器學(xué)習(xí)。星環(huán)科技與合作伙伴也開始嘗鮮,利用Hadoop技術(shù)來處理數(shù)據(jù)的高級分析,從大數(shù)據(jù)中挖掘出有價值的數(shù)據(jù)。
第一個典型的應(yīng)用場景是利用大數(shù)據(jù)來滿足實時營銷,比如實時采集用戶手機的位置信息,推送WI-FI的熱點,根據(jù)用戶的購物歷史,刷卡記錄來做數(shù)據(jù)分析,推送個性化的營銷,比如電影票或感興趣的商品等。
第二個典型的應(yīng)用場景是利用大數(shù)據(jù)來預(yù)測用電量,孫總為我們介紹了一個從事用電數(shù)據(jù)分析的真實客戶案例。有些省份已經(jīng)布置了很多智能電表,多達幾千萬戶家庭,電表采集密度每天高達23次,通過電網(wǎng)傳感器的數(shù)據(jù)可以分析用電量與氣候之間的關(guān)系,能夠幫助電力公司來初步的預(yù)測未來的電力需求量,同時也能挖掘出企業(yè)用電和GDP增長之間的關(guān)系。
第三個典型的應(yīng)用場景是大數(shù)據(jù)應(yīng)用在醫(yī)療領(lǐng)域,有些企業(yè)應(yīng)用大數(shù)據(jù)的分析對DNA進行比對。過去對高齡產(chǎn)婦進行檢查,手術(shù)存在風(fēng)險?,F(xiàn)在采用大數(shù)據(jù)的新技術(shù),通過采集胎兒的DNA序列進行比對,一旦發(fā)現(xiàn)胎兒的異常癥狀,就可以采取措施,這種方法與手術(shù)相比,更加準(zhǔn)確,也無風(fēng)險的,這種新的技術(shù)隨著大數(shù)據(jù)應(yīng)用越來越廣泛。
皮皮:60%的Hadoop應(yīng)用是用在SQL統(tǒng)計領(lǐng)域,最早的Hadoop是用于ETL,包括從數(shù)據(jù)的萃取到轉(zhuǎn)制到最后的加載,而現(xiàn)在我們發(fā)現(xiàn)像FACEBOOK的數(shù)據(jù)倉庫也用到了Hadoop 的數(shù)據(jù)倉庫,那么Hadoop與數(shù)據(jù)倉庫究竟有什么樣的關(guān)系呢?
孫總坦言,互聯(lián)網(wǎng)公司從第一天開始就是用Hadoop做數(shù)據(jù)倉庫,所以Hadoop是互聯(lián)網(wǎng)公司建數(shù)據(jù)的第一選擇,實際上Hadoop是互聯(lián)網(wǎng)公司的數(shù)據(jù)倉庫。而對傳統(tǒng)企業(yè)來講,IT架構(gòu)也發(fā)生了比較大的變化,比如在運營商、銀行、物流、飛機等其它行業(yè),Hadoop作為一個數(shù)據(jù)倉庫的補充,但是把Hadoop運用到這些企業(yè)當(dāng)中的時候存在一個顯著的問題,傳統(tǒng)的IT架構(gòu),在上面已經(jīng)有大的應(yīng)用了,這些應(yīng)用很多是基于SQL的,應(yīng)用類型與復(fù)雜程度其實是超過了互聯(lián)網(wǎng)公司,所以hadoop在進入了這個領(lǐng)域的時候,有些局限,早期只是做ETL。而隨著hadoop技術(shù)的發(fā)展,像國外的一些公司包括我們公司都能提供比較完整的SQL支持,這樣使得我們能夠更進一步用hadoop來替代企業(yè)的某些數(shù)據(jù)倉庫。
傳統(tǒng)的數(shù)據(jù)倉庫像一些大的企業(yè)國有銀行,動不動就是幾個億,維護擴建也是幾個億的,成本經(jīng)費非常昂貴,而Hadoop提供了性價比非常高的方案,這是企業(yè)在選擇的時候的一個考慮的重要因素。
除成本外,Hadoop能夠用來處理非結(jié)構(gòu)化數(shù)據(jù)。對銀行而言,像視頻數(shù)據(jù)、票據(jù)數(shù)據(jù),雖然目前對銀行的價值不是太高,但是需要一個存儲機制來存放,Hadoop的技術(shù)算法越來越成熟,數(shù)據(jù)發(fā)掘的工具也越來越豐富,這就使得企業(yè)在運用Hadoop技術(shù)之后能發(fā)現(xiàn)額外的一些增值的東西。
孫總預(yù)計,傳統(tǒng)的企業(yè)IT架構(gòu)慢慢向Hadoop遷移,未來大概兩三年,企業(yè)的傳統(tǒng)IT架構(gòu)慢慢就會被hadoop來取代。Hadoop會成為企業(yè)的數(shù)據(jù)倉庫的中心,未來hadoop會是各個行業(yè)的企業(yè)數(shù)據(jù)倉庫。
皮皮:談到大數(shù)據(jù),有3V,Volume(大量)、Velocity(高速)、Variety(多樣),尤其是在物聯(lián)網(wǎng)時代,像氣象、交通等實時數(shù)據(jù)量大,并發(fā)度高,那么物聯(lián)網(wǎng)大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)有什么區(qū)別?對企業(yè)的技術(shù)底層架構(gòu)有哪些挑戰(zhàn)?
孫總表示,互聯(lián)網(wǎng)其實是一個連接人的一個網(wǎng)絡(luò),采集的數(shù)據(jù)大部分都是人的行為的數(shù)據(jù),比如說人的交易的數(shù)據(jù)、人的上網(wǎng)記錄,而物聯(lián)網(wǎng)采集的數(shù)據(jù)更多是機器的數(shù)據(jù)。如果比較這兩個數(shù)據(jù)源的話,我們發(fā)現(xiàn)它的數(shù)據(jù)量是會差一個量級的,全世界人口可能是60億人口,可是有上百億的設(shè)備,這些設(shè)備如果都采集數(shù)據(jù)的話呢,它的量會比互聯(lián)網(wǎng)的數(shù)據(jù)大一數(shù)量及,所以這個會對未來的數(shù)據(jù)架構(gòu)產(chǎn)生一個新的大的挑戰(zhàn)。
第二個特點是,物聯(lián)網(wǎng)的數(shù)據(jù)并發(fā)度非常高,而且數(shù)據(jù)一旦產(chǎn)生需要立刻被處理。孫總舉了一個真實的客戶案例,客戶目前有一千萬個傳感器,每秒鐘一千萬個量級的數(shù)據(jù)發(fā)送量,可能就已經(jīng)超過很多互聯(lián)網(wǎng)公司的數(shù)據(jù)量,對底層架構(gòu)的并發(fā)要求非常高。
第三個差異化在于互聯(lián)網(wǎng)的數(shù)據(jù)可能是人的行為數(shù)據(jù),主要用來分析,可以做一些營銷,但是物聯(lián)網(wǎng)數(shù)據(jù)來說更多的是發(fā)現(xiàn)一些自然規(guī)律,當(dāng)然這里面也使用到了大量的技術(shù)運算,也會用到大量的復(fù)雜的物理和數(shù)學(xué)的方法。
皮皮:大數(shù)據(jù)的浪潮風(fēng)靡全球,與Hadoop類似,Spark也火了。在國外 、Intel、Amazon、Cloudera 等公司率先應(yīng)用并推廣 Spark 技術(shù),在國內(nèi)阿里巴巴、百度、淘寶、騰訊、網(wǎng)易、星環(huán)等公司敢為人先,Spark 在IT業(yè)界的應(yīng)用可謂星火燎原之勢,未來Spark能否取代Hadoop?
孫總表示,非常希望(Spark)能夠取代HADOOP,從這個整個生態(tài)系統(tǒng)的發(fā)展趨勢來看,(Spark)會慢慢取代(MapReduce),當(dāng)然在星環(huán)科技的產(chǎn)品當(dāng)中已經(jīng)拿(Spark)取代(MapReduce),此外孫總在視頻采訪中還重點為我們講解了Hadoop的分布式計算框架的架構(gòu),干貨剖多,請大家點擊視頻觀看詳情。
皮皮:我注意到2015年新年剛開始,你們公司成功完成了新一輪的數(shù)千萬的融資了。那我之前也了解到浪潮與你們強強聯(lián)手,成功搭建了基于Hadoop的大數(shù)據(jù)信息化平臺,能不能從合作伙伴的角度來和我們簡單的談一談Hadoop的生態(tài)圈?
孫總坦言,希望能夠促進Hadoop真?zhèn)€生態(tài)系統(tǒng)的發(fā)展,目前有三類合作伙伴,一類是行業(yè)應(yīng)用方案解決方案的提供商,比如在交通行業(yè)的合作伙伴,在與我們進行深度的合作,能夠高效的處理數(shù)據(jù)或者是銀行的數(shù)據(jù)或者是交通的側(cè)重信息。另外一類合作伙伴是我們認(rèn)證的一些服務(wù)商,對他進行培訓(xùn),他們幫我們進行安裝部署運維,這些服務(wù)工作,第三個是他們的產(chǎn)品與我們是有互補性的有可能是硬件廠商,像浪潮。
皮皮:那最后一個問題了,IDC公司預(yù)測,數(shù)據(jù)每天將增長40%-50%這意味著到2020年總體的數(shù)據(jù)量將會達到40PB?那非結(jié)構(gòu)話的數(shù)據(jù)主要來源我們?nèi)粘5泥]件還有論壇。博客社交網(wǎng)絡(luò),包括我們的POSE系統(tǒng)還有機器生成的一些數(shù)據(jù)了,那么面對這些非結(jié)構(gòu)化的數(shù)據(jù),你們提供了一些什么樣的Hadoop解決方案,未來Hadoop還會有哪一些新的版本會發(fā)布?
孫元浩認(rèn)為,未來很多計算框架也會與Hadoop進行融合,等到hadoop3.0的時候,可能會安全性與性能上得到很大的提升,在資源管理效率上得到比較大的增強。
孫總透露,星環(huán)科技預(yù)計在2015年發(fā)布2款新產(chǎn)品,第一款產(chǎn)品針對物聯(lián)網(wǎng)部署的大量傳感器產(chǎn)生的數(shù)據(jù),專注于處理時序數(shù)據(jù),首先會進入新能源行業(yè)。它能夠?qū)鞲衅鳟a(chǎn)生的大量數(shù)據(jù)進行高效處理,在內(nèi)存里存儲數(shù)據(jù)或者是將SSD上的數(shù)據(jù)轉(zhuǎn)成內(nèi)存存儲,對所有的時序數(shù)據(jù)進行數(shù)據(jù)挖掘分析。
第二款產(chǎn)品預(yù)計會在2015年下半年推出,這是一款利用Container和Docker來運行Hadoop的現(xiàn)有版本,幫助企業(yè)簡化Hadoop的部署流程,有了這個方案以后,企業(yè)在部署Hadoop機群的時候,再啟動100個機群的時候可能只需要2、3秒就可以啟動,自動進行擴容,即便機器發(fā)生故障也能夠自動遷移。這樣一來,可以大大降低企業(yè)管理Hadoop的成本、包括維護的成本,同時也能夠做非常有效的資源隔離,因為運用Container技術(shù)能夠做到CPU內(nèi)存網(wǎng)絡(luò)磁盤的隔離,隔離性會比之前更好。如此一來,Hadoop作為企業(yè)的數(shù)據(jù)的計算,能夠滿足多個部門在統(tǒng)一個數(shù)據(jù)平臺上進行數(shù)據(jù)分析,就可以通過這種技術(shù)有效的實現(xiàn)。