在昨天(4月24日)的百度技術(shù)開放日上,李彥宏現(xiàn)身并推出了百度大數(shù)據(jù)引擎。這在百度,表明對相關(guān)產(chǎn)品最高的重視了。
這個發(fā)布是什么意思呢?簡單地講,大數(shù)據(jù)引擎將百度在大數(shù)據(jù)的數(shù)據(jù)、能力和技術(shù)開放給行業(yè),行業(yè)可以近身距離甚遠(yuǎn)的大數(shù)據(jù)盛宴,百度則尋到了一個新的增長點。
大數(shù)據(jù)引擎三件套
百度大數(shù)據(jù)引擎一共分三個部分。
開放云:百度的大規(guī)模分布式計算和超大規(guī)模存儲云。過去的百度云主要面向開發(fā)者,大數(shù)據(jù)引擎的開放云則是面向有大數(shù)據(jù)存儲和處理需求的“大開發(fā)者”。
百度的開放云擁有超過1.2萬臺的單集群,超過阿里飛天計劃的5k集群。百度開放云還擁有CPU利用率高、彈性高、成本低等特點。百度是全球首家大規(guī)模商用ARM服務(wù)器的公司,而ARM架構(gòu)的特征是能耗小和存儲密度大,同時百度還是首家將GPU(圖形處理器)應(yīng)用在機器學(xué)習(xí)領(lǐng)域的公司,實現(xiàn)了能耗節(jié)省的目的。
數(shù)據(jù)工廠:開放云是基礎(chǔ)設(shè)施和硬件能力,你可以把數(shù)據(jù)工廠理解為百度將海量數(shù)據(jù)組織起來的軟件能力。就像數(shù)據(jù)庫軟件的位置一樣。只不過數(shù)據(jù)工廠是被用作處理TB級甚至更大的數(shù)據(jù)。
百度數(shù)據(jù)工廠支持單詞百TB異構(gòu)數(shù)據(jù)查詢,支持SQL-like以及更復(fù)雜的查詢語句,支持各種查詢業(yè)務(wù)場景。同時百度數(shù)據(jù)工廠還將承載對于TB級別大表的并發(fā)查詢和掃描,大查詢、低并發(fā)時每秒可達(dá)百GB,在業(yè)界已經(jīng)是很領(lǐng)先的能力了。
百度大腦:有了大數(shù)據(jù)處理和存儲的基礎(chǔ)之后,還得有一套能夠應(yīng)用這些數(shù)據(jù)的算法。圖靈獎獲得者N.Wirth(沃斯)提出過“程序=數(shù)據(jù)結(jié)構(gòu)+算法”的理論。如果說百度大數(shù)據(jù)引擎是一個程序,那么它的數(shù)據(jù)結(jié)構(gòu)就是數(shù)據(jù)工廠+開放云,而算法則對應(yīng)到百度大腦。
百度大腦將百度此前在人工智能方面的能力開放出來,主要是大規(guī)模機器學(xué)習(xí)能力和深度學(xué)習(xí)能力。此前它們被應(yīng)用在語音、圖像、文本識別,以及自然語言和語義理解方面,被應(yīng)用在不少App,還通過百度Inside等平臺開放給了智能硬件?,F(xiàn)在這些能力將被用來對大數(shù)據(jù)進(jìn)行智能化的分析、學(xué)習(xí)、處理、利用。百度深度神經(jīng)網(wǎng)絡(luò)擁有200億個參數(shù),是全球規(guī)模最大的,它擁有獨立的深度學(xué)習(xí)研究院(IDL)和較早的布局,在人工智能上百度已經(jīng)快了一步,現(xiàn)在貢獻(xiàn)給業(yè)界表明了它要開放的決心。
大數(shù)據(jù)引擎可以干嘛
百度將基礎(chǔ)設(shè)施能力、軟件系統(tǒng)能力以及智能算法技術(shù)打包在一起,通過大數(shù)據(jù)引擎開放出來之后,擁有大數(shù)據(jù)的行業(yè)可以將自己的數(shù)據(jù)接入到這個引擎進(jìn)行處理。同時,一些企業(yè)在沒有大數(shù)據(jù)的情況下,還可以使用百度的數(shù)據(jù)以及大數(shù)據(jù)成果。
從架構(gòu)來看,企業(yè)或組織也可以只選擇三件套中的一樣使用,例如數(shù)據(jù)存放在自己的云,但要運用百度大腦的一些智能算法應(yīng)該也是支持的。
舉幾個例子可能你更加清楚百度大數(shù)據(jù)引擎究竟是什么。
許多政府部門擁有海量大數(shù)據(jù)——大數(shù)據(jù)經(jīng)典之作《大數(shù)據(jù)》也是在講美國政府的大數(shù)據(jù)。但政府部門幾乎都沒有大數(shù)據(jù)處理和挖掘技術(shù)。交通部門有車聯(lián)網(wǎng)、物聯(lián)網(wǎng)、路網(wǎng)監(jiān)控、船聯(lián)網(wǎng)、碼頭車站監(jiān)控等地方的大數(shù)據(jù),衛(wèi)生部門擁有流感法定報告數(shù)據(jù)、全國流感樣病例哨點監(jiān)測和病原學(xué)監(jiān)測數(shù)據(jù),公安部門有大量的視頻監(jiān)控數(shù)據(jù)。如果這些數(shù)據(jù)與百度的搜索記錄、全網(wǎng)數(shù)據(jù)、LBS數(shù)據(jù)結(jié)合,在利用百度大數(shù)據(jù)引擎的大數(shù)據(jù)能力,則可以實現(xiàn)智能路徑規(guī)劃、運力管理、流感預(yù)測、疫苗接種指導(dǎo)、安防追逃等等。
許多企業(yè)也擁有海量大數(shù)據(jù)——通信、金融、物流、制造、農(nóng)業(yè)等行業(yè)。不過,它們幾乎都沒有大數(shù)據(jù)能力,坐擁海量數(shù)據(jù)卻一籌莫展。這時候如果能夠應(yīng)用百度大數(shù)據(jù)引擎,則可以對海量數(shù)據(jù)進(jìn)行可靠低成本的存儲,進(jìn)行智能化的由淺入深的價值挖掘。在百度技術(shù)開放日上,中國平安便介紹了如何利用百度的大數(shù)據(jù)能力加強消費者理解和預(yù)測,細(xì)分客戶群制定個性化產(chǎn)品和營銷方案。
可以看出,大數(shù)據(jù)引擎的輸入實際上是百度擁有的大數(shù)據(jù)以及行業(yè)已有的大數(shù)據(jù),而輸出則是各種行業(yè)應(yīng)用成果,也就是大數(shù)據(jù)的“價值”。
與一些類似項目的對比
在百度之前,業(yè)界已經(jīng)有一些類似的思路,即有一些大數(shù)據(jù)能力的企業(yè)視圖將自己在基礎(chǔ)能力或者軟件方面的優(yōu)勢釋放出來。
Google:
大數(shù)據(jù)時代的奠基者。對應(yīng)到百度開放云,它有舉世聞名的數(shù)據(jù)中心以及基于Colossus的云;對應(yīng)到百度數(shù)據(jù)工廠,Google近年來為迎接大數(shù)據(jù)時代不斷改造核心技術(shù),包括比MapReduce批處理索引系統(tǒng)搜索更快的Caffeine,專為BigTable設(shè)計的分布式存儲Colossus比GFS還要先進(jìn),Dremel和PowerDrill管理和分析大數(shù)據(jù),以及Instant和Pregel。對應(yīng)到百度大腦,Google提供的大數(shù)據(jù)分析智能應(yīng)用包括客戶情緒分析、交易風(fēng)險(欺詐分析)、產(chǎn)品推薦、消息路由、診斷、客戶流失預(yù)測、法律文案分類、電子郵件內(nèi)容過濾、政治傾向預(yù)測、物種鑒定等多個方面。技術(shù)有Big Query、趨勢圖等。
可以說Google與百度的思路最為接近,不過Google目前還未將它的大數(shù)據(jù)能力打包起來以一個新“引擎”的方式共享。毫無疑問,這在不久之后就會發(fā)生。
亞馬遜:云計算的奠基者。亞馬遜是IaaS(基礎(chǔ)設(shè)施即服務(wù)),與阿里云非常相似。亞馬遜在用戶交易、個人偏好、經(jīng)濟領(lǐng)域的大數(shù)據(jù)能力可能比Google還要優(yōu)秀,也被一些人視作這是亞馬遜與Google競爭的唯一機會。亞馬遜目前更多還是在云領(lǐng)域做貢獻(xiàn),雖然也有Redshift的方案,但在數(shù)據(jù)工廠和人工智能的開放上進(jìn)展慢一些。
阿里巴巴:
亞馬遜對應(yīng)回中國自然是阿里巴巴。阿里云是國內(nèi)最早的獨立運作的云部門。數(shù)據(jù)則是阿里三大核心戰(zhàn)略之一,大數(shù)據(jù)也被擺到了阿里十分重要的位置,不懂技術(shù)的馬云經(jīng)常談及大數(shù)據(jù)都有人調(diào)侃他應(yīng)該改名Data Ma。阿里在大數(shù)據(jù)基礎(chǔ)設(shè)施領(lǐng)域確實取得了突飛猛進(jìn)的進(jìn)展,飛天、Apsara、跨機房5K集群都是知名的大數(shù)據(jù)項目,應(yīng)對雙十一、余額寶規(guī)模取現(xiàn)預(yù)測、廣告業(yè)務(wù)高速增長等業(yè)務(wù)場景也證明了阿里的大數(shù)據(jù)能力。
阿里大數(shù)據(jù)的思路便是做大數(shù)據(jù)的集市,讓阿里系之外的大數(shù)據(jù)能夠跑在阿里苦心搭建的大數(shù)據(jù)機器上運轉(zhuǎn)起來。不久之前阿里與東軟合作,后者的業(yè)務(wù)未來都將部署在阿里云。這意味著東軟客戶的數(shù)據(jù)很可能會進(jìn)入阿里的大數(shù)據(jù)體系。可以確定阿里將會推出類似大數(shù)據(jù)引擎的平臺,將大數(shù)據(jù)能力完全開放出來。
相比百度,阿里在“數(shù)據(jù)工廠”這塊應(yīng)該是各有所長,在數(shù)據(jù)基礎(chǔ)領(lǐng)域以及業(yè)務(wù)理解方面有著電商領(lǐng)域的專注,但人工智能這塊跟百度比肯定會有不小差距。語音、圖像和自然語言理解,阿里并沒有多少積累,它更擅長處理結(jié)構(gòu)化的數(shù)據(jù)。
其他電商玩家如京東和蘇寧也有類似的云,與阿里和百度完全不在一個級別就不比較了。
Salesforce等軟件公司:
Salesforce近兩年收購了超過5家與社交大數(shù)據(jù)相關(guān)的營銷公司,目的是獲取更多的數(shù)據(jù)。其他的軟件廠商和方案廠商也有大數(shù)據(jù)引擎方面的布局,EMC、Oracle有對應(yīng)的大數(shù)據(jù)處理軟件,IBM有大數(shù)據(jù)行業(yè)方案,英特爾入股大了數(shù)據(jù)初創(chuàng)企業(yè)Cloudera,Cloudera推出的Impala比GoogleDremel還要快。Intel還推出了基于Hidoop的“大數(shù)據(jù)引擎”,加州伯克利大學(xué)AMPLab開發(fā)了名為Shark 的大數(shù)據(jù)分析系統(tǒng)。
回到國內(nèi),華為在去年發(fā)布了大數(shù)據(jù)平臺產(chǎn)品FusionInsight,還有百分點科技這樣的基于大數(shù)據(jù)的推薦服務(wù)公司。而“天河2號”等獨立超級計算機也對外宣稱它們的超級計算能力將會逐步開放出來。
不過,軟件公司、方案公司以及超級計算機都無法做到像百度一樣將大數(shù)據(jù)作為一種云端能力打包開放出來,也無法同時具備基礎(chǔ)設(shè)施、數(shù)據(jù)工廠和智能算法的開放能力。尤其是“百度大腦”這部分,很少有其他具備這樣的“數(shù)據(jù)智能”的能力。
百度將用互聯(lián)網(wǎng)的方式來做開放的大數(shù)據(jù)引擎。它不可能采取與軟件方案公司一樣的“一竿子買賣”方式進(jìn)行合作。而是將大數(shù)據(jù)引擎做成一個開放平臺,形成標(biāo)準(zhǔn)的接口,讓每個行業(yè)不同企業(yè)可以根據(jù)自身需求各取所需。而它的首要目的是獲取數(shù)據(jù),然后是考慮變現(xiàn)。
變現(xiàn)方式可能是增值服務(wù)、收費云、數(shù)據(jù)分析結(jié)果、技術(shù)咨詢等方式,這將改變百度盈利模式過渡依賴“搜索廣告”的現(xiàn)狀。有消息稱,大數(shù)據(jù)已經(jīng)給Google每天帶來2300萬美元的收入,一年約為82億美元。這已經(jīng)遠(yuǎn)遠(yuǎn)超過百度2013年51億美金的年收入了。因此,如果百度大數(shù)據(jù)引擎能夠成功,很可能會為之帶來源源不斷的數(shù)據(jù)以及現(xiàn)金流。
作者微博@互聯(lián)網(wǎng)阿超,微信SuperSofter