自2009年大數(shù)據(jù)概念提出以來,越來越多的國家開始從戰(zhàn)略層面重新定義大數(shù)據(jù)。2016中國大數(shù)據(jù)產(chǎn)業(yè)峰會透露,未來5年,大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將以每年50%以上的速度增長。那么,大數(shù)據(jù)時代真的到來了嗎?大數(shù)據(jù)應(yīng)用過程中還存在哪些問題?日前記者走訪了我國大數(shù)據(jù)行業(yè)領(lǐng)軍企業(yè)之一的成都數(shù)之聯(lián)科技集團。
降低數(shù)據(jù)挖掘“門檻”,大數(shù)據(jù)賦能當(dāng)“授人以漁”
“我想這個時代還遠沒有到來。”作為《大數(shù)據(jù)時代》的譯者,成都數(shù)之聯(lián)科技集團CEO兼首席科學(xué)家周濤認為,當(dāng)前大數(shù)據(jù)應(yīng)用主要是在互聯(lián)網(wǎng)和金融行業(yè),這些只是大數(shù)據(jù)產(chǎn)業(yè)的冰山一角,未來會進一步向工業(yè)和農(nóng)業(yè)等傳統(tǒng)產(chǎn)業(yè)滲透。
不過,對于當(dāng)前我國傳統(tǒng)企業(yè)來說,大數(shù)據(jù)應(yīng)用常常總是“余音繞梁”,卻又難以“觸手可及”。“在傳統(tǒng)制造企業(yè)中,產(chǎn)品需求、生產(chǎn)流程、銷售渠道、售后評價依舊是傳統(tǒng)的‘拍腦袋’,尚未實現(xiàn)智慧化生產(chǎn)、精細化運營、個性化營銷。”周濤舉例說,比如農(nóng)業(yè)領(lǐng)域就依然停留在粗放的耕種土地、收獲糧食和進入市場銷售模式。在周濤看來,目前我國傳統(tǒng)企業(yè)普遍面臨的大數(shù)據(jù)應(yīng)用困境,多為數(shù)據(jù)存儲管理和分析挖掘的能力瓶頸。
“正是數(shù)據(jù)挖掘技術(shù)門檻高,使得數(shù)據(jù)和價值分離的問題嚴(yán)重。”數(shù)之聯(lián)董事長兼財務(wù)總監(jiān)傅彥認為,“雖然有小部分互聯(lián)網(wǎng)企業(yè)具備數(shù)據(jù)挖掘技術(shù),但傳統(tǒng)企業(yè)考慮到數(shù)據(jù)安全問題,不愿意把數(shù)據(jù)拿出來。面對這些問題,我們的解決方案是:通過開放數(shù)據(jù)挖掘能力,降低傳統(tǒng)企業(yè)將數(shù)據(jù)轉(zhuǎn)化為價值的門檻,對傳統(tǒng)企業(yè)進行大數(shù)據(jù)賦能。”
如何不拿出企業(yè)數(shù)據(jù),卻依然借助大數(shù)據(jù)賦能?
數(shù)之聯(lián)首席技術(shù)官方育柯介紹,數(shù)之聯(lián)在2012年成立后,為政府、企業(yè)和機構(gòu)提供集數(shù)據(jù)采集、存儲、管理、分析、挖掘和應(yīng)用為一體的大數(shù)據(jù)價值發(fā)現(xiàn)全產(chǎn)業(yè)鏈服務(wù),重點解決數(shù)據(jù)價值挖掘、數(shù)據(jù)變現(xiàn)問題。企業(yè)的iCloudUnion大數(shù)據(jù)價值發(fā)現(xiàn)與應(yīng)用創(chuàng)新平臺更強調(diào)開放數(shù)據(jù)挖掘過程,平臺上集成了100多個機器學(xué)習(xí)算法,適配到hadoop、spark等分布式處理框架,使得能夠快速處理大規(guī)模的數(shù)據(jù)。“有了這個平臺,我們可以通過托拉拽快速完成大型數(shù)據(jù)挖掘算法和模型開發(fā)工作。”他舉例說,在公司分析富士康SMT生產(chǎn)線上不同環(huán)節(jié)的加工數(shù)據(jù)項目中,為了解哪個環(huán)節(jié)容易導(dǎo)致產(chǎn)品不良率比較高,平臺僅用數(shù)小時便搭建起一個集成學(xué)習(xí)模型,并通過該模型,將之前進料階段準(zhǔn)確率實現(xiàn)了大幅度提升。
“經(jīng)過初級培訓(xùn)的人在幾個小時內(nèi)就可以完成高級算法工程師要幾周才能完成的編程工作。”方育柯說,平臺的價值在于可以幫助客戶實現(xiàn)自主的數(shù)據(jù)價值發(fā)現(xiàn)和應(yīng)用創(chuàng)新能力,真正做到授之以魚不如授之于漁,對傳統(tǒng)企業(yè)進行大數(shù)據(jù)賦能。
警惕重復(fù)建設(shè)“先手棋”,產(chǎn)業(yè)布局需科學(xué)統(tǒng)籌
去年以來,“國家大數(shù)據(jù)戰(zhàn)略”的發(fā)展目標(biāo)被寫入十八屆五中全會公報中,我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展明顯加快,一些大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃或智慧城市項目也在各地紛紛上馬。然而,“下先手棋”的大規(guī)模產(chǎn)業(yè)布局是否就意味著發(fā)展領(lǐng)先?
方育柯注意到,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展中存在的資源浪費、重復(fù)建設(shè)應(yīng)當(dāng)引起關(guān)注。一方面,很多地方在推大數(shù)據(jù)產(chǎn)業(yè)項目時基礎(chǔ)設(shè)施先行,投入大量資金建設(shè)IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)、IPC(工業(yè)個人計算機)等,使得國內(nèi)的計算資源和數(shù)據(jù)平臺的容量遠大于需求量;另一方面,部分政府、企業(yè)在數(shù)據(jù)開放過程中,要么開放范圍有限,要么開放的數(shù)據(jù)是過于宏觀或“高度”匯總的小數(shù)據(jù),對大數(shù)據(jù)的價值挖掘幫助有限,“這好比空有一身功夫的‘武林高手’,只能在小武館里施展才華。”
談及數(shù)據(jù)開放之于大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的重要性,他以數(shù)之聯(lián)發(fā)展歷程為例:團隊在2001年開始做數(shù)據(jù)挖掘、機器學(xué)習(xí)的科研時,數(shù)據(jù)挖掘僅在國外少量企業(yè)應(yīng)用,這階段團隊分析的數(shù)據(jù)主要是企業(yè)的結(jié)構(gòu)化數(shù)據(jù)或者電子表格數(shù)據(jù),規(guī)模一般都不會超過10萬;2006年前后,團隊與電信部門合作,通過機器學(xué)習(xí)的方式智能識別垃圾短信時,逐漸開始處理非結(jié)構(gòu)化的數(shù)據(jù),但依然是文本方式,數(shù)據(jù)規(guī)模約在千萬級別;2009年后,隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)概念迅速流行起來,數(shù)據(jù)量從之前的TB發(fā)展到PB、EB、ZB等,數(shù)據(jù)產(chǎn)生速度、數(shù)據(jù)類型、數(shù)據(jù)價值都在快速增長。
方育柯建議,地方產(chǎn)業(yè)布局時,在考慮后續(xù)大數(shù)據(jù)項目或者智慧城市期間,應(yīng)強調(diào)數(shù)據(jù)驅(qū)動的智慧城市建設(shè),科學(xué)、統(tǒng)籌、合理規(guī)劃大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展規(guī)劃,盡量依托現(xiàn)有IT設(shè)施資源,避免重復(fù)資源建設(shè),開展輕量級的大數(shù)據(jù)解決方案,“不要為了發(fā)展大數(shù)據(jù)而發(fā)展大數(shù)據(jù),應(yīng)該本著開放數(shù)據(jù)資源、分析數(shù)據(jù)價值、創(chuàng)新數(shù)據(jù)應(yīng)用的原則,推動大數(shù)據(jù)在政府和企業(yè)尤其是傳統(tǒng)企業(yè)中的有效運用。”
“大數(shù)據(jù)的核心要素是數(shù)據(jù)、技術(shù)、人才。”他認為,對于數(shù)據(jù),可以優(yōu)先推動政務(wù)數(shù)據(jù)開放,鼓勵企業(yè)數(shù)據(jù)開放;對于技術(shù),優(yōu)先扶持大數(shù)據(jù)技術(shù)創(chuàng)新類企業(yè),提升傳統(tǒng)企業(yè)大數(shù)據(jù)技術(shù)能力;對于人才,制定大數(shù)據(jù)人才引進策略,尤其是三、四、五線城市,因為這些地區(qū)是未來大數(shù)據(jù)的價值寶藏。