大數(shù)據(jù)存儲(chǔ)平臺(tái)是大數(shù)據(jù)分析的前提

責(zé)任編輯:gaoqiang

2014-05-23 14:43:00

摘自:比特網(wǎng)

為什么在官方的健康組織還沒(méi)有發(fā)布健康趨勢(shì)之前,Google就能利用它的搜索引擎準(zhǔn)確地預(yù)測(cè)流行病的爆發(fā)? 大數(shù)據(jù)給我們所有人上了一課。

為什么在官方的健康組織還沒(méi)有發(fā)布健康趨勢(shì)之前,Google就能利用它的搜索引擎準(zhǔn)確地預(yù)測(cè)流行病的爆發(fā)? 大數(shù)據(jù)給我們所有人上了一課,也讓我們更加堅(jiān)信,數(shù)據(jù)本身是有價(jià)值的,關(guān)鍵看你如何處理、分析和使用它。

2013年,中國(guó)金融界熱議最多的或許是互聯(lián)網(wǎng)金融。確實(shí),第三方支付、P2P、網(wǎng)貸、眾籌融資、余額寶、微信支付等發(fā)展迅速?;ヂ?lián)網(wǎng)金融如火如荼所依靠的不僅是簡(jiǎn)單的“通道”,背后隱藏的是大數(shù)據(jù)時(shí)代的鮮明特征:數(shù)據(jù)的積累和挖掘分析。

如阿里金融,通過(guò)數(shù)據(jù)化的平臺(tái)開(kāi)展征信操作,將商戶(hù)的信貸風(fēng)險(xiǎn)控制在較低的程度,從而能夠?qū)崿F(xiàn)日均100萬(wàn)左右的利息收入;如淘寶運(yùn)費(fèi)險(xiǎn)“秘密”,根據(jù)統(tǒng)計(jì),淘寶用戶(hù)運(yùn)費(fèi)險(xiǎn)索賠率在50%以上,也就是說(shuō),10個(gè)淘寶用戶(hù)購(gòu)買(mǎi)運(yùn)費(fèi)險(xiǎn),5個(gè)以上將會(huì)退換貨,保險(xiǎn)公司需要賠付,僅從保險(xiǎn)產(chǎn)品設(shè)計(jì)的角度,這個(gè)產(chǎn)品并不是很成功,該產(chǎn)品僅能帶來(lái)5%的利潤(rùn),但是保險(xiǎn)公司仍然堅(jiān)持在做,并且不斷有新的保險(xiǎn)公司向淘寶“加盟”,其秘密在于,客戶(hù)購(gòu)買(mǎi)運(yùn)費(fèi)險(xiǎn)后保險(xiǎn)公司就可以獲得該客戶(hù)的個(gè)人基本信息,包括手機(jī)號(hào)和銀行賬戶(hù)信息等,并能夠了解該客戶(hù)購(gòu)買(mǎi)的產(chǎn)品信息,從而實(shí)現(xiàn)其他保險(xiǎn)產(chǎn)品的精準(zhǔn)推送,保險(xiǎn)公司看中的正是5%利潤(rùn)背后更大的數(shù)據(jù)價(jià)值,假設(shè)該客戶(hù)購(gòu)買(mǎi)并退貨的是嬰兒奶粉,那么保險(xiǎn)公司就可以估計(jì)該客戶(hù)家里有小孩,可以向其推薦關(guān)于兒童疾病險(xiǎn)、教育險(xiǎn)等相關(guān)產(chǎn)品,這比5%的利潤(rùn)更有吸引力。這一思路可以繼續(xù)延伸到金融產(chǎn)品銷(xiāo)售、VIP客戶(hù)挖掘、消費(fèi)貸款等領(lǐng)域。

不光是互聯(lián)網(wǎng)企業(yè)看到了大數(shù)據(jù)背后的價(jià)值,傳統(tǒng)銀行也在加速對(duì)大數(shù)據(jù)平臺(tái)的建設(shè)。例如工商銀行、建設(shè)銀行、招商銀行、民生銀行等都在自建電商平臺(tái)或已經(jīng)完成其平臺(tái)建設(shè),部份銀行正在跟京東、蘇寧等大型電商平臺(tái)聯(lián)手,“躺著賺錢(qián)”的傳統(tǒng)銀行為何要進(jìn)入這個(gè)微利甚至完全是“燒錢(qián)”的領(lǐng)域,其背后都是希望通過(guò)掌握大數(shù)據(jù),來(lái)提升銀行傳統(tǒng)業(yè)務(wù)的利潤(rùn)。

在企業(yè)內(nèi)部,大數(shù)據(jù)可以為企業(yè)提供更科學(xué)的決策依據(jù);在企業(yè)外部, 大數(shù)據(jù)還是收集客戶(hù)信息,建立360°客戶(hù)視圖,讓企業(yè)實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷(xiāo)的工具。從表面看,大數(shù)據(jù)帶來(lái)的是一種技術(shù)上的變革,它有效地提高了企業(yè)和社會(huì)的生產(chǎn)力,而在這種技術(shù)變革的背后是業(yè)務(wù)需求使然,是人們對(duì)提高效率的不斷追求在推動(dòng)這種變革的發(fā)生。

縱向打穿“4V”

在大數(shù)據(jù)分析工具出現(xiàn)前,商業(yè)智能、數(shù)據(jù)挖掘已經(jīng)進(jìn)行了多年,為什么數(shù)據(jù)的價(jià)值沒(méi)有得到企業(yè)充分的重視呢?以前的數(shù)據(jù)挖掘是對(duì)抽樣數(shù)據(jù)進(jìn)行分析,而且數(shù)據(jù)分析是離線的,數(shù)據(jù)的價(jià)值沒(méi)能得到全面、實(shí)時(shí)的展現(xiàn)。

那么構(gòu)建一個(gè)可用的大數(shù)據(jù)系統(tǒng),應(yīng)該從何處入手呢?

華為拋出了金字塔型“4V”理論,展現(xiàn)了從Volume到Velocity 再到Variety,最終到Value的層次化的遞進(jìn)式的創(chuàng)造大數(shù)據(jù)價(jià)值的方法論。

第一步,企業(yè)需要建立一個(gè)能夠高效處理海量數(shù)據(jù)的存儲(chǔ)架構(gòu)平臺(tái),它既能處理大量的小文件,也能處理單體較大的文件。

第二步,這個(gè)存儲(chǔ)架構(gòu)平臺(tái)要具備極高的處理性能,因?yàn)榇髷?shù)據(jù)對(duì)實(shí)時(shí)處理的要求非常高。

第三步,這個(gè)存儲(chǔ)架構(gòu)平臺(tái)要能處理多樣化的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

只有通過(guò)前面三步打下的基礎(chǔ),企業(yè)用戶(hù)才能進(jìn)入最后一步,在一個(gè)高效的專(zhuān)門(mén)為大數(shù)據(jù)構(gòu)建和優(yōu)化的平臺(tái)上進(jìn)行數(shù)據(jù)分析和挖掘,并最終獲得所需的價(jià)值。

大數(shù)據(jù)價(jià)值的實(shí)現(xiàn)過(guò)程是一個(gè)遞進(jìn)的逐層深入的過(guò)程,但是建立高效的存儲(chǔ)架構(gòu)平臺(tái)是前提,它是大數(shù)據(jù)落地的基礎(chǔ)。

大數(shù)據(jù)存儲(chǔ)平臺(tái)是大數(shù)據(jù)分析的前提

現(xiàn)在人們一談到大數(shù)據(jù),首先會(huì)想到Hadoop。其實(shí),Hadoop只是大數(shù)據(jù)基礎(chǔ)架構(gòu)與上層應(yīng)用分析之間的一個(gè)橋梁,而不是大數(shù)據(jù)的全部。在廣電等很多領(lǐng)域, 大數(shù)據(jù)處理并不一定要用到Hadoop?,F(xiàn)在,使用Hadoop 更多的是一些互聯(lián)網(wǎng)企業(yè)。然而除了互聯(lián)網(wǎng)大數(shù)據(jù)以外,行業(yè)大數(shù)據(jù)同樣重要,甚至價(jià)值密度更高。因此, 將Hadoop與大數(shù)據(jù)劃等號(hào),這是一個(gè)認(rèn)識(shí)上的誤區(qū)。業(yè)內(nèi)一位大數(shù)據(jù)專(zhuān)家指出,大數(shù)據(jù)不是一個(gè)分析工具,而是新的基礎(chǔ)架構(gòu)。

華為認(rèn)為,大數(shù)據(jù)分析的一個(gè)重要前提是,必須先建立一個(gè)高效的大數(shù)據(jù)存儲(chǔ)平臺(tái)。那么,高效又是如何來(lái)衡量的呢?

高效的第一個(gè)衡量指標(biāo)是就是性能。性能是大數(shù)據(jù)存儲(chǔ)平臺(tái)的基石之一。比如,中央電視臺(tái)每晚7:30要準(zhǔn)時(shí)播出天氣預(yù)報(bào),如果氣象分析要經(jīng)過(guò)24小時(shí)才能得到最后的結(jié)果,就會(huì)錯(cuò)過(guò)天氣預(yù)報(bào)播出的時(shí)間,即使得到的預(yù)測(cè)結(jié)果再準(zhǔn)確也是無(wú)用的結(jié)果。不僅是在大數(shù)據(jù)方面, 在整個(gè)IT領(lǐng)域,企業(yè)用戶(hù)對(duì)性能的追求都是無(wú)止境的, 只不過(guò)大數(shù)據(jù)對(duì)實(shí)時(shí)處理的要求非常高,所以高性能對(duì)于大數(shù)據(jù)來(lái)說(shuō)顯得尤為重要。

其次,大數(shù)據(jù)強(qiáng)調(diào)的是簡(jiǎn)化使用,提高效率。如果不具備專(zhuān)業(yè)技能和人員,Hadoop的實(shí)施將非常困難。簡(jiǎn)化大數(shù)據(jù)的使用,其核心是在同一個(gè)平臺(tái)之上針對(duì)數(shù)據(jù)的全生命周期進(jìn)行管理,盡量避免異構(gòu)環(huán)境下的數(shù)據(jù)遷移、數(shù)據(jù)丟失帶來(lái)的風(fēng)險(xiǎn)等問(wèn)題。

最后,高效的大數(shù)據(jù)存儲(chǔ)平臺(tái)應(yīng)該采用融合的技術(shù)架構(gòu),即在同一個(gè)系統(tǒng)內(nèi),實(shí)現(xiàn)存儲(chǔ)、備份、歸檔和分析的所有功能,完成對(duì)數(shù)據(jù)的管理,并提供開(kāi)放的分析接口,與BI軟件和應(yīng)用軟件更好的連接,進(jìn)一步提高查詢(xún)效率。

此外,在這樣一個(gè)一體化的結(jié)構(gòu)之上,用戶(hù)還可以根據(jù)業(yè)務(wù)的情況靈活添加相關(guān)的功能模塊。而華為大數(shù)據(jù)存儲(chǔ)平臺(tái)就具備了上述功能。

大數(shù)據(jù)帶來(lái)的改變從基礎(chǔ)架構(gòu)層面一直延伸至業(yè)務(wù)層面。企業(yè)的管理者應(yīng)該意識(shí)到,業(yè)務(wù)的創(chuàng)新需要底層創(chuàng)新的架構(gòu)來(lái)支撐。從業(yè)務(wù)的角度看,企業(yè)的核心訴求是簡(jiǎn)化應(yīng)用,實(shí)現(xiàn)可持續(xù)發(fā)展,提高業(yè)務(wù)的效率,而這些業(yè)務(wù)目標(biāo)的實(shí)現(xiàn)必須建立在一個(gè)合理的、高效的架構(gòu)之上,只有這樣才能更好地發(fā)揮IT的作用,獲得更大的數(shù)據(jù)價(jià)值。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)