傳統(tǒng)數(shù)據(jù)倉庫的性能已無法應(yīng)付龐大的信息,但是大數(shù)據(jù)(Big Data)技術(shù)使我們能夠訪問和使用這些寶貴的、大規(guī)模數(shù)據(jù)集以應(yīng)對越來越復(fù)雜的數(shù)據(jù)分析和更好的商業(yè)決策制定。
大數(shù)據(jù)明確將被持續(xù)下去。Gartner公司的分析師聲稱信息量每年正以最少59%速度在遞增。IDC最新的數(shù)字宇宙(Digital Universe)研究估計到2020年世界上的數(shù)據(jù)存儲總額將達(dá)到35 ZB(zettabytes)(1zettabyte等于一萬億GB字節(jié))。
大數(shù)據(jù)將改變商業(yè)智能 (BI)的布局,并為企業(yè)提供一種有價值的數(shù)據(jù)源。首席信息官(CIO)應(yīng)遵行以下的步驟才能成功地將大數(shù)據(jù)融合在他們的商業(yè)智能 (BI)程序中。
找到合適的項目
可以說最重要的一步是確定在合適的項目上測試大數(shù)據(jù)(Big Data)。需要解決的必需是一種商業(yè)問題,而不是一種技術(shù)問題。確保項目能提供直接利益或好處,而這些在現(xiàn)有的基礎(chǔ)設(shè)施上是無法實現(xiàn)的。那樣你就能贏得主管的支持。
獲得主管的支持
大數(shù)據(jù)(Big Data)是對你在數(shù)據(jù)倉庫技術(shù)中現(xiàn)有投資的補(bǔ)充。主管的支持將基于對以證據(jù)為基礎(chǔ)的策略價值的接受(例如,他們可能廣泛在企業(yè)內(nèi)部已經(jīng)使用著數(shù)據(jù)倉庫和數(shù)據(jù)挖掘)。
找到合適的人
你會需要有非常特殊技能的人;那些能處理大型、分布式數(shù)據(jù)集和與之相關(guān)的硬件的人。然后是一些讓所有的數(shù)據(jù)有意義并能把它們放入商業(yè)內(nèi)容的人;要把數(shù)據(jù)科學(xué)家想成是和現(xiàn)有的數(shù)據(jù)分析師和數(shù)據(jù)挖掘師不一樣的人。
接受開源
大數(shù)據(jù)意味著對工具集不一樣的思考并很快能適應(yīng)開源。傳統(tǒng)的供應(yīng)商不一定能解決這方面的問題;大多數(shù)大數(shù)據(jù)工具都是開源的。在這個市場上的創(chuàng)新團(tuán)體是由來自谷歌、雅虎、蘋果和Facebook這樣的公司中最聰明的人組成。
不要從零開始
最廣為接受的大數(shù)據(jù)工具是Hadoop,它是一種可以從Cloudera 或EMC獲得的開源技術(shù)。Hadoop旨在緩解在數(shù)據(jù)上執(zhí)行規(guī)?;幚淼膹?fù)雜性,并在Apache的項目框架內(nèi)進(jìn)行管理;它能提供你需要的基本工具。主要的商業(yè)智能 (BI)供應(yīng)商都宣布對大數(shù)據(jù)技術(shù)的支持,或在解決方案中使用大數(shù)據(jù)技術(shù)。
對架構(gòu)和硬件的改變作好準(zhǔn)備
數(shù)據(jù)海洋中的大數(shù)據(jù)要做的事不僅要對大規(guī)模的信息運(yùn)行分析而且也成為數(shù)據(jù)倉庫的一種來源。你會更少需要對少數(shù)大型機(jī)器的依賴和更多依靠大量的通用硬件和云資源。
購買設(shè)備從少量標(biāo)準(zhǔn)部件起
設(shè)施即服務(wù)(IaaS)供應(yīng)商們和云資源為所需的企業(yè)提供大量的最新,及時的基礎(chǔ)設(shè)施。安全的憂患往往是個阻力,但是可以克服的。
找到一種未使用的數(shù)據(jù)源
比如說,看一看從你公司網(wǎng)站上收集的數(shù)據(jù)。它可以給你提供網(wǎng)頁的受歡迎程度、一天中對網(wǎng)站訪問的集中的時間和你的客戶使用的是哪一個網(wǎng)絡(luò)服務(wù)提供商(ISP)這樣一些信息。挖掘用于市場和銷售的這些信息的潛能。
考慮可視化
想一想呈現(xiàn)數(shù)據(jù)的新方式。由于數(shù)據(jù)容量的原因,表格或圖形的使用對一些大數(shù)據(jù)分析根本沒有意義。Edward Tufte 和 Stephen Few在這方面是卓越的作者。
管理期望值
大數(shù)據(jù)有益于大型分析以及長期的戰(zhàn)略方向。確保你的用戶知道它不會交付在結(jié)構(gòu)化數(shù)據(jù)之上的月度管理報表或即時查詢。