公有云不只是改變了計算和存儲的價格結(jié)構(gòu),而且還擴(kuò)展了分析企業(yè)IT可以執(zhí)行的范圍。在同大數(shù)據(jù)集工作時尤為明顯,沒有彈性計算和存儲的訪問就不會有實踐。
“大數(shù)據(jù)”的寬松定義是過大而不能用傳統(tǒng)數(shù)據(jù)管理技術(shù)和基礎(chǔ)架構(gòu)處理的數(shù)據(jù)集。詳細(xì)的服務(wù)器日志、點(diǎn)擊流數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)和移動設(shè)備數(shù)據(jù)都是數(shù)據(jù)倉庫中和商業(yè)智能系統(tǒng)中交易型數(shù)據(jù)類型的補(bǔ)充。此外,公有云數(shù)據(jù)存儲庫和第三方加速器也提供了大數(shù)據(jù)集話題,從Twitter流和Meetup博文到經(jīng)濟(jì)和人口普查數(shù)據(jù)。
合并這些數(shù)據(jù)源可以進(jìn)行更加詳細(xì)和精密的分析。獲得客戶如何在在你的網(wǎng)站上瀏覽以及他們就不同產(chǎn)品瀏覽多長時間的細(xì)節(jié)信息,獲取更多關(guān)于客戶偏好的洞察力,而不僅僅是追蹤產(chǎn)品購買。
大數(shù)據(jù)檢索:三源頭
在你能夠處理大數(shù)據(jù)之前,確定你要處理哪種類型的數(shù)據(jù)至關(guān)重要。大數(shù)據(jù)源分成三個廣泛的分類:內(nèi)部生成數(shù)據(jù)、數(shù)據(jù)集市場和第三方數(shù)據(jù)生成器。
內(nèi)部生成大數(shù)據(jù)通常是IT運(yùn)營的副產(chǎn)品。包括網(wǎng)絡(luò)流量、點(diǎn)擊流數(shù)據(jù)和應(yīng)用日志。在過去,企業(yè)針對重要事件捕捉有限的信息,比如購買東西的客戶。現(xiàn)在我們可以捕捉更多更為重要的信息,用你的業(yè)務(wù)應(yīng)用就客戶的交互分析低級別的細(xì)節(jié)信息。用數(shù)據(jù)挖掘算法結(jié)合這些詳細(xì)信息,你會發(fā)現(xiàn)更多的洞察力,像界面的可用性、和低利潤交易相關(guān)的模式或者意外客戶類型群集。
數(shù)據(jù)集市場,比如Infochimps、亞馬遜Web服務(wù)(AWS)的公有數(shù)據(jù)集和Windows Azure Marketplace,將提供范圍廣泛的數(shù)據(jù)集訪問補(bǔ)充你的內(nèi)部數(shù)據(jù)。如果你對于處方藥使用、零售數(shù)據(jù)、交易數(shù)據(jù)或者更廣泛的其他話題感興趣,你可以在這些數(shù)據(jù)市場中找到數(shù)據(jù)。很多數(shù)據(jù)市場提供云數(shù)據(jù)分析,因此你可以直接用虛擬機(jī)在云端進(jìn)行工作。
第三方生成器是關(guān)注收集和為客戶提供數(shù)據(jù)或者供公共使用的組織。美國聯(lián)邦政府和歐盟都是這樣,生成大量的人口統(tǒng)計、經(jīng)濟(jì)和公共健康數(shù)據(jù)。私有公司,比如Hoover也提供增值服務(wù),比如為客戶提供市場和風(fēng)險管理數(shù)據(jù)。
企業(yè)工具挖掘大數(shù)據(jù)潛能
很難結(jié)合大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)到關(guān)系型數(shù)據(jù)庫中。云數(shù)據(jù)分析工具給企業(yè)提供所有規(guī)格能夠分析這種數(shù)據(jù)。
如果數(shù)據(jù)結(jié)構(gòu)化很好,你可能希望繼續(xù)做關(guān)系型數(shù)據(jù)庫,比如甲骨文或者微軟SQL Server,二者對于AWS、微軟Windows Azure以及其他的云提供商都可用。
當(dāng)你開始處理億萬行數(shù)據(jù)時,是時候考慮Hadoop或者谷歌BigQuery了。AWS有一個Hadoop服務(wù),稱之為彈性MapReduce,節(jié)省了安裝和配置Hadoop集群的時間。Hadoop很好的符合面向包的分析,但是BigQuery更適合交互式分析。BigQuery使用類SQL查詢語言,并支持Tableau Software的可視化工具,這是對專業(yè)分析的兩個重要考慮對象。
數(shù)據(jù)整合和管理
在數(shù)據(jù)倉庫進(jìn)行大數(shù)據(jù)分析的很多任務(wù)中,和抽取、轉(zhuǎn)換和加載(ETL)操作相關(guān)聯(lián)。跨多個數(shù)據(jù)集耦合實體是數(shù)據(jù)集使用唯一識別符時的挑戰(zhàn);數(shù)據(jù)格式需要表轉(zhuǎn)化。
關(guān)注聚集級別的不同之處。比如,一些數(shù)據(jù)何以在日常級別聚集,其他的數(shù)據(jù)則只能夠看作是普通的追蹤級別。
最重要的,要知道數(shù)據(jù)傳輸成本,通常都要伴隨著大數(shù)據(jù)出現(xiàn)。可能的話,在你存儲數(shù)據(jù)相同的云中使用虛擬機(jī)。在處理谷歌BigQuery時,記住你要根據(jù)潮汛處理的數(shù)據(jù)量付費(fèi),因此只查詢你需要的行和列。