大數(shù)據(jù)技術(shù)令人興奮,它具有創(chuàng)新性且功能強(qiáng)大。大數(shù)據(jù)技術(shù)絕對(duì)可以將企業(yè)分析學(xué)帶入新的高度…但還不是現(xiàn)在。
在全球1000家大公司以及無數(shù)家規(guī)模較小的公司中,商務(wù)智能(BI)的技能和最佳實(shí)踐已經(jīng)積累了多年,關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)更長(zhǎng)達(dá)數(shù)十年。這些范疇內(nèi)的產(chǎn)品具有卓越的工具技術(shù)、可管理性以及容錯(cuò)性,提供了針對(duì)非開發(fā)者設(shè)計(jì)的接口,有精心創(chuàng)建的數(shù)據(jù)模型,經(jīng)過多年來的細(xì)化,代表著大量的投入。
同時(shí),Hadoop通常用在命令行中,由命令MapReduce代碼控制,MapReduce代碼必須采用Java編寫,并且利用單一且易損壞的名稱節(jié)點(diǎn)控制的文件系統(tǒng)(HDFS)。雖然一些基于瀏覽器的工具不斷涌現(xiàn),并且類似Hive的技術(shù)也為BI工具提供了連接層,但是我們?nèi)匀惶幱谏鲜兰o(jì)90年代的技術(shù)水平。在此領(lǐng)域,企業(yè)尚未準(zhǔn)備充分,甚至還未接近準(zhǔn)備充分。
深入見解
由于涉及到企業(yè)采集、分享和凈化數(shù)據(jù)的策略和邏輯,因此將數(shù)據(jù)轉(zhuǎn)化為信息在眾多領(lǐng)域已經(jīng)成為一項(xiàng)長(zhǎng)期斗爭(zhēng)。在解決這一難題上,大數(shù)據(jù)并不比商業(yè)智能更加出色。數(shù)據(jù)“做大”僅增加了所管理的數(shù)據(jù)覆蓋面,但卻必將使數(shù)據(jù)分析變得更加復(fù)雜。
大數(shù)據(jù)優(yōu)點(diǎn)之一是具有較為靈活的方法,可在輪詢/分析時(shí),對(duì)其進(jìn)行定義,從而消除了管理數(shù)據(jù)過程中的一些復(fù)雜性。但是管理非結(jié)構(gòu)化的數(shù)據(jù)工具相對(duì)不成熟,并且企業(yè)內(nèi)數(shù)據(jù)專家在概念上對(duì)此也尚未習(xí)慣。
大數(shù)據(jù)的長(zhǎng)期潛力是很好的,因此應(yīng)縮短其創(chuàng)新周期。但在短期內(nèi)還不太可行。
小企業(yè)使用情況和策略
如果我是一個(gè)快餐企業(yè)家,在一個(gè)中等規(guī)模城市擁有5個(gè)麥當(dāng)勞的特許經(jīng)營權(quán),如何利用Hadoop和MapReduce以獲得更多的顧客訪問量,對(duì)我而言還不明顯。如果我擁有一家大型網(wǎng)絡(luò)公司、一家大型金融服務(wù)公司、一家制造相關(guān)企業(yè)或者大型零售商,具有很大的點(diǎn)擊量、市場(chǎng)和數(shù)據(jù),那么大數(shù)據(jù)對(duì)我的吸引力更加直接。
我確實(shí)認(rèn)為,小型企業(yè)現(xiàn)在就應(yīng)該開啟其大數(shù)據(jù)策略。如果他們總是在線(大部分),他們甚至將擁有大量的點(diǎn)擊數(shù)據(jù),并且利用轉(zhuǎn)載操作,就可以開始積累大量的店內(nèi)視頻(可以透漏購物習(xí)慣、店內(nèi)布置的效果和產(chǎn)品親和力)。數(shù)據(jù)可以幫助每個(gè)人,當(dāng)不再丟棄數(shù)據(jù),即成為大數(shù)據(jù)。
大數(shù)據(jù)的投資回報(bào)率
在互聯(lián)網(wǎng)行業(yè),大數(shù)據(jù)能夠在吸引關(guān)注以及相應(yīng)貨幣化方面盈利。在制造業(yè),大數(shù)據(jù)能夠在降低或者消除裝配線停機(jī)時(shí)間獲益(通過對(duì)設(shè)備故障的預(yù)測(cè)分析)。在金融服務(wù)領(lǐng)域,大數(shù)據(jù)能夠促使服務(wù)更好、更有效,從而實(shí)現(xiàn)更有利的經(jīng)營策略。媒體公司可以銷售更多的廣告版面。電子商務(wù)公司可賣出更多產(chǎn)品。
但是這些公司擁有一般企業(yè)經(jīng)營公司不具備的一個(gè)共同點(diǎn):投資回報(bào)率顯而易見,足以使這些公司排除進(jìn)入障礙進(jìn)入大數(shù)據(jù)領(lǐng)域。企業(yè)經(jīng)營團(tuán)隊(duì)是否具有足夠智慧、預(yù)算和吸引力,引起必需的Hadoop專家、統(tǒng)計(jì)人員和數(shù)據(jù)專家,以實(shí)現(xiàn)有吸引力的投資回報(bào)率?很可能不會(huì)。在現(xiàn)成產(chǎn)品以及專業(yè)服務(wù),大數(shù)據(jù)價(jià)值必須非常好、便宜而且足夠成熟,才能吸引顧客購買。
更廣泛的IT戰(zhàn)略影響
大數(shù)據(jù)絕對(duì)有改變企業(yè)整體IT戰(zhàn)略的潛力。這是因?yàn)榇髷?shù)據(jù)涉及到的內(nèi)容更多。例如Hadoop使用直連存儲(chǔ)和商用硬件,這對(duì)于我們常見的采用存儲(chǔ)網(wǎng)絡(luò)、昂貴的服務(wù)器和設(shè)備的企業(yè)部署具有極大破壞性。
Hadoop也可能使企業(yè)更強(qiáng)調(diào)Java技能,而減少SQL技能的關(guān)注。Hadoop所使用的集群方法也可能加速混合預(yù)置/云策略的推廣使用:將數(shù)據(jù)推動(dòng)到預(yù)置服務(wù)器上更加容易,但云計(jì)算的彈性在解決大型集群間歇性指令時(shí)更加有效。
技能短缺
數(shù)學(xué)、統(tǒng)計(jì)和數(shù)據(jù)建模技能是必需的,這是一個(gè)不足。很多大學(xué)現(xiàn)在才開始在分析和數(shù)據(jù)科學(xué)學(xué)科中設(shè)立課程,解決這一問題。正如我上文提到的,Java編程技能將非常有用,甚至將從事面向數(shù)據(jù)的工作,而非開發(fā)人員的職位。對(duì)于實(shí)力雄厚的企業(yè)來說,最重要以及最難找的是擁有在這些領(lǐng)域內(nèi)專業(yè)知識(shí)和技能相結(jié)合的人才。這就是成功的公式,招聘到符合要求的人才可能非常困難。
哪些行業(yè)受益?
同樣,互聯(lián)網(wǎng)、媒體、金融機(jī)構(gòu)、網(wǎng)上零售業(yè)以及制造行業(yè)將受益最大。供應(yīng)鏈企業(yè),零部件分銷商當(dāng)然也可加入到受益的隊(duì)伍中來。醫(yī)療研究、管理或者支付/保險(xiǎn)操作也可受益。這些行業(yè)的營銷組織可以才從大數(shù)據(jù)中獲得很大的利益。
我認(rèn)為每個(gè)組織機(jī)構(gòu)都有大數(shù)據(jù),不僅是那些沒有對(duì)其進(jìn)行監(jiān)控、沒有保留數(shù)據(jù)的機(jī)構(gòu),還有那些沒有評(píng)估通過改變運(yùn)作模式為以大數(shù)據(jù)為驅(qū)動(dòng)的成本和好處的企業(yè)和機(jī)構(gòu)。
大數(shù)據(jù)和云
Hadoop商用硬件以及按需添加的集群方法對(duì)云計(jì)算模型具有巨大親和力。在一般情況下,彈性是兩者的特性之一。另一方面,上行帶寬仍然是云中大數(shù)據(jù)的限制因素。與遷移大量數(shù)據(jù)并創(chuàng)建數(shù)據(jù)庫相比,對(duì)新數(shù)據(jù)進(jìn)行流失處理和維護(hù)云數(shù)據(jù)庫(包含Hadoop分布式文件系統(tǒng)文件)要更容易一些。這又是終將改變并消除障礙的一個(gè)領(lǐng)域。
大數(shù)據(jù)挑戰(zhàn)
數(shù)據(jù)質(zhì)量是一個(gè)非常大的挑戰(zhàn)。數(shù)據(jù)管理也是一個(gè)更廣泛的問題。在這兩種情況下,非結(jié)構(gòu)數(shù)據(jù)的快速增長(zhǎng)會(huì)加大數(shù)據(jù)集成的難度。同時(shí),許多大數(shù)據(jù)技術(shù)尚未成熟也是潛在的缺陷。因此,許多公司仍處于大數(shù)據(jù)的研發(fā)階段。大數(shù)據(jù)技術(shù)必須更加容易,項(xiàng)目管理技能更廣泛,大數(shù)據(jù)方可真正成為主流。
CEO和CFO
我認(rèn)為許多CEO以較高層次了解大數(shù)據(jù),因此他們希望獲得大數(shù)據(jù)。但是,他們的管理團(tuán)隊(duì)必須更加細(xì)致的理解大數(shù)據(jù),并執(zhí)行大數(shù)據(jù)建議。從這種風(fēng)險(xiǎn)上看,我不認(rèn)為我們已經(jīng)實(shí)現(xiàn)了大數(shù)據(jù)。大數(shù)據(jù)只有更見簡(jiǎn)單,管理人員充分熟悉,才能普遍。
在許多公司,商業(yè)智能購買決定權(quán)在于CFO團(tuán)隊(duì)。如果大數(shù)據(jù)成為BI的繼任者,那么可認(rèn)為CFO將保持這項(xiàng)權(quán)利。但是,大數(shù)據(jù)項(xiàng)目負(fù)責(zé)人可能來自IT和企業(yè)的各個(gè)部門。著手熟悉技術(shù)以及取的第一手資料可能成為項(xiàng)目成功的先決條件。金融業(yè)數(shù)據(jù)相對(duì)分散 –可能包含PB規(guī)模總分類賬- 但是我還沒有遇到。因此CFO們似乎不大可能作為大數(shù)據(jù)決策者。
五年預(yù)測(cè)
大數(shù)據(jù)可能是現(xiàn)在的炒作頂點(diǎn)(或許可能不是),但是這絕對(duì)不是一時(shí)頭腦發(fā)熱。根據(jù)我的經(jīng)驗(yàn),數(shù)據(jù)相關(guān)非常少。無論商業(yè)應(yīng)用開發(fā)以及相應(yīng)的交易數(shù)據(jù)庫需求,或者空間分析、各種預(yù)測(cè)分析和其它收集到的關(guān)于大數(shù)據(jù)的觀點(diǎn),我們討論的是有用的重要技術(shù)。
通常情況下,新數(shù)據(jù)技術(shù)以創(chuàng)新和突破性技術(shù)開始,然后成為主流和主要技術(shù),并最終成為日常技術(shù),而不是失敗和消失。我認(rèn)為毫無疑問在將來大數(shù)據(jù)將成為企業(yè)的主流。未來可能是五年時(shí)間,取決于在這階段內(nèi),大數(shù)據(jù)是否能夠渡過其分散的小型行業(yè)階段。
在某項(xiàng)技術(shù)被企業(yè)廣泛應(yīng)用前,該技術(shù)必須已非常成熟,甚至有點(diǎn)枯燥。大數(shù)據(jù)將會(huì)達(dá)到被企業(yè)廣泛應(yīng)用的程度,但它得先克服一些障礙。