近幾年,有些名詞由于使用過度或者是遭到誤解而被認為是“大數(shù)據(jù)”。從用谷歌流感趨勢解析器來預(yù)測大規(guī)模流感的爆發(fā),到追蹤人們購物的趨勢,從引導(dǎo)消費者如何省錢,到制定能夠?qū)Φ讓庸竞蛡€人產(chǎn)生影響的實時交易決策——數(shù)據(jù)已經(jīng)成為今天全球經(jīng)濟中保持競爭力的關(guān)鍵。要想理解產(chǎn)業(yè)大數(shù)據(jù)的意義,以及為什么大數(shù)據(jù)能夠受到如此多的關(guān)注,我們需要將數(shù)據(jù)庫產(chǎn)業(yè)劃分成幾個部分來分析,這些產(chǎn)業(yè)在我們今天處理和分析數(shù)據(jù)的時候也為我們帶來了不小的挑戰(zhàn)。
為了充分了解大數(shù)據(jù)以達到我寫這篇文章的目的,我會盡力從一個幫助公司了解大數(shù)據(jù)對其有何種意義的公司管理人員的角度,對大數(shù)據(jù)的定義予以闡明。大數(shù)據(jù)簡單來說就是目前的一代人,他們有處理數(shù)據(jù)庫和科學(xué)技術(shù)的需要以此來滿足數(shù)據(jù)市場的需求。在與高德納公司和其他公司結(jié)成同盟的今天,在談?wù)摂?shù)據(jù)庫的不同時我聽到過這樣一種解釋:數(shù)量,種類,速度和難度。
這種數(shù)據(jù)包括復(fù)雜的文章,大容量的視頻和錄音文件,即時信息和多變的商業(yè)進程,這些都需要來自不同渠道的靈活的數(shù)據(jù)綱要。技術(shù)專家意識到遺留系統(tǒng)和傳統(tǒng)的關(guān)系上的數(shù)據(jù)庫處理系統(tǒng)的解決方案無法控制和處理數(shù)據(jù)的類型,因為它們是以一種直接趨向商業(yè)結(jié)果的方式呈現(xiàn)的,這時候問題就來了。這已經(jīng)不再僅僅是儲存信息的問題了。技術(shù)專家和商業(yè)領(lǐng)導(dǎo)者應(yīng)當(dāng)充分利用現(xiàn)有數(shù)據(jù),存取,處理并在實際中使用它們。為了滿足新的需要,新的使用者現(xiàn)正處于一種必須應(yīng)對某些挑戰(zhàn)的狀態(tài),因為隨著數(shù)據(jù)的不斷增加,新的問題也隨之出現(xiàn)。
因此,當(dāng)某些企業(yè)想要用大數(shù)據(jù)執(zhí)行某些計劃但是失敗的時候,我們最常見的錯誤是什么呢?最近的一份調(diào)查顯示在更廣泛的領(lǐng)域內(nèi)超過百分之七十五的大數(shù)據(jù)或者說是IT項目都是不完善的。我們應(yīng)該清楚的看到,在找到最有效的解決方法使大數(shù)據(jù)能夠被充分利用開發(fā)并為我們所用的道路上仍然有許多困難和挑戰(zhàn)。
讓我們來列舉一部分。
首先,你沒有充分利用你的數(shù)據(jù)。
也許,讓很多企業(yè)都不得不面臨大數(shù)據(jù)的挑戰(zhàn)的一個很明顯的原因,是缺乏一種通過使用大數(shù)據(jù)來推動支持決策形成商業(yè)智慧的能力。
如果一個線上出版者能夠更好地理解讀者會在什么時候以及為什么瀏覽他出版的內(nèi)容并在他的頁面上停留很久,他便能夠根據(jù)現(xiàn)在和未來的瀏覽者的需要對內(nèi)容進行改進。在現(xiàn)存的數(shù)據(jù)中,驅(qū)動價值是產(chǎn)業(yè)中最常見的難題之一。雖然眾多的科技產(chǎn)品可以幫助克服這些困難,但是大部分的數(shù)據(jù)庫產(chǎn)品都缺乏快速有效解決的這一問題的能力,因為它們沒有進行大規(guī)模的數(shù)據(jù)轉(zhuǎn)換,在精確衡量商業(yè)智慧上往往會制定一些不符合實際的過高目標。
如果大部分的數(shù)據(jù)庫技術(shù)在一開始的時候并不了解和滿足數(shù)據(jù)的某些特殊要求,那么它們便需要某種數(shù)據(jù)定義或者是數(shù)據(jù)綱要來減緩項目進程。還有要順便提一句,這里描述的都是我在過去的15年來有著愉快的工作經(jīng)歷的IT項目。
NoSQL關(guān)系型數(shù)據(jù)庫有效地解決了這個問題。如果執(zhí)行了NoSQL關(guān)系型數(shù)據(jù)庫(通常情況下可以行得通),那么綱要便不再需要了,或者是需要的程度降低了。這是NoSQL關(guān)系型數(shù)據(jù)庫的主要價值所在,也是在關(guān)系市場上直接增加在使用者的知名度的一個主要的推動力。
復(fù)雜的數(shù)據(jù)建模,中間層的目標規(guī)劃和不斷返工,這些與更早的RDBMS關(guān)系型數(shù)據(jù)庫管理系統(tǒng)有諸多聯(lián)系的特點,為探索一種新的充分利用大數(shù)據(jù)的方式開辟了一條新路。
第二點是,你已經(jīng)將公司賭在了免費軟件上
通過過去幾年的促銷循環(huán)系統(tǒng),每一個組織都在考慮有效利用最新最好的解決方案,像Apache和Pig這樣的,都是感覺過去的RDBMS關(guān)系型數(shù)據(jù)庫管理系統(tǒng)已經(jīng)過時而力求創(chuàng)新。事實的確如此,關(guān)系型數(shù)據(jù)庫本身無法滿足NoSQL數(shù)據(jù)庫能夠達到的要求。在源頭開放的大數(shù)據(jù)生態(tài)系統(tǒng)中,持續(xù)增長的失敗案例已經(jīng)能夠防止大象試圖飛行—許多公司已經(jīng)感受到了小范圍失敗帶來的損失。
免費軟件運動已經(jīng)因為其不真實性而備受批判,主要由哪些抱著不切實的幻想,守望著自己的產(chǎn)品能夠成為下一個最暢銷的產(chǎn)品或者只有他們自己可以做到這種程度的這種沒有什么經(jīng)驗的軟件開發(fā)者共享。
產(chǎn)業(yè)在過去的幾十年里已經(jīng)盡力去克服公司軟件中的一些現(xiàn)實的不穩(wěn)定因素(完整的版本是“你得到的永遠不會多于你應(yīng)得的——但是不要忘記后續(xù),如果這看起來太美好而讓人無法相信其真實性的話……”)
現(xiàn)實是大部分的開放源數(shù)據(jù)軟件在滿足公司的需要上都并不可行。大部分的開放源安裝包的存在都是為了吸引那些尋求簡單客戶基礎(chǔ)的網(wǎng)絡(luò)開發(fā)者。這些產(chǎn)品都具有一些很典型的特點,不能物盡其用,不安全而且眾所周知它們會丟失數(shù)據(jù)。是的它們會丟失數(shù)據(jù),因為它們在一開始被設(shè)計研發(fā)時,就沒有可以核對每一個自主數(shù)據(jù)的處理器。
第三點是,你徹底的放棄了昂貴的遺留下來的數(shù)據(jù)系統(tǒng)
我相信數(shù)據(jù)倉庫將會有一個長遠的未來。這并不是一個非常大膽的猜想,但是RDBMS關(guān)系型數(shù)據(jù)庫管理系統(tǒng)的未來又會怎樣?當(dāng)然不久之后我們將看不到Oracle數(shù)據(jù)庫的終結(jié)。
我的數(shù)據(jù)顯示,邏輯型數(shù)據(jù)倉庫(LDW)正在呈上漲趨勢。一個倉庫是建于由兩個或者多個現(xiàn)實數(shù)據(jù)庫合成的單一的接入視圖之上的。同樣的原因,產(chǎn)業(yè)未來應(yīng)用的發(fā)展也正在采集使用NoSQL數(shù)據(jù)庫,這便需要一種新的方式來構(gòu)建和儲存數(shù)據(jù)倉庫。使用RDBMS關(guān)系型數(shù)據(jù)庫管理系統(tǒng)的話,一開始會很難去駕馭它,反復(fù)做又會花費大量的時間和金錢。
一個邏輯性數(shù)據(jù)倉庫(LDW)擁有一種獨特的功能,能夠加強幾乎所有來自各種數(shù)據(jù)源的數(shù)據(jù)和索引,并構(gòu)建一種客制化的時間系統(tǒng),使所有客戶進行交易和分析問題成為可能。雖然RDBMS關(guān)系型數(shù)據(jù)庫管理系統(tǒng)已經(jīng)成為一種舊的派別,但是放棄現(xiàn)有的數(shù)據(jù)執(zhí)行手段的代價是非常巨大的。邏輯型數(shù)據(jù)倉庫LDW允許公司在關(guān)于遺留系統(tǒng)的沉沒成本的問題時可以盡量減少損失,并轉(zhuǎn)向一個更有效率,更多面的,更有伸縮性的數(shù)據(jù)平臺。一個公司的NoSQL關(guān)系型數(shù)據(jù)庫可以成為舊有的RDBMS關(guān)系型數(shù)據(jù)庫管理系統(tǒng)和失敗的用以處理結(jié)構(gòu)性數(shù)據(jù),文件內(nèi)容,檔案和媒體的實戰(zhàn)項目之間的整合點。這對過去長期一直與錯誤軟件作斗爭的不穩(wěn)定的IT行業(yè)意義重大。
第四點是你不了解你的數(shù)據(jù)
對于任何產(chǎn)業(yè)來說,一種進化必然會很快的產(chǎn)生一種知識代溝:你對迎面而來的挑戰(zhàn)和解決方法的了解遠遠落后于那些在特定企業(yè)中呆過的人。
一些人認為大數(shù)據(jù)產(chǎn)生了一些新的社會角色的需要。就在最近,我看到了首席數(shù)據(jù)官CDO和數(shù)據(jù)科學(xué)家的出現(xiàn)。很多人嘲笑過將專家?guī)нM企業(yè)帶來的成本和需求,但是缺乏正確的專業(yè)知識的企業(yè)是無法理解自己的數(shù)據(jù)的,這意味著,他們也就不會知道最好的使用自身數(shù)據(jù)的方法。據(jù)高德納公司預(yù)測,到2015年全球百分之二十五的大型企業(yè)都將聘請首席數(shù)據(jù)官CDO。
但是坦白說,你們真的不需要數(shù)據(jù)科學(xué)家,你們需要的是更好的軟件。
第五點是你總是貪得無厭
也許在你突襲進入大數(shù)據(jù)領(lǐng)域中最容易避開的錯誤就是不要吸收太多的數(shù)據(jù)。大部分情況下,科技方面的原因?qū)е铝诉@種現(xiàn)象的出現(xiàn)。奇怪的是,從大數(shù)據(jù)的角度處理整個公司的事情基本上是不可能的,那么為什么不從最底層開始,逐漸積累成功的經(jīng)驗從而使項目一點一點發(fā)展起來呢?使用靈活的科學(xué)技術(shù),像公司中的 NoSQL關(guān)系型數(shù)據(jù)庫。迭代數(shù)據(jù)倉庫的發(fā)展會很快出現(xiàn),同時能夠減少重復(fù)作業(yè)和預(yù)付工程成本。
曾經(jīng)有一段時間,以能力為基礎(chǔ)的公司成功的帶著所有的可用數(shù)據(jù)快速果斷地實現(xiàn)了轉(zhuǎn)移,若要增加每一個公司的競爭優(yōu)勢其壓力也是十分大的。太多企業(yè)吸收過多自身無法成功處理的數(shù)據(jù)。有一種錯誤的觀念是,所有的大數(shù)據(jù)問題在某種程度上都可以一起解決,就像一個需要唯一解決辦法的集成問題一樣。帶著游戲總會結(jié)束的思想,IT管理者和主要的信息人員應(yīng)當(dāng)問清楚自己嘗試去施加影響的商業(yè)決策到底是什么樣的,而不是一味考慮怎樣把新技術(shù)和舊有技術(shù)融為一體。能否獲得正確的答案將直接決定一切數(shù)據(jù)項目的成敗。
團隊?wèi)?yīng)從小處著眼,快速的縮小比例,并能夠適應(yīng)擺在面前相關(guān)的模式和解決方法將會有利于使未來的項目不超出預(yù)算并按時完成,最重要的一點是,達到預(yù)期的結(jié)果。
無論你正在處理的是金融數(shù)據(jù),特定的保健數(shù)據(jù)和購物分析還是出版工作和政府情報,這些數(shù)據(jù)的一致性就在于他們的多變性,復(fù)雜性和多樣化以及它們不斷增加的數(shù)量和需求。要想以一種驅(qū)動商業(yè)價值的方式來處理大量的不斷匯集的數(shù)據(jù),企業(yè)必須要明白眾多大數(shù)據(jù)項目失敗的原因,從而避免已經(jīng)出現(xiàn)過的錯誤導(dǎo)致的失敗。知道不應(yīng)該做什么和知道應(yīng)該做什么同樣重要,有了這些基本的知識,企業(yè)才能快速實現(xiàn)他們短期和長期的各種目標。