在大數(shù)據(jù)時(shí)代,隨著數(shù)據(jù)的爆炸式增長(zhǎng),數(shù)據(jù)變得越來(lái)越多,雖然數(shù)據(jù)很多,但無(wú)用的也很多。要么是沒有價(jià)值的,要么就直接是錯(cuò)誤的。使用大數(shù)據(jù)的技術(shù)需要解決數(shù)據(jù)清理問(wèn)題。
取用數(shù)據(jù)的第一件事情就是要清理數(shù)據(jù)。甚至在將數(shù)據(jù)從數(shù)據(jù)源中取出放入存儲(chǔ)地之前,要先確認(rèn)你輸入的數(shù)據(jù)是有效的。有時(shí)候,你要濾去5%的數(shù)據(jù),有時(shí)候你甚至要忽略掉95%的數(shù)據(jù),因?yàn)閿?shù)據(jù)實(shí)在是太龐雜了。人們不應(yīng)該存儲(chǔ)你不需要的數(shù)據(jù),那樣做很浪費(fèi)?,F(xiàn)在的技術(shù)可以幫助你將一件事情分成多步,使人們可以在存儲(chǔ)和加工前,去除許多你不需要的數(shù)據(jù)。
許多企業(yè)都希望能躋身于大數(shù)據(jù)的變革中來(lái)。許多人認(rèn)為他們需要做的,就是取用他們能獲取的所有數(shù)據(jù)。這其實(shí)是不經(jīng)濟(jì)的,因?yàn)閿?shù)據(jù)量實(shí)在太大了。所以,需要更明確自身的需求。就像你在烘焙蛋糕一樣,你可能想把各種佐料都加進(jìn)去,但是你不會(huì)在里面放紅辣椒,因?yàn)檫@和烘焙蛋糕不相關(guān)。所以,要以大數(shù)據(jù)為基礎(chǔ)解決問(wèn)題,你就會(huì)希望去除不相關(guān)的數(shù)據(jù),而把精力集中在那些有價(jià)值的數(shù)據(jù)上。
關(guān)于大數(shù)據(jù)有一個(gè)很有趣的地方。“大數(shù)據(jù)”這個(gè)名字來(lái)源于兩個(gè)方面。一方面是源于數(shù)據(jù)繁多,也就是我們?yōu)槭裁捶Q之為大數(shù)據(jù)。另一方面是源于數(shù)據(jù)的無(wú)序性。過(guò)去,計(jì)算機(jī)只能處理以一種形式輸入的數(shù)據(jù)。當(dāng)你輸入的數(shù)據(jù)形式不對(duì)時(shí),你要去重新調(diào)整它。大數(shù)據(jù)的本質(zhì)就是能處理那些并非必要的數(shù)據(jù)。自從人們和企業(yè)開始處理非結(jié)構(gòu)化的數(shù)據(jù),他們就發(fā)明出了新的技術(shù)工具,比如說(shuō)分布式計(jì)算。這些新的技術(shù)工具使得人們可以將數(shù)據(jù)以非結(jié)構(gòu)化的形式儲(chǔ)存。
因?yàn)閿?shù)據(jù)繁多,你不能總是帶著一臺(tái)主機(jī),或者通過(guò)一臺(tái)超級(jí)計(jì)算機(jī)來(lái)瀏覽這些數(shù)據(jù)。你要做的是,將大問(wèn)題化解成一系列的小問(wèn)題,然后采用更加高效的運(yùn)算體系來(lái)一一破解這些小問(wèn)題。這就是“并行運(yùn)算”。
D1Net評(píng)論:
越來(lái)越多的數(shù)據(jù)充斥著大數(shù)據(jù)時(shí)代,令人眼花繚亂,在眾多紛繁的數(shù)據(jù)中,真正有用的數(shù)據(jù)其實(shí)并不多,而數(shù)據(jù)的真正價(jià)值在于加工,將數(shù)據(jù)進(jìn)行二次加工,才能真正發(fā)揮數(shù)據(jù)的價(jià)值和作用。