切勿“人云亦云” 揭秘你不知道的大數(shù)據(jù)

責任編輯:王李通

2015-02-01 10:02:04

摘自:太平洋電腦網(wǎng)

現(xiàn)在越來越多的人都在談大數(shù)據(jù),不單單是IT圈內。隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何結合業(yè)務邏輯并通過強大的機器算法來挖掘數(shù)據(jù)價值,是大數(shù)據(jù)時代最需要解決的問題。

現(xiàn)在越來越多的人都在談大數(shù)據(jù),不單單是IT圈內。但是刨根問底,究竟什么是大數(shù)據(jù)技術?大數(shù)據(jù)的“前世今生”又有著怎樣的發(fā)展歷程,可能很多朋友就不是很清楚了。

1

我們都知道,大數(shù)據(jù)其實就是一個海量數(shù)據(jù)集合的概念,隨著當今數(shù)據(jù)量的不斷激增,促使企業(yè)在應用層面開始應用大數(shù)據(jù)理念和技術,傳統(tǒng)的常規(guī)數(shù)據(jù)工具已經(jīng)無法在移動時間內對數(shù)據(jù)信息進行準確的采集、分析和應用,因此,就誕生了大數(shù)據(jù)等一系列技術和理念。

大數(shù)據(jù)基本特征

熟悉大數(shù)據(jù)行業(yè)的朋友們可能都不會陌生,大數(shù)據(jù)具有“4V”特性,這4V即數(shù)據(jù)量大、類型多、價值密度低、速度快時效高這樣四個特點。我們都知道,之所以稱之為大數(shù)據(jù),首先就是“大”,數(shù)據(jù)的起始計量單位至少是PB級。

1

如此數(shù)量龐大的數(shù)據(jù)量當中包含了種類繁多的特性,包括結構化、半結構化和非結構化數(shù)據(jù),具體表現(xiàn)為網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。

1

隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何結合業(yè)務邏輯并通過強大的機器算法來挖掘數(shù)據(jù)價值,是大數(shù)據(jù)時代最需要解決的問題。>>

數(shù)據(jù)永遠是“在線”的

之所以說大數(shù)據(jù)是永遠在線的,就是說數(shù)據(jù)是能夠隨時被調配和調用的,這也是大數(shù)據(jù)區(qū)別于其他普通數(shù)據(jù)信息的根本區(qū)別,現(xiàn)在我們所談到的大數(shù)據(jù)不僅僅是大,更重要的是數(shù)據(jù)變的在線了,這是互聯(lián)網(wǎng)高速發(fā)展背景下的特點。

數(shù)據(jù)只有在線,即數(shù)據(jù)在與產(chǎn)品用戶或者客戶產(chǎn)生連接的時候才有意義。如某用戶在使用某互聯(lián)網(wǎng)應用時,其行為及時的傳給數(shù)據(jù)使用方,數(shù)據(jù)使用方通過某種有效加工后進行該應用的推送內容的優(yōu)化,把用戶最想看到的內容推送給用戶,也提升了用戶的使用體驗。

大數(shù)據(jù)技術如何發(fā)展

大數(shù)據(jù)作為當今IT技術的一個重要組成部分,以成本低廉、部署快速、應用廣泛等特點得到了業(yè)界的廣泛認同,大數(shù)據(jù)技術不斷涌現(xiàn)和發(fā)展,使得用戶在處理海量數(shù)據(jù)時變得更加容易,更加快捷。

在大數(shù)據(jù)采集與預處理方向。這方向最常見的問題是數(shù)據(jù)的多源和多樣性,導致數(shù)據(jù)的質量存在差異,嚴重影響到數(shù)據(jù)的可用性。針對這些問題,目前很多公司已經(jīng)推出了多種數(shù)據(jù)清洗和質量控制工具。

既然企業(yè)擁有了海量數(shù)據(jù),那么對于這些數(shù)據(jù)的存儲就變成了一個很重要的問題,企業(yè)在數(shù)據(jù)存儲管理方面的挑戰(zhàn)變得日趨嚴峻,需要兼顧結構化、非結構化和半結構化的數(shù)據(jù)。分布式文件系統(tǒng)和分布式數(shù)據(jù)庫相關技術的發(fā)展正在有效的解決這些方面的問題。

由于大數(shù)據(jù)處理多樣性的需求,目前出現(xiàn)了多種典型的計算模式,包括大數(shù)據(jù)查詢分析計算(如Hive)、批處理計算(如Hadoop MapReduce)、流式計算(如Storm)、迭代計算(如HaLoop)、圖計算(如Pregel)和內存計算(如Hana),而這些計算模式的混合計算模式將成為滿足多樣性大數(shù)據(jù)處理和應用需求的有效手段。

數(shù)據(jù)挖掘及可視化推動大數(shù)據(jù)發(fā)展

隨著現(xiàn)在個人用戶和企業(yè)用戶對于數(shù)據(jù)需求的不斷提升,使得在處理海量數(shù)據(jù)的時候不得不采用數(shù)據(jù)挖掘技術來提高數(shù)據(jù)收集和運算的準確度,這就使得越來越多的大數(shù)據(jù)分析工具和產(chǎn)品應運而生,如用于大數(shù)據(jù)挖掘的R Hadoop版、基于MapReduce開發(fā)的數(shù)據(jù)挖掘算法等等。

現(xiàn)在越來越多的人在談大數(shù)據(jù)的可視化,用戶都希望對自己的數(shù)據(jù)掌控更高的主動權。對于企業(yè)來說,通過可視化方式來幫助人們探索和解釋復雜的數(shù)據(jù),有利于決策者挖掘數(shù)據(jù)的商業(yè)價值,進而有助于大數(shù)據(jù)的發(fā)展。很多公司也在開展相應的研究,試圖把可視化引入其不同的數(shù)據(jù)分析和展示的產(chǎn)品中。

編輯的話

大數(shù)據(jù)技術在現(xiàn)在很多行業(yè)用戶當中已經(jīng)開始了非常廣泛的應用,不管是個人用戶,還是企業(yè)用戶,都已經(jīng)能夠感受到很多大數(shù)據(jù)帶給我們的便捷,隨著云計算、虛擬化等技術的不斷成熟,未來大數(shù)據(jù)領域還將變得更加接地氣。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號