Hadoop:數(shù)據(jù)依賴型公司最有價值的工具

責任編輯:editor005

作者:Bethany Cleg

2015-08-10 16:03:09

摘自:TechTarget中國

它也是一個開源平臺,這意味著它可以根據(jù)公司需求而擴展,并且不需要大規(guī)模硬件或軟件投入。Hadoop可以根據(jù)公司特定產(chǎn)品的用戶反饋而擴展使用任意數(shù)量的公司物理主機,并且一切都會在公司運營主管的指示下進行。

Hadoop是什么?為何它如此重要?

Hadoop提供了一個用于存儲大規(guī)模數(shù)據(jù)的開源平臺。Hadoop是一個開放工具集,支持可變連接類型和數(shù)據(jù)結構。它開放給云環(huán)境中位于多個主機的分布式數(shù)據(jù)平臺。簡單地說,它是一種數(shù)據(jù)存儲方式,支持使用多個平臺和多個操作系統(tǒng)的多個計算機。它是一個Apache開源項目,支持搜索Web中的大數(shù)據(jù)。它是一組批處理工具,可供任何公司使用。它并不是單獨一個下載后在網(wǎng)站或應用中運行的應用程序。

大數(shù)據(jù)

大數(shù)據(jù)是一種現(xiàn)代云基礎架構,它包含了多種與其他人連接和共享信息的方法。它推動了“物聯(lián)網(wǎng)”的發(fā)展,如通過社交網(wǎng)站連接人、通過共享朋友或網(wǎng)絡來尋找人們之間互相認識的可能性。大數(shù)據(jù)的背后運行著人工智能,而它對于大多數(shù)人而言是完全透明的,人們不知道背后有這樣的技術。大數(shù)據(jù)位于人們日常使用的智能手機之后,然后人們通過它給移動互聯(lián)網(wǎng)貢獻信息,即使他們并沒有意識到這一點。

此外,大數(shù)據(jù)對于人臉識別軟件等也有貢獻。Facebook等公司利用這些技術去詢問人們是否想要給其他人或公司打上“標簽”,使軟件平臺能夠識別和認出他們。大數(shù)據(jù)會在專業(yè)網(wǎng)絡或約會網(wǎng)站中根據(jù)人們分享的興趣或職場關系將他們連接在一起;更重要的是,醫(yī)療公司同樣利用大數(shù)據(jù)去分析大規(guī)模生物數(shù)據(jù),以實現(xiàn)伴隨診斷和個性化醫(yī)療。

為什么大數(shù)據(jù)很重要?

大數(shù)據(jù)的重要性體現(xiàn)在很多方面。首先,它可以識別人們上網(wǎng)瀏覽的模式,從而給特定類型的人或群組推送與訪問內容相關的廣告及發(fā)送電子郵件或社交媒體廣告。其次,它可以掃描用戶選擇屏蔽的內容,如特定類型的廣告或媒體。第三點可能也是最重要的一點,它可以根據(jù)用戶的上網(wǎng)瀏覽活動推薦各種網(wǎng)站或廣告。這可以根據(jù)廣告點擊、視頻觀看、社交網(wǎng)站鏈接點擊和特定關鍵詞來實現(xiàn)。此外,Hadoop也可以很好地整合其他數(shù)據(jù)集。微軟BI工具也支持Hadoop,它可以方便地整合多個數(shù)據(jù)工具,可以將多個設備的多個平臺協(xié)同工作。

Apache也推出了支持Hadoop的開源分布式分析引擎OLAP。它屬于一個名為Kylin的項目,目的是為了縮短Hadoop數(shù)據(jù)集的查詢延遲時間。EBay公司設計了OLAP的SQL接口,作為支持一些最大型數(shù)據(jù)集的方法。此外,Kylin還支持壓縮和編碼、簡單易用的Web界面和作業(yè)管理與監(jiān)控。

Hadoop有何作用?

互聯(lián)網(wǎng)巨頭谷歌、Twitter和Facebook等一直都有能力利用Hadoop管理超大規(guī)模數(shù)據(jù)。Hadoop是一個用于解決大規(guī)模數(shù)據(jù)問題的非商業(yè)解決方案。Hadoop是一個分布式計算系統(tǒng),底層基于Linux操作系統(tǒng)。這意味著Hadoop在處理數(shù)據(jù)時并不需要使用傳統(tǒng)的高端超級計算機,而是用許多普通計算機來處理數(shù)據(jù)。Hadoop系統(tǒng)能夠在任意時間處理超大規(guī)模且不斷增長的數(shù)據(jù),而計算機網(wǎng)絡則是它的重要組成部分。換而言之,原來需要購買昂貴硬件和雇傭專業(yè)技術人員才能完成的工作,現(xiàn)在都可以在云中交由一些非專業(yè)人員完成。增加業(yè)務效率就可以在不增加員工數(shù)量的前提下完成更多的工作。大數(shù)據(jù)的設計初衷就是這一點。除了財務和銷售,許多公司還使用大數(shù)據(jù)解決方案跟蹤員工和內部流程。為什么呢?因為這些數(shù)據(jù)可以幫助他們發(fā)內部的“漏洞”,發(fā)現(xiàn)員工在哪些方面最需要改進和幫助。這自然就轉化為開展定制培訓或精簡組織結構。用大數(shù)據(jù)構建的內部藍圖清楚地告訴人們:業(yè)務決策完全可以變成一種輕松愉快的過程。

因此,為業(yè)務發(fā)展提供幫助是Hadoop的一個重要任務。它依靠各種相對廉價的計算機。如果有一臺計算機出現(xiàn)問題,那么更換它也比更換一直使用的大規(guī)模超級計算機容易得多。Hadoop包含一組工具,而不只是一個提供數(shù)據(jù)管理功能的軟件。它也是一個開源平臺,這意味著它可以根據(jù)公司需求而擴展,并且不需要大規(guī)模硬件或軟件投入。

總結

只要有許多用戶使用網(wǎng)站來完成數(shù)據(jù)庫管理及其他工作,Hadoop就可以完成任何數(shù)據(jù)庫需求。Hadoop可以根據(jù)公司特定產(chǎn)品的用戶反饋而擴展使用任意數(shù)量的公司物理主機,并且一切都會在公司運營主管的指示下進行。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號