大數(shù)據(jù)是具有突破性的技術(shù)

責(zé)任編輯:hli

2012-05-03 14:11:06

來(lái)源:企業(yè)網(wǎng)D1Net

原創(chuàng)

在過去,收集和儲(chǔ)存信息的成本限制了企業(yè)獲取全面信息以及構(gòu)架企業(yè)整體經(jīng)營(yíng)體系的能力。如今,有大量的數(shù)據(jù)可供人們?cè)L問,但相關(guān)的數(shù)據(jù)庫(kù)卻已達(dá)到了分析信息能力的極限。

企業(yè)網(wǎng)D1Net 2012年5月3日 多年來(lái),知識(shí)管理的目標(biāo)一直是從多個(gè)角度提供有效的決策所需的洞察力、提取并集成信息的能力。企業(yè)決策考慮的不僅是如收入、雇員薪金或商業(yè)貸款利率之類的問題,還需要考慮究竟有哪些因素應(yīng)該可以影響決策,比如在哪方面投資營(yíng)銷資金,投資多少,或是否拓展新的地域市場(chǎng)。

在過去,收集和儲(chǔ)存信息的成本限制了企業(yè)獲取全面信息以及構(gòu)架企業(yè)整體經(jīng)營(yíng)體系的能力。然而,數(shù)字化信息的自動(dòng)收集和廉價(jià)的存儲(chǔ)已消除了對(duì)數(shù)據(jù)訪問的障礙。如今,有大量的數(shù)據(jù)可供人們?cè)L問,但相關(guān)的數(shù)據(jù)庫(kù)卻已達(dá)到了分析信息能力的極限。

一、大數(shù)據(jù)三個(gè)要素:批量化,多樣化

高速化現(xiàn)在出現(xiàn)了新的解決辦法來(lái)處理所謂的“大數(shù)據(jù)”.大數(shù)據(jù)在數(shù)量上并沒有確切的定義,但它又延伸了自己的領(lǐng)域,即使相關(guān)數(shù)據(jù)庫(kù)不再能夠有效地分析數(shù)據(jù),我們也不必?fù)?dān)心。該解決方案以分解數(shù)據(jù)為基礎(chǔ),發(fā)送子集進(jìn)行分析,然后重新組合的結(jié)果就會(huì)輸出大數(shù)據(jù)的一些組件的定義,包括Apache Hadoop.

然而,批量化不是唯一定義大數(shù)據(jù)的維度。 “品種也是一個(gè)因素,因?yàn)樵S多不同類型的數(shù)據(jù)在分析時(shí)可能是相關(guān)聯(lián)的,”Gartner研究副總裁Mark Beyer(馬克·拜爾)表示,“隨著文件信息人快速增長(zhǎng)和社會(huì)媒體的繁榮,企業(yè)需要的是能夠分析結(jié)合的信息,包括結(jié)構(gòu)化的關(guān)系型數(shù)據(jù)庫(kù)和文字處理文檔、視頻、圖片、博客和tweets等非結(jié)構(gòu)化內(nèi)容。”

高速化是大數(shù)據(jù)的第三個(gè)因素。它不僅要求有大量的數(shù)據(jù),它還要求必須經(jīng)常對(duì)數(shù)據(jù)進(jìn)行快速處理。此外,速度本身可以有所不同。以兩個(gè)人點(diǎn)擊進(jìn)入網(wǎng)站為例,如果數(shù)據(jù)隨著時(shí)間的推移而被逐漸收集,那么一些用戶會(huì)在一定的時(shí)間內(nèi)產(chǎn)生更多的數(shù)據(jù)。“速度的變化會(huì)影響分析的結(jié)果,”Beyer補(bǔ)充道,“尤其是當(dāng)事件的數(shù)據(jù)模型是特定的的時(shí)候。”

此外,在大量的數(shù)據(jù)被分析處理時(shí),相關(guān)信號(hào)中會(huì)出現(xiàn)大量的噪音。 “你需要進(jìn)行反復(fù)的測(cè)試來(lái)找出可能一開始就被忽略了的東西,因?yàn)閿?shù)據(jù)分析的每個(gè)類型都是不斷發(fā)展地,”Beyer表示。“一個(gè)人的信息對(duì)另一個(gè)人而言可能是噪音,這意味著弄清楚每個(gè)信息消費(fèi)者的需要是非常重要的。”大數(shù)據(jù)的工作之一就是實(shí)時(shí)過濾無(wú)用信息,這就是兩者之間的區(qū)別。

企業(yè)在處理大數(shù)據(jù)方面還是不成熟的,但他們有動(dòng)力和信心。據(jù)Beyer表示,處理大數(shù)據(jù)的能力將成為IT領(lǐng)域未來(lái)十年里最重要的基礎(chǔ)設(shè)施變化。而且,它對(duì)知識(shí)管理具有重大影響。

二、正在發(fā)展的大數(shù)據(jù)

大數(shù)據(jù)在企業(yè)中的應(yīng)用正在快速增加。例如,建立商業(yè)智能(BI)解決方案時(shí),一個(gè)行之有效的方法是運(yùn)用大數(shù)據(jù)技術(shù)來(lái)存儲(chǔ)、處理和檢索信息。這種做法將提高商業(yè)智能產(chǎn)品中的大數(shù)據(jù)能力的知名度和可用性。

世紀(jì)90年代中期,Expedia.com率先進(jìn)軍在線旅游行業(yè),并成為了世界領(lǐng)先的在線旅游網(wǎng)站。該公司提供全方位的服務(wù),包括預(yù)訂機(jī)票、預(yù)訂酒店、游船與汽車租賃,和參與旅游地區(qū)的特別活動(dòng)的機(jī)會(huì)。其網(wǎng)站為26個(gè)國(guó)家提供當(dāng)?shù)卣Z(yǔ)言信息,每年訪問Expedia網(wǎng)站的特殊用戶超過75萬(wàn)人。因此,和訪問與交易相關(guān)的數(shù)據(jù)量迅速增加,而Expedia公司便利用大數(shù)據(jù)來(lái)分析其需求。

的分析重點(diǎn)是客戶服務(wù)和預(yù)訂,以及衡量其營(yíng)銷活動(dòng)的有效性。該公司每月收集幾十TB的使用數(shù)據(jù),它的數(shù)據(jù)庫(kù)包含約200千兆字節(jié)的信息量?,F(xiàn)在,根據(jù)一個(gè)可行的技術(shù)組合,Expedia可以存儲(chǔ)、分析數(shù)據(jù)和獲得結(jié)果,從而指導(dǎo)整個(gè)公司的決策。

三、大數(shù)據(jù)分析目標(biāo)

副總裁兼總經(jīng)理Joe Megibow表示,“我們結(jié)合了包括Hadoop的分布式存儲(chǔ)在內(nèi)的許多不同技術(shù),來(lái)拓展更廣闊的分析視野。”Expedia的分析項(xiàng)目中的一個(gè)關(guān)鍵因素是SAS(sas.com)分析平臺(tái)。 “利用SAS(軟件即服務(wù))分析,我們可以從廣泛分析的大型數(shù)據(jù)集中提取有用的數(shù)據(jù)子集。”

分析使Expedia公司可以知道客戶的喜好和對(duì)不同的營(yíng)銷渠道的有效性的評(píng)價(jià)。幾年來(lái),Expedia在利用SAS分析時(shí),越來(lái)越從大數(shù)據(jù)中受益,交易和通過數(shù)據(jù)點(diǎn)擊量和社會(huì)化媒體輸入量都在不斷增長(zhǎng)。“利用SAS分析和其他分析大量數(shù)據(jù)的技術(shù)變得更容易了,”Megibow補(bǔ)充道。在過去的一年中,Expedia已經(jīng)開展了大規(guī)模的客戶行為分析,隨著時(shí)間的推移,Expedia的發(fā)展模式將有助于分析其營(yíng)銷效果和客戶反應(yīng)之間的因果關(guān)系。

分析工作的一個(gè)重要目標(biāo)是要尋找廣告和什么相聯(lián)系,它以何種方式投資、促使客戶在其網(wǎng)站上從訪客轉(zhuǎn)化為客戶。 “大多數(shù)用戶需要訪問多次才能完成交易,”Megibow指出,“而這個(gè)大容量數(shù)據(jù)存儲(chǔ)和分析會(huì)在特定時(shí)間或較長(zhǎng)時(shí)期內(nèi),提供給我們關(guān)于客戶行為的重要見解。”

過去幾年里,大數(shù)據(jù)技術(shù)在分析可行的任務(wù)方面已經(jīng)有了實(shí)質(zhì)性的進(jìn)展。 “我們總是想辦法解決有關(guān)大數(shù)據(jù)的疑問,但在過去,技術(shù)還無(wú)法幫助我們實(shí)現(xiàn)分析目標(biāo),提取大量數(shù)據(jù)可能需要一整天,而分析則可能需要數(shù)月。現(xiàn)在,我們可以用不到一個(gè)小時(shí)的時(shí)間處理完大數(shù)據(jù)集,并且根據(jù)時(shí)間表來(lái)運(yùn)用SAS分析。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)