大數(shù)據(jù):在信息的海洋里尋找洞見

責(zé)任編輯:editor006

2015-03-30 14:47:08

摘自:51CTO

負(fù)責(zé)美國宇航局在加州帕薩迪納市的噴氣推進(jìn)實(shí)驗(yàn)室大數(shù)據(jù)的 Chris Mattmann 表示,NASA 總共管理著幾百 PB 容量的數(shù)據(jù),幾乎達(dá)到 1EB。

什么是「大數(shù)據(jù)」(Big data)?研究機(jī)構(gòu) Gartner 給出了這樣的定義?!复髷?shù)據(jù)」是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。從各種類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù),這也正是促使大數(shù)據(jù)技術(shù)具備走向眾多企業(yè)的潛力。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,通過「加工」實(shí)現(xiàn)數(shù)據(jù)的「增值」。

大數(shù)據(jù):在信息的海洋里尋找洞見

近 10 年來,政府和企業(yè)在世界范圍內(nèi)收集了大量互聯(lián)網(wǎng)用戶的數(shù)據(jù),不僅僅是姓名和數(shù)字,而是一連串?dāng)?shù)據(jù)---大數(shù)據(jù)。國際數(shù)據(jù)公司(International Data Corporation) 最近預(yù)測大數(shù)據(jù)行業(yè)復(fù)合年增長率將達(dá)到 26.4%,在 2018 年達(dá)到 415 億美元。這意味著越來越多的企業(yè)和組織將花費(fèi)巨資研究分析大數(shù)據(jù)并獲得有價值的信息。負(fù)責(zé)美國宇航局在加州帕薩迪納市的噴氣推進(jìn)實(shí)驗(yàn)室大數(shù)據(jù)的 Chris Mattmann 表示,NASA 總共管理著幾百 PB 容量的數(shù)據(jù),幾乎達(dá)到 1EB。

1 EB(Exabyte,艾可薩字節(jié)或艾字節(jié)) 是多少容量?這意味著 10 億 GB,像這樣:1000000000 GB。

這些巨大的數(shù)據(jù)擴(kuò)散的速度如此之快以至于傳統(tǒng)的數(shù)據(jù)技術(shù)跟不上它們的節(jié)奏。TNS 市場研究公司 (Taylor Nelson Sofres)亞太地區(qū)首席執(zhí)行官 Chris Riquier 告訴我大數(shù)據(jù)對市場研究有非常大的影響。Riquier 表示,市場研究是建立在調(diào)研和問卷調(diào)查之上的。他講道,在過去,調(diào)研的過程或花費(fèi)數(shù)周的時間,最終用呈現(xiàn)的數(shù)據(jù)來分析企業(yè)規(guī)模和相關(guān)信息,通過整合社交媒體數(shù)據(jù)、搜索數(shù)據(jù)以及其他形式的大數(shù)據(jù)來做成報(bào)告,而現(xiàn)在我們有機(jī)會來「重新思考研究是如何完成的?!筊iquier 表示,由于大數(shù)據(jù),我們對「市場和決策力的反應(yīng)已經(jīng)發(fā)生了很大的變化?!?/p>

在今天的數(shù)字世界里,大數(shù)據(jù)通過跨行業(yè)、政府、科學(xué)、公共健康和學(xué)術(shù)界來發(fā)現(xiàn)相關(guān)性。在過去,從信息里的海洋里獲得有用的數(shù)據(jù)信息對大多數(shù)人來說一直是可望而不可即的事情。直到去年,哈佛雜志在 2014 年刊登的一篇文章,標(biāo)題為「為什么大數(shù)據(jù)是一樁大買賣?」(Why「Big Data」is a Big Deal),文中表示通過改進(jìn)的統(tǒng)計(jì)和計(jì)算方法, 包括關(guān)聯(lián)數(shù)據(jù)集、可視化數(shù)據(jù)以及創(chuàng)建「大算法」等這些關(guān)鍵的創(chuàng)新,能使我們快速處理這些數(shù)據(jù)并為我們所用。從物理學(xué)家到文天學(xué)家,他們長期與大數(shù)據(jù)打交道,數(shù)據(jù)科學(xué)家和社會學(xué)家通過結(jié)合定量與定性的方法來從大數(shù)據(jù)中獲得有用的信息。實(shí)際上,大數(shù)據(jù)正在創(chuàng)造一個新領(lǐng)域,哈佛大學(xué)工程與應(yīng)用科學(xué)學(xué)院為此開設(shè)數(shù)據(jù)科學(xué)碩士學(xué)位。

在《大數(shù)據(jù)-一場改變我們生活、工作和思考的革命》一書中,Viktor Mayer-Schonberger 和 Kenneth Cukier 談到企業(yè)是如何改變方式來做出決策---基于對大數(shù)據(jù)的分析。例如,谷歌通過其收集的大數(shù)據(jù)來預(yù)測預(yù)測禽流感的散布,其反應(yīng)速度比美國疾病控制中心還要迅速。

據(jù)華爾街日報(bào)最近的一篇文章,加拿大銀行使用由開源軟件開發(fā)商 Apache 開發(fā)的 Hadoop 來儲存和處理大數(shù)據(jù),并能識別洗錢和欺詐等犯罪行為。

大數(shù)據(jù)之于普通人

哈佛、NASA、谷歌和 Apache 利用大數(shù)據(jù)的分析能力在世界范圍內(nèi)帶來先進(jìn)的技術(shù),但就像我之前提到的,這并不意味著科學(xué)家們能很快從大數(shù)據(jù)中受益。讓我們來看一看一些企業(yè)和公司在收集和管理大數(shù)據(jù)的幾個方面。

其中大數(shù)據(jù)最主要的一個用途就是在市場中的搜索引擎優(yōu)化(SEO)。公司和企業(yè)能利用搜索引擎公司如谷歌和必應(yīng)提供的工具,結(jié)合不同的社交媒體數(shù)據(jù),收集有用的信息來進(jìn)行網(wǎng)絡(luò)營銷。咨詢公司 Hall Analysis 的研究員 Joe Hall 主要研究搜索引擎優(yōu)化和大數(shù)據(jù),他表示有兩種方法能使用大數(shù)據(jù)來處理搜索引擎優(yōu)化。

他說:「第一種是處理與大數(shù)據(jù)集有關(guān)聯(lián)的業(yè)務(wù)。在大多數(shù)情況下這意昧著大品牌和大企業(yè)能獲得非常多的數(shù)據(jù)。」Hall 引用一個例子,一個客戶有 1600 萬個反向鏈接,或者從其他網(wǎng)站鏈接指向客戶的網(wǎng)站。這些鏈接對谷歌和其他搜索引擎來說是一個非常重要的排名因素。他解釋說,數(shù)據(jù)集的大小需要像模式分析那樣有強(qiáng)大的處理各種任務(wù)的能力,并在這種水準(zhǔn)下為反向鏈接分析改變規(guī)則。

Hall 表示,第二種方法是公司能利用大數(shù)據(jù)使搜索引擎優(yōu)化變得更具態(tài)勢感知能力。這表明使用相關(guān)性研究能更好了解排名因素以及用戶點(diǎn)擊率、排名結(jié)果頁面等用戶行為分析。這兩種分析類型都需要大數(shù)據(jù)分析來達(dá)到最終的目的,并能有效幫助 SEO 專家開闊一個「更大的局面」。

另一方面是大數(shù)據(jù)在商業(yè)活動中能獲得用戶的忠誠度。舉個例子,比如我是一個創(chuàng)業(yè)公司的創(chuàng)始人,在我成功運(yùn)作公司的第一年后,公司業(yè)績蒸蒸日上,于是我給自己放個大假,去夏威夷度假。但在機(jī)場安檢的時候,檢票員告知我由于我的箱子超重,我需要付額外的費(fèi)用。但是檢票員可能不知道,作為一個成功創(chuàng)業(yè)公司的創(chuàng)始人和 CEO,我和我的員工將會在全世界各大城市奔波,為航空公司貢獻(xiàn)更多的里程。如果航空公司使用大數(shù)據(jù)整合來自信用卡公司、社交媒體源、博客、酒店等相關(guān)信息,他們會可能取消這樣的額外收費(fèi)還能獲得一個忠誠的客戶。

無論是大公司的 CEO 或是研究癌癥的醫(yī)生,或是一個淘寶店老板,使用大數(shù)據(jù)分析都將會為他們帶來有價值的信息。如今,在日常工作中我們可以利用大數(shù)據(jù)來獲得有價值的信息。當(dāng)我們進(jìn)入到這樣一個時代:基于大數(shù)據(jù)分析來作出決策,這將不可避免地改變我們思考世界的方式。

今天這一代人出生在數(shù)字化時代。而下一代人將進(jìn)入大數(shù)據(jù)時代。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號