大數(shù)據(jù)的定義
近年來,人們對(duì)“大數(shù)據(jù)”的關(guān)注度日益提高。這都?xì)w因于麥肯錫全球研究院在2011年發(fā)布的研究報(bào)告。該報(bào)告認(rèn)為人們即將迎來一個(gè)利用規(guī)模大到超出現(xiàn)有數(shù)據(jù)處理系統(tǒng)能力的巨量信息時(shí)代,并暗示戰(zhàn)略性地利用這些信息數(shù)據(jù),就有可能產(chǎn)生巨大的商業(yè)機(jī)會(huì)。
那么大數(shù)據(jù)到底是什么呢?從字面來看,它指的是以現(xiàn)有信息處理技術(shù)無法應(yīng)對(duì)的龐大信息量。而實(shí)際上,當(dāng)我們將儲(chǔ)蓄了各種服務(wù)的使用信息數(shù)據(jù)與用戶的屬性信息相結(jié)合,并在這些信息數(shù)據(jù)發(fā)生時(shí)能夠全量獲取,就被稱做大數(shù)據(jù)。
典型的是互聯(lián)網(wǎng)服務(wù)的利用數(shù)據(jù)。另外還包括零售業(yè)銷售數(shù)據(jù)(POS數(shù)據(jù))、電力使用數(shù)據(jù)、來自加速度傳感器和無線運(yùn)動(dòng)監(jiān)控器等設(shè)備的傳感器測(cè)量數(shù)據(jù)。
與抽樣數(shù)據(jù)不同,大數(shù)據(jù)網(wǎng)羅了來自各種服務(wù)用戶的所有利用數(shù)據(jù),它積累的信息不是以一天、一小時(shí),而是以每分、每秒的實(shí)際發(fā)生情況為基礎(chǔ)的。從地區(qū)信息方面來看,它不是以市區(qū)町村或其他更小的單位來劃分的,許多時(shí)候可以精確到6位、7位數(shù)的經(jīng)緯度座標(biāo)級(jí)別。
大數(shù)據(jù)的三個(gè)特性
人們通常以巨量(Volume)、多樣(Variety)和高速(Velocity)三個(gè)詞來概括大數(shù)據(jù)的特征,統(tǒng)稱為“3V”。但諸如作為典型大數(shù)據(jù)的電力、加速度傳感器等探測(cè)的數(shù)據(jù)就談不上擁有搜索關(guān)鍵詞這種“多樣性”。從速度和巨量這些條件來看也是如此,未必總能符合3V標(biāo)準(zhǔn)。
從利用角度來看,大數(shù)據(jù)具有以下三個(gè)特性。
一是可獲得的“屬性深度”低于一般的行為觀察和問卷調(diào)查數(shù)據(jù)。即使掌握了何時(shí)用過、用了多少等信息,但無法知曉“是在什么狀況下,出于什么理由或目的進(jìn)行了這些行為活動(dòng)”等利用背景。用戶的屬性信息(有無幼年子女、職業(yè)、教育程度、收入等)也比較少。這可以說是將這些數(shù)據(jù)用于市場(chǎng)營(yíng)銷時(shí)的一個(gè)課題。
二是覆蓋了所有的發(fā)生數(shù)據(jù)??梢哉页龀闃訑?shù)據(jù)中無法看到、相當(dāng)于發(fā)生頻率較低的尾端部分的數(shù)據(jù)的獨(dú)特類型。
三是信息利用的實(shí)時(shí)性。由于大數(shù)據(jù)可以實(shí)時(shí)讀取、處理消費(fèi)和利用過程中各個(gè)場(chǎng)合發(fā)生的情況,所以可用于捕捉特定行為和需求發(fā)生的瞬間。比如,當(dāng)某位特別關(guān)注某種汽車的用戶瀏覽了相關(guān)網(wǎng)頁時(shí),就可以立刻提供有關(guān)該汽車的信息。這是無法借助傳統(tǒng)市場(chǎng)營(yíng)銷數(shù)據(jù)實(shí)現(xiàn)的。
大數(shù)據(jù)發(fā)揮優(yōu)勢(shì)的事例
下面,讓我們以“為顧客提供價(jià)值”這種市場(chǎng)營(yíng)銷視角,從六個(gè)步驟上來觀察一下數(shù)據(jù)的廣泛利用。
第一步是“看清市場(chǎng)結(jié)構(gòu)與需求”,這是制定各種商品開發(fā)與服務(wù)戰(zhàn)略的基礎(chǔ);第二步是基于這種市場(chǎng)判斷,設(shè)計(jì)所提供的核心價(jià)值、服務(wù)屬性;第三是針對(duì)不同顧客的市場(chǎng)營(yíng)銷;第四是像前面提到那樣,在需求發(fā)生時(shí)提供推銷服務(wù)(廣告、郵件、網(wǎng)站內(nèi)容等);第五是檢驗(yàn)實(shí)施前四步以后產(chǎn)生的效果;第六是從數(shù)值上預(yù)測(cè)未來情況。
大數(shù)據(jù)在上述后四個(gè)步驟方面尤其具有優(yōu)勢(shì)。比如,要提供符合個(gè)別用戶特性的服務(wù)和信息,大數(shù)據(jù)是不可或缺的前提。在互聯(lián)網(wǎng)上依據(jù)用戶的網(wǎng)絡(luò)記錄過濾不恰當(dāng)信息,提供有針對(duì)性的廣告及符合個(gè)人消費(fèi)行為的優(yōu)惠券等,這都屬于典型事例。
實(shí)時(shí)打廣告或在搜索框中輸入熱門話題的部分字眼時(shí),立刻就會(huì)自動(dòng)提示話題相關(guān)詞匯,這種現(xiàn)象源于積累了用戶的使用數(shù)據(jù)后所產(chǎn)生的“機(jī)械學(xué)習(xí)”。通過這種機(jī)械學(xué)習(xí)利用大數(shù)據(jù)的特點(diǎn),在于服務(wù)提供方即使不理解具體語境也無妨。
此外,越是要詳細(xì)獲取信息,就越是離不開大數(shù)據(jù)的幫助。比如,觀察在特定的一周內(nèi),人們傍晚在某車站附近的店鋪內(nèi)集中購(gòu)買雞肉的變化情況這樣的例子。
預(yù)測(cè)分析選舉結(jié)果、景氣動(dòng)向等
另外,人們的一個(gè)強(qiáng)烈期望,是運(yùn)用大數(shù)據(jù)對(duì)不大遙遠(yuǎn)的未來,也就是對(duì)當(dāng)下或者近期做出準(zhǔn)確的定量預(yù)測(cè)。我在雅虎實(shí)施過兩個(gè)有趣的預(yù)測(cè)。一是預(yù)測(cè)了2013年7月的參議院選舉結(jié)果。
最終發(fā)現(xiàn),我們的預(yù)測(cè)大部分準(zhǔn)確,預(yù)測(cè)結(jié)果的準(zhǔn)確率超過了所有主要媒體。具體而言,我們發(fā)現(xiàn)互聯(lián)網(wǎng)上關(guān)注度—搜索量和推特、Facebook上的原創(chuàng)發(fā)帖量等——與投票方式具有高度關(guān)聯(lián)性,針對(duì)每個(gè)選舉區(qū)進(jìn)行了預(yù)測(cè)。歷來的辦法是通過專家學(xué)者的觀察、選民的呼聲和問卷調(diào)查結(jié)果等進(jìn)行綜合預(yù)測(cè),而我們僅依據(jù)數(shù)據(jù)的類型和利用量進(jìn)行預(yù)測(cè),獲得了準(zhǔn)確性超越傳統(tǒng)做法的結(jié)果。
另一個(gè)例子是經(jīng)濟(jì)情況的預(yù)測(cè)。內(nèi)閣府公布的景氣動(dòng)向指數(shù),通常在時(shí)間上要滯后1、2個(gè)月,但人們想知道的不是兩個(gè)月前的景氣好壞,更想知道現(xiàn)在的情況如何,于是我們開始了這個(gè)預(yù)測(cè)。我們首先從分析搜索詞條入手。雅虎上全年大約會(huì)出現(xiàn)75億種搜索詞條。我們對(duì)其中經(jīng)常被搜索的約60萬個(gè)進(jìn)行了全面分析后,篩選出了尤與經(jīng)濟(jì)指標(biāo)密切相關(guān)的200個(gè)關(guān)鍵詞。以此為基礎(chǔ),制作了用于推導(dǎo)當(dāng)前景氣指標(biāo)的模式,預(yù)測(cè)結(jié)果也成功做到了基本準(zhǔn)確。
如上所述,在對(duì)近期或當(dāng)前的定量預(yù)測(cè)中,大數(shù)據(jù)發(fā)揮出巨大作用。實(shí)際上,它早已被用到了日常的供應(yīng)鏈管理中,便利店一天三次發(fā)送數(shù)千件商品也沒有出現(xiàn)赤字的一個(gè)理由就在于此。
妨礙利用的各種問題
然后,我想談一談利用大數(shù)據(jù)時(shí)可能出現(xiàn)的幾種典型問題。第一,幾乎所有企業(yè)實(shí)體根本就沒有稱得上大數(shù)據(jù)的數(shù)據(jù)。這是問題之前的問題。
第二,各種數(shù)據(jù)本身尚未得到充分完善,導(dǎo)致無法整合數(shù)據(jù)加以利用。比如,零售商品數(shù)據(jù),通常按大類、中類、小類等多層次分類,但對(duì)這種商品管理數(shù)據(jù)結(jié)構(gòu),即使是在同一個(gè)零售集團(tuán)內(nèi)部,每個(gè)鏈條都各不相同。這樣一來,整合利用就變得極為困難。如何將這些數(shù)據(jù)整合起來加以利用是一個(gè)重大課題。
即使解決了上述兩個(gè)問題,另外還需要一種可以實(shí)時(shí)處理和利用龐大數(shù)據(jù)的機(jī)制。大多數(shù)企業(yè)既沒有這種機(jī)制,而且也不具備基礎(chǔ),將不斷涌入的數(shù)據(jù)存儲(chǔ)到記憶裝置中去。就算擁有存儲(chǔ)基礎(chǔ),也沒有運(yùn)用維護(hù)的人才。
為了解決這些問題,公司迫切需要的是擁有綜合技能的人才,運(yùn)用信息科學(xué)和工程技術(shù)學(xué),從海量的數(shù)據(jù)中找出解決商業(yè)課題的答案。
綜上所述,缺乏數(shù)據(jù)、無法整合、不能建立讀取處理和利用的機(jī)制、沒有足夠的儲(chǔ)存保管基礎(chǔ)、缺乏運(yùn)用維護(hù)人才以及可以綜合梳理并解決問題的人才——這就是現(xiàn)今大多數(shù)公司利用大數(shù)據(jù)的現(xiàn)狀。
安全對(duì)策上的兩極分化
在有關(guān)大數(shù)據(jù)的爭(zhēng)論中,人們經(jīng)常提到隱私保護(hù)問題,由于混雜了基于不同立場(chǎng)的論調(diào),所以視角的不同會(huì)導(dǎo)致問題反映的層次不同。
關(guān)于安全問題,大多數(shù)主要的互聯(lián)網(wǎng)運(yùn)營(yíng)商早已為此采取了有效的措施。比如雅虎,將可以鎖定個(gè)人的信息與行為痕跡數(shù)據(jù)明確地分離開來,使用的數(shù)據(jù)都經(jīng)過了匿名化處理。
另一方面,許多傳統(tǒng)型企業(yè)對(duì)個(gè)人信息與日志文件都不加以區(qū)分,而是把它們整合起來進(jìn)行管理;再加上許多這樣的企業(yè)缺乏監(jiān)控危險(xiǎn)的完善機(jī)制,甚至難以發(fā)現(xiàn)數(shù)據(jù)是否已經(jīng)外泄。
在數(shù)據(jù)的利用上,企業(yè)間出現(xiàn)了兩極分化。為了保護(hù)使用者,各家企業(yè)在利用之前,必須首先針對(duì)數(shù)據(jù)管理制定規(guī)章指南。
日本面臨的三個(gè)“障礙”
總體而言,與美國(guó)等一些國(guó)家相比,現(xiàn)今日本的數(shù)據(jù)利用環(huán)境存在三大障礙。一是創(chuàng)造大數(shù)據(jù)的企業(yè)較少。二是缺乏打造一個(gè)便于利用數(shù)據(jù)環(huán)境的基礎(chǔ)。比如,日本的電費(fèi)是美國(guó)的好幾倍,導(dǎo)致數(shù)據(jù)中心的設(shè)立和運(yùn)營(yíng)成本高昂。這也是信息類主要企業(yè)始終沒有涉足日本數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)領(lǐng)域的一個(gè)原因。為了吸引數(shù)據(jù)產(chǎn)業(yè)落戶,至少應(yīng)該設(shè)置一些諸如提供特殊電價(jià)的例外措施。
第三是前述的人才不足問題。針對(duì)這一問題,需要兼?zhèn)淙N能力的人才,即“數(shù)據(jù)科學(xué)能力”、“數(shù)據(jù)工程技術(shù)能力”,以及在理解問題背景的基礎(chǔ)上,梳理并解決這些問題的“商務(wù)能力”。
數(shù)據(jù)科學(xué)能力指的是理解和運(yùn)用信息處理、人工智能、統(tǒng)計(jì)學(xué)等信息科學(xué)知識(shí)的能力。數(shù)據(jù)工程學(xué)能力指的是能以有意義的形式運(yùn)用數(shù)據(jù)科學(xué),組建并運(yùn)用實(shí)際系統(tǒng)的能力。我認(rèn)為,不一定非得要求一人多能,但能否有意識(shí)地集中培養(yǎng)一批各有所長(zhǎng)的人才,將是決定未來大數(shù)據(jù)利用成功與否的關(guān)鍵。