大數(shù)據(jù)的門檻
TBO(旅游商業(yè)觀察):“如果你只有一堆人的電話號(hào)碼,這可能沒(méi)多大意義。但像攜程的數(shù)據(jù),比如所有人提前預(yù)訂、搜索、瀏覽、點(diǎn)評(píng)的信息等,這就是有價(jià)值的。但更深層的核心是,你能不能在某個(gè)產(chǎn)品上使用到這些數(shù)據(jù),而且確實(shí)有幫助。”眾薈數(shù)據(jù)智能事業(yè)部總經(jīng)理焦宇對(duì)TBO(旅游商業(yè)觀察)說(shuō)。
美團(tuán)云大數(shù)據(jù)平臺(tái)負(fù)責(zé)人對(duì)此表示認(rèn)同,“首先要弄清楚擁有的數(shù)據(jù)是否有價(jià)值,是否有人愿意為其買單。另外則是源數(shù)據(jù)的豐富度,是否能夠?yàn)閿?shù)據(jù)價(jià)值的發(fā)揮帶來(lái)補(bǔ)充和完善”。
顯然,數(shù)據(jù)收集的目的并不單單是把數(shù)據(jù)集中起來(lái),最終還是要在實(shí)際運(yùn)營(yíng)中發(fā)揮作用。擁有數(shù)據(jù)只是開端,如何深入分析、洞察數(shù)據(jù)彼此之間的關(guān)聯(lián),才是大數(shù)據(jù)應(yīng)用的關(guān)鍵,這也是眾多手握大數(shù)據(jù)企業(yè)的分水嶺。
不過(guò),在這個(gè)過(guò)程中,有一個(gè)不容忽視的問(wèn)題,那就是數(shù)據(jù)的質(zhì)量問(wèn)題。“錯(cuò)誤的輸入,換來(lái)的必然是錯(cuò)誤的輸出”,螞蜂窩大數(shù)據(jù)技術(shù)總監(jiān)韓鑫在接受TBO(旅游商業(yè)觀察)采訪時(shí)就特別指出了這個(gè)問(wèn)題。
“真正決定數(shù)據(jù)挖掘成敗的是數(shù)據(jù)本身的質(zhì)量,對(duì)于算法的合理使用和優(yōu)化反而是次要的。由于大數(shù)據(jù)的興起,我們很容易獲得龐雜的數(shù)據(jù);然而單純地指望從高深的算法中去獲得我們想要的信息而忽視數(shù)據(jù)本身的質(zhì)量,往往只能是空中樓閣。”
對(duì)大數(shù)據(jù)而言,表面上看數(shù)據(jù)是越多越好,因?yàn)楦嗟臄?shù)據(jù)可以產(chǎn)生更能擬合真實(shí)情況的場(chǎng)景,但同時(shí)更多的數(shù)據(jù)也產(chǎn)生了更多的噪音——所以單純的數(shù)據(jù)的量的增加并不能提高計(jì)算的精準(zhǔn)度。
因而擁有高質(zhì)量的數(shù)據(jù),要遠(yuǎn)比握有一堆龐雜的數(shù)據(jù)更有價(jià)值:這樣既能減少數(shù)據(jù)挖掘的難度,也有利于提高數(shù)據(jù)挖掘的精度。但是,這就是大數(shù)據(jù)的核心門檻嗎?
韓鑫認(rèn)為:“建立完整的大數(shù)據(jù)體系還需要兩個(gè)重要的因素,業(yè)務(wù)的豐富程度和數(shù)據(jù)思維的融入。”
焦宇從自己的實(shí)踐經(jīng)驗(yàn)出發(fā),談了自己的看法:“對(duì)一個(gè)特別好的產(chǎn)品經(jīng)理來(lái)講,大數(shù)據(jù)的門檻首先是要理解這個(gè)東西到底是什么;第二建模能力要強(qiáng)。從這兩方面說(shuō),人才相對(duì)都是稀缺的。比如有些公司是有大數(shù)據(jù)的,但要找到很牛的人來(lái)做這件事情,雖然理論上講是可以隨時(shí)找到的,但事實(shí)上卻很難。”
“第一個(gè)是大數(shù)據(jù)。第二個(gè)方面,有人把數(shù)據(jù)比喻成‘石油’,有石油寶藏還得有機(jī)器、工具把它挖出來(lái),這個(gè)工具就是機(jī)器學(xué)習(xí)。第三方面是計(jì)算能力的進(jìn)步。工具再?gòu)?qiáng),沒(méi)有非常強(qiáng)的計(jì)算能力,還是跑不動(dòng)的。”滴滴研究院院長(zhǎng)何曉飛則給出了這樣的答案。
數(shù)據(jù)挖掘的難點(diǎn)
數(shù)據(jù)挖掘,不像收集數(shù)據(jù)填幾張表,問(wèn)幾個(gè)問(wèn)題就能輕松實(shí)現(xiàn)。它的專業(yè)性相對(duì)較高,運(yùn)用的知識(shí)、技術(shù)難度也明顯加大。因而大多數(shù)的數(shù)據(jù)挖掘基本是由專業(yè)人士或?qū)I(yè)團(tuán)隊(duì)來(lái)做的。
另外,建模的成功與否,對(duì)數(shù)據(jù)呈現(xiàn)的結(jié)果也有非常重要的影響。模型不同,結(jié)果也往往會(huì)出現(xiàn)差異。
“任何人都能搭出來(lái)一個(gè)模型,只要搭出模型就能有結(jié)果,但這個(gè)結(jié)果是不是反映真實(shí)世界?因?yàn)閿?shù)據(jù)之間的關(guān)系,并不是直接的線性關(guān)系,因此模型可以非常復(fù)雜。所以你先得知道你要解決的是個(gè)什么問(wèn)題:從統(tǒng)計(jì)上來(lái)講,是哪種類型的問(wèn)題,它有什么樣的特性,你在數(shù)據(jù)上的采集有什么局限?然后再找到跟這個(gè)問(wèn)題最接近的模型。”焦宇說(shuō)。
“數(shù)據(jù)挖掘的難點(diǎn)在于,主要數(shù)據(jù)收集和最終應(yīng)用之間的相互關(guān)聯(lián)卻又矛盾的關(guān)系,這類似于‘先有雞還是先有蛋’的問(wèn)題。兩者之間相互影響相互補(bǔ)充,導(dǎo)致其相對(duì)其他類別的程序開發(fā)而言,是更為漫長(zhǎng)而又復(fù)雜的過(guò)程。” 韓鑫說(shuō)道。
無(wú)論是焦宇所說(shuō)的模型,還是韓鑫所說(shuō)的算法,其實(shí)都在強(qiáng)調(diào)一個(gè)重點(diǎn):根據(jù)實(shí)際情況變化對(duì)模型和算法做出相應(yīng)的調(diào)整。沒(méi)有固定的規(guī)則,只有時(shí)時(shí)更新的數(shù)據(jù)和不斷變化的情況,所以運(yùn)用的規(guī)則也要因時(shí)調(diào)整。
美團(tuán)云大數(shù)據(jù)平臺(tái)負(fù)責(zé)人則認(rèn)為,如何拿到“規(guī)范的數(shù)據(jù)”才是真正的難點(diǎn)所在:“新美大每天產(chǎn)生p級(jí)別的數(shù)據(jù),包括大量的商戶、用戶和交互數(shù)據(jù);每天通過(guò)hadoop、hive、spark、storm等大數(shù)據(jù)工具進(jìn)行批量和實(shí)時(shí)的清洗,才得以形成規(guī)范的數(shù)據(jù)。”
然而,也許最難的一點(diǎn)還是在于那個(gè)最實(shí)際的問(wèn)題。技術(shù)快速發(fā)展,提供了像應(yīng)用統(tǒng)計(jì)方法、事例推理、決策樹、規(guī)則推理、模糊集、神經(jīng)網(wǎng)絡(luò)、遺傳算法等諸多方法來(lái)處理信息,這既降低了數(shù)據(jù)挖掘的難點(diǎn),同時(shí)也提高了數(shù)據(jù)挖掘的效率和精準(zhǔn)度——但所有的這些,都需要不菲的資金。
許多人可能都聽說(shuō)過(guò)那些使用大數(shù)據(jù)的輝煌案例:Facebook每天要存儲(chǔ)大約100TB的用戶數(shù)據(jù);NASA每天要處理約24TB的數(shù)據(jù)。那么處理這些數(shù)據(jù)所需的成本是多少呢?
按照亞馬遜Redshift的定價(jià),NASA需要為45天數(shù)據(jù)存儲(chǔ)服務(wù)支付超過(guò)100萬(wàn)美元。而根據(jù)國(guó)外的一項(xiàng)調(diào)查,大多數(shù)企業(yè)的CIO稱他們的預(yù)算支付不起大數(shù)據(jù)部署的成本,數(shù)據(jù)存儲(chǔ)和處理的成本實(shí)在太高。
大數(shù)據(jù)真的精準(zhǔn)嗎
“對(duì)一個(gè)具體區(qū)域來(lái)說(shuō),滴滴數(shù)據(jù)大腦已經(jīng)達(dá)到提前15分鐘實(shí)現(xiàn)超過(guò)88%準(zhǔn)確率的預(yù)測(cè)。根據(jù)預(yù)測(cè)結(jié)果,就可以選擇要不要對(duì)司機(jī)運(yùn)力進(jìn)行調(diào)度,使在附近的司機(jī)可以提前到達(dá)運(yùn)力緊缺的區(qū)域,以緩解可能發(fā)生的擁堵。對(duì)于出行領(lǐng)域而言,預(yù)測(cè)的是未來(lái)的交通情況,以幫助智能調(diào)度。”滴滴研究院院長(zhǎng)何曉飛曾這樣對(duì)外表示。
這是一個(gè)正面案例。反過(guò)來(lái)看,如果大數(shù)據(jù)無(wú)法為企業(yè)營(yíng)銷、決策、運(yùn)營(yíng)找到合適的解決方案,那它的應(yīng)用前景自然不會(huì)被企業(yè)看好。所以大數(shù)據(jù)到底“準(zhǔn)不準(zhǔn)”,從最初就是商業(yè)力量最關(guān)注的點(diǎn)。
比如在《黃金時(shí)代》上映前,百度就對(duì)其票房做過(guò)預(yù)測(cè),認(rèn)為這部電影十一黃金周的票房會(huì)在2——3億元之間,當(dāng)時(shí)也有不少媒體都認(rèn)為百度的預(yù)測(cè)過(guò)于保守。實(shí)際情況出來(lái)后卻讓人大跌眼鏡,上映半個(gè)月票房還沒(méi)過(guò)5000萬(wàn)。
作為互聯(lián)網(wǎng)公司的排頭兵,百度擁有的數(shù)據(jù)量其他企業(yè)自然是難以匹敵的,但出現(xiàn)這種結(jié)果,卻不能不令人深思。
“大數(shù)據(jù)歸根結(jié)底還是歷史數(shù)據(jù),是否能用于預(yù)測(cè)未來(lái),既要看具體的問(wèn)題,也要看從歷史數(shù)據(jù)中分析出來(lái)的規(guī)律是否能在未來(lái)重演。仔細(xì)分析問(wèn)題,梳理規(guī)律適用的條件,充分理解數(shù)據(jù)、理解技術(shù)的局限,做到正確的使用大數(shù)據(jù)的成果,才能有對(duì)現(xiàn)實(shí)起到真正的作用。”韓鑫說(shuō)道。
事實(shí)上,單純來(lái)看一個(gè)結(jié)果并不能反映出預(yù)測(cè)的準(zhǔn)確與否。焦宇表示,“就像大家都知道,采取最佳玩法的情況下21點(diǎn)的勝率可以提高到49%。但這個(gè)概率對(duì)于某一人某一盤來(lái)講其實(shí)是沒(méi)有意義的,只有當(dāng)10萬(wàn)人同時(shí)進(jìn)行21點(diǎn)游戲,最后你會(huì)發(fā)現(xiàn)所有人的獲勝概率就是49%。”
焦宇所供職的眾薈信息,會(huì)通過(guò)數(shù)據(jù)分析為酒店提供收益管理預(yù)測(cè)。焦宇表示,對(duì)于真正成熟、有經(jīng)驗(yàn)的收益經(jīng)理來(lái)說(shuō),并不需要提供給他一個(gè)代表最終結(jié)果的數(shù)字——企業(yè)只需將整合的數(shù)據(jù)給到這些收益經(jīng)理,他們自己可以通過(guò)數(shù)據(jù)制定出一個(gè)最合理的價(jià)格。
中小企業(yè)的數(shù)據(jù)優(yōu)勢(shì)
從另一個(gè)角度來(lái)看,大數(shù)據(jù)預(yù)測(cè)的基礎(chǔ)還是需要一定量的數(shù)據(jù)。但究竟多大的數(shù)據(jù)量才算是大數(shù)據(jù)?這個(gè)問(wèn)題業(yè)內(nèi)并沒(méi)有一個(gè)統(tǒng)一的劃分標(biāo)準(zhǔn)。而中小企業(yè)也掌握一定量的數(shù)據(jù),那么與BAT相比它的優(yōu)勢(shì)又在哪?
阿里研究院高級(jí)專家程欣指出:“中小企業(yè)的大數(shù)據(jù)主要是會(huì)員數(shù)據(jù)和訂單數(shù)據(jù),用途是crm和定價(jià)分析,但無(wú)法分析不是自己的用戶。”每一類企業(yè)都有自己的短板,最明智的做法不是去一味的補(bǔ)齊短板,而是要充分發(fā)揮自己的優(yōu)勢(shì)。
而數(shù)量和豐富性是大數(shù)據(jù)的兩個(gè)面。BAT雖然在數(shù)據(jù)量上占據(jù)優(yōu)勢(shì),但卻在豐富性上受到局限,甚至并不具備垂直領(lǐng)域UGC所具備的大數(shù)據(jù)能力。中小企業(yè)則可以充分利用自己在垂直領(lǐng)域里深耕的優(yōu)勢(shì),將數(shù)據(jù)的豐富性提升上來(lái),從而獲得差異性的優(yōu)勢(shì)。
所以,中小企業(yè)對(duì)自有的數(shù)據(jù)進(jìn)行深耕,在數(shù)據(jù)挖掘方面也并非就一定比BAT等大型企業(yè)差。
美團(tuán)云大數(shù)據(jù)平臺(tái)負(fù)責(zé)人認(rèn)為:“用大數(shù)據(jù)是希望能夠有更全面的信息幫助企業(yè)決策,而不是為了用大數(shù)據(jù)而用大數(shù)據(jù)。應(yīng)該反過(guò)來(lái)看,企業(yè)的數(shù)據(jù)內(nèi)容,是否能夠?yàn)槟硞€(gè)行業(yè)的深度應(yīng)用帶來(lái)補(bǔ)充。所以中小企業(yè)的數(shù)據(jù),這里我不想提‘大’這個(gè)字,有點(diǎn)過(guò)于強(qiáng)調(diào)概念了,關(guān)鍵是看內(nèi)容層面是否有垂直化的信息補(bǔ)充,采集到BAT所沒(méi)有的數(shù)據(jù)。”
數(shù)據(jù)挖掘技術(shù)的諸多門檻,以及建立數(shù)據(jù)挖掘部門所需的投入,也決定了并非所有的企業(yè)都能擁有數(shù)據(jù)挖掘能力。數(shù)據(jù)挖掘能力要與公司規(guī)模與發(fā)展階段相匹配,在產(chǎn)品并不成熟的情況下,從現(xiàn)有人員中根據(jù)業(yè)務(wù)需要兼職去做會(huì)是一個(gè)不錯(cuò)的開始,并不一定需要配備獨(dú)立專職的團(tuán)隊(duì)。
在業(yè)務(wù)逐步走向成熟階段,再逐步建立專業(yè)化的數(shù)據(jù)團(tuán)隊(duì),則是一個(gè)更現(xiàn)實(shí)辦法。
“目前國(guó)內(nèi)的公司往往在B輪左右,開始搭建自己的數(shù)據(jù)團(tuán)隊(duì),開始具備初步的數(shù)據(jù)挖掘能力了。但基于此前所說(shuō)的大數(shù)據(jù)‘門檻’,并非所有搭建數(shù)據(jù)團(tuán)隊(duì)的公司,都可以被稱為大數(shù)據(jù)公司。”韓鑫說(shuō)。
不過(guò)韓鑫坦言,大數(shù)據(jù)就像是好的武器,到底能否有效、規(guī)?;脑诟鱾€(gè)戰(zhàn)場(chǎng)取勝,在于如何分析戰(zhàn)場(chǎng)形勢(shì),合理的使用武器達(dá)到戰(zhàn)術(shù)目的,形成戰(zhàn)略性勝果。
想真正的起到規(guī)?;男Чc作用,需要公司全員的努力,不能僅僅期待建立一個(gè)數(shù)據(jù)團(tuán)隊(duì)。要在日常產(chǎn)品設(shè)計(jì)研發(fā)運(yùn)營(yíng)的各個(gè)環(huán)節(jié),從基本的統(tǒng)計(jì)、分析入手,逐步形成全公司全員性的數(shù)據(jù)化思維,讓數(shù)據(jù)驅(qū)動(dòng)運(yùn)營(yíng)、數(shù)據(jù)驅(qū)動(dòng)研發(fā)、數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品等深入骨髓。
公司的數(shù)據(jù)體系建設(shè)也要圍繞各個(gè)業(yè)務(wù)各個(gè)職能角色進(jìn)行設(shè)計(jì)與搭建,讓所有人都能參與進(jìn)來(lái),每個(gè)人成為公司數(shù)據(jù)能力的一部分與推動(dòng)者。