大數(shù)據(jù)的概念(Big Data)已經(jīng)火了5年了,從Google Trends上來看11年以來,關(guān)注度一路快速增長,到15年開始逐步持平。實際上大數(shù)據(jù)已經(jīng)逐步走過了描繪愿景的階段,人們期待的是大數(shù)據(jù)能夠真正在各個行業(yè)落地,產(chǎn)生巨大的價值。但目前來看創(chuàng)造了明顯商業(yè)價值的應(yīng)用還是在互聯(lián)網(wǎng),除了搜索以外,殺手級的應(yīng)用也就兩個--精準(zhǔn)廣告和推薦。TalkingData在大數(shù)據(jù)領(lǐng)域耕耘了5年,發(fā)展非常迅速,在很多傳統(tǒng)行業(yè)的大數(shù)據(jù)應(yīng)用都是居于國內(nèi)領(lǐng)先地位。但是當(dāng)我們的業(yè)務(wù)發(fā)展得越來越好,涉及的行業(yè)越來越多,客戶越來越多,項目越來越大,越來越深入的時候,我們卻覺得讓大數(shù)據(jù)產(chǎn)生價值的瓶頸也越來越大。從本質(zhì)上來講這個瓶頸就是目前大數(shù)據(jù)在傳統(tǒng)行業(yè)的應(yīng)用其邊際成本并不是趨于0的。
回過頭來看大數(shù)據(jù)在互聯(lián)網(wǎng)里的成功應(yīng)用,無論是搜索,精準(zhǔn)廣告還是推薦系統(tǒng),其投入成本是非常高的。需要巨大的計算機(jī)集群,和人力成本非常高的程序員和數(shù)據(jù)科學(xué)家,以及大量的研發(fā)投入。但是所有這些業(yè)務(wù)都是在線業(yè)務(wù),當(dāng)用戶規(guī)模擴(kuò)大以后,除了硬件資源上的成本外,其他的成本迅速被攤薄,使得其邊際成本趨近于0。業(yè)務(wù)規(guī)模越大,邊際成本越低,對技術(shù)成本的投入也就越不敏感。這也是為什么越是大的互聯(lián)網(wǎng)公司,越舍得在搜索,廣告和推薦系統(tǒng)這幾個大數(shù)據(jù)應(yīng)用方面做投入。因為提高0.1%的預(yù)測精準(zhǔn)度,就能獲得上億的收入。作為應(yīng)用大數(shù)據(jù)產(chǎn)生價值最大的互聯(lián)網(wǎng)企業(yè),自然是成為傳統(tǒng)企業(yè)效仿的榜樣。但是傳統(tǒng)行業(yè)受制于業(yè)務(wù)規(guī)?;蛘邩I(yè)務(wù)形態(tài),無法實現(xiàn)大數(shù)據(jù)應(yīng)用的邊際成本趨于0。
如果在不具備邊際成本趨于0的行業(yè)中按照互聯(lián)網(wǎng)行業(yè)成本不敏感的方式來對大數(shù)據(jù)進(jìn)行投資,在初期的熱情過后一定會發(fā)現(xiàn)這是不可接受的。這就是大數(shù)據(jù)普及化的過程中遇到的最大的瓶頸。我們TalkingData一直致力于為更多的企業(yè)提供最高標(biāo)準(zhǔn)的大數(shù)據(jù)解決方案和服務(wù),但業(yè)務(wù)的迅速增長迅速吃掉了我們的研發(fā),咨詢和數(shù)據(jù)科學(xué)資源,為了保證交付質(zhì)量,我們不得不拒絕了很多潛在客戶。
互聯(lián)網(wǎng)創(chuàng)造了大數(shù)據(jù),基于大數(shù)據(jù)創(chuàng)造出來的智能在搜索、精準(zhǔn)廣告、推薦系統(tǒng)等應(yīng)用中又創(chuàng)造了巨大的商業(yè)價值。但是大數(shù)據(jù)創(chuàng)造智能的成本是非常高昂的,除了基本的軟硬件資源投入,最大的成本在于人力資源的成本。收集,清洗,抽取,糾錯,整合不同來源的龐大數(shù)據(jù)幾乎完全依賴人的智慧,特征工程,分析,算法開發(fā),建模,調(diào)參,優(yōu)化,部署,測試等等所有這些工作也是完全依依賴于人的智慧。不但需要巨大的人力將應(yīng)用建立起來,也需要巨大的人力來維護(hù)。而且當(dāng)我們想調(diào)整應(yīng)用的目標(biāo)時,又需要投入巨大的人力來進(jìn)行調(diào)整。目前的大數(shù)據(jù)應(yīng)用方式,就像烏爾邦大炮,耗費人力無數(shù)而又笨重不堪,除了用于攻陷君士坦丁堡這樣的千年名城外,很難在其他戰(zhàn)場上有用武之地。我們現(xiàn)在很多企業(yè),甚至政府都在投入巨資建設(shè)自己的烏爾邦大炮,但是很可能這些投資最終只是成為對大數(shù)據(jù)崇拜的圖騰。
廣大的中小型互聯(lián)網(wǎng)公司和眾多的傳統(tǒng)企業(yè),在大數(shù)據(jù)方面,真正需要的是成本相對低廉的山炮,野炮,即使用成本和門檻低很多的大數(shù)據(jù)平臺。這樣的平臺需要更有效率的融合數(shù)據(jù),機(jī)器的智能和人的智慧,讓人的智慧集中在理解數(shù)據(jù)這樣的平臺,定義問題,和把握解決問題的路徑和方向上。這樣的平臺應(yīng)該盡可能的把數(shù)據(jù)收集,清洗,抽取,糾錯,整合的工作交給機(jī)器,同時讓分析,建模和優(yōu)化工作擺脫像老中醫(yī)看病一樣依賴人的經(jīng)驗來選擇模型,算法和參數(shù)。這樣的平臺就是TalkingData的智能數(shù)據(jù)平臺-Smart Data Platform。Smart Data Platform將極大降低企業(yè)建設(shè),使用,和維護(hù)數(shù)據(jù)平臺的成本。Smart Data Platform將使得企業(yè)不但可以以很低的邊際成本運用大數(shù)據(jù)來提升核心業(yè)務(wù)的效率,而且可以以合理的成本應(yīng)用大數(shù)據(jù)在眾多小業(yè)務(wù),小場景下獲得更好的收益。
Smart Data Platform的概念涵蓋了數(shù)據(jù)管理,數(shù)據(jù)工程和數(shù)據(jù)科學(xué)。但是其精髓就在于用人工智能技術(shù)來突破傳統(tǒng)完全依賴于人的智慧來駕馭數(shù)據(jù)的方式,將由人來創(chuàng)造人工智能的方式逐步轉(zhuǎn)向由人工智能來創(chuàng)造人工智能。這將是大數(shù)據(jù)和人工智能發(fā)展的革命性變化,就如由人來創(chuàng)造機(jī)器轉(zhuǎn)變?yōu)橛脵C(jī)器來創(chuàng)造機(jī)器,從而打開了工業(yè)革命的大門一樣,大數(shù)據(jù)和人工智能的發(fā)展也將進(jìn)入一個快速螺旋上升的階段。
當(dāng)然,如此宏偉的目標(biāo)并不能一蹴而就。就目前而言,大數(shù)據(jù)技術(shù)最大的兩個瓶頸就在于數(shù)據(jù)加工處理和分析建模。前者通常被認(rèn)為是繁重的dirty work, 沒有多少人真正愛干。后者雖然是讓人興奮的工作,但是其更接近于藝術(shù),對人的能力,直覺,和經(jīng)驗要求很高。前者因為工作量的龐大,后者因為人才的稀缺,成為了目前大數(shù)據(jù)技術(shù)的阿格琉斯之踵。TalkingData在這兩個方面都做了一些工作,也對未來的發(fā)展方向做了一些展望。
數(shù)據(jù)的處理加工目前基本完全依賴人的智慧,對數(shù)據(jù)如何清洗,如何糾錯,如何標(biāo)準(zhǔn)化,如何聚合相似數(shù)據(jù)都要求人來制定規(guī)則,對數(shù)據(jù)關(guān)系的梳理更是有賴于人的智慧的輸入。在大數(shù)據(jù)時代到來之前,這些問題都不被人重視,但是從2012年大數(shù)據(jù)概念逐漸火起來之后,在VLDB, SIGMOD等學(xué)術(shù)會議上關(guān)于數(shù)據(jù)處理的論文達(dá)到204篇。學(xué)術(shù)界,工業(yè)界逐漸認(rèn)識到這個問題是大數(shù)據(jù)晴朗的天空上的一朵大烏云, 是必須要解決的問題。 AMPLab的SampleClean項目就是致力于用機(jī)器學(xué)習(xí)來解決數(shù)據(jù)的抽取,格式化,相似度連接等問題的項目。國外也有一些公司比如Tamr也在研發(fā)利用機(jī)器學(xué)習(xí)技術(shù)來解決元數(shù)據(jù)識別,糾錯,數(shù)據(jù)表自動關(guān)聯(lián)和相似數(shù)據(jù)項聚合的產(chǎn)品。SampleClean和Tamr都使用了Active Learning的技術(shù),在處理過程中對不確定的問題會提出來,讓人來回答,然后學(xué)習(xí)到人的判斷規(guī)律,不斷提高自身的智能程度。數(shù)據(jù)處理智能化這方面的研究和嘗試應(yīng)該說還處于起步階段,還沒有特別成熟的開源項目或者商業(yè)產(chǎn)品。TalkingData基于自己的實踐和對該方向跟蹤研究,將數(shù)據(jù)智能處理分為兩個階段,數(shù)據(jù)關(guān)系梳理,和數(shù)據(jù)項聚合。
數(shù)據(jù)關(guān)系梳理,是把所有數(shù)據(jù)表或者文件的Meta Data識別出來,然后根據(jù)Meta Data之間的關(guān)系把所有的數(shù)據(jù)表或者文件的關(guān)聯(lián)關(guān)系梳理出來。目前,這個過程基本都是由人來完成的,是個非常費時費力的工作,效率很難得到有效提高。如果要把這個過程自動化,那么會有三個層次的問題。首先,最簡單的,直接對Meta Data識別,這個通過將人的經(jīng)驗固化下來就可以解決這個問題。比如對手機(jī)號字段的識別,可以將常見手機(jī)號字段命名方式作為規(guī)則固化下來,在Meta Data識別時直接用規(guī)則判斷。當(dāng)然,事先固定的規(guī)則很難處理所有問題,這時可以引入Active Learing的方法,在不確定時可以讓人來介入判斷,然后再學(xué)習(xí)人的判斷成為新的規(guī)則。 其次,在很多情況下Meta Data的命名不具意義,或者因為某些原因丟失了Meta Data,那么直接判斷Meta Data本身就沒有辦法,這種情況下可以通過字段值的特征來判斷字段的意義,如手機(jī)號,是11位,以13x, 15x, 18x, 17x開頭的數(shù)字有很大可能是手機(jī)號,如果字段值都符合這些特征,那么這個字段就有非常高的可能性是手機(jī)號。同樣,我們可以通過預(yù)置規(guī)則+Active Learning的方式來支持這一功能。通過以上兩種方法識別除了字段的意義后,則可以很容易的建立起數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。但是,還有一種最困難的情況,就是通過以上兩種方式都無法確定意義的字段之間是否存在關(guān)聯(lián)關(guān)系。 這種情況下,我們需要預(yù)先建立通用的字段關(guān)聯(lián)識別的機(jī)器學(xué)習(xí)模型,根據(jù)兩個字段的數(shù)據(jù)值判斷兩個字段是否是同一字段。通過以上這些方法,機(jī)器能夠給出數(shù)據(jù)表或者文件之間的關(guān)系,當(dāng)然受限于機(jī)器的智能能力,不可能完全準(zhǔn)確,因此對于任何兩個表或者文件之間的關(guān)聯(lián)關(guān)系,給出的是相關(guān)的可能性,而不是是否關(guān)聯(lián),最后讓人來介入修正這些可能的關(guān)聯(lián)關(guān)系。這樣,梳理數(shù)據(jù)關(guān)系中大量繁重的工作都由機(jī)器完成,人只是介入其中為機(jī)器提供一些咨詢,和最后確認(rèn)結(jié)果,將大大提高人的效率。
數(shù)據(jù)項聚合或者相似度連接(Similarity Join)是另一個比較挑戰(zhàn)的任務(wù),因為相同的數(shù)據(jù)項因為書寫習(xí)慣,格式的不同,有可能產(chǎn)生一些差別。比如人名,地名,國家名稱等。對于變化不大的情況,采用相似度度量方法,再加上局部敏感哈希來加速匹配過程能取得不錯的效果。TalkingData在應(yīng)用包名合并的問題上綜合了應(yīng)用名,包名的字符串相似性,應(yīng)用描述的文本相似性,和基于深度學(xué)習(xí)的圖片相似度實現(xiàn)了包名的自動合并。但是對于更為復(fù)雜的問題,比如全稱和簡寫的問題,同義詞,反義詞,甚至是不同語言的問題,要比較好的解決這一問題,就需要知識圖譜的支撐。
數(shù)據(jù)分析建模中一個很大的問題就是模型選擇和參數(shù)選擇,這個問題對于數(shù)據(jù)科學(xué)家來說一直都是很頭疼的問題。知乎上有一個問題:為什么越來越覺得機(jī)器學(xué)習(xí)調(diào)參就像老中醫(yī)看??? 非常有意思,問題及其回答都體現(xiàn)了模型選擇和參數(shù)選擇是一個嚴(yán)重依賴數(shù)據(jù)科學(xué)家個人經(jīng)驗的工作。目前有一些開發(fā)數(shù)據(jù)科學(xué)平臺的公司為了解決這個問題,就在其產(chǎn)品中集成了自動選擇模型和參數(shù)的功能,其基本原理就是嘗試所有的模型及其參數(shù)空間(有可能根據(jù)一些啟發(fā)式方法來對搜索空間剪枝)。這種方法在小數(shù)據(jù)集上是可行的,但是對于大規(guī)模數(shù)據(jù)的問題,需要的計算量就是不可接受的。TalkingData在這方面做了一些工作,在即將開源的Fregata大規(guī)模機(jī)器學(xué)習(xí)算法庫中,我們實現(xiàn)了不需要調(diào)參的幾個經(jīng)典算法,這樣就使得算法可以作為標(biāo)準(zhǔn)的算子集成到數(shù)據(jù)處理流程中,而不需要case by case由數(shù)據(jù)科學(xué)家來調(diào)校,從而極大的提高在大規(guī)模問題上分析建模過程的效率。
以上兩個方面是TalkingData Smart Data Platform短期致力于達(dá)到的目標(biāo),有了智能的數(shù)據(jù)處理,和智能的數(shù)據(jù)分析建模,就可以大大提高大數(shù)據(jù)應(yīng)用的效率,降低成本。使得大數(shù)據(jù)在小業(yè)務(wù),小場景中也能創(chuàng)造出超過成本的價值,使得廣大的中小互聯(lián)網(wǎng)公司和傳統(tǒng)企業(yè)都能享受大數(shù)據(jù)的紅利。TalkingData也可以更高效的支持更多的客戶,幫助更多的企業(yè)在大數(shù)據(jù)上成功。“用數(shù)據(jù)的心智去超越”,TalkingData Smart Data Platform賦予機(jī)器以智能幫助人更好,更高效創(chuàng)造數(shù)據(jù)的心智去超越我們的夢想。