幾乎每見一個創(chuàng)業(yè)者,我都會聽到一次 “…,然后我們用大數(shù)據(jù)做用戶精準(zhǔn)畫像 / 智能推薦 / 金融征信…”,其中有多少人舉著大數(shù)據(jù)的旗、干著基礎(chǔ)數(shù)理統(tǒng)計的事,大家心知肚明。
大數(shù)據(jù)背后的技術(shù)算法是核心,創(chuàng)業(yè)公司搭一個基礎(chǔ)大數(shù)據(jù)的 “臺子” 至少要請 4 個工程師,即使程序員的月薪降到 12k,也意味著每年至少 50 萬元的成本。在創(chuàng)業(yè)初期,產(chǎn)品、商業(yè)模式都需要不斷打磨、改善的情況下,分出精力和財力去做這件事,不一定劃算。
所以這種服務(wù)交由第三方企業(yè)來做是趨勢,但由于價格高、服務(wù)不容易產(chǎn)品化、標(biāo)準(zhǔn)化,導(dǎo)致不容易區(qū)分服務(wù)的水平。另外,一家第三方服務(wù)商在不同應(yīng)用場景上也有不同的表現(xiàn),做得好壞主要還是看應(yīng)用場景以及是否能結(jié)合客戶業(yè)務(wù)來提升其業(yè)績。
最近剛剛拿到來自真格、眾米資本和掌門科技集團(tuán)1000 萬元天使投資的 “達(dá)觀數(shù)據(jù)(官網(wǎng))”,主要的應(yīng)用有三:數(shù)據(jù)挖掘分析、搜索性能優(yōu)化、通過用戶畫像做精準(zhǔn)推薦。同樣以智能推薦為核心,較為成熟的國外公司是Taboola。
在數(shù)據(jù)采集方面,大數(shù)據(jù)公司通常會用爬蟲抓取網(wǎng)絡(luò)信息,并打通第三方應(yīng)用 SDK、Java Script 接口來獲取一些淺層數(shù)據(jù),比如日活、月活、用戶留存率等等。而除此之外,達(dá)觀還要求其客戶向其打通更深層的 js 數(shù)據(jù),比如用戶點擊行為、收藏記錄、付費記錄等等。
在此之后達(dá)觀為客戶提供最基礎(chǔ)的服務(wù)是數(shù)據(jù)分析,比如用戶在應(yīng)用搜索欄和個性推薦欄中的轉(zhuǎn)化率分別是多少。該公司也推出了一個免費的 APP “達(dá)觀公眾號”,為微信公眾號運營人員提供數(shù)據(jù)分析工具,希望以此積累數(shù)據(jù)和用戶口碑。
而達(dá)觀核心的應(yīng)用場景則是搜索優(yōu)化和智能推薦,前者如關(guān)鍵字補(bǔ)全、自動糾錯、相關(guān)搜索、中英文自動串聯(lián)識別,這些體驗我們能在 Google、百度等搜索引擎中感知到,中小企業(yè)很難做好卻又非常需要,這就是為何知乎要引入搜狗來提供搜素技術(shù)(知乎的搜索體驗一直飽受詬?。?。
智能推薦的應(yīng)用也不難理解,早期以 Amazon 為典型的商品推薦算法用戶早已司空見慣,比如用戶在某電商買了輛自行車,隨即便推薦坐墊、頭盔等相關(guān)產(chǎn)品,常見的算法原理有 “與你類似的人喜歡什么” 以及 “從你喜歡的東西推測出你還會喜歡什么”。許多創(chuàng)業(yè)公司都是通過為產(chǎn)品打 tag 的方式強(qiáng)行關(guān)聯(lián)相似產(chǎn)品,體驗不一定好。
達(dá)觀在引擎架構(gòu)研發(fā)中使用到了點擊模型,通過與用戶的隱性交互如點擊反饋,可以對結(jié)果進(jìn)行調(diào)優(yōu):將符合用戶偏好但位置靠后的 item 提取至前,或者將不符合用戶意圖的 item 降權(quán)減分。
以電商推薦系統(tǒng)為例,這里引用該公司技術(shù)人員江永青在其微信公號發(fā)布文章中的論述:
協(xié)同過濾算法中,如果沒有顯性的評分機(jī)制,就需要收集點擊的行為來作為正向的評分。不同類型的點擊(如查看、加購物車、加關(guān)注等)可以生成不同維度的二維相似度矩陣,最后推薦的結(jié)果由這些矩陣計算生成的中間結(jié)果加權(quán)得到。
不過江永青也表示點擊模型存在一些挑戰(zhàn)和難點,包括位置偏向、冷啟動數(shù)據(jù)不足、感知相關(guān)性與數(shù)據(jù)無關(guān)、無法覆蓋長尾點擊數(shù)據(jù)、故意點擊作弊、Session 手機(jī)難。
大數(shù)據(jù)服務(wù)的量化標(biāo)準(zhǔn)是為客戶帶來多少業(yè)績提升,達(dá)觀數(shù)據(jù) COO 馮佳妮向 36 氪列舉了一些案例,其中比較突出的是文學(xué)網(wǎng)站 “瀟湘書院”,該公司根據(jù)用戶瀏覽、點擊、購買等記錄做出一套新的推薦系統(tǒng),較之前提升了 300%的下單購買率、85%的點擊率,年費大概為幾十萬元。
達(dá)觀數(shù)據(jù)自 2015年5月 創(chuàng)建、10月 上線達(dá)觀公眾號產(chǎn)品,至今已累計服務(wù) 8000 個自媒體用戶。
而其面向大 B 客戶的服務(wù)則按照 SaaS 的形式收取年費,每筆從 20 萬元至 200 萬元不等。馮佳妮表示,已經(jīng)在和一些電商企業(yè)洽談數(shù)據(jù)打通事宜,比如某國內(nèi)女性經(jīng)期管理應(yīng)用、同仁堂旗下的保健品電商品臺,還有一家 FA 機(jī)構(gòu)。該公司也將于今年上半年和復(fù)旦大學(xué)計算機(jī)學(xué)院合作組建 “大數(shù)據(jù)實驗室”,與科研機(jī)構(gòu)聯(lián)合做政企服務(wù),相關(guān)政府單位已經(jīng)提出文化場所選址規(guī)劃、管轄范圍內(nèi)企業(yè)運營情況分析等需求。
做企業(yè)深度服務(wù)的訂單周期較慢是正?,F(xiàn)象,但達(dá)觀面臨的主要問題還是如何獲得更多客戶,不得不解決的問題有兩個:
需要提供統(tǒng)一接口,滿足普通企業(yè)的基礎(chǔ)需求,客戶提出個性化需求后只需做簡單的改動而不用重頭再來。馮佳妮表示未來希望做成類似云服務(wù)的產(chǎn)品,讓客戶按需選擇服務(wù)。
目前達(dá)觀團(tuán)隊有 20 余名,因人手不夠的問題只好將一些找上門來的客戶暫時擱置,即使該團(tuán)隊有不少技術(shù)大牛,但人才稀缺是不得不考慮的問題。
達(dá)觀數(shù)據(jù)成立時間只有 7 個月,核心的三位聯(lián)合創(chuàng)始人全部出自盛大:
CEO 陳運文為復(fù)旦大學(xué)計算機(jī)博士,曾擔(dān)任盛大文學(xué)首席數(shù)據(jù)官,騰訊文學(xué)高級總監(jiān)、數(shù)據(jù)中心負(fù)責(zé)人,百度核心技術(shù)研發(fā)工程師,國際計算機(jī)學(xué)會(ACM)會員,中國計算機(jī)學(xué)會(CCF)高級會員,在國際頂級學(xué)術(shù)期刊和會議上發(fā)表多篇 SCI 論文,多次參加 ACM 國際數(shù)據(jù)挖掘競賽并獲得冠軍榮譽(yù);
CTO 紀(jì)達(dá)麒為原騰訊文學(xué)數(shù)據(jù)中心高級研究員、盛大文學(xué)技術(shù)總監(jiān)等職務(wù); 原搜狗廣告技術(shù)部和百度技術(shù)部高級工程師;擁有北京郵電大學(xué)計算機(jī)碩士學(xué)位;
COO 馮佳妮為原盛大云計算公司運營總監(jiān)、安普丹華國際咨詢公司高級咨詢師,多次獲安普丹華公司 Top-Sales 榮 譽(yù);擁有山西財經(jīng)大學(xué)工商管理和商務(wù)英語雙學(xué)士學(xué)位。