大數(shù)據(jù)行業(yè)看上去似乎并沒有受資本寒冬的影響。第一財經(jīng)記者從投中網(wǎng)獲悉,僅今年4月以來,大數(shù)據(jù)行業(yè)就有7家公司獲得融資,其中國外4家、國內(nèi)3家,金額總計約11億元人民幣。而這一情況已經(jīng)持續(xù)了很久,2016年僅上半年就有22起與大數(shù)據(jù)相關(guān)的企業(yè)獲得融資,從天使輪到C輪均有。
伴隨著資本大量進入大數(shù)據(jù)行業(yè),出現(xiàn)了創(chuàng)業(yè)公司估值過高的現(xiàn)象,好像只要打上大數(shù)據(jù)的標簽,一些公司的估值動輒翻番好幾倍。企業(yè)信用數(shù)據(jù)服務(wù)商上海斯睿德信息技術(shù)有限公司出現(xiàn)在上述7家公司名單中,其不僅近期剛獲得由東方海富領(lǐng)投的數(shù)千萬元融資,且最近18個月已經(jīng)成功完成了3輪融資。而另一家2015年8月剛成立的大數(shù)據(jù)公司鼎復數(shù)據(jù)也在一年多的時間內(nèi)完成了2輪1.07億元的融資。
就此現(xiàn)象,上海斯睿德信息技術(shù)有限公司CEO趙杰在接受第一財經(jīng)采訪時表示,大數(shù)據(jù)公司受資本追捧,本質(zhì)上是因為,物以稀為貴。雖然國內(nèi)這兩年大數(shù)據(jù)企業(yè)融資速度快、頻率高,但真正能融到資的在市場上其實并不多,很多用人工智能講故事、單純擁有多少億數(shù)量級數(shù)據(jù)的公司是很難獲得資本青睞的。
人工智能是個好“故事”
記者在查閱上述新近完成融資的大數(shù)據(jù)公司資料時發(fā)現(xiàn),各家企業(yè)無一例外都在自己的宣傳介紹中提到了人工智能。而不僅是大數(shù)據(jù)公司,一些征信公司和互聯(lián)網(wǎng)金融公司也都會說自己在利用人工智能識別信用風險或者反欺詐。
但實際上,人工智能并不是高不可攀的東西。“我認為大家沒有必要把人工智能給神話了,過去十年在大數(shù)據(jù)行業(yè)的帶動下,深度學習、自然語言處理等技術(shù)得到快速發(fā)展,為今天人工智能的爆發(fā)奠定了堅實的基礎(chǔ)。但是如何把掌握的技術(shù)落地成產(chǎn)品,挖掘數(shù)據(jù)資源,幫助企業(yè)用戶更高效、更低成本地解決風控問題,才是我們努力的方向。”趙杰表示。
就拿機器學習的建模環(huán)節(jié)來說,在過往的很多場景中其實都是需要建模的。例如,去銀行貸款買房或者申請信用卡,銀行給你授信,一個剛畢業(yè)的學生和在職場工作很多年的高級白領(lǐng),額度必然是不一樣的,這里就會涉及到模型的設(shè)立。在此模型中,會有很多個維度的數(shù)據(jù),學歷、收入水平、婚姻狀況、過往信貸記錄等。過去往往會采用專家法和計量分析等方法建模,通過人工網(wǎng)查獲取各類信息。
現(xiàn)在,伴隨各類智能技術(shù)的發(fā)展,機器可以在分秒內(nèi)處理上十億次的數(shù)據(jù),于是就開始引入機器學習。機器學習本質(zhì)上是先找一些數(shù)據(jù)樣本,這些樣本有好有壞。隨后將全量數(shù)據(jù)放入模型中,讓系統(tǒng)自己識別,如果發(fā)現(xiàn)在好的樣本中90%都具備某一共同特征例如“受過高等教育”,則系統(tǒng)就會自動認為受過高等教育的人信用佳。反之,當系統(tǒng)發(fā)現(xiàn)壞的樣本具備“擁有五張以上信用卡”的特征,它便會將此認定為信用差的特征。隨著樣本數(shù)據(jù)的增多,系統(tǒng)識別出的特征維度就越全面,得出的結(jié)論也就越準確。
在當前的技術(shù)條件下,機器學習也不是萬能的,如果是機器沒有學習過的數(shù)據(jù),它便無法自主做出正確的應(yīng)對。從1997年IBM的“深藍”戰(zhàn)勝了卡斯帕羅夫到20年后AlphaGo以4:1的成績戰(zhàn)勝李世石,驗證了人工智能技術(shù)的趨于成熟,隨著樣本數(shù)據(jù)的增多,系統(tǒng)識別出的特征維度就越全面,得出的結(jié)論也就越準確。但是AlphaGO輸?shù)舻倪@一局卻是因為遇到了從沒有學習過的“怪棋”,價值網(wǎng)絡(luò)瞬間崩潰。
至于神經(jīng)網(wǎng)絡(luò)、決策樹、隨機森林、機器學習等“高大上”的名詞,實際上也無需夸大它們的作用。“像多元神經(jīng)網(wǎng)絡(luò)這樣的算法模型早就是非常成熟的多元數(shù)學統(tǒng)計方法,很早就應(yīng)用于物理學、力學以及工業(yè)領(lǐng)域,但并未被大眾所熟知。也是因為這兩年大數(shù)據(jù)市場火爆,才把這些名詞帶到大眾視野內(nèi)。”趙杰對記者表示。
有關(guān)人工智能的故事常常還會引申到“團隊成員為國際高端人才”上,在趙杰看來,掌握國外先進的算法技術(shù)只是一個方面,有些技術(shù)在國外的應(yīng)用環(huán)境下是適用的,但如果直接照搬到國內(nèi),不結(jié)合國內(nèi)的實際情況,也無法提供符合國內(nèi)應(yīng)用場景的解決方案。
好算法不如好數(shù)據(jù)
“Better data beats better algorithm(好數(shù)據(jù)能打敗好算法),有一套厲害的算法模型不如有一套靠譜的數(shù)據(jù)。”棱鏡大數(shù)據(jù)研究院首席科學家廖辰瀚博士對第一財經(jīng)記者表示。
“實際上在整個解決實際問題的過程中,人工智能建模所花費的精力只占30%,而70%的精力都花費在信息的獲取和處理數(shù)據(jù)上。用人工智能做風控和模型的切入點,首先是自動化,即用人的思維和方式獲取數(shù)據(jù),提煉數(shù)據(jù),第二步才用到機器學習的算法將獲取的信息進行關(guān)聯(lián)。”廖辰瀚稱。
對于大數(shù)據(jù)公司而言,高質(zhì)量的數(shù)據(jù)是根本。“目前對大數(shù)據(jù)市場造成困擾的還有一個主要方面就是,各家公司都在說自己有上億數(shù)量級的數(shù)據(jù),但卻常常忽略這些數(shù)據(jù)的質(zhì)量。”趙杰表示。
記者從一位征信業(yè)內(nèi)人士處獲悉,近兩年大數(shù)據(jù)市場給人太多負面印象的原因在于,真正擁有高質(zhì)量數(shù)據(jù),且擁有數(shù)據(jù)分析能力和產(chǎn)品研發(fā)能力的公司數(shù)量非常有限。目前市場上有很多所謂的大數(shù)據(jù)公司,都是通過倒賣數(shù)據(jù)賺取差價的公司,而這些公司的數(shù)據(jù)來源,很多來自數(shù)據(jù)黑市。
“一些數(shù)據(jù)販子由于沒有任何加工能力,通過一些關(guān)系,掌握某類數(shù)據(jù)源,在不做任何加工的情況下,直接賣裸數(shù)據(jù),賺取差價。由于這些數(shù)據(jù)通常都會不斷更新,不斷會有新的數(shù)據(jù)加入,也同時會有過期的數(shù)據(jù)失效,因此,只要稍加修改,又會變成一套全新的數(shù)據(jù)庫,販子們重復販賣,從中賺取差價。”上述征信業(yè)內(nèi)人士表示。
該人士稱,“在販賣的數(shù)據(jù)中,有些數(shù)據(jù)是合法的,有些數(shù)據(jù)是違法的。線上消費的、網(wǎng)銀的、pos機的、信用卡的、運營商的、甚至是工商的數(shù)據(jù)都有人賣。除了一些企業(yè)本身會打包賣一些數(shù)據(jù),也會有企業(yè)內(nèi)部人員與外人勾結(jié)聯(lián)手倒賣數(shù)據(jù),即使是BAT里也有人出來賣數(shù)據(jù)。”
記者還從相關(guān)知情人士處了解到,數(shù)據(jù)販子倒賣的數(shù)據(jù)很多都是臟數(shù)據(jù),由于數(shù)據(jù)通常按量出售,為了把量做上去,里面往往只有30%的數(shù)據(jù)是真實的,而70%都是造假充量的假數(shù)據(jù)。“如果底層的數(shù)據(jù)都是虛假、不準確的數(shù)據(jù),再好、再先進的分析模型也不可能解析出正確的結(jié)果。”趙杰對記者表示。
Maxent猛犸反欺詐CEO張克此前在接受第一財經(jīng)采訪時也表示,做數(shù)據(jù)能夠有優(yōu)勢的企業(yè),一定是控制了流量的公司,因為所謂的線上數(shù)據(jù)的來源都需要依靠線上流量,沒有流量就沒有數(shù)據(jù)源。而依靠買賣數(shù)據(jù)是肯定行不通的,只是在表層包了一個殼。