大數(shù)據(jù)對資本市場的吸引力方興未艾。
日前,位于美國硅谷的大數(shù)據(jù)智能關(guān)系管理公司RelateIQ再獲4000萬美元融資(新估值2.45億美元)。而在最近一年的時間里,全球大數(shù)據(jù)行業(yè)已有20多起千萬美元規(guī)模以上的融資案例,累計涉及投融資金額超過20億美元。
與以往融資的大數(shù)據(jù)公司主要處理結(jié)構(gòu)數(shù)據(jù)不同,RelateIQ主要是通過實時分析公司業(yè)務中的電話、短信、郵件等非結(jié)構(gòu)數(shù)據(jù),為公司管理客戶、維護員工提供建議。
“現(xiàn)階段全球?qū)Υ髷?shù)據(jù)比較成熟的開發(fā)應用主要在于個人信息、交易紀錄等結(jié)構(gòu)數(shù)據(jù),這部分的價值顯而易見。RelatelQ的成功融資表明,文本、視頻、圖片和音樂等非結(jié)構(gòu)數(shù)據(jù)的開發(fā)正在成為大數(shù)據(jù)的新藍海。”專注于企業(yè)級非結(jié)構(gòu)大數(shù)據(jù)處理公司慧思拓CEO包啟挺表示。
占比八成以上
根據(jù)包啟挺介紹,對于企業(yè)CRM數(shù)據(jù)庫、網(wǎng)絡(luò)瀏覽軌跡等結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),由于相關(guān)的處理方法和計算模型比較成熟,已成功實現(xiàn)商用,例如應用比較普遍的電商網(wǎng)站推薦系統(tǒng)。
與之相比,躺在辦公室、互聯(lián)網(wǎng)各個角落的非結(jié)構(gòu)化數(shù)據(jù),像員工日常工作中產(chǎn)生的會議記錄、錄音或者電子郵件,以及潛在網(wǎng)絡(luò)客戶瀏覽的文本、發(fā)表的評論、曬出的圖片等等,卻因分布零散、分析困難,很少有大數(shù)據(jù)公司前往問津。
但這并不意味著這些非結(jié)構(gòu)數(shù)據(jù)就沒有價值,或者比結(jié)構(gòu)數(shù)據(jù)的價值要小。
相反,國外一家類似RelatelQ的非結(jié)構(gòu)數(shù)據(jù)公司慧銳(VERINT)的一項調(diào)查顯示,有42%的企業(yè)管理者認為非結(jié)構(gòu)化數(shù)據(jù)處理起來是一個很大的難題,同時93%的管理者認為這些非結(jié)構(gòu)化數(shù)據(jù)對企業(yè)來說非常重要。
“非結(jié)構(gòu)數(shù)據(jù)分布廣泛,獲取方便,這為價值挖掘提供了條件。比如,雖然淘寶的用戶數(shù)據(jù)是封閉的,用戶的評論和評價都是公開的,抓取之后,通過各種維度的重構(gòu)和計算,同樣能提煉出對企業(yè)的產(chǎn)品設(shè)計、定價、營銷和售后等各環(huán)節(jié)有用的信息。”包啟挺說。
國際市場研究機構(gòu)IDC的一份報告還顯示,結(jié)構(gòu)化數(shù)據(jù)只是大數(shù)據(jù)的很小一部分,當前數(shù)字領(lǐng)域約1.8 萬億 GB 容量中,非結(jié)構(gòu)數(shù)據(jù)占比在80%~90%之間,并且直到2020年都將以44倍的發(fā)展速度增長。
為大數(shù)據(jù)提供云計算服務的浪潮集團高級副總裁王恩東也指出,現(xiàn)在正處于行業(yè)內(nèi)異構(gòu)數(shù)據(jù)共享和價值釋放的階段,并在未來相當長的時間都會處在這個階段。“這個階段,會有大量的新技術(shù)和新產(chǎn)品涌現(xiàn),無論是硬件還是軟件。對于產(chǎn)業(yè)鏈上下游的系統(tǒng)廠商、行業(yè)ISV來說,這都是難得的‘歷史新機遇’。”
大佬陸續(xù)搶灘
鑒于非結(jié)構(gòu)化數(shù)據(jù)在商業(yè)價值上的廣闊空間,目前,全球范圍內(nèi)傳統(tǒng)企業(yè)服務領(lǐng)域的大佬都在搶灘占位。
在國際市場上,代表性企業(yè)是以IBM為代表的國際咨詢公司和SAP等國際數(shù)據(jù)巨頭,它們致力幫助企業(yè)利用內(nèi)部系統(tǒng)的非結(jié)構(gòu)數(shù)據(jù)來改善內(nèi)外部管理。國內(nèi)市場方面,百度、阿里巴巴等為平型臺IT企業(yè)也在利用自身的數(shù)據(jù)資源,開始了對非結(jié)構(gòu)化數(shù)據(jù)的初步開發(fā),主要用于監(jiān)測和改進自身的產(chǎn)品服務。
非結(jié)構(gòu)數(shù)據(jù)的一塊重要領(lǐng)域,互聯(lián)網(wǎng)上的非結(jié)構(gòu)化數(shù)據(jù)在企業(yè)中的應用,也吸引了部分本土公司的注意,慧聰研究(HCR)和拓爾思(TRS)就是其中的兩家。
公開資料顯示,HCR是規(guī)模最大的本土市場研究公司,近幾年頻繁傳出大動作;拓爾思則是中國最早的、最大的企業(yè)級搜索服務平臺,在政企輿情監(jiān)測、中文非結(jié)構(gòu)化數(shù)據(jù)分析技術(shù)開發(fā)等方面有多年的積累,2011年已在創(chuàng)業(yè)板上市。
2013年年底,兩家公司合資,成立了中國第一家專門針對非結(jié)構(gòu)數(shù)據(jù)的企業(yè)級大數(shù)據(jù)處理公司,即是前面提到的慧思拓,由HCR副總裁包啟挺出任合資公司CEO。
“拓爾思是中國最早的企業(yè)搜索公司,在中國政府輿情監(jiān)測市場處于領(lǐng)先地位,在企業(yè)級非結(jié)構(gòu)化數(shù)據(jù)抓取分析方面具有豐富的積累。HCR的優(yōu)勢在于,多年的企業(yè)服務經(jīng)驗,可以將海量非結(jié)構(gòu)數(shù)據(jù)分析結(jié)果融入到企業(yè)的具體需求中去。”包啟挺說。
把握需求是王道
“慧思拓成立以來,我們一直在思考,怎么才能利用互聯(lián)網(wǎng)大量的非結(jié)構(gòu)數(shù)據(jù)創(chuàng)造商業(yè)價值。這里需要考慮兩個問題,企業(yè)對非結(jié)構(gòu)數(shù)據(jù)的需求是什么,非結(jié)構(gòu)化數(shù)據(jù)如何重構(gòu)成產(chǎn)品。直到現(xiàn)在,總算有了大致的思路”包啟挺說。
在包啟挺看來,這是一個全新的市場,國外算是剛剛起步,國內(nèi)基本上是空白,而且不能完全借鑒國外僅有經(jīng)驗。因為國內(nèi)外在文本、音頻及圖片等非結(jié)構(gòu)化數(shù)據(jù)形態(tài)上存在天然區(qū)別,直接影響到后續(xù)的分解、重構(gòu)過程,這恰恰是非結(jié)構(gòu)大數(shù)據(jù)應用的最核心環(huán)節(jié)。
以文字為例,英語的語言結(jié)構(gòu)相對簡單,無外乎“主謂賓定狀補”等六大部分,相對而言比較容易按照一定規(guī)則進行拆解和分析;而漢語就復雜的多,一個字多種詞性、多種語音、多種意思的比比皆是,必須通過復雜的組合和計算才能準確進行解析。
某知名大數(shù)據(jù)營銷公司高層表示,“大數(shù)據(jù)的開發(fā)就是分析和重構(gòu),非結(jié)構(gòu)化數(shù)據(jù)分解困難還在其次,最為重要的是,如何將分解之后的數(shù)據(jù)結(jié)合企業(yè)的市場需求,重構(gòu)成為滿足企業(yè)各種需求的信息產(chǎn)品,這也是目前最為困擾各大數(shù)據(jù)公司的地方。
目前,慧思拓在非結(jié)構(gòu)化數(shù)據(jù)的相關(guān)產(chǎn)品已經(jīng)展開試點,比如常見的客戶回訪,傳統(tǒng)打電話方式的費時費力,轉(zhuǎn)而通過抓取和分析網(wǎng)絡(luò)上大量有關(guān)該產(chǎn)品的評論、曬圖等非結(jié)構(gòu)數(shù)據(jù),將會對傳統(tǒng)調(diào)研結(jié)果形成非常有效的補充和印證。
“當然,非結(jié)構(gòu)化數(shù)據(jù)在企業(yè)層面的應用,絕對不局限于對客戶回訪、輿情監(jiān)測等傳統(tǒng)業(yè)務的改造,慧思拓還在嘗試圍繞海量非結(jié)構(gòu)化數(shù)據(jù)為企業(yè)產(chǎn)品的生產(chǎn)、定價、售后等提供一整套全新的參考信息產(chǎn)品。”包啟挺說,具體產(chǎn)品還在研發(fā)階段,暫不方便透露。