一朝天子一朝臣,一個時代一尊神
過去的幾年里,結(jié)構(gòu)化數(shù)據(jù)一直是企業(yè)用戶的首選,由于其以固定字段駐留在一個記錄或文件內(nèi),通常是被人為組織整理過,具有處理分析簡單、存儲便利等優(yōu)勢,而大范圍的被企業(yè)用戶所利用分析。
非結(jié)構(gòu)化數(shù)據(jù)是相對結(jié)構(gòu)化數(shù)據(jù)而言概念,指沒有被預(yù)先定義數(shù)據(jù)模型或不是以已定義的方式進行組織的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)不必以某種方式組織,而是直接按照學(xué)科方式進行分類,主要包括有文本、圖像、音頻和視頻等不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。
乍看之下,非結(jié)構(gòu)化數(shù)據(jù)并沒有奪權(quán)的理由,但是,大數(shù)據(jù)時代的到來讓結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢不再。企業(yè)用戶云端化導(dǎo)致創(chuàng)造數(shù)據(jù)的主體由企業(yè)轉(zhuǎn)向個體,而數(shù)據(jù)結(jié)構(gòu)也就由原來的企業(yè)所整理的結(jié)構(gòu)化數(shù)據(jù)為主變?yōu)橛蓚€體產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)為主;另外信息化的普及,使得數(shù)字辦公越來越常態(tài)化,辦公所產(chǎn)生的文本、報表等非結(jié)構(gòu)化數(shù)據(jù)也逐步增加,所占新產(chǎn)生數(shù)據(jù)比例甚至超過90%。
此外,非結(jié)構(gòu)化數(shù)據(jù)的處理難題逐漸被攻克,自身的靈活優(yōu)勢進一步被體現(xiàn)。相比已經(jīng)被處理過的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)更為自由靈活,來源廣闊,貼近客戶,商業(yè)價值更大。其分析結(jié)果主要是數(shù)據(jù)驅(qū)動(data-Driven)的語義分析加輿情分析,更具科學(xué)性,內(nèi)涵更豐富,更具有前瞻性,同時可以對用戶的情緒做出分析評價,對企業(yè)指導(dǎo)作用更具真實性。這些性質(zhì)對于結(jié)構(gòu)化數(shù)據(jù)來講都是渴望而不可及的。
推動技術(shù)改進,提升商業(yè)價值
非結(jié)構(gòu)化數(shù)據(jù)比較結(jié)構(gòu)化數(shù)據(jù)而言,雖然其分析難度較大,但巨大的商業(yè)價值卻誘使企業(yè)不得不進行大量的技術(shù)改革,而這些改革都開始在各個領(lǐng)域發(fā)揮出自身的優(yōu)勢。
在IT行業(yè)一直有句至理名言,“Garbage In, Garbage Out”。由于數(shù)量極大,而且格式繁雜,存儲分析困難等原因的存在,很多的廠商都對非結(jié)構(gòu)化數(shù)據(jù)望而卻步。但是不僅對信息繁雜混亂的非結(jié)構(gòu)化數(shù)據(jù)如此,甚至結(jié)構(gòu)化屬于也存在這個問題。我國如今很多企業(yè)的數(shù)據(jù)分析都還停留于簡單分析的層次,對于深度的數(shù)據(jù)挖掘并沒有表現(xiàn)出太大興趣。但是由于近年來非結(jié)構(gòu)化數(shù)據(jù)的崛起,結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢不復(fù)存在,企業(yè)技術(shù)改革被推到了不改即亡的地步,一系列更適應(yīng)時代的技術(shù)便應(yīng)運而生。
非結(jié)構(gòu)化數(shù)據(jù)價值更高,分析技術(shù)的變革首先開始進行。例如The Taste Signals Platform等強大的數(shù)據(jù)分析平臺進入市場,其分析非結(jié)構(gòu)化數(shù)據(jù)所得到的分析結(jié)果信息量巨大,對企業(yè)用戶的各個層面改進均具有良好的指導(dǎo)效果;與此同時,工具性能的提升帶來的是數(shù)據(jù)分析師的生產(chǎn)力提升,人和工具的結(jié)合可以實現(xiàn)價值的最大化。這樣的良性循環(huán)下,結(jié)構(gòu)化數(shù)據(jù)分析所帶來的價值優(yōu)勢蕩然無存。
其次變革的領(lǐng)域便在于存儲。由于數(shù)據(jù)存儲空間成本大幅降低,“必須壓縮非結(jié)構(gòu)化數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù)”的落后的存儲方式不再是非結(jié)構(gòu)化數(shù)據(jù)的發(fā)展障礙。但是非結(jié)構(gòu)化數(shù)據(jù)對倉儲工具依然有著較高的要求,因此諸多類型的倉儲工具如NoSQL等應(yīng)運而生。這些倉儲工具利用其強大的功能解決了困擾企業(yè)許久的大規(guī)模數(shù)據(jù)集合多重數(shù)據(jù)種類帶來的挑戰(zhàn)。此外,非結(jié)構(gòu)化數(shù)據(jù)的這一特質(zhì)也對數(shù)據(jù)庫的云端化有著極大的推進作用。
再者,非結(jié)構(gòu)化數(shù)據(jù)對KPI的科學(xué)化有著良好的幫助。以往KPI績效考核更多的依賴于企業(yè)決策者的經(jīng)驗,這樣的做法很可能導(dǎo)致企業(yè)停步不前。但借由非結(jié)構(gòu)化數(shù)據(jù)驅(qū)動KPI的實時生成,通過機器學(xué)習(xí)的數(shù)據(jù)平臺工具得出的數(shù)據(jù)挖掘結(jié)果,對公司產(chǎn)品改進做出的指導(dǎo)會更符合基層用戶的使用習(xí)慣。
由此三方面可以看出,非結(jié)構(gòu)化數(shù)據(jù)的表現(xiàn)會更為強勢,不僅促進了大數(shù)據(jù)行業(yè)技術(shù)的更新,其對于企業(yè)的商業(yè)價值也遠超結(jié)構(gòu)化數(shù)據(jù)。
靈活而多變,超越而主宰
如果僅有以上兩點并不能讓非結(jié)構(gòu)化數(shù)據(jù)奪權(quán)的話,那么靈活多變的特點則是其登基最重量級的權(quán)杖。
在以往分析非結(jié)構(gòu)化數(shù)據(jù)時,通常會先將全部數(shù)據(jù)統(tǒng)一格式進行結(jié)構(gòu)化,然后才進行分析。這樣做最大的問題在于統(tǒng)一數(shù)據(jù)結(jié)構(gòu)降低了數(shù)據(jù)的靈活性,并且拖慢了數(shù)據(jù)分析流程。而同樣的問題也出現(xiàn)在了結(jié)構(gòu)化數(shù)據(jù)身上,盡管結(jié)構(gòu)化數(shù)據(jù)看似分析速度較快,不需要進行其他的結(jié)構(gòu)變更,但是結(jié)構(gòu)化數(shù)據(jù)最大的問題便在于其結(jié)構(gòu)太難改變,固定的數(shù)據(jù)結(jié)構(gòu)一旦需要進行其他層面的分析,則會消耗大量的時間精力,甚至影響重新收集。這種不夠靈活的模式已經(jīng)不再適應(yīng)當(dāng)今的形式。
而相比之下,非結(jié)構(gòu)化數(shù)據(jù)由于數(shù)據(jù)源直接收集,經(jīng)過的處理較少,因此在進行不同類型的數(shù)據(jù)分析時,非結(jié)構(gòu)化數(shù)據(jù)可以得到的信息也就最貼近原始數(shù)據(jù)。在保持其原有格式的情況下,數(shù)據(jù)靈活多變的優(yōu)勢更為突出,可重復(fù)利用率提升。如果需要其他層面的建模分析時,也可以直接進行分析,不僅提升了企業(yè)效率,也保持了數(shù)據(jù)的原