越來越多的人開始重視“數據技術(DT )”, 也就是從傳統(tǒng)IT的以事務處理技術為核心,逐步轉向專注于數據本身。“數字化”,“物聯網”和“云計算[注]”讓一切皆可“量化”,所有的系統(tǒng)和設備每時每刻都在產生大量的、不同格式的、混雜的數據。利用好這些數據,可以讓我們更全面的了解我們身處的世界。
利用大數據的關鍵在于縮短業(yè)務人員和數據之間的距離。我觀察到國內越來越多的客戶在計劃實施大數據項目,他們其中大多數都有在“小”數據時代建設傳統(tǒng)數據倉庫(Data Warehouse)、數據挖掘(Data Mining)和商業(yè)智能(Business Intelligence)的經驗,但由于缺少對大數據思維變革的理解,往往事倍功半。究其原因,主要是忽略了大數據所要處理的,不僅有傳統(tǒng)結構化的高價值密度的業(yè)務數據,還包括規(guī)模巨大且結構多樣化的低價值密度數據。因此,做大數據分析所采用的分析策略和技術手段,必然有所不同。打個比方,如果我們傳統(tǒng)的結構化數據分析項目主要做的是1+1=2的因果關系分析,那么大數據其實更需要做的是A+B+C+D=?的關聯度分析。換言之,傳統(tǒng)的數據分析項目做的通常是可以預知的事情,提高的是業(yè)務管理效率,而大數據探索是要尋找潛在的業(yè)務規(guī)律,和可能帶來的業(yè)務創(chuàng)新。
可視化探索+關聯性分析=“全數據”洞察
在“小”數據時代,做好數據關聯關系分析和因果分析已屬不易。數據很難得到,收集整理過程也往往耗費巨大。從了解需求、建立假設、創(chuàng)建模型,再通過實驗來驗證假設。由于一切都始于假設,這些分析就都有受偏見影響的可能,而且極易導致錯誤。
如果用這樣的方法去做大數據項目,通過數據整合、治理、清洗、建模、挖掘分析和展現的過程,業(yè)務用戶距離數據仍然是比較遙遠的。而一旦人們依賴主觀的經驗對低價值大數據進行清洗,必然客觀上會導致數據價值的無辜流失。所以,對于大數據項目來說,如果你能對大數據有基于全數據(而不是清洗后的數據)的可視化探索洞察,就能在理解數據關聯基礎上,更好地進行高效的數據價值發(fā)現。甲骨文作為數據管理與業(yè)務分析軟件領域的市場領導者,為客戶提供最全面、集成度最高的大數據解決方案,幫助各種規(guī)模的企業(yè)組織發(fā)現大數據的關聯價值,幫助更好制定和調整業(yè)務戰(zhàn)略、優(yōu)化運營、抓住新的市場機遇。甲骨文的大數據信息探索工具Endeca和新一代的面向Hadoop技術的甲骨文大數據發(fā)現(Oracle Big Data Discovery, Oracle BDD)是強大的可視化大數據探索工具,是集發(fā)現、探索、轉變、挖掘、展現和共享為一體的端到端大數據關聯分析平臺。
汽車行業(yè)大數據應用:實現高效售后服務
為了方便大家理解,我這里與大家分享兩個生動的Oracle BDD的應用案例。我們有一個汽車集團的用戶,這個企業(yè)的大數據系統(tǒng)非常復雜,匯集了包括零部件采購數據、產成品數據、庫存數據、銷售數據、售后維修維護數據、售后T&M開銷數據、客服中心受理數據、客戶網上投訴數據、多個汽車論壇的互聯網輿情數據等等。
我們的客戶通過Oracle BDD進行大數據探索,可以成功地了解到哪些問題和哪些部件的關聯性高、哪些問題和維修量關聯性高等有價值的信息。當客戶的業(yè)務分析師進入BDD的應用界面,首先可以看到所有220個數據屬性(維度)的面貌,包括生產了多少車、有多少車在庫、有多少車在修、花費多少人工在修、各種產成是多少等等。在這些基本信息之外,也會看到各種從非結構化數據中提煉出的“云標簽”屬性,即客戶哪些抱怨比較多、哪些車存在哪些問題,而且是通過不同大大小小的標簽文字來直觀地表達出來,那些大一些的標簽代表發(fā)生概率比較高的數據對象。
其中有一個典型的場景,客戶發(fā)現一些用戶常常抱怨汽車冒煙的問題,于是就在BDD的搜索框中輸入“冒煙”,BDD實時搜索關聯出所有與冒煙有關的信息,包括冒黑煙冒白煙、哪些車冒煙、哪些用戶投訴汽車冒煙、已有汽車維修記錄中有多少是和冒煙有關的、冒煙車集中在哪個時間段、冒煙和哪些部件有關、導致冒煙的部件是哪些供應商的、維修冒煙車的成本是多少等等一系列關聯的信息結果。通過這些數據,他們可以馬上發(fā)現關聯最多的是兩家配件供應商(+本站微信networkworldweixin),在過去一個月左右的時間里,幾個型號的零件,以及類似的客戶抱怨數據。這就讓業(yè)務人員迅速將客戶的投訴和配件供應商以及相關零件批次關聯起來。像BDD這種用戶自助式的靈活的關聯探索分析,用其它的大數據分析工具是很難做到的。
醫(yī)療大數據應用應用:用大數據破解疑難病癥
我要和大家分享的另外一個Oracle BDD案例,是個醫(yī)院大數據項目。這個醫(yī)院的大數據系統(tǒng)涵蓋了醫(yī)院信息系統(tǒng)HIS和臨床信息系統(tǒng)CIS兩大系統(tǒng),具體包括了門診管理、收費與帳務管理、醫(yī)囑管理、門診電子病歷、臨床記錄與文檔、醫(yī)療質量控制、病案管理等二十多個應用子系統(tǒng),也是包括了結構化、半結構化與非結構化的200多個數據屬性(維度)。我們可以在下面圖片中看到當前消化道科的患者人數為3830人,這些患者住院人次為4160、平均住院天數7.97天、31天再住院人數80、再住院率1.92%。
OracleBDD案例——醫(yī)院大數據系統(tǒng)截屏
醫(yī)院各科室的業(yè)務用戶可以根據訪問權限,方便靈活地以自助的探索形式,通過搜索,關聯、篩選、鉆取等操作來發(fā)現自己所關心的數據結果,并實時地形成各種分析圖表。譬如某個醫(yī)生遇到了一個罕見 病例,患者可能得了克羅恩病,但這名醫(yī)生卻沒有關聯的醫(yī)治經驗,BDD可以怎么幫助他呢?醫(yī)生只要在BDD的搜索框里輸入克羅恩病,BDD就會搜索尋找出有關聯的所有信息,包括醫(yī)院曾經接診過哪些克羅恩病患者、哪些醫(yī)生診治過克羅恩病患者、克羅恩病患者做了哪些化驗、醫(yī)生都開了什么藥、是否有病情嚴重者住院或手術、這些患者中是否有回診等等。從下圖中你會發(fā)現醫(yī)院過去曾經接知過31位克羅恩病患者,83%是男性,40歲以上的患者占了87%,100%住院治療,平均14天,住院而且克羅恩病患者的再住院率是2.78%。
醫(yī)院大數據系統(tǒng)病例探析分析界面截屏
這些關聯的信息恰恰給了醫(yī)生最好的參考,也輔助醫(yī)生做出判斷的預測。醫(yī)生可以瀏覽所有患者的電子病例和用藥情況做為參考和借鑒??梢哉f,Oracle BDD正在大大地提高了大數據在醫(yī)院門診醫(yī)治、醫(yī)療質量控制、醫(yī)療科研、流行病防治、資源使用效率和醫(yī)院的管理水平和效率。
Oracle BDD能夠使大數據關聯性分析化繁為簡,同時還能加快數據價值的獲取速度。BDD還支持地理位置服務和語言情感分析,讓信息的關聯進一步拓展到空間和情感。通過Oracle BDD可讓包括分析團隊和業(yè)務用戶在內的更多人員輕松訪問,實現大數據關聯分析的普及化。
如果您正在實施的大數據項目還沒有獲得成效,或是正在計劃實施一個大數據項目,相信您可以從甲骨文大數據解決方案中找到一種便捷有效的方式,從龐雜的大數據系統(tǒng)中獲取有價值的商業(yè)洞察。