1數(shù)據(jù)治理的背景和現(xiàn)狀
1.1數(shù)據(jù)治理背景
隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長。大約每兩年翻一番,根據(jù)監(jiān)測,這個速度在2020 年之前會繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量。
大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長。信息數(shù)據(jù)的單位由TB-PB-EB-ZB的級別暴增。這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠遠超越了目前人力所能處理的范疇。如何管理和使用這些數(shù)據(jù),逐漸成為一個新的領(lǐng)域,于是大數(shù)據(jù)的概念應(yīng)運而生。
圖1 數(shù)據(jù)治理背景圖
1.2數(shù)據(jù)治理現(xiàn)狀
大數(shù)據(jù)的快速發(fā)展,使它成為IT領(lǐng)域的又一大新興產(chǎn)業(yè)。據(jù)中央財經(jīng)大學(xué)中國經(jīng)濟管理研究院博士張永力估算,國外大數(shù)據(jù)行業(yè)約有1000億美元的市場,而且每年都以10%的速度在增長,增速是軟件行業(yè)的兩倍。我國2012年大數(shù)據(jù)市場規(guī)模大約4.7億元,2013年增速將達到138%,達到11.2億元,產(chǎn)業(yè)發(fā)展?jié)摿Ψ浅>薮蟆N覈髷?shù)據(jù)飛速發(fā)展的背后存在諸多的問題:相關(guān)利益交織,協(xié)調(diào)難;方案規(guī)劃容易,落地困難;過度依賴技術(shù)工具;對于數(shù)據(jù)沒有明確區(qū)分。
圖2 數(shù)據(jù)現(xiàn)狀分析圖
2數(shù)據(jù)治理策略
2.1數(shù)據(jù)治理要素
圖3 數(shù)據(jù)治理要素分析圖
2.2數(shù)據(jù)治理策略
第一步:落實合適的人員負責(zé)治理。
任何成功的數(shù)據(jù)治理計劃的第一個步驟就是,要在本企業(yè)找到CEO可以授權(quán)的人,然后讓該人負責(zé)項目的具體實施。沒有什么能取代強有力的領(lǐng)導(dǎo)人。
數(shù)據(jù)治理是涉及人事的一個難題,這需要在許多不同的利益相關(guān)者之間達成共識。因而,在本企業(yè)里面選定這樣的領(lǐng)導(dǎo)人是一項重要工作。治理官員一旦選定下來,就要成立由企業(yè)的利益相關(guān)者組成的治理委員會,制訂監(jiān)管政策、向CEO及董事會報告進度。
第二步:調(diào)查清楚所處環(huán)境。
一旦選定了領(lǐng)導(dǎo)小組,就要調(diào)查當前情形,并清查不同部門在不同領(lǐng)域的當前最佳實踐。領(lǐng)導(dǎo)小組需要越過獨立系統(tǒng)看待問題,而企業(yè)數(shù)據(jù)治理評估方法對這項工作來說必不可少。這有助于比較本企業(yè)的數(shù)據(jù)治理計劃目前處于什么狀態(tài),并且提供了一份路線圖以便確定以后的目標。
第三步:制訂數(shù)據(jù)治理策略。
數(shù)據(jù)治理評估之后,治理委員會就應(yīng)當考慮制訂遠景,希望公司的數(shù)據(jù)治理實踐在接下來的幾年達到何種目標,根據(jù)這種需求為未來制訂遠景。委員會應(yīng)當向后規(guī)劃,并且制訂切合實際的里程碑和項目計劃來填補相關(guān)的缺口。具體辦法就是制訂關(guān)鍵績效指標來跟蹤進度,并且向CEO和董事會提交年度報告來證實成果。
第四步:算出數(shù)據(jù)價值。
估算數(shù)據(jù)價值。要是公司不知道數(shù)據(jù)的價值,它們就無法提高、保護或者評估數(shù)據(jù)對賬本底線的價值。數(shù)據(jù)不是一種普通商品,而是像水龍頭里出來的水--對生命至關(guān)重要,又往往被人們認為是理所當然的。你要是不知道某物的價格,就無法算出它的價值。
如果你想算出數(shù)據(jù)的價值,就要根據(jù)用戶權(quán)限和IT服務(wù)的效用,為數(shù)據(jù)建立內(nèi)部市場。當本企業(yè)的每個人都在直接付費獲取IT服務(wù)和數(shù)據(jù)時,數(shù)據(jù)的價值就成了公司價目表上的一部分。
第五步:算出風(fēng)險概率。
知道數(shù)據(jù)在過去是如何使用和濫用的,這有助于了解數(shù)據(jù)在將來會如何被危及和披露。每家企業(yè)都有一些原因,如一些事件和損失在獨立系統(tǒng)、層次體系和商業(yè)報告中消失。這些數(shù)據(jù)已經(jīng)可供使用,卻沒有被大多數(shù)企業(yè)所使用。收集這些數(shù)據(jù),與其意義聯(lián)系起來,并研究長期的損失趨勢,這可以幫助任何企業(yè)把風(fēng)險管理轉(zhuǎn)變成基于事實的商業(yè)智能方法,從而可分析過去事件,預(yù)測未來損失,改變當前的政策要求,成為未來改善風(fēng)險緩解策略。
第六步:密切關(guān)注控制措施的效果。
數(shù)據(jù)治理在很大程度上涉及企業(yè)的組織行為。企業(yè)每天在變化,因而它們的數(shù)據(jù)、價值及風(fēng)險也在迅速變化。遺憾的是,大多數(shù)企業(yè)每年對自己只評估一次。要是公司無法改變組織控制措施來滿足每天或者每周出現(xiàn)的需求,也就談不上變化治理。
圖4 數(shù)據(jù)治理實施建議圖
3元數(shù)據(jù)管理
3.1元數(shù)據(jù)的定義
技術(shù)元數(shù)據(jù)是存儲關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它主要包括以下信息:數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式;
業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實際系統(tǒng)之間的語義層,使得不懂計算機技術(shù)的業(yè)務(wù)人員也能夠“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務(wù)術(shù)語所表達的數(shù)據(jù)模型、對象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;系統(tǒng)所提供的分析方法以及公式和報表的信息;具體包括以下信息:企業(yè)概念模型:這是業(yè)務(wù)元數(shù)據(jù)所應(yīng)提供的重要的信息,它表示企業(yè)數(shù)據(jù)模型的高層信息、整個企業(yè)的業(yè)務(wù)概念和相互關(guān)系。
3.2為什么要進行元數(shù)據(jù)管理
圖5 數(shù)據(jù)管理分析圖
3.3數(shù)據(jù)模型標準化
圖6 數(shù)據(jù)模型示意圖
3.4標準化體系(數(shù)據(jù)定義&模型設(shè)計)
標準化體系:一定范圍內(nèi)的標準按其內(nèi)在聯(lián)系形成的科學(xué)的有機整體。標準化體系它規(guī)定了質(zhì)量方針、目標、職責(zé)和程序,并通過建立相關(guān)體系進行過程管理、質(zhì)量策劃、質(zhì)量控制、質(zhì)量保證和質(zhì)量改進。
圖7 標準化體系示意圖
4主數(shù)據(jù)
4.1主數(shù)據(jù)的定義
企業(yè)主數(shù)據(jù)分散存儲在企業(yè)各系統(tǒng)內(nèi),是對企業(yè)至關(guān)重要的核心業(yè)務(wù)實體的數(shù)據(jù),比如客戶、合作伙伴、員工等。
4.2為什么要作主數(shù)據(jù)管理
主數(shù)據(jù)管理(MDM Master Data Management)描述了一組規(guī)程、技術(shù)和解決方案,這些規(guī)程、技術(shù)和解決方案用于為所有利益相關(guān)方(如用戶、應(yīng)用程序、數(shù)據(jù)倉庫、流程以及貿(mào)易伙伴)創(chuàng)建并維護業(yè)務(wù)數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性。
主數(shù)據(jù)管理的關(guān)鍵就是“管理”。主數(shù)據(jù)管理不會創(chuàng)建新的數(shù)據(jù)或新的數(shù)據(jù)縱向結(jié)構(gòu)。相反,它提供了一種方法,使企業(yè)能夠有效地管理存儲在分布系統(tǒng)中的數(shù)據(jù)。主數(shù)據(jù)管理使用現(xiàn)有的系統(tǒng),它從這些系統(tǒng)中獲取最新信息,并提供了先進的技術(shù)和流程,用于自動、準確、及時地分發(fā)和分析整個企業(yè)中的數(shù)據(jù),并對數(shù)據(jù)進行驗證。
圖8 數(shù)據(jù)管理原因分析圖
4.3如何做好主數(shù)據(jù)管理
通過單一平臺上成熟的多領(lǐng)域MDM集中主數(shù)據(jù)的管理,從而消除點對點集成,簡化您的結(jié)構(gòu),降低維護成本,改進數(shù)據(jù)治理。Informatica MDM(主數(shù)據(jù)管理)能夠通過以下步驟幫助企業(yè)成功進行多領(lǐng)域主數(shù)據(jù)管理:
1. 建模:用靈活的數(shù)據(jù)模型定義任意類型的主數(shù)據(jù)
2. 識別:快速匹配和準確識別重復(fù)項目
3. 解決:合并以創(chuàng)建可靠、唯一的真實來源
4. 聯(lián)系:揭示各類主數(shù)據(jù)之間的關(guān)系
5. 治理:創(chuàng)建、使用、管理和監(jiān)控主數(shù)據(jù)
4.4主數(shù)據(jù)實施流程
圖9 數(shù)據(jù)管理實施流程圖
4.5主數(shù)據(jù)管理體系
圖10 主數(shù)據(jù)管理體系流程圖
5數(shù)據(jù)質(zhì)量管理
5.1數(shù)據(jù)質(zhì)量問題
·數(shù)據(jù)的值域
·數(shù)據(jù)的定義
·數(shù)據(jù)的完整性
·數(shù)據(jù)的有效性
·業(yè)務(wù)規(guī)則
·結(jié)構(gòu)完整性
·數(shù)據(jù)轉(zhuǎn)換
·數(shù)據(jù)流
5.2組織架構(gòu)設(shè)計
圖11 架構(gòu)分析圖
5.3數(shù)據(jù)質(zhì)量治理流程
圖12 數(shù)據(jù)質(zhì)量治理流程圖
5.4數(shù)據(jù)治理管理方法
建立合理的數(shù)據(jù)管理機構(gòu)、制定數(shù)據(jù)質(zhì)量管理機制、落實人員執(zhí)行責(zé)任、保障組織間高效的溝通、持續(xù)監(jiān)控數(shù)據(jù)應(yīng)用過程和領(lǐng)導(dǎo)強有力的督促是保障企業(yè)數(shù)據(jù)質(zhì)量的關(guān)鍵。
圖13 策略與方法分析圖