處理大量混亂的數(shù)據(jù)對于企業(yè)來說可能是一個挑戰(zhàn),而且隨著更多數(shù)據(jù)的創(chuàng)建和收集,這將變得越來越困難。這就是數(shù)據(jù)管理或數(shù)據(jù)治理非常重要的原因。
調(diào)研機構(gòu)Gartner公司將主數(shù)據(jù)管理定義為“數(shù)據(jù)治理”,這是“一種技術(shù)支持的學(xué)科,其中業(yè)務(wù)和IT協(xié)同工作,以確保企業(yè)共享的主數(shù)據(jù)資產(chǎn)的一致性、準確性、管理性、語義一致性和問責制。”
主數(shù)據(jù)是描述企業(yè)核心實體(包括客戶、潛在客戶、公民、供應(yīng)商、站點、層次結(jié)構(gòu)和賬戶科目表)的一致和統(tǒng)一的標識符和擴展屬性。
數(shù)據(jù)治理主要是企業(yè)內(nèi)部部署的解決方案,該領(lǐng)域的大多數(shù)領(lǐng)導(dǎo)者都是一些傳統(tǒng)的軟件公司,其中大部分的企業(yè)已經(jīng)在某種程度上向云端過渡。而Gartner公司認為,未來幾年,數(shù)據(jù)治理也將轉(zhuǎn)向云計算。
在這個領(lǐng)域中,很多企業(yè)都在激烈競爭,因此在此這個領(lǐng)域縮小一下范圍,列舉了全球10個主要的市場參與者。如上所述,大部分公司都是傳統(tǒng)廠商,而其他是市場的新成員。
全球十大數(shù)據(jù)治理解決方案服務(wù)商
(1)亞馬遜網(wǎng)絡(luò)服務(wù)公司(AWS)
AWS公司從其簡單存儲服務(wù)(S3)開始構(gòu)建數(shù)據(jù)治理解決方案,其中包括Elastic MapReduce Athena,這是一種用于存儲在S3中的數(shù)據(jù)的計量查詢引擎。為了配置企業(yè)的云環(huán)境,AWS CloudFormation允許企業(yè)使用簡單的文本文件為其應(yīng)用程序建模和配置所需的全部資源。Amazon CloudWatch監(jiān)控并收集所有資源的指標。AWS Systems Manager允許企業(yè)監(jiān)控所有資源,并自動執(zhí)行常見操作任務(wù)。此外,還有用于配置管理的AWS OpsWorks,特別是如果企業(yè)使用Chef或Puppet的話。
(2)IBM公司
由于是生產(chǎn)大型機的傳統(tǒng)廠商,IBM公司在數(shù)據(jù)治理方面經(jīng)驗豐富。它提供獨立DBMS,包括各種版本的DB2、IBM PureData System for Analytics、DB2 Analytics Accelerator、Hadoop,以及IBM BigInsights、DataFirst Method和IBM Watson Data Platform。其主要數(shù)據(jù)治理系統(tǒng)是IBM Information Server,它提供了對數(shù)據(jù)的統(tǒng)一管理。它可以幫助用戶查找和搜索資產(chǎn),探索資產(chǎn)之間的關(guān)系,搜索非結(jié)構(gòu)化數(shù)據(jù)源以及結(jié)構(gòu)化數(shù)據(jù)庫,并允許自動發(fā)現(xiàn)新數(shù)據(jù)。
(3)微軟公司
微軟公司的數(shù)據(jù)管理始于其旗艦產(chǎn)品套件Office 365,它允許客戶管理整個內(nèi)容生命周期,從創(chuàng)建或?qū)霐?shù)據(jù)到存儲數(shù)據(jù),并創(chuàng)建策略以保留和永久刪除內(nèi)容。它運行在一系列用于云計算的微軟產(chǎn)品之上,無論是內(nèi)部部署還是微軟Azure。它提供了一個稱為Azure SQL數(shù)據(jù)倉庫的數(shù)據(jù)倉庫設(shè)備,一個基于Hortonworks的Hadoop發(fā)行版(稱為Azure HDInsight),一個Azure Data Lake數(shù)據(jù)收集器。Azure SQL數(shù)據(jù)倉庫也是對云計算數(shù)據(jù)存儲的興趣日益增長。
(4)Oracle公司
Oracle公司從旗艦產(chǎn)品Oracle Database 12c、Oracle大數(shù)據(jù)管理系統(tǒng)、Oracle大數(shù)據(jù)SQL和大數(shù)據(jù)連接器開始入手。對于特定的數(shù)據(jù)管理,它具有Oracle企業(yè)元數(shù)據(jù)管理器(OEMM)和Oracle企業(yè)數(shù)據(jù)質(zhì)量(EDQ)。它還通過Oracle數(shù)據(jù)庫云服務(wù)器和Oracle大數(shù)據(jù)設(shè)備為其軟件堆棧提供了整套硬件系統(tǒng),并且具有Oracle數(shù)據(jù)庫即服務(wù),Exadata云服務(wù)和大數(shù)據(jù)云服務(wù)等云服務(wù)。
(5)SAP公司
SAP公司是Oracle公司的競爭對手,SAP公司提供了IQ DBMS和Hana,用于內(nèi)存數(shù)據(jù)庫管理系統(tǒng)和分析。Hana已更新為包含備份、災(zāi)難恢復(fù)、分析,與Apache Spark和多租戶集成等功能。SAP Hana是SAP平臺的一個組件。然后是SAP主數(shù)據(jù)治理,它整合和管理來自一個地點的數(shù)據(jù),以確保數(shù)據(jù)質(zhì)量和一致性。
(6)Teradata公司
Teradata公司以其分析平臺而聞名,包括DBMS、數(shù)據(jù)倉庫設(shè)備、云計算數(shù)據(jù)倉庫。它通過Hadoop Aster Analytics進行連接,并通過Teradata Listener流式傳輸數(shù)據(jù),所有這些功能都旨在通過統(tǒng)一的界面呈現(xiàn)信息。其主數(shù)據(jù)管理是一個完整的數(shù)據(jù)治理生命周期框架。
(7)Cloudera公司
Cloudera公司是三大Hadoop發(fā)行公司之一,在這方面非常成功。它提供了Cloudera Enterprise,這是一款Hadoop發(fā)行版,其中包含用于批量分析的Hadoop和用于實時分析的Spark,以及用于治理的Cloudera Navigator,用于內(nèi)部部署和云中的集群管理的Cloudera Manager和Cloudera Director,并支持AWS、微軟Azure和谷歌云等云平臺。
(8)Dell Boomi公司
Boomi是Dell公司于2010年收購的一家業(yè)務(wù)部門,專門從事內(nèi)部部署和云端的主數(shù)據(jù)管理。 Boomi公司通過其Boomi過程庫提供很少甚至沒有編碼開發(fā),該庫提供了構(gòu)建治理應(yīng)用程序的示例。它還支持微軟Azure、AWS和谷歌的PaaS供應(yīng)商和連接器,提供用于與合作伙伴連接的EDI連接器,并支持用于DevOps開發(fā)方法的Docker容器。
(9)SAS公司
SAS公司的整個業(yè)務(wù)都基于分析。它提供了稱為SAS Data Governance的主數(shù)據(jù)管理解決方案,可幫助企業(yè)準備和管理傳統(tǒng)數(shù)據(jù)源和大數(shù)據(jù)源。它允許企業(yè)通過通用數(shù)據(jù)模型維護和管理數(shù)據(jù)屬性,標記元數(shù)據(jù)中的更改,創(chuàng)建快照、存儲和管理列表和層次結(jié)構(gòu),并創(chuàng)建關(guān)于數(shù)據(jù)運行狀況和所需補救的報告。
(10)TIBCO軟件公司
TIBCO MDM專門提供存儲在不同孤島中的企業(yè)數(shù)據(jù)的統(tǒng)一視圖,使企業(yè)能夠清楚地查看其業(yè)務(wù)數(shù)據(jù)并快速采取行動。TIBCO MDM可在企業(yè)內(nèi)提供數(shù)據(jù)工作流的可視化,使企業(yè)可以根據(jù)需要觀察流程并進行改進。它可以通過TIBCO Clarity Cloud Edition在內(nèi)部部署和云中使用。