傳統(tǒng)上,數(shù)據(jù)倉庫收集來自組織業(yè)務(wù)的所有結(jié)構(gòu)化數(shù)據(jù),因此組織可以將其集成到單個數(shù)據(jù)模型中,運(yùn)行分析并獲取商業(yè)智能,無論是用于開發(fā)新產(chǎn)品還是向客戶營銷現(xiàn)有服務(wù)。這曾經(jīng)被稱為“大數(shù)據(jù)”,但現(xiàn)在所有組織都擁有來自電子商務(wù)網(wǎng)站、物聯(lián)網(wǎng)設(shè)備和傳感器等來源的大量數(shù)據(jù),因此現(xiàn)代數(shù)據(jù)倉庫需要處理結(jié)構(gòu)化、非結(jié)構(gòu)化和流媒體數(shù)據(jù),并提供實時數(shù)據(jù)分析以及商業(yè)智能和報告。
越來越多的組織在云中實現(xiàn)這一目標(biāo),以實現(xiàn)更高的速度和更低的成本。微軟Azure公司副總裁Julia White指出,越來越多的數(shù)據(jù)可能已經(jīng)存在于云中,以及組織想要使用這些數(shù)據(jù)的服務(wù)。White說,“隨著數(shù)據(jù)越來越多地遷移到云端,無論是來自SaaS應(yīng)用程序還是只遷移到云端的應(yīng)用程序;運(yùn)營數(shù)據(jù)就在云端,客戶在詢問‘為什么我要將運(yùn)營數(shù)據(jù)從云端遷回到內(nèi)部部署數(shù)據(jù)中心進(jìn)行分析?它沒有意義。’”他指出,盡管組織內(nèi)部仍然有大量的數(shù)據(jù),而且隨著邊緣計算的發(fā)展,還會有更多的數(shù)據(jù),但許多客戶還是會將部分或全部數(shù)據(jù)轉(zhuǎn)移到云平臺上,這取決于法規(guī)遵從性問題。
White指出,“每個企業(yè)都在研究人工智能。他們很快意識到分析是其基礎(chǔ),他們開始問‘我的分析和我的數(shù)據(jù)倉庫的狀態(tài)是什么?’,而且往往不夠好。”
Power BI的普及也推動了更多的微軟客戶進(jìn)行云計算分析。White說,“當(dāng)他們有了這些強(qiáng)大的數(shù)據(jù)可視化功能后,他們開始質(zhì)疑自己的分析能力——‘我想知道數(shù)據(jù)可視化背后發(fā)生了什么:我喜歡Power BI,我希望我的分析更有趣。”
更復(fù)雜的客戶希望分析他們自己的Office Graph數(shù)據(jù)(組織可以使用Azure Data Factory將其復(fù)制到Azure Data Lake)或利用Microsoft、Adobe和SAP(基于Azure Data構(gòu)建的)之間的開放數(shù)據(jù)計劃(ODI)數(shù)據(jù)湖并將最終整合來自更多軟件供應(yīng)商的數(shù)據(jù)。White說,“Azure Data Lake與Azure數(shù)據(jù)倉庫緊密結(jié)合,客戶正在使用Azure數(shù)據(jù)倉庫獲取更多見解,并在其上構(gòu)建現(xiàn)代數(shù)據(jù)倉庫。”
采用哪種數(shù)據(jù)服務(wù)?
微軟公司擁有一系列看起來有點(diǎn)像數(shù)據(jù)倉庫的云計算服務(wù),最明顯的是Azure SQL數(shù)據(jù)倉庫或微軟經(jīng)常稱之為的“DW”,但也有Azure數(shù)據(jù)工廠、Azure數(shù)據(jù)湖、Azure數(shù)據(jù)庫、Power BI和Azure機(jī)器學(xué)習(xí),以及更多打包服務(wù),如Dynamics 365中的人工智能銷售工具。
理解它們的方法不僅僅是關(guān)注它們提供的工具,還要關(guān)注它們所服務(wù)的用戶以及它們?nèi)绾螀f(xié)同工作。這是因為企業(yè)通常擁有的數(shù)據(jù)在多個數(shù)據(jù)存儲中分散,創(chuàng)建現(xiàn)代數(shù)據(jù)倉庫的第一步是整合所有這些孤島。微軟Azure上的這些不同數(shù)據(jù)存儲越多,連接就越容易——這也是微軟Azure提供如此多不同數(shù)據(jù)服務(wù)的原因之一。White表示,“另一方面,客戶并不是在尋找可以做任何事情的單一工具,有一系列細(xì)微差別的選擇,如果真的要挑選,并優(yōu)化自己的場景使用的工具。”
Azure DW適用于處理策劃數(shù)據(jù)的數(shù)據(jù)工程師。這可能是來自SQL Server數(shù)據(jù)庫的數(shù)據(jù),但它也可能是來自這些數(shù)據(jù)工程師使用Databricks或Spark和.NET從Azure HDInsight等源準(zhǔn)備數(shù)據(jù)的管道構(gòu)建的數(shù)據(jù)。
Azure數(shù)據(jù)工廠是數(shù)據(jù)工程師進(jìn)行數(shù)據(jù)ETL(提取、轉(zhuǎn)換、加載)的另一項服務(wù)。組織可以將其視為云計算層級ETL工具,組織可以通過拖放界面(實際上是Logic Apps)或使用Python、Java或.NET SDK(如果組織更喜歡編寫代碼來執(zhí)行)來使用數(shù)據(jù)轉(zhuǎn)換和管理數(shù)據(jù)管道的不同步驟,通過Databricks或HDInsight、Azure Data Lake或Power BI。
Power BI還可以使用Dataflows(也是免代碼)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,但這是為業(yè)務(wù)分析師提供的自助服務(wù)功能。數(shù)據(jù)工程師或全職商業(yè)智能分析師可能會使業(yè)務(wù)用戶使用這些語義模型,而微軟公司正在將更多與Azure DW的集成添加到Power BI中。
Power BI用戶可以在其可視化和報告中添加人工智能。其中一些可能是使用微軟公司預(yù)先構(gòu)建的認(rèn)知服務(wù)來進(jìn)行圖像識別和情感分析。但他們也可能正在使用數(shù)據(jù)工程師在Azure機(jī)器學(xué)習(xí)服務(wù)中為他們構(gòu)建的自定義人工智能模型,并使用所有企業(yè)數(shù)據(jù)。
現(xiàn)代數(shù)據(jù)倉庫匯集了任何規(guī)模的數(shù)據(jù),通過分析儀表板、運(yùn)營報告或高級分析提供洞察力。
數(shù)據(jù)湖附近的倉庫
這些場景的復(fù)雜性就是數(shù)據(jù)倉庫和數(shù)據(jù)湖之間的界限開始在云中看起來有些混亂的原因。傳統(tǒng)的數(shù)據(jù)倉庫允許企業(yè)從多個來源獲取數(shù)據(jù),并使用ETL轉(zhuǎn)換將該數(shù)據(jù)放入單個模式和單個數(shù)據(jù)模型中,該軟件旨在回答組織計劃一遍又一遍地提出的問題。
這些來源不必是結(jié)構(gòu)化的關(guān)系數(shù)據(jù):SQL Server和Azure DW中的PolyBase和JSON支持意味著組織可以連接來自非關(guān)系存儲的數(shù)據(jù),如HDFS、Cosmos DB、MySQL、MongoDB以及Oracle、Teradata、PostgreSQL。這意味著數(shù)據(jù)倉庫(甚至SQL Server)看起來更像數(shù)據(jù)湖。
通過數(shù)據(jù)湖,組織可以獲取多個數(shù)據(jù)存儲,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲,并以其本機(jī)格式或接近該格式的方式存儲它們,因此組織可以擁有多個數(shù)據(jù)模型和多個數(shù)據(jù)模式,并且能夠靈活地從同一數(shù)據(jù)中問出新問題(用于Azure Data Lake查詢的SQL變體稱為U-SQL,不僅僅因為它是T-SQL之后的下一個版本,而且因為組織可能需要一個U-boat進(jìn)入數(shù)據(jù)湖,并找出隱藏在黑暗深處的東西。)
如果組織有問題需要反復(fù)詢問(例如銷售分析或監(jiān)控儀表板的交付時間),組織可以從數(shù)據(jù)的相關(guān)部分創(chuàng)建數(shù)據(jù)倉庫。但如果問題隨著時間的推移而發(fā)生變化,或者組織需要提出新問題,可以返回數(shù)據(jù)湖,在那里保存原始數(shù)據(jù),并創(chuàng)建另一個數(shù)據(jù)倉庫來回答這些問題。
這兩者的結(jié)合是微軟公司通過現(xiàn)代數(shù)據(jù)倉庫基礎(chǔ)設(shè)施的意義。組織可以從不同的地方獲取各種數(shù)據(jù),在數(shù)據(jù)湖中使用它來進(jìn)行實時分析,或者使用機(jī)器學(xué)習(xí)來發(fā)現(xiàn)模式,告訴組織可以從數(shù)據(jù)中獲得哪些見解,并將其與熟悉的數(shù)據(jù)相結(jié)合數(shù)據(jù)倉庫工具有效地回答這些問題。
微軟公司沒有為所有這些服務(wù)提供單一服務(wù)。組織可以使用各種Azure服務(wù)執(zhí)行不同的部分,這意味著組織可以選擇所需的部分,但這也意味著組織需要擁有數(shù)據(jù)專業(yè)知識來構(gòu)建自己的特定系統(tǒng)。