在過去的幾十年里,數(shù)據(jù)倉庫一直是企業(yè)信息與決策支持系統(tǒng)的核心組件。這些中央知識庫包含了企業(yè)信息與決策制定中所有重要的數(shù)據(jù)(內(nèi)部與外部)。然而,在現(xiàn)今如智能手機(jī)、電視、手表、筆記本電腦、平板電腦、桌面電腦和游戲設(shè)備等各種設(shè)備互聯(lián)的環(huán)境中,再加上如Twitter、Facebook、LinkedIn、普通文件、博客、網(wǎng)站、系統(tǒng)日志和傳感器等各種來源的數(shù)據(jù),數(shù)據(jù)增長已經(jīng)成為公司目前面對的三大主要挑戰(zhàn)之一。組織內(nèi)部數(shù)據(jù)的指數(shù)級增長,致使傳統(tǒng)數(shù)據(jù)倉庫已經(jīng)達(dá)到一個(gè)關(guān)鍵臨界點(diǎn)——需要大量的資源投入到硬件、優(yōu)化、支持和維護(hù)中。
而且,在最近幾年中,一些組織使用ApacheHadoop處理各種來源的大數(shù)據(jù),如博客、傳感器、社交媒體、系統(tǒng)日志及其他設(shè)備。然而,傳統(tǒng)數(shù)據(jù)倉庫不允許最終用戶查詢結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。這意味著最終用戶不能收集和分析數(shù)據(jù),無論是什么樣的規(guī)模和類型都一樣。此外,傳統(tǒng)數(shù)據(jù)倉庫并沒有針對低延遲大容量數(shù)據(jù)負(fù)載和高吞吐量復(fù)雜分析工作負(fù)載進(jìn)行優(yōu)化——而這是大數(shù)據(jù)的需求之一。
Analytics Platform System:一種現(xiàn)代數(shù)據(jù)數(shù)據(jù)倉庫
為了滿足企業(yè)需求和幫助組織遷移到一個(gè)針對低延遲大規(guī)模數(shù)據(jù)負(fù)載和高吞吐復(fù)雜分析工作負(fù)載的現(xiàn)代數(shù)據(jù)倉庫,微軟在2014年4月推出了Analytics Platform System(APS),也稱為ParallelData Warehouse(并行數(shù)據(jù)倉庫,PDW)。APS是一個(gè)針對現(xiàn)代數(shù)據(jù)倉庫需求的高性能和可擴(kuò)展的并行處理設(shè)備。這個(gè)認(rèn)證的硬件平臺在一個(gè)設(shè)備上集成了SQLServer PDW軟件(SQL Server專門為了在APS中運(yùn)行的大規(guī)模并行處理版本)和一個(gè)可選的HDInsightHadoop 平臺(基于Hortonwoks Data Platform的Windows版微軟Hadoop產(chǎn)品)。APS的大數(shù)據(jù)功能及其包含的PolyBase支持使用標(biāo)準(zhǔn)的SQL查詢?nèi)ピL問Hadoop數(shù)據(jù)和加入關(guān)系型數(shù)據(jù),而不需要將數(shù)據(jù)預(yù)加載到數(shù)據(jù)倉庫中。這種在傳統(tǒng)數(shù)據(jù)倉庫和大數(shù)據(jù)部署環(huán)境之間實(shí)現(xiàn)的無縫整合使APS成為一個(gè)主流的企業(yè)級大數(shù)據(jù)平臺。
此外,APS還支持一些新場景,包括使用Power BI建模、可視化和協(xié)同工具等去處理本地?cái)?shù)據(jù)集。例如,原生微軟BI集成允許最終用戶使用熟悉的工具去分析關(guān)系型和非關(guān)系型數(shù)據(jù),如微軟Excel。
Analytics Platform System的新特性
APS可以處理最大規(guī)模的關(guān)鍵任何需求,因?yàn)樗且粋€(gè)大規(guī)模并行處理設(shè)備,可以并行和分布的方式去處理高度并發(fā)和復(fù)雜度的查詢。SQL Server PDW運(yùn)行在APS設(shè)備之內(nèi),它使用內(nèi)存內(nèi)和可更新的行存儲(chǔ)索引去改進(jìn)了數(shù)據(jù)加載和查詢響應(yīng)時(shí)間,最多比傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)高50倍,從而允許最終用戶將查詢時(shí)間從幾小時(shí)縮短為幾分鐘,或者從幾分鐘縮短為幾秒鐘。
APS在軟件中內(nèi)置了可靠、可擴(kuò)展和高性能的存儲(chǔ)特性,它們降低了硬件成本——而且它內(nèi)置了支持容錯(cuò)的硬件冗余性。此外,穿點(diǎn)設(shè)備還能幫助組織減少數(shù)據(jù)中心和管理成本,因?yàn)樗M合了關(guān)系數(shù)據(jù)倉庫和Hadoop。APS提供了內(nèi)存內(nèi)可更新的字段存儲(chǔ)索引,支持高達(dá)15倍的數(shù)據(jù)壓縮率,最高可以節(jié)省70%的存儲(chǔ)需求。
APS是一個(gè)基于機(jī)架的系統(tǒng),因此不會(huì)過多購買容量,一開始可以只使用四分之一的機(jī)架,它支持修改設(shè)備容量大小,然后將來在需要時(shí)可以使用傳統(tǒng)SQL Server系統(tǒng)橫向擴(kuò)展的相同工具來擴(kuò)展它的大小。微軟與戴爾、惠普和Quanta合作設(shè)備了APS,而微軟是客戶獲得硬件和軟件支持唯一聯(lián)系方。因此,作為一個(gè)數(shù)據(jù)倉庫設(shè)備,APS提供了單位存儲(chǔ)空間最低價(jià)格的用戶可用存儲(chǔ)(壓縮后)。