AWS云數(shù)據(jù)倉庫Redshift,讓您的數(shù)據(jù)飛起來

責(zé)任編輯:editor006

2016-05-10 22:31:26

摘自:機(jī)房360

摘要:隨著信息技術(shù)的迅速發(fā)展,各行各業(yè)積累的數(shù)據(jù)都呈現(xiàn)出爆炸增長的趨勢,我們已經(jīng)進(jìn)入了大數(shù)據(jù)的時(shí)代。無需擔(dān)心ETL過程,無需擔(dān)心數(shù)據(jù)存放的成本,您所需要的只是連接Redshift,馬上得到您想要的答案!

隨著信息技術(shù)的迅速發(fā)展,各行各業(yè)積累的數(shù)據(jù)都呈現(xiàn)出爆炸增長的趨勢,我們已經(jīng)進(jìn)入了大數(shù)據(jù)的時(shí)代。當(dāng)前企業(yè)數(shù)據(jù)的規(guī)模和復(fù)雜度不斷增長,如何快速低成本的分析這些海量數(shù)據(jù)、挖掘數(shù)據(jù)的價(jià)值、讓數(shù)據(jù)為公司的業(yè)務(wù)提供支撐,成為困擾企業(yè)的一個(gè)問題。作為全球領(lǐng)先的公有云提供商,AWS提供了一整套數(shù)據(jù)分析及挖掘的解決方案,涵蓋了數(shù)據(jù)收集、傳輸、存儲、分析、報(bào)表等,其中數(shù)據(jù)倉庫服務(wù)是尤為重要的一個(gè)環(huán)節(jié)。AWS 2013年在美國區(qū)域發(fā)布了云數(shù)據(jù)倉庫Redshift服務(wù),讓用戶無需任何硬件、低成本、快速的分析企業(yè)數(shù)據(jù)中心或者云中的數(shù)據(jù)。

什么是Redshift

AWS Redshift是一個(gè)完全托管的云端的大規(guī)模并行PB級數(shù)據(jù)倉庫服務(wù),使您能更高效的分析現(xiàn)有數(shù)據(jù)。使用云端Redshift服務(wù),您無需管理龐大的服務(wù)器集群,分析數(shù)據(jù)的成本不到傳統(tǒng)解決方案的十分之一,也能和您現(xiàn)有的BI產(chǎn)品集成。使用Redshift服務(wù)有眾多的優(yōu)勢。

Redshift的優(yōu)勢

完全托管,快速上手

使用Redshift云服務(wù),您可以根據(jù)業(yè)務(wù)需要在幾分鐘內(nèi)建立幾個(gè)到幾十個(gè)節(jié)點(diǎn)的數(shù)據(jù)倉庫集群,立刻開始您的數(shù)據(jù)分析的任務(wù),也能根據(jù)需求隨時(shí)增加或減少集群資源。Redshift是完全托管平臺,承擔(dān)了大量的集群管理、數(shù)據(jù)庫管理、監(jiān)控、集群健康檢查、備份、升級等工作,讓您能專注業(yè)務(wù)分析,無需花大量時(shí)間在服務(wù)器管理,安全及數(shù)據(jù)備份等工作上。

為數(shù)據(jù)倉庫而優(yōu)化的架構(gòu)

Amazon Redshift基于企業(yè)級PostgreSQL數(shù)據(jù)庫,有大規(guī)模并行處理 (MPP) 架構(gòu),MPP可以通過將數(shù)據(jù)分布到各個(gè)計(jì)算節(jié)點(diǎn)來解決海量數(shù)據(jù)的處理難題。在Redshift中,每個(gè)集群有1個(gè)管理節(jié)點(diǎn)和多個(gè)計(jì)算節(jié)點(diǎn),集群內(nèi)部使用私有、高速、 低延時(shí)的網(wǎng)絡(luò)連接。每個(gè)計(jì)算節(jié)點(diǎn)都有單獨(dú)的CPU,內(nèi)存和附加存儲,并且每個(gè)計(jì)算節(jié)點(diǎn)有多個(gè)分區(qū),您的數(shù)據(jù)被分布保存在計(jì)算節(jié)點(diǎn)的多個(gè)分區(qū)內(nèi),因此每個(gè)分區(qū)的數(shù)據(jù)量大大減少,您的查詢會在多個(gè)分區(qū)并行執(zhí)行,大大的增加了查詢的效率。

高性能

很多用戶使用Redshift獲得了幾十倍甚至上百倍的查詢加速,Redshift能為您提供非常高效的查詢性能,除了專為數(shù)據(jù)倉庫而優(yōu)化的架構(gòu)外,還有以下優(yōu)勢:

列式存儲

很多數(shù)據(jù)庫使用行式存儲,此時(shí)如果要基于某個(gè)列求和,需要加載整張表的數(shù)據(jù),而Redshift列式存儲只需要加載一列的數(shù)據(jù),磁盤的IO及內(nèi)存的消耗都顯著減少,增加了性能。由于數(shù)據(jù)倉庫中的大部分查詢只是掃描整張表中的部分字段,因此Redshift列式存儲特別適合數(shù)據(jù)倉庫查詢,另外列式存儲索引比傳統(tǒng)索引能提供5倍以上的壓縮效果和10倍以上的性能提升。

數(shù)據(jù)壓縮

作為一個(gè)列式數(shù)據(jù)倉庫,Redshift還支持按列數(shù)據(jù)壓縮,數(shù)據(jù)壓縮減少了磁盤占用空間、減少了讀寫I/O、減少了內(nèi)存占用空間,并提高了查詢的性能。由于Redshift同列的數(shù)據(jù)類型相同、有些值也相同,因此Redshift的壓縮效率很高。

查詢優(yōu)化

Redshift提供了針對MPP架構(gòu)的查詢優(yōu)化引擎,被編譯后的SQL分布在多個(gè)計(jì)算節(jié)點(diǎn)的分區(qū)內(nèi)并行執(zhí)行,并且最大化的利用了列式存儲的優(yōu)勢,因此在復(fù)雜的多表連接查詢的情況下,查詢優(yōu)化器通常能有很大的性能提升。

成本低

使用Redshift無需昂貴的服務(wù)器及管理人員成本,僅按使用量付費(fèi),并且可以通過購買預(yù)留實(shí)例來進(jìn)一步減少成本,實(shí)際成本只有傳統(tǒng)數(shù)據(jù)倉庫分析的十分之一。

安全

創(chuàng)建Redshift集群的時(shí)候,可以選擇啟用加密來保護(hù)數(shù)據(jù)倉庫中的數(shù)據(jù),啟用加密后,所有的數(shù)據(jù)庫、系統(tǒng)表及備份數(shù)據(jù)都會被加密,保障了數(shù)據(jù)的安全。連接Redshift的時(shí)候,您也可以使用SSL連接,保障網(wǎng)絡(luò)傳輸安全。另外AWS也通過身份管理IAM,虛擬網(wǎng)絡(luò)VPC,防火墻安全組等保護(hù)您數(shù)據(jù)的安全 。

查詢分析

您的應(yīng)用及工具使用標(biāo)準(zhǔn)的SQL連接Redshift,這意味著開發(fā)人員無需為數(shù)據(jù)分析學(xué)習(xí)新的技能,您也能使用市場上支持SQL的報(bào)表分析工具進(jìn)行數(shù)據(jù)的分析。Redshift和很多主流的BI工具的整合已經(jīng)得到了驗(yàn)證,您可以在AWS的Market Place中尋找合適的BI方案,完成您的數(shù)據(jù)分析及報(bào)表工作。

負(fù)載性能監(jiān)控

Redshift監(jiān)控讓您能了解集群運(yùn)行的細(xì)節(jié),比如您可以隨時(shí)檢查集群節(jié)點(diǎn)的CPU、內(nèi)存、網(wǎng)絡(luò)、存儲的使用狀況,了解節(jié)點(diǎn)當(dāng)前負(fù)載,確保您使用合適的資源來滿足當(dāng)前的業(yè)務(wù)需求。Redshift和云監(jiān)控CloudWatch服務(wù)高度集成,CloudWatch能夠監(jiān)測Redshift的各種指標(biāo),也可以設(shè)置警報(bào),在集群出現(xiàn)故障時(shí)第一時(shí)間通知您。CloudWatch簡單易用,是保障集群健康的重要環(huán)節(jié)。

數(shù)據(jù)遷移到Redshift

不管您的數(shù)據(jù)是否在云中,都能輕松的使用Redshift分析現(xiàn)有數(shù)據(jù),對于傳統(tǒng)的沒有使用云的用戶,只需要先將數(shù)據(jù)文件上傳到AWS中。AWS提供了多種途徑將云中的數(shù)據(jù)加載到Redshift中。

從S3中加載數(shù)據(jù)

傳統(tǒng)的用戶可以將數(shù)據(jù)文件通過上傳到AWS的云存儲S3上。對于敏感數(shù)據(jù),可以在上傳前加密數(shù)據(jù)或者使用S3云端加密功能,因此無需擔(dān)心數(shù)據(jù)安全。Redshift提供了命令自動將S3中的數(shù)據(jù)并行加載到Redshift中。

從Dynamo DB中加載數(shù)據(jù)

您也可以將數(shù)據(jù)加載到AWS的NoSQL數(shù)據(jù)庫(Dynamo DB)中,DynamoDB中的數(shù)據(jù)可以實(shí)時(shí)或者批量的導(dǎo)入到Redshift。

從EMR中加載數(shù)據(jù)

EMR是AWS基于Hadoop框架的大數(shù)據(jù)處理服務(wù),通過大數(shù)據(jù)處理平臺加工后的數(shù)據(jù),可以使用Redshift命令將HDFS中的數(shù)據(jù)加載到Redshift中。

通過SSH從遠(yuǎn)程服務(wù)器加載數(shù)據(jù)

Redshift也提供了命令從云中或您數(shù)據(jù)中心主機(jī)上通過SSH連接加載數(shù)據(jù),但主機(jī)必須要能接受SSH連接。

AWS提供了豐富的功能幫助您將數(shù)據(jù)中心或云中的數(shù)據(jù)加載到Redshift中,加載完成后您就可以在Redshift中建立模型,分析數(shù)據(jù),使用AWS的QuickSight、Elasticsearch Service等服務(wù)顯示報(bào)表,也可以在AWS的Market Place中尋找行業(yè)BI工具分析和顯示數(shù)據(jù)。

總結(jié)

除了上面談到的Redshift的技術(shù)特性外,Redshift給您帶來的真正價(jià)值在于,它消除了企業(yè)構(gòu)建數(shù)據(jù)倉庫的技術(shù)壁壘,消除了數(shù)據(jù)分析需要使用大量基礎(chǔ)設(shè)施對企業(yè)的拖累,讓企業(yè)專注于自己的核心競爭力;它也能讓您隨時(shí)執(zhí)行您想要的任何復(fù)雜查詢,并能快速得到響應(yīng)。無需擔(dān)心ETL過程,無需擔(dān)心數(shù)據(jù)存放的成本,您所需要的只是連接Redshift,馬上得到您想要的答案!

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號