互聯(lián)網(wǎng)安全事件層出 看Hadoop獨(dú)當(dāng)一面

責(zé)任編輯:editor006

作者:李祥敬

2015-06-10 15:46:21

摘自:天極網(wǎng)

近期的一系列互聯(lián)網(wǎng)安全事件給企業(yè)敲響了信息安全的警鐘,這也就談到了企業(yè)數(shù)據(jù)災(zāi)備的問題。訪問安全:通過文件系統(tǒng)ACL和細(xì)粒度授權(quán),定義授權(quán)用戶和應(yīng)用程序?qū)簲?shù)據(jù)的權(quán)限。

近期的一系列互聯(lián)網(wǎng)安全事件給企業(yè)敲響了信息安全的警鐘,這也就談到了企業(yè)數(shù)據(jù)災(zāi)備的問題。這個(gè)問題已經(jīng)是老生常談了,而且各種廠商也推出了名目繁多的各種方案,比如雙活、兩地三中心等等概念。通常根據(jù)容災(zāi)系統(tǒng)對(duì)災(zāi)難的抵抗程度,可分為數(shù)據(jù)容災(zāi)和應(yīng)用容災(zāi)。數(shù)據(jù)容災(zāi)是指建立一個(gè)異地的數(shù)據(jù)系統(tǒng),對(duì)關(guān)鍵的數(shù)據(jù)進(jìn)行備份存儲(chǔ),當(dāng)故障造成本地?cái)?shù)據(jù)丟失時(shí),可以通過備份找回;應(yīng)用容災(zāi)層次更高,即在異地建立一套完整的、與本地?cái)?shù)據(jù)系統(tǒng)相當(dāng)?shù)膫浞輵?yīng)用系統(tǒng),在災(zāi)難出現(xiàn)后,遠(yuǎn)程應(yīng)用系統(tǒng)迅速接管或承擔(dān)本地應(yīng)用系統(tǒng)的業(yè)務(wù)運(yùn)行。

根據(jù)某在線旅游網(wǎng)站的聲明,其后臺(tái)是一個(gè)由SOA(面向服務(wù))架構(gòu)組成的龐大服務(wù)器集群,看似簡(jiǎn)單的一個(gè)頁面背后由上千個(gè)應(yīng)用子系統(tǒng)以及上千個(gè)Web Service組成,而每個(gè)應(yīng)用子系統(tǒng)和每個(gè)Web Service之間都存在著相互調(diào)用的依賴關(guān)系。發(fā)生事件后,攜程的技術(shù)人員除了需要恢復(fù)生產(chǎn)服務(wù)器上的執(zhí)行代碼以外,還要恢復(fù)并確保每個(gè)應(yīng)用子系統(tǒng)以及每個(gè)Web Service的功能正常,同時(shí)確保應(yīng)用子系統(tǒng)與Web Service間的調(diào)用關(guān)系得以正常執(zhí)行。因此才花費(fèi)了十二個(gè)小時(shí)。

其實(shí)很多企業(yè)安全時(shí)間歸結(jié)于管理問題,但是管理問題其實(shí)可以從技術(shù)上進(jìn)行實(shí)現(xiàn)。Cloudera公司副總裁苗凱翔博士談及近期互聯(lián)網(wǎng)安全事件時(shí),他表示,這些安全事故對(duì)于用戶造成的影響還是蠻大的,雖然在技術(shù)人員看來這些事故的嚴(yán)重程度并不大,但是帶給企業(yè)的思考是長(zhǎng)遠(yuǎn)的。數(shù)據(jù)安全雖然很多情況下是源自管理問題,但是企業(yè)可以采用比較先進(jìn)的技術(shù)來彌補(bǔ)管理上的漏洞。就拿災(zāi)備來說,其實(shí)Hadoop就是不錯(cuò)的解決方案,Hadoop不論是從底層的HDFS存儲(chǔ)系統(tǒng)還是其他管理組件都采用了HA(高可用)設(shè)計(jì)。

Hadoop是目前最熱門的大數(shù)據(jù)計(jì)算系統(tǒng),它實(shí)現(xiàn)了一個(gè)可擴(kuò)展的分布式文件系統(tǒng)HDFS作為海量數(shù)據(jù)的存儲(chǔ)系統(tǒng)。HDFS是主從式的分布式系統(tǒng),NameNode管理整個(gè)文件系統(tǒng)的元數(shù)據(jù),負(fù)責(zé)數(shù)據(jù)的分配,并管理著DataNode;而DataNode負(fù)責(zé)存儲(chǔ)數(shù)據(jù)塊,按塊提供數(shù)據(jù)存取服務(wù)。

HDFS集群是由一個(gè)NameNode和多個(gè)DataNode組成的主從結(jié)構(gòu)。NameNode是個(gè)數(shù)據(jù)管理器,負(fù)責(zé)管理HDFS文件和塊,還有文件系統(tǒng)的命名空間。該信息作為命名空間鏡像和可編輯的日志永久保存在本地驅(qū)動(dòng)器上。NameNode還存儲(chǔ)非持久性的信息,例如給定文件中所有塊(Block)的位置。 HDFS文件被分成塊,然后復(fù)制和存儲(chǔ)在DataNode上。每個(gè)DataNode定期與NameNode同步塊信息。

Hadoop建立了主備的NameNode配置,以此避免了單點(diǎn)故障。當(dāng)保守的故障切換控制器(Failover Controller)檢測(cè)到故障,它可以讓備用節(jié)點(diǎn)接管,讓主用節(jié)點(diǎn)退下來。因?yàn)橹饔煤蛡溆玫腘ameNode分享了可編輯日志和報(bào)告,備用NameNode可以非常迅速地接管。

苗凱翔以Cloudera服務(wù)的六百多用戶來說,其中涉及很多銀行等金融行業(yè)用戶,但是從沒有出現(xiàn)過類似攜程這樣的事件。這主要得益于Cloudera基于Hadoop的數(shù)據(jù)管理產(chǎn)品。在金融行業(yè)隨著各種風(fēng)險(xiǎn)和合規(guī)性的要求,數(shù)據(jù)管理已經(jīng)發(fā)展到EB級(jí)別,金融服務(wù)企業(yè)和監(jiān)管機(jī)構(gòu)正努力應(yīng)對(duì)新的合規(guī)的挑戰(zhàn),尤其是涉及到平衡數(shù)據(jù)管理的成本和復(fù)雜性。

目前很多企業(yè)把重要的業(yè)務(wù)負(fù)載放在Hadoop上面,業(yè)界對(duì)于大數(shù)據(jù)項(xiàng)目的安全需求更加迫切。我們以MasterCard為例,全球最大的信用卡服務(wù)商之一MasterCard需要滿足支付卡行業(yè)標(biāo)準(zhǔn),對(duì)于MasterCard來說,數(shù)據(jù)隱私和安全的重要性不言而喻。從各種合作伙伴和供應(yīng)商那里獲取最新的技術(shù)來滿足嚴(yán)格行業(yè)安全標(biāo)準(zhǔn),而Cloudera在滿足這些安全標(biāo)準(zhǔn)的同時(shí),為MasterCard數(shù)據(jù)中心管理帶來了帶來了更多的選擇。Cloudera與MasterCard的合作項(xiàng)目,借助HDFS和Hadoop集群以及Apache Sentry,Cloudera實(shí)現(xiàn)了在線與離線的所有數(shù)據(jù)與元數(shù)據(jù)的保護(hù)。

Hadoop在文件系統(tǒng)層有很強(qiáng)的安全性,但對(duì)于保證用戶數(shù)據(jù)訪問和BI應(yīng)用程序的充分安全方面,它缺乏細(xì)粒度的支持。因此,許多對(duì)安全系數(shù)要求較高的業(yè)內(nèi)組織被迫做出選擇,要么將數(shù)據(jù)置于非保護(hù)狀態(tài),要么將所有的用戶拒之門外,大多數(shù)企業(yè)選擇后者,嚴(yán)格限制對(duì)Hadoop數(shù)據(jù)的訪問。Apache Sentry彌補(bǔ)了Hadoop的安全漏洞。Sentry是一個(gè)Hadoop的權(quán)限控制的開源組件。為了對(duì)正確的用戶和應(yīng)用程序提供精確的訪問級(jí)別,Sentry提供了細(xì)粒度級(jí)、基于角色的授權(quán)以及多租戶的管理模式。

對(duì)于金融、政府、醫(yī)療保健和其它對(duì)敏感數(shù)據(jù)的訪問有嚴(yán)格監(jiān)管的行業(yè),如若使用Hadoop必須要達(dá)到以下幾個(gè)要求:

周邊安全:通過網(wǎng)絡(luò)安全、防火墻和最終的認(rèn)證來確認(rèn)用戶身份,確保集群訪問的安全。

數(shù)據(jù)安全:通過屏蔽和加密技術(shù),保護(hù)集群中的數(shù)據(jù)不會(huì)被非法訪問,包括已存儲(chǔ)的數(shù)據(jù)和傳輸中的數(shù)據(jù)。

訪問安全:通過文件系統(tǒng)ACL和細(xì)粒度授權(quán),定義授權(quán)用戶和應(yīng)用程序?qū)簲?shù)據(jù)的權(quán)限。

可見性:通過中央審計(jì)報(bào)告數(shù)據(jù)源和數(shù)據(jù)用法。

通過引進(jìn)Sentry,Hadoop目前可在以下方面滿足企業(yè)和政府用戶的RBAC(基于角色訪問控制)需求:

安全授權(quán):Sentry可以控制數(shù)據(jù)訪問,并對(duì)已通過驗(yàn)證的用戶提供數(shù)據(jù)訪問特權(quán)。

細(xì)粒度訪問控制:Sentry支持細(xì)粒度的Hadoop數(shù)據(jù)和元數(shù)據(jù)訪問控制。

基于角色的管理:Sentry通過基于角色的授權(quán)簡(jiǎn)化了管理,你可以輕易將訪問同一數(shù)據(jù)集的不同特權(quán)級(jí)別授予多個(gè)組。例如,對(duì)于某特定數(shù)據(jù)集,你可以分配給反欺詐小組查看所有列的特權(quán),給分析師查看非敏感或非PII(Personally Identifiable Information)列的權(quán)限,給數(shù)據(jù)接收流插入新數(shù)據(jù)到HDFS的權(quán)限。

多租戶管理:Sentry允許為委派給不同管理員的不同數(shù)據(jù)集設(shè)置權(quán)限。

統(tǒng)一平臺(tái):Sentry為確保數(shù)據(jù)安全,提供了一個(gè)統(tǒng)一平臺(tái),使用現(xiàn)有的Hadoop Kerberos實(shí)現(xiàn)安全認(rèn)證。同時(shí),通過Hive或Impala訪問數(shù)據(jù)時(shí)可以使用同樣的Sentry協(xié)議。

此外,Cloudera借助Gazzang的數(shù)據(jù)加密技術(shù),可以實(shí)現(xiàn)所有數(shù)據(jù)的安全。Gazzang提供了塊級(jí)的加密技術(shù),其產(chǎn)品包括Hadoop環(huán)境下的數(shù)據(jù)加密產(chǎn)品及訪問權(quán)限管理產(chǎn)品,后者可以控制對(duì)鍵值、令牌等數(shù)據(jù)訪問授權(quán)協(xié)議的訪問。

對(duì)于志在成為企業(yè)數(shù)據(jù)中樞的Cloudera來說,有了Gazzang的安全技術(shù)支持,無疑可以提高其客戶對(duì)環(huán)境安全的信心。除了支持Hadoop環(huán)境以外,Gazzang的加密技術(shù)還支持Cassandra、MongoDB、CouchBase、Amazon Elastic MapReduce等下一代的數(shù)據(jù)存儲(chǔ)環(huán)境。

Cloudera Enterprise Data Hub本身集成了很多安全特性,其中Cloudera Navigator提供開箱即用的集中式安全性,來確認(rèn)授權(quán)和第三方增設(shè)的安全性。

總之,我們看到Hadoop不管作為一個(gè)大數(shù)據(jù)處理引擎,在數(shù)據(jù)存儲(chǔ)和處理方面的優(yōu)勢(shì)也是非常明顯的。因?yàn)镠adoop生來就是為了大規(guī)模的數(shù)據(jù)存儲(chǔ)和處理,所以在賦予了Hadoop安全性后,Hadoop成為企業(yè)數(shù)據(jù)管理的重要管理工具,其在企業(yè)數(shù)據(jù)安全管理方面的想象空間是非常大的。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)