一直以來,存儲和備份是兩個相近的概念,但是又有很大區(qū)別的。如果不是專業(yè)的技術(shù)專家,是比較難搞清楚這兩者之間區(qū)別,特別是云的出現(xiàn),這兩個概念往往容易混在一起看。本文從幾個方面快速對比下存儲和備份這兩個概念的區(qū)別和發(fā)展,以及演變趨勢。
1. 備份是不能獨立數(shù)據(jù)容器存在,永遠構(gòu)建于存儲之上
存儲是數(shù)據(jù)保存容器的統(tǒng)稱,比如軟盤,光盤,磁盤,磁盤陣列,中小規(guī)模業(yè)務(wù)用的NAS,專業(yè)的磁帶庫,專業(yè)的光纖存儲網(wǎng)絡(luò)SAN。存儲容量從幾MB,到上100TB,甚至P級。最近幾年出現(xiàn)新的一種方案,云存儲,其本身也分為個人用途和企業(yè)用途的。個人數(shù)據(jù)存儲用途比如百度網(wǎng)盤, 360網(wǎng)盤,DropBox等,通稱保存?zhèn)€人的一些資圖片,文檔等;企業(yè)用途的如AWS的S3, 阿里云的OSS,以及七牛云存儲,又拍云,金山云的云存儲等,通常用于關(guān)鍵業(yè)務(wù)系統(tǒng),比如用戶產(chǎn)生的文檔,圖片,視頻等數(shù)據(jù)存儲。云存儲有個好處是可以動態(tài)擴展存儲空間,平臺提供商由于采用低成本硬盤等方案,采用分布式技術(shù),把本身廉價的硬盤聚集起來,構(gòu)建成1個具備較高可靠性的存儲方案; 一些大平臺,當具備規(guī)模效應(yīng)后,平攤到用戶,TCO成本會低不少,這是傳統(tǒng)存儲方案比較軟肋的一個地方。
備份是一種數(shù)據(jù)保護的機制和方案,其實現(xiàn)必須依賴于具體的存儲容器。目前在備份這塊的市場有非常多的品牌,如Symantec 的NBU ,CommVault的備份產(chǎn)品,IBM的TSM,EMC的NetWorker,還有專注混合云數(shù)據(jù)備份保護服務(wù)的多備份。備份通常用于保護業(yè)務(wù)系統(tǒng)產(chǎn)生的核心數(shù)據(jù)或個人重要的數(shù)據(jù)。一般的備份系統(tǒng),通常會與硬件存儲設(shè)備搭配組合成備份方案。多備份目前是構(gòu)建在阿里云存儲,AWS的S3,七牛,以及金山云,百度云等云存儲之上,所有備份的數(shù)據(jù)會存儲在這些大存儲平臺上。
2. 存儲通常解決地理空間的訪問問題;而備份解決地理空間上的冗余保存問題
我們工作用的WORD軟件,如果沒有數(shù)據(jù)存儲介質(zhì),編輯產(chǎn)生的文檔無法保存,配上IDE或SATA硬盤后,應(yīng)用軟件產(chǎn)生的數(shù)據(jù)可以很快保存在硬盤上。這是一個簡單的硬盤存儲支持軟件工作的例子。一旦本地硬盤如果壞掉,努力工作一周的成功,可能得重新再來。
通常的重要業(yè)務(wù)系統(tǒng)架構(gòu)設(shè)計的時候,會充分考慮存儲方案的構(gòu)成,什么樣的業(yè)務(wù)系統(tǒng),在幾個位置,數(shù)據(jù)如何分布,需要的容量,擴展需求等進行規(guī)劃設(shè)計,重點解決業(yè)務(wù)系統(tǒng)不斷增長的數(shù)據(jù)存儲問題。一般會就近業(yè)務(wù)應(yīng)用服務(wù)器來部署存儲架構(gòu)。不管是云存儲,還是傳統(tǒng)的存儲架構(gòu),都有1個目標,讓業(yè)務(wù)系統(tǒng),在不同的位置和存儲在空間上的訪問是穩(wěn)定連續(xù)進行的。
數(shù)據(jù)在一個地方始終是不可靠,機房斷電,線路故障,硬件故障,火災(zāi)等,特別對于重要業(yè)務(wù)系統(tǒng),如支付系統(tǒng),一旦業(yè)務(wù)系統(tǒng)為了保持業(yè)務(wù)連續(xù)訪問,考慮到了多個地點的數(shù)據(jù)鏡像,就有一點備份的味道。云存儲目前在空間數(shù)據(jù)冗余保存方面,一般也有做數(shù)據(jù)垮地區(qū)的冗余保存,防止災(zāi)難的發(fā)生。
備份在此基礎(chǔ)上,進一步封裝邏輯,對數(shù)據(jù)在不同的地方,可以訂制不同的復(fù)制策略。較重要的數(shù)據(jù),通??梢栽?個地方進行冗余,比如用戶產(chǎn)生的日志,圖片等可以冗余1份;對于更關(guān)鍵的數(shù)據(jù),如用戶注冊數(shù)據(jù),數(shù)據(jù)存儲索引數(shù)據(jù),交易數(shù)據(jù),金融系統(tǒng)相關(guān)數(shù)據(jù)等,必要時得多地冗余。云存儲的出現(xiàn),使得基于云的備份方案,實現(xiàn)起來更加容易,輕易按需構(gòu)建不同的地理位置的通道,只要你愿意,數(shù)據(jù)備份到全球幾十個地區(qū)的云存儲中心都可以。這一切可以用最簡單的手動復(fù)制方案,也可以用自動管理的方案,比如多備份等。
3. 存儲通常解決連續(xù)數(shù)據(jù)讀寫,保存問題 ;備份解決時間版本凍結(jié)和回溯問題
保存1個word文檔,上傳完一部電影,修改一個帖子,發(fā)送1條微信消息,這些要么被順序?qū)懭胗脖P,要么被寫入專業(yè)的數(shù)據(jù)庫或文件系統(tǒng)。這是存儲典型的一個應(yīng)用場景,就是不斷響應(yīng)從業(yè)務(wù)或軟件發(fā)送的數(shù)據(jù)保存需求,文檔,電影,帖子最后只會有最新的一個狀態(tài),歷史的狀態(tài)一直被最新的狀態(tài)覆蓋。
既然有新增,那就也有刪除,也有修改,所以存儲并不識別上層軟件的意圖,可能是正常,也可能是惡意入侵,或誤操作,新增和刪除同樣在底層會進行操作。部分存儲設(shè)計,帶有一定的備份恢復(fù)能力,當然要想使用備份恢復(fù)能力,可能比部署一套備份方案,來的成本會更大。我們都知道恢復(fù)一個硬盤的數(shù)據(jù),通常得數(shù)上千塊,硬盤不值錢,但里面的數(shù)據(jù)值錢。
解決新增,刪除,修改等有意無意的行為對數(shù)據(jù)存儲系統(tǒng)帶來的影響,這時候得專業(yè)功能-備份上場。備份系統(tǒng)最主要考慮的一個功能就是時間線版本凍結(jié)和回溯。每次對存儲系統(tǒng)的備份,都會形成1個當前備份時刻的數(shù)據(jù)鏡像版本,恢復(fù)的時候就可以直接選擇對應(yīng)的版本恢復(fù),數(shù)據(jù)就回到從前那一時刻狀態(tài)。當然不同的產(chǎn)品實現(xiàn)備份方案不一樣,對于基于混合云架構(gòu)的多備份來說,版本理論上可以一直保持下來,想怎么恢復(fù),就怎么恢復(fù)。另外,不同的實現(xiàn),鏡像的一致性結(jié)果不盡相同。對于一致性要求高的場景,版本可能會凍結(jié)寫請求,如數(shù)據(jù)庫備份直接加寫鎖,這時候?qū)I(yè)務(wù)會有短時間影響;如果你說自己是土豪出得起價,需要對業(yè)務(wù)系統(tǒng)幾乎無干擾,幾十上百萬無所謂,則可以購買比較牛的連續(xù)數(shù)據(jù)保護方案(CDP),如國外的飛康CDP。
4. 存儲通常面向硬件故障為安全設(shè)計目標;備份解決軟硬件故障在內(nèi)的多種因素引起的數(shù)據(jù)安全問題
在我們?nèi)粘8拍钪?,存儲就等于安全,特別是云計算概念出現(xiàn)后,包括周邊的一些技術(shù)高手也有類似看法,實際上這是一個誤區(qū)。
從最常用的機械硬盤開始,通常圍繞溫度,讀寫壽命,抗沖擊力等設(shè)計,一些硬盤在讀寫超過幾百TB后,就開始工作不正常,SSD硬盤在環(huán)境溫度變化,可能也會引起數(shù)據(jù)有效性變化。隨著存儲安全技術(shù)的加強,出現(xiàn)了冗余整理的技術(shù),把多塊硬盤進行聚合,數(shù)據(jù)寫入多塊硬盤;提高了單塊硬盤的可靠性。進入到NAS,SAN等專用存儲解決方案后,通過冗余陣列,通道冗余,快照鏡像等技術(shù),進一步提高了存儲容量和整個讀寫環(huán)節(jié)的可靠性。但這些都是圍繞硬件故障或存儲區(qū)域故障進行設(shè)計。云存儲,包括對象存儲和彈性塊存儲,核心設(shè)計目標依然是數(shù)據(jù)在硬件或存儲節(jié)點或區(qū)域系統(tǒng)出問題時候,有能力從其它節(jié)點恢復(fù)。
備份系統(tǒng)一個重要設(shè)計思想就是圍繞恢復(fù)設(shè)計。備份把數(shù)據(jù)從1個節(jié)點,一個系統(tǒng)復(fù)制到另外一個節(jié)點,一個系統(tǒng),規(guī)避了硬件、軟件在同一時期發(fā)生問題的可能性;備份系統(tǒng)通常會在數(shù)據(jù)存儲這里增加高級別的冗余配置,或冗余復(fù)制,或低成本的算術(shù)冗余數(shù)據(jù)分布。備份系統(tǒng)通過時間版本化,空間冗余分布進一步規(guī)避了因為各種有意,無意的數(shù)據(jù)讀寫動作,包括人為操作,系統(tǒng)故障,軟件缺陷,黑客入侵,病毒,自然災(zāi)難等,引起的數(shù)據(jù)丟失,新增,修改等問題。一些設(shè)計得比較好的方案,會輕松還原數(shù)據(jù)。即時在備份系統(tǒng)軟件出現(xiàn)問題,也能把數(shù)據(jù)通過一定的流程還原回去。多備份在業(yè)務(wù)系統(tǒng)出現(xiàn)問題后,甚至可以在選定數(shù)據(jù)庫表或某1個文件獨立恢復(fù);如果數(shù)據(jù)采用混合云模式,數(shù)據(jù)再TB級別,也可以在極其短暫的情況下恢復(fù)到業(yè)務(wù)系統(tǒng)中。
5. 存儲通常關(guān)注訪問性能指標設(shè)計;備份重點關(guān)注一次備份和恢復(fù)的時間開銷
電腦從IDE硬盤,升級到SSD硬盤,操作系統(tǒng)啟動速度,軟件運行的速度明顯不一樣。業(yè)務(wù)系統(tǒng)從普通的硬盤存儲,過度到專業(yè)級SAN全光纖存儲,甚至對數(shù)據(jù)進行上幾百GB的全內(nèi)存加速,目的就是為了提高數(shù)據(jù)讀寫的速度,提升終端用戶的體驗。所以,存儲系統(tǒng)通常會圍繞IOPS指標來選型,場景不一樣IOPS的選擇也不一樣。當然價格也不一樣。云存儲涉及到的彈性塊存儲,以及對象存儲都有同樣的考量指標 ,目標筆者了解到的是,彈性塊存儲通常在幾十MB左右,而結(jié)合SSD方案的,則可以到上百MB。云存儲為了提高讀的能力,通常結(jié)合了CDN技術(shù)。部分廠家還提供了上傳加速,比如七牛。
備份系統(tǒng),非常關(guān)注一次備份和恢復(fù)的時間窗口,主要原因在于大部分備份系統(tǒng)是構(gòu)建在生產(chǎn)主系統(tǒng)之上。通常備份越快,對業(yè)務(wù)系統(tǒng)的影響越小。業(yè)務(wù)系統(tǒng)的場景非常復(fù)雜,有的是文件大,如視頻,圖片,系統(tǒng)壓縮文件,如多備份不少客戶是數(shù)據(jù)庫壓縮后的文件進行備份,但單個文件得幾百GB ;有的客戶是海量的文件,如郵件系統(tǒng),規(guī)模上TB級,數(shù)量也在億級別。如何在最短之內(nèi)把數(shù)據(jù)備份完成,通常是一個比較辣手的問題。在這塊包括先壓縮后備份,先歸檔再備份,或者直接快照后再備份等各種方案都有。基本上總結(jié)起來就包括文件系統(tǒng)級的,IO塊級別的,或者快照級別的備份。文件系統(tǒng)級實施簡單,價格低,性能受限文件系統(tǒng)IO能力;IO塊級別實施復(fù)雜,價格貴,通常需要變化存儲架構(gòu);快照級別可能對存儲架構(gòu)會有調(diào)整,適合規(guī)模小一點的。傳統(tǒng)主流大廠的方案一般都會有以上幾個組合。多備份目前聚焦在文件系統(tǒng)對象級,IO塊和快照方案作為輔組;結(jié)合變掃描邊備份,實時發(fā)現(xiàn),智能壓縮,自適應(yīng)CPU硬件加密等方案,盡可能減低處理時間。依賴備份方案,恢復(fù)的機制相應(yīng)也不一樣,恢復(fù)速度也不一樣; 對于純粹的備份來說,按照備份對象序列差異式的恢復(fù)變化的內(nèi)容,依然是一個可靠與速度平衡的解決思路,且在目標系統(tǒng)可用的情況下,是非常合適的一個方案。如果對于做了異地備份的情況,災(zāi)難式的恢復(fù)通常會受限于網(wǎng)絡(luò)通道。
6. 存儲通常以數(shù)據(jù)規(guī)模變”大”為美,而備份通常以最大程度把數(shù)據(jù)變“小”為美
這里的變大,是指存儲解決的問題是如何存儲超大規(guī)模的數(shù)據(jù)。在我們?nèi)粘T掝}中,通常溝通交流的是誰家的硬盤支持1TB,2TB,4TB等,業(yè)務(wù)系統(tǒng)支持多少用戶規(guī)模,產(chǎn)生了多少TB數(shù)據(jù),數(shù)據(jù)庫存儲規(guī)模如何等, 衡量一個存儲系統(tǒng)設(shè)計的是否好,就是在大規(guī)模數(shù)據(jù)下,系統(tǒng)反應(yīng)良好,用戶感覺流暢。而支持這一目標,通常會說存儲服務(wù)器支持的硬盤塊數(shù),單塊硬盤的容量,當然IO通道能力也是配套指標。
為了支持足夠的大,配上專門的存儲交換機,快速把大容量存儲陣列映射到不同的服務(wù)器上;而數(shù)據(jù)集中存儲在SAN網(wǎng)絡(luò)中,有的高達幾百TB甚至PB級別。即使這樣,支持壓縮的特性也能派上用場,特別巨大的數(shù)據(jù)量,對存儲的數(shù)據(jù)默認進行壓縮或去重,降低數(shù)據(jù)占用空間。云存儲的出現(xiàn),更是把容量推向了幾乎無限;單個云平臺或者準確受限于存儲機房區(qū)域的容量和區(qū)域的數(shù)量。由于動態(tài)擴容特性,當存儲網(wǎng)絡(luò)不夠時,在IDC空間足夠的情況下,可以不斷增加節(jié)點完成存儲節(jié)點的增加。
通常當數(shù)據(jù)足夠大,數(shù)據(jù)足夠久的時候,數(shù)據(jù)就需要歸檔備份起來。而備份就是解決如何保持完整的數(shù)據(jù)同時,能更好的減低存儲開銷。所以,一般來說,由于備份會采取在原端去重,或存儲端全局去重等技術(shù),保持最小的備份空間。同時包括壓縮等方案,也會自動在備份流程中引入。在傳統(tǒng)的實施方案中,由于要定期作全量,數(shù)據(jù)會變得很大,所以一般保留3個月,或半年,或按年做次全量等策略 ; 在快照模型下,由于產(chǎn)生的數(shù)據(jù)規(guī)模比較大,通常云主機對云磁盤采取的快照備份一般也保持幾個快照。傳統(tǒng)備份產(chǎn)品也有全增量策略,只是結(jié)合硬件存儲方案,使用和管理成本依然還是比較高; 多備份采取的全增量策略,優(yōu)勢主要集中在混合云索引增量模型,數(shù)據(jù)保持最小增長規(guī)??煽看鎯Φ耐瑫r,還可以保持更簡單的快速恢復(fù)體驗,大規(guī)模數(shù)據(jù)備份非常省空間。
存儲和備份的差異總結(jié)
存儲主要重點解決原始產(chǎn)生數(shù)據(jù)的正常存放和讀取問題,包括媒介,以及存放讀取方法,
比如數(shù)據(jù)通過文件系統(tǒng)或?qū)iT的訪問接口保存在U盤,硬盤,光盤,磁盤陣列,NAS,SAN存儲網(wǎng)絡(luò),云存儲等。一般個人存儲和企業(yè)存儲在讀寫性能,安全,可靠性,可管理性,服務(wù)質(zhì)量承諾等方面存在本質(zhì)區(qū)別。正如硬盤,網(wǎng)盤永遠是解決個人照片,非敏感資料等存儲需求,而SAN,NAS,企業(yè)級云存儲服務(wù)則是企業(yè)重要資料存取方案。性能,容量,規(guī)避單節(jié)點,單區(qū)域依然是最求的最大設(shè)計目標,備份依然不是其重點解決點; 進一步,基于云存儲的模型,產(chǎn)生了用于保存相對冷數(shù)據(jù)的服務(wù),包括Google,AWS,還有阿里云的歸檔服務(wù)。這為歷史累計不常用的數(shù)據(jù)歸檔備份打下了基礎(chǔ),但普通個人或企業(yè)也難于直接使用。
備份則通過定期或?qū)崟r復(fù)制技術(shù),應(yīng)對各類人為,軟件故障,系統(tǒng)故障,自然災(zāi)難引起的數(shù)據(jù)丟失,損壞,出錯等問題
U盤備份,硬盤備份,磁帶備份,光盤備份,本地備份,異地備份,云備份,本地與云結(jié)合的混合云模式備份等類型,以及CDP 實時備份保護等。手動復(fù)制到U盤,硬盤構(gòu)成一個最簡單的備份方案。但涉及到大規(guī)模數(shù)據(jù),保護服務(wù)或系統(tǒng)數(shù)量增加,以及資料的敏感控制,生產(chǎn)系統(tǒng)資源占用控制管理等需求,只要用專業(yè)的保護方案才能解決。
最新的系統(tǒng)與數(shù)據(jù)備份保護趨勢將逐步超出備份范疇,智能化數(shù)據(jù)管理,數(shù)據(jù)保護虛擬化,以及和各種云環(huán)境的融合,與數(shù)據(jù)安全的融合將是重要的發(fā)展方向 ;備份即是立即可用的服務(wù),備份即是保護服務(wù),備份即是數(shù)據(jù)虛擬化,備份即是數(shù)據(jù)服務(wù),備份即是數(shù)據(jù)遷移服務(wù)等是重要的數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用發(fā)展方向。目前巨頭和多備份等一些創(chuàng)新類企業(yè)等已經(jīng)在加快邁向這個趨勢。