近日看到一篇博客,談及是否要“停止使用”磁帶歸檔。作者認(rèn)為,對(duì)企業(yè)而言,他們收集的所有數(shù)據(jù)(包括歸檔數(shù)據(jù))都會(huì)潛藏著價(jià)值,因此應(yīng)當(dāng)將其部署到隨機(jī)存取介質(zhì),即磁盤(pán)或閃存,而非磁帶當(dāng)中。作者引述了幾個(gè)匿名用例來(lái)論證他對(duì)磁帶的認(rèn)識(shí),在這些用例中,測(cè)試開(kāi)發(fā)人員需要快速訪問(wèn)歸檔數(shù)據(jù),或者是要?jiǎng)?chuàng)建個(gè)性化的動(dòng)作視頻。
這些用例的引起了眾人的質(zhì)疑。人們就是否需要如此頻繁引用數(shù)據(jù)爭(zhēng)論不已。從技術(shù)上講,情況的確有變,引用IBM的術(shù)語(yǔ),數(shù)據(jù)已經(jīng)從靜態(tài)變?yōu)閯?dòng)態(tài),甚至成為熱點(diǎn)數(shù)據(jù)。換而言之,歸檔平臺(tái)(不論是否基于磁帶)都不再是這些經(jīng)常受訪問(wèn)的工作負(fù)載最適當(dāng)?shù)臄?shù)據(jù)平臺(tái)。
問(wèn)題不在于我們是否應(yīng)該取消磁帶歸檔,而是如何剛好地定義、分類(lèi)哪些數(shù)據(jù)需要?dú)w檔,而哪些是活躍的數(shù)據(jù)。
活動(dòng)的歸檔數(shù)據(jù)?
我們先從那篇博客本身,作者介紹了使用磁盤(pán)的所謂二級(jí)存儲(chǔ),以及三級(jí)存儲(chǔ),即使用磁盤(pán)或光盤(pán)等存儲(chǔ)媒介。備份存儲(chǔ)市場(chǎng)的供應(yīng)商在二十一世紀(jì)早期開(kāi)始模糊二、三級(jí)存儲(chǔ)之間的差異,其中最主要的在于引入了磁盤(pán)陣列,用磁盤(pán)來(lái)取代磁帶。主動(dòng)歸檔基于同樣的邏輯——引入另一種類(lèi)型的磁盤(pán)或閃存平臺(tái),在某種程度上其介于主存儲(chǔ)與二級(jí)存儲(chǔ)之間,而磁帶存儲(chǔ)亦不完全等同于歸檔文件或離線(xiàn)存儲(chǔ)應(yīng)用。
你或許和我一樣,難以看清其中的含義。以支持重復(fù)數(shù)據(jù)刪除的虛擬磁帶庫(kù)為例,這種主動(dòng)歸檔平臺(tái)不使用任何磁帶產(chǎn)品,但我確實(shí)無(wú)法理解其填補(bǔ)了哪一片空白的市場(chǎng),或是以一種更具成本效益的方案來(lái)比成本更低的磁帶存儲(chǔ)歸檔數(shù)據(jù)。
作者說(shuō)Hadoop、Spark和Splunk是面向大數(shù)據(jù)的。其使用對(duì)象接口來(lái)訪問(wèn)數(shù)據(jù),不論是數(shù)據(jù)塊還是結(jié)構(gòu)化文件。這是其論據(jù)的基礎(chǔ):隨著磁帶,以及大多數(shù)基于磁盤(pán)的NAS產(chǎn)品變得不適合作為分析數(shù)據(jù)庫(kù)訪問(wèn)的存儲(chǔ)平臺(tái),我們必須擁有基于磁盤(pán)或閃存的對(duì)象存儲(chǔ),從而實(shí)現(xiàn)主動(dòng)歸檔。
還有一點(diǎn)可以佐證的是,云端使用的數(shù)據(jù)訪問(wèn)協(xié)議,如Amazon Simple Storage Service(S3),也會(huì)針對(duì)對(duì)象存儲(chǔ)進(jìn)行優(yōu)化。專(zhuān)業(yè)人士一致的觀點(diǎn)是,云計(jì)算是不可阻擋的。那么,假如企業(yè)最終使用基于云的對(duì)象存儲(chǔ)來(lái)實(shí)現(xiàn)歸檔,那么有什么原因會(huì)讓他們想將數(shù)據(jù)存放在基于文件的磁帶存儲(chǔ)歸檔之中呢?
云計(jì)算同樣使用磁帶
最近我發(fā)現(xiàn),云計(jì)算環(huán)境的搭建者們大量使用磁帶,主要原因在于,2025年數(shù)據(jù)總量預(yù)計(jì)會(huì)超過(guò)100 ZB,而磁帶是容納數(shù)據(jù)洪水的唯一方式,另一個(gè)原因在于帶寬的限制,需要在適合的時(shí)間內(nèi)在云端實(shí)現(xiàn)數(shù)據(jù)存取。磁帶是一種非常不錯(cuò)的“云端播種”方式,數(shù)據(jù)被轉(zhuǎn)儲(chǔ)到磁帶,容納后運(yùn)送到云存儲(chǔ)服務(wù)提供商,包含在一個(gè)龐大的歸檔磁帶庫(kù)中。
至于認(rèn)為磁帶不是適合的托管對(duì)象,這也并非是絕對(duì)的。磁帶與線(xiàn)性磁帶文件系統(tǒng)(LTFS)的結(jié)合應(yīng)用使其成為最佳存儲(chǔ)候選對(duì)象。LTFS是記錄諸如視頻、人類(lèi)基因組數(shù)據(jù)、石油天然氣勘探遙測(cè)的大塊文件的最佳實(shí)踐,較小的文件則非其所擅長(zhǎng)。如Spectra Logic和其他技術(shù)所展示的,對(duì)象存儲(chǔ)提供了一種在LTFS磁帶上儲(chǔ)存大量小型對(duì)象的方式。
另一種用例是即時(shí)視頻編輯。諸如StorageDNA這類(lèi)公司在未來(lái)的創(chuàng)新技術(shù)有希望使得磁帶的數(shù)據(jù)訪問(wèn)效率比當(dāng)前大幅提升——在加載磁帶盒后,尋求文件啟動(dòng)的最快速度為45毫秒,對(duì)現(xiàn)有的歸檔媒介(LTO)而言只有不到一半的時(shí)間。
磁帶仍在
磁帶已死的想法由來(lái)已久,最早可追溯自上世紀(jì)80年代之后。首先是磁盤(pán)的出現(xiàn),然后是RAID陣列,再后來(lái)是SAN,以及云計(jì)算。但磁帶依然存在,在可以預(yù)見(jiàn)的未來(lái)仍有市場(chǎng)。
就這種觀點(diǎn),不如聽(tīng)下StarWind Software是怎么說(shuō)的。這家企業(yè)圍繞著軟件定義存儲(chǔ)和虛擬SAN,推動(dòng)技術(shù)大潮的發(fā)展。同時(shí),他們完全承認(rèn)其虛擬磁帶庫(kù)(VTL)正迅速引起市場(chǎng)的關(guān)注。這是一款軟件定義的存儲(chǔ)設(shè)備,使用閃存讀取和磁盤(pán)陣列,不論硬件還是虛擬機(jī)(VM)都可以模擬磁帶庫(kù)的作用。事實(shí)上,VTL本質(zhì)上也支持磁帶。換句話(huà)說(shuō),假如客戶(hù)想要將數(shù)據(jù)寫(xiě)入磁帶庫(kù),可以直接將內(nèi)容發(fā)送到位于Azure或Amazon Web Service的云端。StarWind還提供其用于公有云的VM,用于從你的本地與服務(wù)供應(yīng)商的VTL到VTL傳輸。
StarWind和其他VTL供應(yīng)商,如CA Technologies、Cristalink以及QUADStor Systems都認(rèn)識(shí)到當(dāng)數(shù)據(jù)發(fā)送到云端之后,其便會(huì)變得無(wú)所不在。所以讓我們接受這個(gè)事實(shí),即“磁帶未死”,并且清醒地認(rèn)識(shí)到上述的各項(xiàng)策略將是未來(lái)數(shù)年中我們面對(duì)數(shù)據(jù)海嘯所必需準(zhǔn)備好的。