利用45塊磁盤驅(qū)動(dòng)器、10塊奇偶校驗(yàn)驅(qū)動(dòng)器外加33塊備用磁盤構(gòu)建陣列方案。根據(jù)發(fā)表在Arxiv之上的研究成果,這樣的最佳陣列規(guī)模能夠在四年周期當(dāng)中以無需服務(wù)介入的前提實(shí)現(xiàn)數(shù)據(jù)保護(hù)。
本次研究所解決的問題在于,目前全世界都在向超大規(guī)模數(shù)據(jù)中心路線進(jìn)軍、并將數(shù)量龐大到驚人地步的磁盤集中于一處,而由此帶來的故障驅(qū)動(dòng)器更換成本甚至遠(yuǎn)遠(yuǎn)高于磁盤自身的銷售價(jià)格。
此次研究由休斯頓大學(xué)的Jehan-Fran ois Paris負(fù)責(zé)主導(dǎo),整個(gè)研究團(tuán)隊(duì)提出了一套全新磁盤組合方案,并認(rèn)為這套方案能夠在四年正常使用周期內(nèi)為商用磁盤驅(qū)動(dòng)器帶來高達(dá)“五個(gè)九”的穩(wěn)定可用性表現(xiàn)。
根據(jù)他們的說法,如果擁有正確的模型作為支持,那么經(jīng)過良好設(shè)計(jì)的驅(qū)動(dòng)器陣列能夠保證整個(gè)磁盤生命周期內(nèi)不會出現(xiàn)任何需要更換故障驅(qū)動(dòng)器的狀況——他們表現(xiàn)這樣的成果“利用RAID 6組織方式絕對不可能實(shí)現(xiàn),而且能夠容忍三塊磁盤發(fā)生故障”。
標(biāo)準(zhǔn)RAID架構(gòu)采用奇偶校驗(yàn)磁盤對陣列整體加以保護(hù),旨在幫助其免受故障的侵?jǐn)_。但他們同時(shí)指出,在利用四塊奇偶校驗(yàn)磁盤保護(hù)六塊數(shù)據(jù)磁盤時(shí),可能出現(xiàn)的三磁盤故障狀況仍會導(dǎo)致陣列徹底陷入癱瘓,例如一塊數(shù)據(jù)磁盤與兩塊備用磁盤出現(xiàn)問題; 或者總計(jì)損壞三塊數(shù)據(jù)磁盤。
然而,即使是規(guī)模更小的故障也可能給數(shù)據(jù)中心運(yùn)營人員帶來巨大困擾。在技術(shù)方案能夠?qū)⑿买?qū)動(dòng)器接入插槽之前,RAID陣列在缺少一塊驅(qū)動(dòng)器情況下的運(yùn)行過程中將始終處于保護(hù)匱乏的狀態(tài)之下——對于那些相對位置偏遠(yuǎn)的基礎(chǔ)設(shè)施位置,更換故障驅(qū)動(dòng)器將帶來高昂的運(yùn)營成本。
這份研究論文提出了一項(xiàng)雙重結(jié)論。研究人員們建議稱,運(yùn)營者應(yīng)當(dāng)將備用磁盤構(gòu)建成一套新的驅(qū)動(dòng)器陣列。在此基礎(chǔ)之上,他們嘗試構(gòu)建并最終獲得了一套最優(yōu)陣列配置。
為了構(gòu)建這套模型,研究人員采用了Backblaze磁盤的平均故障比例數(shù)據(jù)——前十八個(gè)月內(nèi)為5.1%,接下來十八個(gè)月中為1.4%,而第三年中的比例則為11.8%。除此之外,假定采用4 TB驅(qū)動(dòng)器與200 MB每秒平均數(shù)據(jù)傳輸速率,那么陣列在進(jìn)行自身修復(fù)時(shí)需要耗費(fèi)24個(gè)小時(shí)。
這套模型表明,在可靠性與低存儲容量消耗之間找到的最佳陣列平衡點(diǎn)為設(shè)置45塊數(shù)據(jù)磁盤、10塊備用磁盤以及33塊奇偶校驗(yàn)磁盤; 研究人員充滿信心,表示這套陣列模型能夠提供高達(dá)“五個(gè)九”的出色可靠性,而且與不設(shè)備用磁盤的RAID陣列相比、其存儲容量浪費(fèi)水平降低了49%。
由于數(shù)據(jù)磁盤數(shù)量更少,達(dá)成五個(gè)九可用性水平所需要的備用磁盤比例有所上升,因此這套模型中的備用磁盤容量增幅超過56%——而令人驚訝的是,這套模型指出即使將陣列中的備用磁盤數(shù)據(jù)提升至“無限”、也幾乎不會再對四年周期內(nèi)的可用性預(yù)期帶來明顯提升。
研究人員們指出,他們的設(shè)計(jì)方案只有在單一陣列當(dāng)中多塊驅(qū)動(dòng)器出現(xiàn)批量故障時(shí)才有可能帶來低于五個(gè)九的可靠性表現(xiàn)。