測(cè)試設(shè)置
ESG的實(shí)驗(yàn)室測(cè)試了3個(gè)到5個(gè)服務(wù)器節(jié)點(diǎn)的Scality Ring,服務(wù)器之間通過一個(gè)10Gb/秒以太網(wǎng)線纜來連接。每臺(tái)服務(wù)器配置24個(gè)英特爾Xeon CPU核,24GB的RAM,6個(gè)600GB英特爾SSD(固態(tài)驅(qū)動(dòng)器)。軟件將每個(gè)SSD分成兩個(gè)區(qū),也就是在每個(gè)服務(wù)器節(jié)點(diǎn)上創(chuàng)建12個(gè)I/O區(qū)(軟件節(jié)點(diǎn))。
ESG的Scality Ring設(shè)置
一般的對(duì)象存儲(chǔ)系統(tǒng),比如Scality Ring 1,采用的是基于磁盤驅(qū)動(dòng)器的設(shè)計(jì)。不過,在這個(gè)ESG測(cè)試中,每個(gè)Ring服務(wù)器節(jié)點(diǎn)都是基于閃存的對(duì)象存儲(chǔ)節(jié)點(diǎn),而不是基于磁盤的,因此它的性能“比起行業(yè)領(lǐng)先的基于塊的雙控制器磁盤陣列的每秒I/O性能來說是非常好的結(jié)果”。
[page]
為什么Scality和ESG選擇用基于SSD的Ring來比較基于HDD的驅(qū)動(dòng)器陣列?
Scality首席執(zhí)行官Jér?me Lecat表示:“和一般人的想法不同,我們確信我們的基于對(duì)象的存儲(chǔ)在并行負(fù)荷上要快于SAN,但是我們要怎樣證明它呢?”
“我們研究了其他人(SAN、NAS、向外擴(kuò)展NAS)是如何匯報(bào)自己的性能成績(jī)的,我們發(fā)現(xiàn)在他們的測(cè)試設(shè)計(jì)中,大多數(shù)IOPS(每秒輸入輸出) 性能數(shù)字是來自RAM/高速緩存/SSD,而不是來自HDD訪問。所有存儲(chǔ)系統(tǒng)都有一些控制器記憶體和一些高速緩存和/或分層機(jī)制。通過某種優(yōu)化,很容易 讓測(cè)試數(shù)據(jù)主要集中于系統(tǒng)的這個(gè)部分而不是磁盤部分。”
“Isilon,一家向外擴(kuò)展NAS(網(wǎng)絡(luò)附加存儲(chǔ))公司,和我們?cè)谠S多方面具有可比性。它去年著名的IOPS記錄也是采用同樣的方式。你可以在當(dāng)時(shí)報(bào)告的第六頁看到平均響應(yīng)時(shí)間低于3毫秒,這個(gè)時(shí)間對(duì)于1萬轉(zhuǎn)磁盤的數(shù)據(jù)讀取來說太短了。”
他表示假設(shè)業(yè)內(nèi)許多人認(rèn)為“我們的軟件采用完全可擴(kuò)展的分布式元數(shù)據(jù)架構(gòu),因此必然會(huì)有許多延遲。一旦人們理解我們的架構(gòu),他們通常就不會(huì)在并行能力上質(zhì)問我們,而是擔(dān)心我們?cè)谠硬僮魃系难舆t成本。我們認(rèn)為在SSD上測(cè)試是最好的測(cè)試我們軟件內(nèi)在延遲性的方式。”
延遲性
“ESG實(shí)驗(yàn)室的測(cè)試成功顯示我們的系統(tǒng)可以在SSD上用不到7毫秒的時(shí)間讀取和寫入對(duì)象,這個(gè)數(shù)字在加入新節(jié)點(diǎn)后也非常穩(wěn)定。從這個(gè)測(cè)試中,以及 根據(jù)我們的生產(chǎn)經(jīng)驗(yàn),我們可以推測(cè)出一個(gè)純HDD(沒有SSD)構(gòu)建的雙層架構(gòu)可以用7200轉(zhuǎn)磁盤實(shí)現(xiàn)平均40毫秒的讀取速度,在1萬轉(zhuǎn)磁盤下實(shí)現(xiàn)35 毫秒讀取速度——相當(dāng)于Isilon在它們自己的ESG測(cè)試中使用的磁盤。”
Lecat表示DataDirect的Web Object Scalar DDN WOS2在HDD操作上有40毫秒的延遲。他認(rèn)為,通過使用SSD,Scality可以顯著降低延遲時(shí)間。同時(shí),分析顯示大多數(shù)延遲來自以太網(wǎng)網(wǎng)絡(luò)而非來自服務(wù)器節(jié)點(diǎn)的Scality軟件。
如果不使用以太網(wǎng)而使用InfiniBand節(jié)點(diǎn)-到-節(jié)點(diǎn)連接的話,也許SSD延遲時(shí)間可以進(jìn)一步降低到3毫秒,不過Lecat表示:“實(shí)際上,對(duì)于大多數(shù)文件應(yīng)用程序而言,40毫秒的延遲是完全可以接受的,而對(duì)于那些需要更低延遲的人來說,配置一些SSD不是問題。”
是的,SSD可以提高對(duì)象存儲(chǔ)性能,不過通常沒有這個(gè)必要。Lecat表示:“我們同意說在PB級(jí)水平上用純SSD存儲(chǔ)是合理的。通常,在PB級(jí)環(huán) 境中,只占5%容量的SSD可以顯著提高性能,同時(shí)成本還非常合算。這也就是說,我們只推薦在應(yīng)用程序需要快于40毫秒速度的情況下使用SSD。”
[page]
替換Symmetrix
他提到一個(gè)客戶,時(shí)代華納有線公司,將原來的一個(gè)EMC陣列替換成純HDD的Scality Ring:“我們的Ring被部署在時(shí)代華納有線的主存儲(chǔ)上,用于純HDD的消費(fèi)者電子郵件平臺(tái)。對(duì)于這個(gè)高度互動(dòng)的應(yīng)用程序來說,不需要SSD。我們替換了1PB多數(shù)據(jù)的EMC Symmetrix。”
Lecat這樣總結(jié)Scality Ring的存儲(chǔ)系統(tǒng)性能:“我們有三種性能指標(biāo):IOPS,吞吐率和延遲性。許多人認(rèn)為如果一個(gè)存儲(chǔ)系統(tǒng)如果在其中一項(xiàng)上表現(xiàn)好的話應(yīng)該在其他指標(biāo)上也會(huì) 好,但其實(shí)它們是完全不同的指標(biāo)。因?yàn)橥耆⑿械脑O(shè)計(jì),我們的架構(gòu)擁有非常優(yōu)秀的IOPS和吞吐率,我們甚至不需要SSD或高速HDD就可以做到這一點(diǎn), 近線SAS就足夠了。我們的弱點(diǎn)在于延遲性。ESG測(cè)試表明我們?cè)谧钊醯狞c(diǎn)上表現(xiàn)也不糟糕,實(shí)際上如果應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用程序的話,我們可以做得非常 好。”
“至于虛擬機(jī)和關(guān)聯(lián)數(shù)據(jù)庫應(yīng)用程序,延遲性確實(shí)是個(gè)問題,因?yàn)樗鼈冇性S多順序操作。我們將這個(gè)市場(chǎng)留給像Pure Storage或SolidFire這樣的公司。”
我們還可以進(jìn)行更多的性能測(cè)試,比如SPECsfs標(biāo)桿測(cè)試,可以測(cè)試更多服務(wù)器節(jié)點(diǎn),但是ESG的報(bào)告已經(jīng)足夠顯示Ring對(duì)象存儲(chǔ)系統(tǒng)可以媲美 傳統(tǒng)SAN陣列,并且可以服務(wù)于數(shù)以萬計(jì)的小型對(duì)象,比如MP3文件,速度比高性能計(jì)算陣列還快。認(rèn)為對(duì)象存儲(chǔ)慢于傳統(tǒng)文件系統(tǒng)設(shè)備和SAN陣列的想法已 經(jīng)過時(shí)了。
腳注
Scality Ring采用雙層架構(gòu)。第一層用復(fù)制功能來作為數(shù)據(jù)保護(hù)機(jī)制,用高速磁盤來提高性能。第二層用刪除碼技術(shù)來保護(hù)大多數(shù)數(shù)據(jù)。第二層使用更便宜的SATA或近線SAS磁盤。
在Scality的Ring中,第二層磁盤的性能來自大量使用并行性,同時(shí)也得益于刪除碼技術(shù)不會(huì)給讀取帶來影響。第二層存儲(chǔ)上每個(gè)節(jié)點(diǎn)的數(shù)據(jù)索引 處于記憶體中。通過這種架構(gòu),代表80%請(qǐng)求的10%的數(shù)據(jù)存儲(chǔ)于第一層架構(gòu),提供不到10毫秒的對(duì)象提供速度,另外代表20%請(qǐng)求的90%的數(shù)據(jù)存儲(chǔ)在 更廉價(jià)的第二層架構(gòu)中,用近線SAS驅(qū)動(dòng)器在40毫秒左右速度下提供對(duì)象。