因?yàn)榫彺嫘?,交換機(jī)上的緩存一直是其比較雞肋的部分。那一定有人會問,就不能將緩存做得大些嗎?可以,其實(shí)后來有人研究出采用外擴(kuò)DRAM來擴(kuò)大緩存能力,不過這樣基本都會降低報(bào)文轉(zhuǎn)發(fā)速度,使得延遲增大,對網(wǎng)絡(luò)影響也比較大,對于一些對時(shí)延比較敏感的業(yè)務(wù)網(wǎng)絡(luò),就不能采用這種大緩存的方式,不過在一些突發(fā)流量比較多,比如搜索業(yè)務(wù)中,對時(shí)延不敏感,這種大緩存設(shè)備就可以派上用場,避免在突發(fā)時(shí)出現(xiàn)丟包,即便延遲大一些也能接受,不過因?yàn)槎嗔艘粋€(gè)專門存儲數(shù)據(jù)的芯片,設(shè)備造價(jià)上要高得多,所以一般大緩存的設(shè)備價(jià)格都比較昂貴,基本是越大越貴。這里所說的延遲大,都是指的有擁塞的情況,如果沒有擁塞,其實(shí)大小緩存都沒有區(qū)別,存儲轉(zhuǎn)發(fā)時(shí)延都是幾個(gè)微秒,與緩存大小無絕對關(guān)系。交換機(jī)上的轉(zhuǎn)發(fā)芯片,受制造工藝和技術(shù)所限,還無法在片內(nèi)將緩存做得很大。當(dāng)然,這些年轉(zhuǎn)發(fā)芯片的技術(shù)也在不斷進(jìn)步,不僅是轉(zhuǎn)發(fā)表項(xiàng)規(guī)格越來越大,緩存也在變大,現(xiàn)在片內(nèi)緩存達(dá)到20~30M的已經(jīng)比較常見,這要比十年前只有1M~2M的交換機(jī)緩存要大得多。緩存變大,以前的那些技術(shù)的意義就大了,可以設(shè)置各種閾值和優(yōu)先級,對緩存的使用進(jìn)行管控,這樣才能真正發(fā)揮作用。緩存大小閾值設(shè)置要適度,過大的緩存空間會影響正常通信狀態(tài)下數(shù)據(jù)包轉(zhuǎn)發(fā)速度(因?yàn)檫^大的緩沖空間需要相對多一點(diǎn)的尋址時(shí)間),并增加設(shè)備的成本。而過小的緩沖空間在發(fā)生擁塞時(shí)又容易丟包出錯(cuò)。所以,適當(dāng)?shù)木彺婵臻g加上先進(jìn)的緩存調(diào)度算法是解決緩存問題的合理方式。
借助于RDMA技術(shù)的熱門,緩存技術(shù)引起了人們的關(guān)注。眾所周知,RDMA技術(shù)是一種提升數(shù)據(jù)包處理速度的新技術(shù),一直采用專有網(wǎng)絡(luò)協(xié)議和專有網(wǎng)卡,應(yīng)用來實(shí)現(xiàn)的,造價(jià)非常貴,一般只有在高性能計(jì)算的網(wǎng)絡(luò)中才會部署,隨著以太網(wǎng)技術(shù)的成熟,RDMA的一種替代技術(shù)RoCE出現(xiàn),RoCE是一種允許通過以太網(wǎng)使用遠(yuǎn)程直接內(nèi)存訪問(RDMA)的網(wǎng)絡(luò)協(xié)議,就是通過以太網(wǎng)來跑RDMA協(xié)議,PFC和ECN是RoCE實(shí)現(xiàn)的基礎(chǔ),而PFC是實(shí)現(xiàn)基于隊(duì)列的流控,ECN是實(shí)現(xiàn)基于WRED打標(biāo)技術(shù),兩種技術(shù)都與緩存密切相關(guān),這讓人不得不將緩存技術(shù)重拾起來。而現(xiàn)在的交換機(jī)緩存有數(shù)十MB,在技術(shù)上也足夠可以做做文章,很多人開始深入研究交換機(jī)的緩存技術(shù)。
當(dāng)一臺交換機(jī)出廠之后,它的緩存大小就確定了,無法再改變,這就像我們買的手機(jī)一樣,CPU和內(nèi)存大小都無法改變。我們只能通過命令去設(shè)置出入門限,管控緩存的使用情況,將緩存盡可能公平地分給各個(gè)端口使用,同時(shí)針對突發(fā)流量、流控攻擊等異常情況,都可以應(yīng)對。緩存雖不涉及到轉(zhuǎn)發(fā)表項(xiàng),但每個(gè)數(shù)據(jù)包都要經(jīng)過緩存存儲,所以一旦緩存出了問題,影響是全局性的,可能導(dǎo)致整個(gè)設(shè)備的業(yè)務(wù)異常,影響很大。早期的設(shè)備緩存都不會開放給使用者去隨意修改各種閾值,隨著RoCE網(wǎng)絡(luò)的出現(xiàn),為了更好地適應(yīng)RDMA網(wǎng)絡(luò),各家網(wǎng)絡(luò)廠商才將緩存這部分調(diào)整放開。即便這樣,也建議遵從廠商提供的建議數(shù)值進(jìn)行設(shè)置,這些閾值背后有很多緩存的技術(shù)含義,稍有不慎就可能調(diào)整錯(cuò)誤,同時(shí)針對特殊應(yīng)用場景,評估后再調(diào)整。有沒有不用緩存的交換機(jī)?答案是有,就是直通轉(zhuǎn)發(fā)模式,優(yōu)點(diǎn)自然是轉(zhuǎn)發(fā)快,時(shí)延低,這種交換機(jī)在還沒有收到完整報(bào)文就開始轉(zhuǎn)發(fā),無法檢驗(yàn)CRC,這樣錯(cuò)包也發(fā)現(xiàn)不了,實(shí)際應(yīng)用中使用會有很大限制。