11.11,即“雙11”狂歡節(jié),讓眾多的小伙伴們享受網(wǎng)絡購物盛宴的同時,也將阿里再次推向了輿論的高潮,阿里再一次創(chuàng)造了一系列令人感嘆的銷售數(shù)據(jù):1分11秒破億,75秒移動客戶端破億,3分鐘超過10億,一個小時飚升到122億元,全天成交571億,這讓美國最大的網(wǎng)絡狂歡節(jié)“網(wǎng)絡星期一”都相形見絀,美國“網(wǎng)絡星期一”是美國最大的網(wǎng)上購物節(jié),成交額為121億人民幣,還不到“雙11”的三分之一。巨額的成交量催生了一批的技術指標:訂單創(chuàng)建能力最高達每秒鐘8萬筆,支付寶在支付峰值突破每分鐘285萬筆,96%的訂單由阿里云聚石塔平臺完成,無一故障,無一漏單。這些漂亮的數(shù)據(jù)顯示出阿里數(shù)據(jù)中心超強的技術實力。
這兩年12306網(wǎng)站的表現(xiàn)和阿里的表現(xiàn)形成了鮮明的對比,雖然經(jīng)過這兩年的改進,12306網(wǎng)站不至于攤掉,但是高峰期訪問體驗依然很差,系統(tǒng)異常慢,等反映過來時車票早已經(jīng)沒有了,能搶到車票的人比中彩票還要幸運,車票少人多是一方面,數(shù)據(jù)中心的處理能力才是關鍵,那么究竟差在哪里?數(shù)據(jù)中心應對流量洪峰的能力是數(shù)據(jù)中心的一個重要技術指標,這個在網(wǎng)站建設初期都可能遇到,由于對流量的突發(fā)預期不足,造成在流量洪峰到來時系統(tǒng)崩潰。漏單、丟單的事情經(jīng)常發(fā)生,甚至長時間無法交易。當年的“聚美優(yōu)品”在做網(wǎng)絡團購營銷時就出現(xiàn)過系統(tǒng)癱掉的事情,沒想到會有這么大的突發(fā)流量,系統(tǒng)根本承受不了,本來可以通過團購大賺一筆,卻因為系統(tǒng)癱掉,還要安撫眾多的網(wǎng)絡小伙伴們。當然后來“聚美優(yōu)品”對數(shù)據(jù)中心系統(tǒng)進行了全面的改造,后面的團購也搞得有聲有色。所以數(shù)據(jù)中心一定要對未來可能出現(xiàn)的流量洪峰要走預測和模擬測試,像阿里為了應對“雙11”,在5月份就部署了ODPS開放數(shù)據(jù)處理服務,可以在6小時內(nèi)處理100 PB的數(shù)據(jù),在雙11之前在數(shù)據(jù)中心內(nèi)部做了8次的壓力模擬測試,已經(jīng)對“雙11”可能出現(xiàn)的流量洪峰做了準確預判,這個對于數(shù)據(jù)中心部署非常重要,預測的流量洪峰越高,就需要數(shù)據(jù)中心部署更多的服務器,計算軟件都可能要進行修改。比如:假如阿里的支付軟件系統(tǒng)的處理上限是200萬筆/秒,但是通過以往數(shù)據(jù),推斷支付的成交量可能達到300萬筆/秒,這需要對現(xiàn)有的支付系統(tǒng)進行優(yōu)化,確保完成300萬筆/秒。所以預測的數(shù)值一定要符合實際,要準確,然后根據(jù)這個數(shù)值,如果現(xiàn)有的系統(tǒng)無法滿足,那么要重新設計數(shù)據(jù)中心的軟件和硬件系統(tǒng)。如果這個數(shù)值定的過高,意味著系統(tǒng)容量的浪費,給企業(yè)帶來承重的成本負擔。有了這個流量洪峰數(shù)值,還需要對新的數(shù)據(jù)中心系統(tǒng)進行反復模擬測試,現(xiàn)在通過各種測試軟件和測試儀器構造模擬的數(shù)據(jù)非常容易,那么就設計流量洪峰的數(shù)值流量對數(shù)據(jù)中心進行壓力測試,然后找出現(xiàn)有系統(tǒng)的漏洞,及時進行修補。這樣在真正的流量洪峰到來時,才能夠平安度過。我們可以看到軍隊每年要進行各種各樣的演習和訓練,目的就是練兵,以便在真的出現(xiàn)戰(zhàn)爭時,保持較強的戰(zhàn)斗力。作為一個優(yōu)秀的數(shù)據(jù)中心平臺,模擬、演練應該是一種常態(tài),以便能應對各種突發(fā)情況,流量壓力測試只是其中的一種而已。
當數(shù)據(jù)中心按照預測的流量洪峰做好全面部署,并且也挺過了壓力測試,也不是就萬事大吉了。像12306網(wǎng)站的春運,阿里的“雙11”都有明顯的時間性,在那個時間點必然流量洪峰會來,而數(shù)據(jù)中心一般都有成千上萬臺設備,一旦趕上設備硬件故障,必然造成業(yè)務受影響,所以還要考慮備份,以防萬一。阿里采用異地雙活的數(shù)據(jù)中心,可以確保一個數(shù)據(jù)中心故障,另外的數(shù)據(jù)中心還可以接管業(yè)務,流量平滑過度不中斷。12306網(wǎng)站還不具備這樣的能力,所以之前出現(xiàn)了機房斷電就導致整個網(wǎng)站無法訪問了。雙活或多活數(shù)據(jù)中心部署要耗費大量的財力和技術,阿里能玩得起,作為國家政府的鐵道部卻玩不起,也許是劉部長的原因,你懂的。不管怎樣,備份技術是數(shù)據(jù)中心保持業(yè)務不中斷的基礎,在設備上,機房上,甚至數(shù)據(jù)中心上都要有備份,可以做到整個數(shù)據(jù)中心備份的才是數(shù)據(jù)中心發(fā)展的終極目標。
擁有了業(yè)務備份的能力還不夠,還要有能做事的人,這個最是關鍵。數(shù)據(jù)中心建得再先進,如果沒有人會管理也是一堆設備,只有讓人充分使用起來才會變得有血有肉。阿里的人力儲備當然不是12306能比的,每年阿里在高校中用高薪搶走了最優(yōu)秀的畢業(yè)生,并用很好的福利激發(fā)員工的創(chuàng)造力和工作激情,這一切都是12306所無法比擬的。這樣的一批人對數(shù)據(jù)中心的理解深入人心,才能設計出可靠、穩(wěn)定的系統(tǒng),尤其是關鍵時刻“雙11”的保障上。其實模擬測試的再完美也不是實際,等到了“雙11”還是會出不少的差錯,這就考驗了這些人的能力。由于這些人都是身經(jīng)百戰(zhàn),對數(shù)據(jù)中心的運轉了如指掌,哪里出了異常幾分鐘就可以排除。據(jù)說阿里在“雙11”之前假象了近500個突發(fā)的故障,如何解決都想好了方法,這樣才在“雙11”到來時有效應對,這又怎么能是12306能做到的。阿里在“雙11”加班加點甚至熬通宵的員工達到1.1萬人,這樣的人力投入也是12306所望塵莫及的,更何況這些員工都是技術優(yōu)秀,年輕有為的。
以上的簡單對比可以清楚看出,到處都是差距才造成了數(shù)據(jù)中心之間的天壤之別。其它的數(shù)據(jù)中心也一樣,衡量一個數(shù)據(jù)中心的能力,除了各種設備技術指標,人才是關鍵,有了會做事的人,數(shù)據(jù)中心才能變得優(yōu)秀。