數(shù)據(jù)中心即服務(wù)器:Google、微軟、Amazon三巨頭的言與行

責(zé)任編輯:editor007

作者:張廣彬

2015-05-28 00:36:52

摘自:張廣彬

吳軍博士在《浪潮之巔》一書中寫道:在2000年前后,由于對互聯(lián)網(wǎng)發(fā)展過度樂觀,美國超前建設(shè)了大量互聯(lián)網(wǎng)基礎(chǔ)設(shè)施,包括數(shù)據(jù)中心和鋪設(shè)的光纜。

吳軍博士在《浪潮之巔》一書中寫道:在2000年前后,由于對互聯(lián)網(wǎng)發(fā)展過度樂觀,美國超前建設(shè)了大量互聯(lián)網(wǎng)基礎(chǔ)設(shè)施,包括數(shù)據(jù)中心和鋪設(shè)的光纜。到了2003年,生存下來的大型互聯(lián)網(wǎng)公司的業(yè)務(wù)恢復(fù)乃至超過了2000年以前的水平,原來留下的基礎(chǔ)設(shè)施面臨飽和。由于互聯(lián)網(wǎng)泡沫的殷鑒不遠(yuǎn),敢于大規(guī)模投資數(shù)據(jù)中心和網(wǎng)絡(luò)等基礎(chǔ)設(shè)施建設(shè)的公司不多,這類基礎(chǔ)設(shè)施建設(shè)的事情就落到了這些大互聯(lián)網(wǎng)公司自己身上。Google比其他公司更早的看到互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的重要性,而負(fù)責(zé)工程的高級(jí)副總裁Urs H lzle在其中發(fā)揮了關(guān)鍵性的作用,貢獻(xiàn)主要體現(xiàn)在以下三個(gè)方面:

第一,在全球租用和收購已鋪設(shè)的光纜,以及鋪設(shè)新光纜,保證網(wǎng)速不會(huì)成為Google業(yè)務(wù)發(fā)展的瓶頸;

第二,搶先在全球布局,占據(jù)建設(shè)數(shù)據(jù)中心的最佳點(diǎn);

第三,設(shè)計(jì)節(jié)能高效的服務(wù)器機(jī)柜,大大降低運(yùn)營成本。

QQ截圖20150527224344

愛荷華州康瑟爾布拉夫斯(Council Bluffs, Iowa)的巨大天線,為Google的訪問服務(wù)(Access Services)裝置接收信號(hào),通過光纖送往全球的家庭。這些天線也是Google Fiber的TV服務(wù)上百個(gè)電視頻道的主要信號(hào)源

作為較早期的Google員工,吳軍博士提到Google的人和事時(shí),難免有一些溢美之詞。不過,沒有基礎(chǔ)設(shè)施先行,2004年推出的Gmail不可能一炮而紅(初期仍然需要通過邀請來控制用戶數(shù)量,換言之,限制服務(wù)的規(guī)模),而近些年來,Google在數(shù)據(jù)中心建設(shè)及相關(guān)技術(shù)上的領(lǐng)先地位,已是業(yè)界公認(rèn)。從投入和規(guī)模上,堪與Google相提并論的,惟微軟與亞馬遜耳。

Google在俄克拉何馬州梅斯郡(Mayes County, Oklahoma) 的數(shù)據(jù)中心內(nèi)景,每個(gè)服務(wù)器機(jī)架配備4臺(tái)交換機(jī),采用不同顏色的線纜,便于故障后更換

難稱巧合的是,微軟與亞馬遜的數(shù)據(jù)中心建設(shè),都與同一人有密切關(guān)系。

2006年,Sun發(fā)布了基于船運(yùn)集裝箱的模塊化數(shù)據(jù)中心原型“Project Black Box”(黑箱項(xiàng)目),掀起了集裝箱數(shù)據(jù)中心的熱潮。微軟成為集裝箱數(shù)據(jù)中心的早期用戶之一,時(shí)任微軟Windows Live核心團(tuán)隊(duì)架構(gòu)師的James Hamilton認(rèn)為基于集裝箱的商品化數(shù)據(jù)中心(Commodity Data Center)是數(shù)據(jù)中心基礎(chǔ)設(shè)施的未來。

 集裝箱數(shù)據(jù)中心具有便于運(yùn)輸和室外部署等優(yōu)勢

James Hamilton在IBM工作了11年,任至DB2首席架構(gòu)師。來到微軟后,歷任SQL Server架構(gòu)師和Exchange托管服務(wù)總經(jīng)理。2007年1月中旬,James Hamilton出席亞馬遜內(nèi)部開發(fā)者會(huì)議時(shí)介紹,在他領(lǐng)導(dǎo)Exchange托管服務(wù)團(tuán)隊(duì)時(shí),為220萬個(gè)坐席提供電子郵件反垃圾信息、防病毒和歸檔服務(wù),帶來2700萬美元收入,約700臺(tái)服務(wù)器分布于全球的數(shù)據(jù)中心。

2008年12月,James Hamilton加入亞馬遜,擔(dān)任AWS(Amazon Web Services,亞馬遜網(wǎng)絡(luò)服務(wù))副總裁兼杰出工程師至今。作為亞馬遜基礎(chǔ)設(shè)施領(lǐng)域的代言人,2011年James Hamilton在演講中透露,AWS每天增加的容量相當(dāng)于公司第一個(gè)五年Amazon.com全球的基礎(chǔ)設(shè)施(當(dāng)時(shí)還沒有AWS),即支撐一個(gè)年收入近28億美元的企業(yè)——到2014年,這一表述發(fā)展至“AWS每天新增的服務(wù)器容量可以支持亞馬遜作為一個(gè)年收入70億美元企業(yè)時(shí)的全球基礎(chǔ)設(shè)施”。

作為平臺(tái)型的互聯(lián)網(wǎng)公司,基礎(chǔ)設(shè)施乃核心及命脈所系,必須掌握在自己手里,不斷隨著業(yè)務(wù)的發(fā)展而追加投入,才能繼續(xù)參與競爭,而不被判出局。作為一個(gè)誕生在互聯(lián)網(wǎng)時(shí)代之前的“老派”企業(yè),持續(xù)的基礎(chǔ)設(shè)施建設(shè)則是微軟從PC時(shí)代的平臺(tái)型公司,轉(zhuǎn)變?yōu)榛ヂ?lián)網(wǎng)時(shí)代的平臺(tái)型公司的必要保障。

就在2015年2月初,Google公布的財(cái)報(bào)顯示,2014年第四季度在基礎(chǔ)設(shè)施上的花費(fèi)達(dá)到創(chuàng)紀(jì)錄的35億美元,全年更接近110億美元;

Amazon第四季度超過11億美元,全年約49億美元;

微軟同一季度近15億美元,全年約53億美元;

Facebook全年超過18億美元,只相當(dāng)于三巨頭一個(gè)季度的水平,但也已經(jīng)比2013年高出34%……

Google每季度在基礎(chǔ)設(shè)施(資產(chǎn)和設(shè)備)上的花費(fèi)從2012年的不到10億美元,一路攀升至2014年的超過30億美元,2014年全年超過亞馬遜與微軟之和

數(shù)據(jù)中心是IT設(shè)備(服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)等)的“家”,因而服務(wù)器數(shù)量是估算互聯(lián)網(wǎng)巨頭們基礎(chǔ)設(shè)施投入的另一參照,理論上也更直觀。但是,大到如此的規(guī)模,服務(wù)器數(shù)量幾乎每時(shí)每刻都在增長,精確數(shù)字只有自家才可能統(tǒng)計(jì)出來,偶爾會(huì)為了公關(guān)宣傳的需要透露大致的數(shù)量級(jí)。

Google視其服務(wù)器總量為機(jī)密,即使業(yè)內(nèi)人士也只能推算。2007年1月初,James Hamilton估計(jì)Google在30個(gè)數(shù)據(jù)中心里有約50萬個(gè)系統(tǒng)(服務(wù)器)。2010年,有猜測說Google的服務(wù)器總量大約有90萬臺(tái)??傊?,突破百萬大關(guān)只是個(gè)時(shí)間問題。

Google在Council Bluffs的數(shù)據(jù)中心超過11.5萬平方英尺(接近1.1萬平方米),以很高的空間利用率支持搜索和YouTube等服務(wù)

微軟的服務(wù)器數(shù)量也在快速增長。僅以Xbox為例:

2002年Xbox Live上線時(shí)有500臺(tái)服務(wù)器;

隨著Xbox 360推出,這一數(shù)字超過3000;

2013年5月,為Xbox Live服務(wù)的服務(wù)器已經(jīng)達(dá)到15000臺(tái),微軟宣稱Xbox One將推動(dòng)服務(wù)器用量超過30萬臺(tái)。

2013年7月8日,時(shí)任CEO Steve Ballmer在微軟2013全球合作伙伴大會(huì)上宣布,在微軟數(shù)據(jù)中心基礎(chǔ)設(shè)施中有超過100萬臺(tái)服務(wù)器,比Google少,略多于亞馬遜("Google is bigger than we are. Amazon is a little bit smaller.")。此時(shí),通過用電量等指標(biāo)推算,人們認(rèn)為Google擁有的服務(wù)器數(shù)量已超過200萬臺(tái)。

微軟在德州圣安東尼奧的數(shù)據(jù)中心,注意看右邊路上汽車的大小,不難想象這個(gè)數(shù)據(jù)中心的占地面積之大,風(fēng)格似與都柏林的數(shù)據(jù)中心不同

Bigger than bigger是2014年第四季度的流行詞,11月10日下午,James Hamilton向參加AWS re:Invent 2014大會(huì)的全球分析師們委婉地“明示”,AWS所擁有的服務(wù)器總量,早已超過100萬臺(tái)。至于何時(shí)超過,現(xiàn)在大約是多少,James Hamilton笑言公司的政策是不透露服務(wù)器總量……

很快,微軟云計(jì)算相關(guān)人士在面對中國媒體的采訪中,以同樣的手法予以回?fù)簦何④洭F(xiàn)在全球有19個(gè)區(qū)域,最大的一個(gè)有16個(gè)數(shù)據(jù)中心,60萬臺(tái)物理機(jī)。那么,總量有沒有200萬?也沒有答案。倒是2015年5月的消息說,由于在印度增加了2個(gè)區(qū)域,區(qū)域總數(shù)達(dá)到21個(gè)。

這就自然而然的引出了一個(gè)問題:百萬量級(jí)的服務(wù)器意味著什么?如何使用及管理遍布全球的數(shù)據(jù)中心?

數(shù)據(jù)中心即計(jì)算機(jī)(Datacenter as a Computer)

2009年,Urs H lzle與Luiz André Barroso合著的《The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines》(數(shù)據(jù)中心即計(jì)算機(jī):倉庫規(guī)模機(jī)器設(shè)計(jì)簡介)出版,簡要介紹了倉庫級(jí)計(jì)算機(jī)(Warehouse-Scale Computer,WSC)的方方面面。Google早期托管服務(wù)器(計(jì)算機(jī))的場所不是那種對設(shè)備精心呵護(hù)的商業(yè)化數(shù)據(jù)中心,更像是有較充足電力供應(yīng)和空調(diào)的大型倉庫,這一點(diǎn)也會(huì)在下一章有所討論。

截至2015年5月初,Google分布在全球13處的數(shù)據(jù)中心

2013年,這本書更新到第二版, Urs H lzle從第二作者變成第三作者,兩個(gè)版本總體上都更偏設(shè)計(jì)原則和數(shù)據(jù)中心基建(風(fēng)火水電)部分,較少提及Google的工程實(shí)踐。要形象的理解Datacenter as a Computer,James Hamilton在AWS re:Invent 2014上的演講披露了更多的細(xì)節(jié)。

從大機(jī)(Mainframe)到Unix服務(wù)器(小型機(jī)),再到x86服務(wù)器,潮流的轉(zhuǎn)變周期至少以十年計(jì)。以Google、微軟、亞馬遜、Facebook為代表的超大規(guī)模(hyper-scale或web-scale)數(shù)據(jù)中心,可以說都是基于x86服務(wù)器的分布式計(jì)算體系——ARM的成規(guī)模應(yīng)用尚需時(shí)日。

具體到亞馬遜,我們知道AWS有區(qū)域(Region)和可用區(qū)(Availability Zone,AZ)的概念。選擇區(qū)域可以靠近用戶、數(shù)據(jù)或滿足監(jiān)管等需求,目前AWS在全球有11個(gè)區(qū)域,28個(gè)AZ。除了仍處于有限預(yù)覽階段的中國北京(截至2015年5月初),所有區(qū)域都由2個(gè)或以上的AZ組成。

AWS在全球的分布,北京即將擁有其第29個(gè)AZ?

從“可用區(qū)”這個(gè)名字上就能看出以高可用性(high availability,HA)為目標(biāo),AZ組成區(qū)域的根本原則是“就近”,相距小于2毫秒(ms)則可以在至少2個(gè)AZ之間進(jìn)行同步復(fù)制,能夠故障切換(failover)而沒有數(shù)據(jù)丟失或不影響應(yīng)用;還可以在不同AZ的EC2實(shí)例之間彈性負(fù)載均衡(Elastic Load Balancing,ELB),多AZ的EC2應(yīng)用也相對容易;挑戰(zhàn)則在于DynamoDB、S3和Multi-AZ RDS(多可用區(qū)關(guān)系數(shù)據(jù)庫服務(wù))等對持久化狀態(tài)(特別是存儲(chǔ))有要求的應(yīng)用。

AWS中多AZ的RDS實(shí)例比例呈逐年上升之勢

距離太遠(yuǎn),就只能采用異步復(fù)制了。譬如,提交到一個(gè)SSD需要1-2毫秒,但是洛杉磯到紐約(美國西南到東北,3982.9公里)的往返就要74毫秒,顯然不能等待這么久來提交這個(gè)交易。故障發(fā)生時(shí),要么切換而丟失交易,要么不切換而喪失可用性,兩難的選擇。實(shí)際上,洛杉磯屬于美西(北加州)區(qū)域,紐約屬于美東(北維州)區(qū)域。私有的AWS光纖鏈路互連所有主要區(qū)域。

區(qū)域內(nèi)的AZ之間可以無需管理員參與的(自動(dòng))故障切換,能夠與區(qū)域間的復(fù)制聯(lián)合使用,提供非常高的可用性。畢竟,距離近也意味著容易受同一自然(天氣或地質(zhì)性等)或人為災(zāi)害影響。

以一個(gè)包含5個(gè)AZ的區(qū)域(目前只有美東有這么多,其他最多3個(gè))為例:區(qū)域內(nèi)有多達(dá)82864個(gè)光纖束(fiber strand),AZ之間為城域DWDM(Dense WaveLength Division Multiplexing,密集波分復(fù)用)鏈路,延遲小于2ms,通常小于1ms,峰值流量達(dá)25Tbps。AZ通過冗余路徑連接到2個(gè)轉(zhuǎn)接中心,轉(zhuǎn)接中心通過私有鏈路連接到其他AWS區(qū)域、Direct Connect(AWS的一項(xiàng)服務(wù),后面軟件定義存儲(chǔ)的章節(jié)有簡要介紹)客戶,Internet傳輸為對等付費(fèi)方式。

從右上至左下,依次為AWS的全球分布、區(qū)域、可用區(qū)、數(shù)據(jù)中心之間的關(guān)系

每個(gè)AZ由1個(gè)或更多的數(shù)據(jù)中心構(gòu)成,有些AZ的數(shù)據(jù)中心達(dá)到6個(gè),數(shù)據(jù)中心不能跨AZ。AZ內(nèi)的數(shù)據(jù)中心間相距不到四分之一毫秒(0.25ms),不必有AZ內(nèi)的獨(dú)立性,但需要低延遲和全部帶寬。

亮點(diǎn)來了:單個(gè)數(shù)據(jù)中心通常超過5萬臺(tái)服務(wù)器,經(jīng)常超過8萬臺(tái)!演講結(jié)束,我特意向James Hamilton確認(rèn),5年前AWS建設(shè)的數(shù)據(jù)中心就有這樣的能力。這樣,即使以最保守的每個(gè)數(shù)據(jù)中心5萬臺(tái),每個(gè)AZ只有1個(gè)數(shù)據(jù)中心,28個(gè)AZ(北京短期內(nèi)恐怕達(dá)不到此水平),AWS的服務(wù)器總量也明顯超過了100萬臺(tái)(140萬+),實(shí)際上應(yīng)該不止此數(shù)(考慮一下6個(gè)數(shù)據(jù)中心的AZ)。

提供給一個(gè)數(shù)據(jù)中心的帶寬可達(dá)102Tbps。AWS不需要更大的數(shù)據(jù)中心(譬如,10萬臺(tái)及以上),也不希望數(shù)據(jù)中心之間距離太近。據(jù)未經(jīng)證實(shí)的消息,AWS最初在寧夏的規(guī)劃,是3個(gè)相互間距離50公里的數(shù)據(jù)中心。

無論AWS在寧夏的發(fā)展如何,北京還會(huì)繼續(xù)增加數(shù)據(jù)中心以形成AZ,因?yàn)閺那懊娴慕榻B不難看出,以北京和寧夏之間的距離,不能是同一個(gè)區(qū)域,更不會(huì)是同一個(gè)AZ。按照同樣的原則,如果上海有數(shù)據(jù)中心,也應(yīng)該是另一個(gè)區(qū)域。北京區(qū)域要增加AZ,必須在北京周邊解決。往壞的方面說,寧夏幫不上北京的忙;往好的方面說,AWS在中國的正式商用,不必等寧夏的進(jìn)度。

多可用區(qū)MySQL RDS的同步復(fù)制(左)與Amazon Aurora RDS的3可用區(qū)6路復(fù)制(右)

互聯(lián)網(wǎng)巨頭們自研(或部分自研)的數(shù)據(jù)庫應(yīng)用很好的體現(xiàn)了跨多個(gè)數(shù)據(jù)中心的基礎(chǔ)設(shè)施優(yōu)勢,AWS在re:Invent 2014大會(huì)上公布的MySQL兼容RDBMS(Relational Database Management System,關(guān)系數(shù)據(jù)庫管理系統(tǒng))Aurora,作為AWS RDS(Relational Database Service,關(guān)系型數(shù)據(jù)庫服務(wù))家族的新成員,宣稱以云服務(wù)的價(jià)格提供企業(yè)級(jí)數(shù)據(jù)庫軟件的功能,支持多達(dá)16路讀副本(RDS MySQL為5路)、可達(dá)64TB的表(RDS/MySQL為3TB) ,跨3個(gè)可用區(qū)的6路復(fù)制(即使2個(gè)數(shù)據(jù)中心不可用仍不會(huì)丟失數(shù)據(jù)),為11個(gè)9(99.999999999%)的耐久性設(shè)計(jì),近即時(shí)故障切換,能夠從存儲(chǔ)故障中自動(dòng)恢復(fù)……均與基礎(chǔ)設(shè)施的支持緊密相關(guān)。在Google F1和阿里巴巴OceanBase這兩個(gè)旨在替代MySQL的分布式關(guān)系型數(shù)據(jù)庫的描述中,也都可以看到基礎(chǔ)設(shè)施支持的表達(dá)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)