轉(zhuǎn)眼又到春節(jié),又到了親朋好友大團圓的時刻。但對程序猿和攻城獅群體來講,能否安安穩(wěn)穩(wěn)的過年就主要取決于網(wǎng)絡(luò)是否安穩(wěn)了。前不久,在某公司的年會上,因為某云服務(wù)商光纖中斷導(dǎo)致攻城獅集體掏出筆記本在年會現(xiàn)場辦公,不僅插排用光而且連抽獎都沒抽到。騰訊云讓你安然應(yīng)對各種春節(jié)網(wǎng)絡(luò)突發(fā)情況。
2016是公有云快速發(fā)展的一年,然而在市場繁榮的景象下也隱藏著諸多隱患:2016年9月,廣東電信光纜中斷,導(dǎo)致A服務(wù)商BGP網(wǎng)絡(luò)服務(wù)中斷異常;
2016年10月,北京電信骨干網(wǎng)故障,導(dǎo)致A、U服務(wù)商BGP網(wǎng)絡(luò)服務(wù)中斷;
2017年1月,架空光纖撞斷,斷導(dǎo)致U服務(wù)商BGP網(wǎng)絡(luò)服務(wù)中斷...
BGP網(wǎng)絡(luò)故障給云計算客戶帶來了巨大損失,而大部分服務(wù)中斷,都被公有云服務(wù)商解釋為運營商網(wǎng)絡(luò)故障導(dǎo)致公有云停服。雖然運營商對網(wǎng)絡(luò)故障中斷負有直接責任,但是公有云的網(wǎng)絡(luò)服務(wù)能力只能做到這樣了嗎?
當然不是。
其實不僅是網(wǎng)絡(luò)故障,據(jù)統(tǒng)計全國范圍內(nèi)三大運營商每周會出現(xiàn)3~7次的核心網(wǎng)絡(luò)變更,每次網(wǎng)絡(luò)變更都可能對BGP網(wǎng)絡(luò)質(zhì)量造成影響。傳統(tǒng)IDC服務(wù)商和云計算服務(wù)商通過同地域BGP出口做跨運營商的網(wǎng)絡(luò)流量調(diào)度,一定程度上解決服務(wù)中斷的問題,但一旦網(wǎng)絡(luò)故障、變更發(fā)生在業(yè)務(wù)高峰,還是會出現(xiàn)跨運營商互聯(lián)帶寬飽和導(dǎo)致的BGP網(wǎng)絡(luò)時延、丟包無法控制的問題。
騰訊云依托15年的BGP網(wǎng)絡(luò)運營經(jīng)驗,精打細磨,在面臨國內(nèi)交叉復(fù)雜的網(wǎng)絡(luò)環(huán)境中,修煉出一身基于SDN的跨地域網(wǎng)絡(luò)調(diào)度能力,保障了包括微信、QQ在內(nèi)的億萬用戶良好的互聯(lián)網(wǎng)通信體驗,今天小編將為您一一揭秘這個隱藏在騰訊云穩(wěn)定網(wǎng)絡(luò)背后的神奇武功!
所謂天下武學(xué)神功,修煉之前要求基本功扎實?;竟]有練好,直接上神功經(jīng)常會導(dǎo)致走火入魔,最終自取滅亡。(比如,把光纖架在空中就是基本功不扎實的一種體現(xiàn))在修煉SDN網(wǎng)絡(luò)調(diào)度這門高級武功之前,我們已經(jīng)用了10年時間,做好了以下幾項基本工作。
基本功1:Tb級BGP網(wǎng)絡(luò)出口,21路運營商聚合
所謂巧婦難為無米之炊,沒有BGP出口就不要做公有云。騰訊云在全國各個地域擁有Tb級的BGP網(wǎng)絡(luò)出口帶寬,聚合21路運營商接入資源,保障了用戶即使面對微信春節(jié)紅包這樣500Gbps入流量的洶涌攻勢,也可以從容應(yīng)對,絕不抖動。
基本功2:Tb級骨干承載網(wǎng),連接全球BGP網(wǎng)絡(luò)出口
沒有連接的BGP帶寬出口,好像戰(zhàn)場上被分割的孤島,一方有難就有難了,沒有相互支援。騰訊云Tb級骨干承載網(wǎng),連通了騰訊云在國內(nèi)的各大BGP網(wǎng)絡(luò)出口,各個地域互為POP點在單地域故障時可以實現(xiàn)流量切換。
基本功3:多維網(wǎng)絡(luò)監(jiān)控模型,全局網(wǎng)絡(luò)監(jiān)控告警
一方面,騰訊云具備面向全國的網(wǎng)絡(luò)撥測和自動化告警,從網(wǎng)絡(luò)層面感知網(wǎng)絡(luò)運營情況;另一方面,基于騰訊云具備獨家的基于QQ收發(fā)信息狀態(tài)的統(tǒng)計信息,可以快速定向判斷全球網(wǎng)絡(luò)點對點的網(wǎng)絡(luò)質(zhì)量,先于網(wǎng)絡(luò)層感知網(wǎng)絡(luò)異常,快速定位問題。
修煉好以上三門基本功,基本可以開始乾坤大挪移——基于SDN網(wǎng)絡(luò)調(diào)度的內(nèi)功修煉了。
在啟用SDN網(wǎng)絡(luò)調(diào)度之前,騰訊云已經(jīng)具備了基本的BGP流量調(diào)度能力,當某地域單運營商故障或變更時,可以通過人工配置的方式將路由切換至相鄰的BGP網(wǎng)絡(luò)出口。
以騰訊云上海為例,如果上海電信網(wǎng)絡(luò)變更會導(dǎo)致業(yè)務(wù)停服3個小時,我們可以手動停止上海的接入路由器發(fā)放騰訊云路由,這樣所有訪問上海的用戶流量會通過廣州或北京的BGP流量入口繞行至騰訊云骨干承載網(wǎng),連接至公有云服務(wù)。
這樣的操作需要人工實現(xiàn),而且路由切換一般為全局切換,即全國訪問上海公有云的服務(wù)都會被切走。這樣的流量切換在小業(yè)務(wù)規(guī)模時還是ok的,當業(yè)務(wù)規(guī)模增大,網(wǎng)絡(luò)運營精細化后,按需的自動化網(wǎng)絡(luò)流量切換就成為必須。
如上圖所示,我們采用全局的SDN網(wǎng)絡(luò)控制器連接全地域BGP接入路由器。網(wǎng)絡(luò)管理平面一方面接收全局的網(wǎng)絡(luò)監(jiān)控告警,獲得全地域的網(wǎng)絡(luò)資源和告警信息;一方面通過SDN控制器,向全國范圍內(nèi)的接入路由器下發(fā)按需的路由和選路控制。
系統(tǒng)可以預(yù)設(shè)網(wǎng)絡(luò)優(yōu)化算法,為不同選項(包括ISP優(yōu)選、本地優(yōu)先、區(qū)域優(yōu)先、AS PATH最短優(yōu)先、網(wǎng)絡(luò)資源使用率、網(wǎng)絡(luò)時延優(yōu)化等)賦予不同權(quán)重求和給出最優(yōu)配置方案,推送人工進行審核,人工審核通過后即可自動化下發(fā)網(wǎng)絡(luò)調(diào)度命令,支持包含主機、網(wǎng)段、區(qū)域、AS號、運營商等多維度的調(diào)度策略。
SDN網(wǎng)絡(luò)控制器采用異地容災(zāi)部署,通過公司骨干承載網(wǎng)互聯(lián),支持HA(High availability)以及ISSU(In-Service Software Upgrade)。所有基于ODL控制器的BGP流量切換都是秒級操作,保證切換操作中用戶連接不中斷,實現(xiàn)精細化的按需的無感知的網(wǎng)絡(luò)運維。
目前現(xiàn)網(wǎng)運行的SDN網(wǎng)絡(luò)調(diào)度功能每月調(diào)度30次以上,平均每次調(diào)度時間2.5小時,幫助用戶每月規(guī)避網(wǎng)絡(luò)異常超70小時以上,大幅提升了騰訊云公網(wǎng)BGP質(zhì)量。騰訊云將持續(xù)優(yōu)化網(wǎng)絡(luò)架構(gòu)和SDN網(wǎng)絡(luò)調(diào)度策略,為用戶提供穩(wěn)定、可靠的、無感知的BPG網(wǎng)絡(luò)服務(wù)。