互聯(lián)網(wǎng)企業(yè)定制服務(wù)器到底難不難

責(zé)任編輯:editor03

2014-07-02 18:27:33

摘自:比特網(wǎng)

隨著互聯(lián)網(wǎng)向縱深發(fā)展,各種互聯(lián)網(wǎng)應(yīng)用不斷涌現(xiàn)。在我們享受各種應(yīng)用便利的同時(shí),各大互聯(lián)網(wǎng)企業(yè)卻為蜂擁而至的訪問(wèn)壓力而造成的成本快速增長(zhǎng)而憂心忡忡。

隨著互聯(lián)網(wǎng)向縱深發(fā)展,各種互聯(lián)網(wǎng)應(yīng)用不斷涌現(xiàn)。在我們享受各種應(yīng)用便利的同時(shí),各大互聯(lián)網(wǎng)企業(yè)卻為蜂擁而至的訪問(wèn)壓力而造成的成本快速增長(zhǎng)而憂心忡忡,在找到穩(wěn)定盈利模式并被市場(chǎng)認(rèn)可前如何生存一直是個(gè)嚴(yán)峻問(wèn)題。
  
  因此,在互聯(lián)網(wǎng)企業(yè)內(nèi),每當(dāng)一個(gè)新互聯(lián)網(wǎng)業(yè)務(wù)沖到了新的高峰時(shí),除了看到產(chǎn)品部門(mén)歡欣鼓舞外,還能看到另外一群人拿著計(jì)算器,看著一堆excel表格,試圖從中挖掘出一些省錢(qián)方法,以使企業(yè)活到IPO。對(duì)于只有“用最低廉的成本給用戶提供最好的服務(wù)才能生存”的互聯(lián)網(wǎng)企業(yè)而言,削減服務(wù)器采購(gòu)成本成為必須攻克的任務(wù)。在筆者公司,該任務(wù)則被精確命名為“降低服務(wù)器3年總使用成本”。
  
  從百度、阿里、騰訊(三家企業(yè)通常簡(jiǎn)稱BAT)的“天蝎項(xiàng)目”及整機(jī)柜交付特性來(lái)看,定制化項(xiàng)目首要目標(biāo)無(wú)疑是降低成本。但在BAT干過(guò)的人會(huì)告訴你一個(gè)月上線幾千臺(tái)服務(wù)器是多么的令人苦惱,由此帶來(lái)的壓力簡(jiǎn)直讓人崩潰,所以快速部署已經(jīng)成為各大互聯(lián)網(wǎng)公司除了降低成本外的第二目標(biāo),有時(shí)因?yàn)樯暇€緩慢帶來(lái)的機(jī)會(huì)損失遠(yuǎn)遠(yuǎn)大于服務(wù)器本身的價(jià)值。
  
  說(shuō)到成本,很多讀者其實(shí)并不清楚互聯(lián)網(wǎng)公司在服務(wù)器上到底花了多少錢(qián)。圖1是一個(gè)常規(guī)互聯(lián)網(wǎng)項(xiàng)目三年設(shè)備使用成本分布(不包含帶寬費(fèi)用和運(yùn)維費(fèi)用)。
  
  圖 1 某常規(guī)互聯(lián)網(wǎng)項(xiàng)目三年設(shè)備使用成本統(tǒng)計(jì)
  
  從圖1可以看出服務(wù)器采購(gòu)成本約占一半的成本,機(jī)架費(fèi)用約占三分之一。其中,機(jī)架費(fèi)用基本上可以等同于服務(wù)器電力消耗。
  
  以上的比例確立了定制化項(xiàng)目的工作方向,即通過(guò)定制化項(xiàng)目去節(jié)省機(jī)架成本和設(shè)備采購(gòu)成本。在筆者公司,“降低服務(wù)器3年總使用成本”項(xiàng)目的成功實(shí)施令我們節(jié)約了12.5%的機(jī)架成本(相比國(guó)際品牌標(biāo)準(zhǔn)服務(wù)器)和5%的設(shè)備采購(gòu)成本。就產(chǎn)品本身而言,我們最終定制的服務(wù)器產(chǎn)品具有以下六大優(yōu)勢(shì):
  
  1、 框架設(shè)計(jì),跨代使用
  
  由于采用的是刀片式結(jié)構(gòu),每次英特爾處理器換代時(shí)只用更換主板等組件就可以繼續(xù)服役。
  
  產(chǎn)品設(shè)計(jì)可以更換英特爾 3代產(chǎn)品,框架可以服役6-8年。
  
  2、 超短距散熱,超大散熱片
  
  風(fēng)道深度只有550mm,遠(yuǎn)低于一般產(chǎn)品700mm的深度,散熱效果更好。
  
  CPU散熱片采用1.5U高度,比傳統(tǒng)的1U產(chǎn)品散熱片效率更高。
  
  3、 RackFree自由并柜、高密部署
  
  機(jī)箱可以放入標(biāo)準(zhǔn)機(jī)柜,也支持3-4個(gè)機(jī)箱直接堆疊鎖緊(同時(shí)支持左右并柜),在相同機(jī)房面積下比整機(jī)柜方案部署節(jié)點(diǎn)密度高20%,在傳統(tǒng)的20列*10行的機(jī)房面積可以部署19200個(gè)節(jié)點(diǎn)。
  
  4、 1.5U刀片高度,滿足未來(lái)擴(kuò)展需求
  
  刀片高度考慮未來(lái)擴(kuò)展,可以支持更大的存儲(chǔ)容量和更高TDP的CPU產(chǎn)品。
  
  5、 無(wú)背板設(shè)計(jì),支持水冷
  
  由于沒(méi)有設(shè)計(jì)了背板,刀片后部就是風(fēng)扇墻模塊。在未來(lái)可以去掉風(fēng)扇墻模塊直接更換為油冷/水冷模塊,方便快捷。
  
  6、 微模塊設(shè)計(jì),適合BAT以外的中小企業(yè)
  
  每個(gè)模塊只有12U高,重量不超過(guò)100kg。與1000kg的整機(jī)柜方案相比,運(yùn)輸和上架更為方便,同時(shí)也免去了機(jī)房改造的麻煩。當(dāng)企業(yè)發(fā)展以后,這些產(chǎn)品還可以部署到定制機(jī)房,直接并機(jī)(無(wú)需機(jī)柜),部署密度也更高。
  
  定制化流程
  
  整個(gè)服務(wù)器定制化項(xiàng)目的工作流程如圖2所示,共包括確定產(chǎn)品定位、分解研發(fā)方向、書(shū)面推演等八大步驟。
  
  圖2 產(chǎn)品定制流程
  
  確認(rèn)產(chǎn)品定位
  
  在具體實(shí)施之前,我們需要首先考慮整個(gè)供應(yīng)鏈如何配合。當(dāng)時(shí)我們有兩個(gè)選擇:
  
  一是進(jìn)行主板PCB級(jí)別定制,走深度定制之路;另一個(gè)是基于現(xiàn)有主板產(chǎn)品的重新整合,進(jìn)行淺定制。
  
  我們對(duì)這兩種方式的利弊進(jìn)行了分析,見(jiàn)表1。
  
  表1 兩種定制模式利弊對(duì)比
  
  大型互聯(lián)網(wǎng)公司facebook,google,amazon都選擇了主板PCB級(jí)別定制。此模式研發(fā)成本較高,如果沒(méi)有萬(wàn)臺(tái)以上的采購(gòu)規(guī)模攤薄了研發(fā)成本,TCO很有可能不如從OEM/ODM直接買(mǎi)標(biāo)準(zhǔn)機(jī)架服務(wù)器。
  
  而我們的項(xiàng)目在計(jì)劃之初就有以下明確的定位:
  
  CFD模擬
  
  在和廠商確認(rèn)方案時(shí),強(qiáng)烈建議使用Fluent、Pro/E和6SigmaDC 軟件,通過(guò)建模和設(shè)定環(huán)境條件,對(duì)機(jī)箱的散熱設(shè)計(jì)、裝配流程,結(jié)構(gòu)強(qiáng)度、IDC整體配合進(jìn)行充分地模擬,以免事后修修補(bǔ)補(bǔ),造成研發(fā)投入的浪費(fèi)甚至項(xiàng)目失敗。
  
  通過(guò)把我們的設(shè)計(jì)理念、運(yùn)維需求及各部件特性進(jìn)行綜合,最終定稿的產(chǎn)品規(guī)格。
  
  外觀:
  
  定制化產(chǎn)品的外觀和頂部控制板見(jiàn)圖5和圖6。
  
  圖5 定制化服務(wù)器外觀
  
  生命周期:機(jī)箱6-8年,刀片3-4年,電源和風(fēng)扇4-5年
  
  配置:
  
  一個(gè)12U 6托盤(pán)(豎插)的產(chǎn)品, 12U/12Node(安裝半寬主板)或者 12U/6Node。
  
  每個(gè)托盤(pán)可以安裝1個(gè)雙路E5主板或者2個(gè)雙路E5主板(半寬)
  
  頂部的1U內(nèi)部安裝所有控制板和1-4塊650w-1200w電源(6托盤(pán)共享)
  
  背部安裝9顆12cm風(fēng)扇,每2個(gè)主板共享縱向的3顆風(fēng)扇(2+1配置)。
  
  電力供應(yīng):不使用中板/背板,使用航空插頭連接頂部1U和下面6個(gè)Node進(jìn)行供電。
  
  散熱控制:航空插頭中有部分針腳用于傳輸主板FAN口的PWM方波到頂部1U中的控制板。
  
  控制板匯總多路PWM信號(hào)后進(jìn)行對(duì)背部9顆風(fēng)扇的轉(zhuǎn)速調(diào)控。
  
  如果控制板失效,9顆風(fēng)扇自動(dòng)轉(zhuǎn)入全速運(yùn)轉(zhuǎn)。
  
  信息收集:控制板上定期收集溫度/濕度/轉(zhuǎn)速/電源功耗等數(shù)據(jù),然后通過(guò)API進(jìn)行回傳。
  
  圖6 定制化服務(wù)器頂部控制板
  
  樣機(jī)生產(chǎn)
  
  有了CFD模擬的結(jié)果,才使我們和服務(wù)器廠商對(duì)這個(gè)產(chǎn)品的未來(lái)有了明確認(rèn)識(shí),之后才進(jìn)入到打樣階段。我們共生產(chǎn)了3臺(tái)樣機(jī),每臺(tái)配6個(gè)雙路E5節(jié)點(diǎn)。1臺(tái)由我們驗(yàn)證,1臺(tái)由廠商進(jìn)行驗(yàn)證,1臺(tái)用于對(duì)外宣傳/測(cè)試,尋找下一個(gè)采購(gòu)者。
  
  樣機(jī)驗(yàn)證
  
  由于使用的主要部件CPU/內(nèi)存/硬盤(pán)/主板/電源/風(fēng)扇都是成熟產(chǎn)品,只有12V轉(zhuǎn)ATX電源板和風(fēng)扇控制板是全新設(shè)計(jì)的,所以驗(yàn)證工作主要放在以下三個(gè)方面:
  
  1、 各部件協(xié)同穩(wěn)定性上;
  
  2、 電源時(shí)序、12V大電流安全性;
  
  3、 功耗降低幅度和設(shè)計(jì)方案的吻合度;
  
  所有測(cè)試的環(huán)境溫度起點(diǎn)就大于40攝氏度。我們將一個(gè)20U機(jī)柜改裝為恒溫箱,可以對(duì)服務(wù)器進(jìn)風(fēng)口持續(xù)輸入30~43攝氏度的空氣,溫度穩(wěn)定性為正負(fù)0.3度,如圖7所示。
  
  圖7 對(duì)定制化服務(wù)器進(jìn)行高溫測(cè)試
  
  由于一開(kāi)始就引入高溫環(huán)境,品質(zhì)較差的組件在測(cè)試之初就露出原形,讓我們節(jié)約了大量時(shí)間。
  
  經(jīng)過(guò)兩個(gè)月的測(cè)試,我們還發(fā)現(xiàn)了一些問(wèn)題,例如電源時(shí)序設(shè)計(jì)有bug,會(huì)因?yàn)?5V VSB電流不足而造成刀片啟動(dòng)異常,還有硬盤(pán)震動(dòng)異常,如下圖:
  
  以上問(wèn)題經(jīng)過(guò)廠商的攻關(guān),都已經(jīng)解決,也讓我們這些初出茅廬的服務(wù)器設(shè)計(jì)者增長(zhǎng)了不少知識(shí)。
  
  小規(guī)模生產(chǎn)
  
  通過(guò)數(shù)月的樣機(jī)驗(yàn)證,我們已經(jīng)進(jìn)入到小規(guī)模生產(chǎn)階段。在公司的日常采購(gòu)計(jì)劃中逐步增加定制服務(wù)器的采購(gòu)份額。已經(jīng)可以供貨的刀片配置為:
  
  1、 php/python/Tomcat 服務(wù)器 2*E5-26xx v2 + 1~2塊2.5英寸SAS
  
  2、 CDN服務(wù)器 1*E5-26xx v2 +8塊2.5英寸SSD
  
  3、 Memcache/Redis 服務(wù)器 2*E5-26xx v2 + 4*2.5英寸 SAS
  
  結(jié)語(yǔ)
  
  通過(guò)將近兩年的設(shè)計(jì)、溝通、驗(yàn)證,我們終于完成了定制服務(wù)器的第一版,其間的種種感悟匯成幾點(diǎn)建議:
  
  1、 量化定制服務(wù)器可以帶來(lái)有形價(jià)值和無(wú)形價(jià)值,讓參與的人和決策的人認(rèn)識(shí)到它的價(jià)值;
  
  2、 產(chǎn)品要接地氣,一定要根據(jù)企業(yè)的需求、業(yè)務(wù)環(huán)境和采購(gòu)能力設(shè)計(jì)產(chǎn)品;
  
  3、 服務(wù)器設(shè)計(jì)是個(gè)綜合學(xué)科,外聘顧問(wèn)比閉門(mén)造車(chē)綜合成本更低;
  
  4、 公司內(nèi)部對(duì)新產(chǎn)品的信任度需要花時(shí)間去經(jīng)營(yíng),信任不是一天就能養(yǎng)成的。
  
  1、 設(shè)計(jì)一款框架產(chǎn)品,在滿足本公司需求(可以服務(wù)Intel 3代產(chǎn)品)的前提下,可以讓OEM/ODM以低廉的價(jià)格進(jìn)行改裝,以適合其他任何一家互聯(lián)網(wǎng)公司。
  
  2、 堅(jiān)決不定制主板/電源等復(fù)雜的PCB組件,一定要使用出貨量5萬(wàn)塊以上的主板型號(hào),使用通過(guò)了市場(chǎng)檢驗(yàn)的產(chǎn)品。
  
  3、 降低產(chǎn)品復(fù)雜度,讓更多的廠商可以參與。
  
  因此,我們選擇了基于現(xiàn)有主板產(chǎn)品的重新整合,走淺定制化之路。
  
  分解研發(fā)方向
  
  有了項(xiàng)目目標(biāo)和產(chǎn)品定位,我們進(jìn)入到了項(xiàng)目分解階段。通過(guò)服務(wù)器使用成本構(gòu)成分析,如圖3所示。
  
  圖3 定制化服務(wù)器成本構(gòu)成分析
  
  通過(guò)成本構(gòu)成分析,我們確認(rèn)了以下三個(gè)工作方向:
  
  1.減少電源數(shù)量+提高電源效率;
  
  2.減少風(fēng)扇數(shù)量+提高風(fēng)扇效率;
  
  3.減少五金結(jié)構(gòu)+共享部分組件。
  
  書(shū)面推演
  
  為了后續(xù)尋找合適的廠商,我們使用一些計(jì)算公式進(jìn)行推演,確認(rèn)通過(guò)以上的三個(gè)工作方向可以節(jié)約的成本。例如使用電源共享方案,電源數(shù)量從12個(gè)550w可以縮減到三個(gè)1050w,同時(shí)電源轉(zhuǎn)換效率可以從82%,提升到92%,原理見(jiàn)圖三。散熱共享方案可以從30個(gè)4cm 10000轉(zhuǎn)風(fēng)扇縮減到9個(gè)12cm 3000轉(zhuǎn)。綜合各種因素以后,計(jì)算得出TCO降幅約在10%-17%之間。
  
  圖4
  
  尋找合作伙伴
  
  有了上述的書(shū)面推演,使我們明確了成本節(jié)約的幅度,也方便用數(shù)字和廠商溝通.然后就開(kāi)始和國(guó)內(nèi)及國(guó)際ODM/OEM品牌洽談合作意向。我們接觸了四類廠商,其特點(diǎn)如表2所示。
  
  表2 四類廠商特點(diǎn)對(duì)比
  
  整個(gè)溝通的過(guò)程是漫長(zhǎng)和痛苦的,我們必須讓廠商相信這個(gè)合作項(xiàng)目可以為我們雙方都帶來(lái)價(jià)值,讓他們相信定制產(chǎn)品除了賣(mài)給我們還可以賣(mài)其他人。幸運(yùn)的是最終我們說(shuō)服了兩家合作伙伴,項(xiàng)目開(kāi)始進(jìn)入正軌。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)