快意IT江湖20年,砥礪運維開發(fā)之心得

責(zé)任編輯:editor004

作者:木環(huán)

2016-11-24 12:10:06

摘自:INFOQ

這四年堅持做運維開發(fā)工作,恰好趕上電商和云計算的高速發(fā)展階段,加上領(lǐng)導(dǎo)和團隊的支持,所以取得了一點成績。2016年開始擔(dān)任公司平臺保障部保障總指揮

編者按

二十年,是一個什么概念?

對于中國互聯(lián)網(wǎng),過去二十年是個從無到有并且不斷完善的時期。自1994年中國科學(xué)院高能物理研究所設(shè)立第一個國內(nèi)Web服務(wù)器之后,互聯(lián)網(wǎng)開始走進大眾生活,1996年底互聯(lián)網(wǎng)用戶達到10萬,2016年目前我國網(wǎng)民規(guī)模達到7.12億。這二十年間,網(wǎng)民規(guī)模增加了7000倍,中國的網(wǎng)絡(luò)使用普及率達到51.7%。這個數(shù)字,比全球平均水平高3.9個百分點,比亞洲平均水平高10.1個百分點。

而對孫虎先生,過去二十年里他一直在IT領(lǐng)域工作,目前是1號店的平臺保障部總監(jiān)。從最初在銀行工作,再輾轉(zhuǎn)藍點、騰訊和盛大,到現(xiàn)今的1號店,在這二十年的大環(huán)境發(fā)展中,他見證并經(jīng)歷了許多;從技術(shù)新人變成團隊leader,他積累了豐富的運維、研發(fā)和管理經(jīng)驗。“好日子,慢慢過”是孫虎先生的個人簽名。那他怎樣看待過去的這二十年,這些好日子他是怎么度過的?回望過去,他對個人、對職場生涯和對行業(yè)的心得有哪些希望和大家分享?帶著這些的問題,InfoQ與孫虎先生進行了采訪溝通,并將文稿整理如下。

技術(shù)生命線之簡單回顧

我1996年參加工作,在銀行系統(tǒng)從事系統(tǒng)管理和軟件開發(fā)工作,從那時開始便和運維開發(fā)結(jié)下了不解之緣。 最早的這三年多時間算是打基礎(chǔ)的階段,在銀行系統(tǒng),從事對數(shù)據(jù)庫、unix系統(tǒng)相關(guān)的運維和開發(fā)。

2000年我獨自到深圳闖蕩,先后在藍點、騰訊等公司從事研發(fā)工作。 在藍點屬于技術(shù)提升階段,主要深入了解Linux和網(wǎng)絡(luò),研發(fā)一些網(wǎng)絡(luò)安全相關(guān)的產(chǎn)品。 騰訊工作則拓展了視野,工作上涉及對海量用戶IT系統(tǒng)的架構(gòu)設(shè)計、運維開發(fā),這個階段接觸到不少和海量用戶、數(shù)據(jù)打交道的項目。另外,我很喜歡騰訊的人文關(guān)懷,也努力將這種氛圍帶到其他地方。

在深圳工作10年后,我于2010年攜家?guī)Э趤淼缴虾J⒋蟆?除了從事基礎(chǔ)服務(wù)和運維的研發(fā)外,也負(fù)責(zé)POI、數(shù)據(jù)等運營。對于這個階段最大的體會是好的機會需要堅持,當(dāng)時做過的旅游、LBS、O2O等產(chǎn)品都挺不錯,但轉(zhuǎn)變方向太快, 如果能堅持一兩年,收益會非常可觀。

2012年8月來到與盛大同在張江的1號店,開始創(chuàng)建運維開發(fā)團隊,經(jīng)過不到四年的發(fā)展,1號店私有云從無到有從小到大,運維開發(fā)團隊從2、3人發(fā)展到近20人,一粒種子成長為小樹。 現(xiàn)在我的團隊是平臺保障部,整個部門除了實現(xiàn)平臺研發(fā)工作:為公司提供運維自動化、SOA基礎(chǔ)架構(gòu)和辦公自動化服務(wù)外,還需要負(fù)責(zé)全公司的監(jiān)控、質(zhì)量保障、測試、應(yīng)急處理等。平臺保障部屬于一個大部門,我負(fù)責(zé)的部分包括下面綠色框線中部分:

除了這幾塊具體業(yè)務(wù),我還負(fù)責(zé)包括應(yīng)急指揮中心(一個虛擬團隊,由值班員、值班經(jīng)理、系統(tǒng)咨詢、架構(gòu)、各業(yè)務(wù)組成)和演練,近期開展了交換機切換、大促縮容、流量切換等演練,目的是通過演練發(fā)現(xiàn)潛在的問題,讓我們的業(yè)務(wù)更加健壯。

從無到有建立運維開發(fā)團隊

回想2012年8月剛到1號店的時候,除了一款被吐槽的發(fā)布系統(tǒng),沒看到什么運維工具,大家運維得很辛苦:發(fā)生問題三更半夜起來處理是家常便飯,不光是運維同學(xué)出面,而是各團隊都要來參與處理;人多情況比較亂,大家的意見也各不相同,半夜里有的要求回滾,有的憑經(jīng)驗要重啟應(yīng)用,有的建議查看DB。

當(dāng)時做發(fā)布系統(tǒng)的同學(xué)剛離職,負(fù)責(zé)維護的兩位同學(xué)也感到很迷茫,其中一位剛畢業(yè)一兩年,感覺玩不轉(zhuǎn)了。發(fā)布一次之后發(fā)生故障概率很大,有時出了問題回滾,居然回滾了幾個小時,結(jié)果大家寧愿手工發(fā)布也不愿意用發(fā)布系統(tǒng)。

雖然是一頭黑線,但是也要上啊。 我花了幾個通宵時間,把發(fā)布系統(tǒng)所有的問題匯總并且歸類,包括發(fā)布系統(tǒng)自身的、業(yè)務(wù)的、操作的等類別,然后和各個對應(yīng)的團隊溝通改進方案, 內(nèi)部也就DevOps的理念進行交流引導(dǎo)。為什么要需要各個團隊的參與?因為如果發(fā)布不夠高效穩(wěn)定,受到影響的包括運營、研發(fā)、測試、產(chǎn)品、運維各個團隊,最終會嚴(yán)重影響業(yè)務(wù)的正常運轉(zhuǎn)和特性的快速迭代。最后通過各團隊的一致行動,我們終于在兩周多的時間內(nèi)穩(wěn)定了發(fā)布系統(tǒng),也就奠定了現(xiàn)在的運維開發(fā)團隊。

當(dāng)時還沒有私有云的樣子,在監(jiān)控選型上也有些不同意見,有的希望完全自研,有的要求不要給業(yè)務(wù)研發(fā)看到,有的認(rèn)為只要用開源的即可。 結(jié)合當(dāng)時的人員狀況和公司的實際,我采用了開源+少量自研的方法,并倡導(dǎo)全員監(jiān)控的理念,得以在較短時間讓各團隊都用上了方便的監(jiān)控。 有了發(fā)布、監(jiān)控能力之后,對基礎(chǔ)數(shù)據(jù)的要求越來越高,領(lǐng)導(dǎo)對我們的支持力度也在加大,我們得以有機會開始建設(shè)私有云的第一個版本,涵蓋CMDB、裝機、發(fā)布、監(jiān)控、配置管理等。 隨著產(chǎn)品越來越豐富、用戶越來越多,我們開始了對各產(chǎn)品進行優(yōu)化美化,通過API方式打通內(nèi)外平臺系統(tǒng),逐步發(fā)展成了現(xiàn)在的樂道云平臺。 我們選擇樂道這個名稱,有三個含義:快樂運維之道、安貧樂道、津津樂道。

目前1號店的技術(shù)團隊大約1000人規(guī)模,為全國幾千萬用戶的購物提供強大技術(shù)架構(gòu)、研發(fā)和運維服務(wù)。 我負(fù)責(zé)的運維開發(fā)團隊有20人,與其他團隊密切配合(運維、研發(fā)、架構(gòu)等),高效管理上萬臺設(shè)備的平穩(wěn)運行。其他團隊主要是運維自動化的需求方,我們會按照業(yè)務(wù)的緊急重要程度安排需求的深入溝通、設(shè)計、快速原型和迭代。

這四年堅持做運維開發(fā)工作,恰好趕上電商和云計算的高速發(fā)展階段,加上領(lǐng)導(dǎo)和團隊的支持,所以取得了一點成績。我期待未來能在云端化和智能化上做出更多有益的產(chǎn)品。

最有成就感的是帶過的那些團隊

說一個20年前對我觸動很大的事情:當(dāng)時在銀行系統(tǒng)工作, 領(lǐng)導(dǎo)對我說“領(lǐng)導(dǎo)就是服務(wù)”。當(dāng)時我不太理解,但是在有了一定工作經(jīng)驗后,我越來越認(rèn)可這一觀點。團隊里每個人都是我服務(wù)的對象,遇到問題領(lǐng)導(dǎo)要沖鋒在前,遇到獎勵讓最有功的同學(xué)上,遇到黑鍋我來,甚至還要檢查下還有沒多的鍋?都給我壓上。 需要什么資源我會盡量爭取,短期爭取不到的我也始終惦記著。想方設(shè)法為團隊謀些福利,多讓團隊做出些有價值的產(chǎn)品,提升成員的成就感。“領(lǐng)導(dǎo)就是服務(wù)”這句話現(xiàn)在算是深入骨髓了,要感謝當(dāng)時的領(lǐng)導(dǎo):黃昌云行長。

現(xiàn)在帶領(lǐng)團隊,我很注重快樂高效與成長,實際上每個人有自己的優(yōu)勢與長處,我會努力創(chuàng)造一個好的環(huán)境,讓每位成員各司其職、各盡其能、各得其所。

我非常喜歡“好日子,慢慢過”這句話,這也慢慢成為了團隊名言。我的觀點是工作要快,事情盡量做在前面,高效高質(zhì)量研發(fā);但生活要放慢,我們周末在家陪寶寶講故事,在陽臺品茶看書聽音樂,在餐桌全家人共度快樂時光。 平時如果看到團隊成員加班,我會要求他/她早點回家,未來需要的是健康體魄創(chuàng)造性思想,而不是代碼工人。

如果問我這些年的工作什么最令我有成就感?是我?guī)н^的團隊,他們都有著共同的特點:快樂、高效、穩(wěn)定、戰(zhàn)斗力強。

技術(shù)生涯發(fā)展的幾點建議

這里想先講講我早年的一個經(jīng)歷。那時是在騰訊剛接手快速Tips項目,即大家看到的QQ彈窗,項目交接的前任同學(xué)剛剛因為事故受到了處罰。他好心提醒我,盡量少接需求,以免重蹈覆轍。 一方面,我對騰訊制度的完善受到觸動,事故的各類懲處會一級級追究到VP;另一方面,我卻認(rèn)為少做事不是解決問題的辦法。于是,我快速開發(fā)了一個測試后臺,無論誰想測試彈窗,可以直接使用,而且影響范圍可控。最后,這樣的方案既能方便各團隊用新產(chǎn)品,又不會引發(fā)事故。 所以我現(xiàn)在在1號店的團隊也建立了內(nèi)部的獎懲制度,甚至包括涉黃也有懲處,方便積累活動經(jīng)費。同時建立私有云平臺,讓各個團隊可以方便地發(fā)布、監(jiān)控、查看日志等,為業(yè)務(wù)團隊高效研發(fā)創(chuàng)造良好的環(huán)境。

舉這個經(jīng)歷為例子,是為了說明技術(shù)人應(yīng)該怎樣看待和處理公司的項目需求。少做事情一不能響應(yīng)業(yè)務(wù)需求,二也失去了鍛煉自己的機會。要通過思考和努力,在盡可能的范圍內(nèi),完成工作保證質(zhì)量。如果給出一個廣泛性的建議,那就是遇到困難問題,主動想辦法解決,對每個職場人的發(fā)展都大有裨益。一個人職業(yè)的發(fā)展過程,伴隨著解決的問題越來越大、越來越難,如果解決的問題千篇一律甚至越來越簡單,那很有可能是職業(yè)道路越走越窄。

再具體一點,對于處在技術(shù)生涯中不同階段的技術(shù)人,發(fā)展側(cè)重點略有差別。 對于剛剛?cè)胄械募夹g(shù)新人,要重視打基礎(chǔ)的這個階段,無論是什么規(guī)模的公司,我建議:

多思:為何這樣設(shè)計、實現(xiàn),能帶來哪些益處,會有什么問題。 多做:別讓自己閑下來,多做事沒壞處,哪怕短期沒有直觀的收益,“風(fēng)物長宜放眼量”。溝通:及時回復(fù),及時更新進度,有困難的確難以解決時及時尋求幫助。

還有一點,有個能帶著你一起成長的團隊和老大,很重要。

工作三到五年之后,要保持學(xué)習(xí)和發(fā)展。還有,就是要評估下是否達到了職場發(fā)展的瓶頸,我建議從下面四個維度進行考慮:

空間:自己在團隊中的位置,公司在行業(yè)中的位置,行業(yè)的發(fā)展情況,綜合出可以預(yù)見的發(fā)展空間。簡歷:每半年更新一下自己的簡歷。不是鼓勵大家頻繁跳槽,而是通過這種方式,我們可以檢查過去半年有沒有成績和進步。 持續(xù)性:馬上可能面臨組建家庭等問題,現(xiàn)有的工作生活與學(xué)習(xí)方式是否可持續(xù),如果不可持續(xù)如何調(diào)整。目標(biāo):我們離長期目標(biāo)是更近了嗎?有沒有更好的途徑、方法確保目標(biāo)的實現(xiàn)?

關(guān)于加班這個話題

對于加班,我個人的看法是:如果是自己為了成長或業(yè)務(wù),主動加班,很好,也是職業(yè)精神所在;但是如果只是被動加班,被不成文的規(guī)定、文化束縛,被不合理的進度限制,我不贊成。

作為知識工作者,如果不能留出思考時間,不能留出精力來發(fā)展業(yè)余愛好,不能在運動場上鍛煉體魄,不能和朋友知己交流經(jīng)驗,長期來看一定是難以持續(xù)的。

的確,在這個時代,技術(shù)人很吃香。尤其是在一些人文關(guān)懷比較到位的公司,除了薪資不錯,福利待遇也挺好。不過我們的夢想更重要,如果夢想和穩(wěn)定沖突,我建議還是選擇夢想:只有做真正喜歡的事情,才不枉此生。當(dāng)你的職業(yè)就是你的夢想的時候,你會發(fā)自內(nèi)心地?zé)釔酃ぷ鞯臅r光。

我看IT的發(fā)展及未來

結(jié)合這二十年工作,對于行業(yè)環(huán)境的發(fā)展,我能感受到的四個方面:

硬件:內(nèi)存從幾M到幾G,硬盤從幾百M到幾百G。別說磁帶了,連當(dāng)年常見磁盤都已經(jīng)找不到了。 編程語言:可能現(xiàn)在很少有人知道Cobol啦,以前在銀行可是很吃香的。C語言還是歷久彌新,而Python、JS等變得越來越熱門。 網(wǎng)絡(luò)條件:從幾十K的貓,到現(xiàn)在家里100M光寬帶和手機4G,不可同日而語。 行業(yè):這20年來熱門語言和概念越來越多,不過很多基礎(chǔ)軟硬件沒有什么變化。服務(wù)器是X86,運行的OS是LINUX系統(tǒng),Java、PHP應(yīng)用在Tomcat、Apache上跑,數(shù)據(jù)庫不少仍是MySQL、Oracle,網(wǎng)絡(luò)協(xié)議也還是TCP-IP。 變的是我們對IT的依賴程度越來越高,要求越來越嚴(yán)格,衍生出不少新概念新產(chǎn)品,如電商、電子支付、不斷升級的智能手機。

未來,隨著軟硬件和網(wǎng)絡(luò)的進化,人們希望隨時隨地獲得高效安全的服務(wù)。我認(rèn)為會體現(xiàn)在如下的三方面:

云端:大部分人處理事務(wù)只需要一個接入端,可能是手機、平板或建筑物的表面,隨時處理公司、家庭的事務(wù)。 智能:很多工作外包給智能機器人,家中的智能管家負(fù)責(zé)打掃、烹飪、保安;工廠的智能機械負(fù)責(zé)流水線的運轉(zhuǎn);投資也交給智能顧問 安全:從買衣買書買手機,到手機轉(zhuǎn)賬、理財、交流,我們對安全的要求越來越高,這方面也是大有可為。 因此,IT服務(wù)的云端化、智能化、安全化將是技術(shù)發(fā)展的方向。

未來的這些發(fā)展趨勢,具體對應(yīng)到我們運維行業(yè)人員,要跟上和引領(lǐng)技術(shù)的發(fā)展。首先實現(xiàn)運維的云端化,讓各團隊隨時隨地了解業(yè)務(wù)健康狀況,便捷地構(gòu)建、測試、發(fā)布;其次通過機器學(xué)習(xí)讓運維更加智能,如何報警只報根源避免被現(xiàn)象淹沒,如何自動修復(fù)典型故障,如何提前自動擴容避免事故,是我們需要探索的重要方向;最后在安全這塊,除了做好運維平臺自身的安全,如何幫助業(yè)務(wù)實現(xiàn)更好的安全,以電商為例,通過一鍵削峰、防CC、防黃牛等安全項目,讓業(yè)務(wù)安全平穩(wěn)運行。我們1號店目前研發(fā)的主要內(nèi)容是私有云,有了堅實的基礎(chǔ),與公有云的融合也很便捷,1號店已經(jīng)有多次成功實施的經(jīng)驗,與公有云的融合需要通過自動部署、發(fā)布、配置等,迅速將公有云與私有云打通。

嘉賓簡介

孫虎,1號店平臺保障部總監(jiān)。從業(yè)IT 20年,先后就職于藍點、騰訊、盛大等互聯(lián)網(wǎng)公司,具有豐富的運維、研發(fā)和管理經(jīng)驗。12年加入1號店,從無到有創(chuàng)建了運維開發(fā)團隊,并帶領(lǐng)團隊一步步打造出了1號店的高效運維私有云平臺—樂道,解決了公司當(dāng)時面臨的配置、發(fā)布、監(jiān)控和排障效率低的問題,大大提升了公司運維和研發(fā)團隊的工作效率,保障了系統(tǒng)的穩(wěn)定和高速發(fā)展。2016年開始擔(dān)任公司平臺保障部保障總指揮,協(xié)調(diào)架構(gòu)、運維、研發(fā)團隊提供更好保障支持,為業(yè)務(wù)穩(wěn)定發(fā)展研發(fā)更高效工具,指揮協(xié)調(diào)公司級保障項目:為1號店發(fā)展保駕護航。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號