宋健,花名宋意,2008年開始參加工作,至今12年多一直專注在運維領(lǐng)域。2010年6月加入支付寶,做過監(jiān)控、SRE、資源管理、運維產(chǎn)品等方面的工作,經(jīng)歷并參與了阿里運維從腳本到工具化再到自動智能化的演進過程,在阿里的10年根據(jù)部門變化有三個階段:
2010.6-2013.1,支付寶(系統(tǒng)運維部)
2013.2-2015.12,技術(shù)保障(支付寶、阿里云、淘寶、B2B等運維部門統(tǒng)一后的新BU)
2016.1-至今,天基(負責(zé)阿里全球數(shù)據(jù)中心和運維體系的“數(shù)字化、自動化、智能化”建設(shè))
關(guān)鍵詞:開源監(jiān)控、監(jiān)控值班、應(yīng)急響應(yīng)
入職后加入的團隊是運維部的監(jiān)控組,那個時候團隊剛剛開始組建,所有的東西從零開始,好在有B2B的兄弟團隊可以借鑒經(jīng)驗,利用nagios快速構(gòu)建了支付寶第一代監(jiān)控系統(tǒng)。過了幾個月由于雙11的原因,我們的上班地點由華星時代搬到了電信二樞紐機房,因為支付寶當時的核心機房在那里,我們需要7*24在現(xiàn)場以便快速處置緊急事件。當時小組應(yīng)該是6個同學(xué),一白班一晚班一正常班,我們一邊值班一邊維護監(jiān)控系統(tǒng)。
隨著業(yè)務(wù)的快速發(fā)展服務(wù)器不斷增加,很快一臺nagios已無法滿足需求,調(diào)研后引入centreon解決了nagios的水平擴展問題。監(jiān)控項的添加和維護以編輯nagios配置文件為主,沒有辦法開放所有人員,因此監(jiān)控項的維護工作也是由監(jiān)控團隊負責(zé),PE和DBA只要整理好需求發(fā)出郵件即可。但新建業(yè)務(wù)和擴容的頻率越來越高,每天要花費大量時間編輯文件受理監(jiān)控需求且經(jīng)常出錯,和需求方協(xié)商后確定了針對不同業(yè)務(wù)組件設(shè)定監(jiān)控模板的方案,再想辦法自動獲取到服務(wù)器信息,那個時候還沒有專門CMDB,后來總算實現(xiàn)了新機器上線自動匹配模板添加監(jiān)控和告警。重要的告警都是通過短信發(fā)出,告警短信需要和線上業(yè)務(wù)的短信區(qū)分開避免相互影響,所以我們又采購了幾十個短信貓,專門學(xué)習(xí)了如何通過服務(wù)器控制短信貓發(fā)送短信,再后來還演進出了利用短信貓接收短信關(guān)閉告警的能力。
這樣的情況持續(xù)一年左右逐漸穩(wěn)定下來,有了經(jīng)驗沉淀后我們開始嘗試引入外包值班,然后開始招聘和培訓(xùn)外包同學(xué),制定值班和應(yīng)急標準,建設(shè)相應(yīng)的流程系統(tǒng)。外包值班又持續(xù)了差不多一年時間,由于監(jiān)控可以看到所有業(yè)務(wù)數(shù)據(jù),出于安全考慮又進行了去外包化。目前監(jiān)控值班的角色仍然存在,辦公地點在西溪的全球運行指揮中心,有專門的辦公室和門禁限制,里面全是各種酷炫大屏,整個經(jīng)濟體的業(yè)務(wù)由他們7*24小時守護著。
這兩年就是不停的做事情,不停的遇到問題和解決問題,逢山開路遇水搭橋。
關(guān)鍵詞:監(jiān)控統(tǒng)一、OD分離、資源管理
2013年我所在部門由支付寶調(diào)整至集團,到集團后參與的第一個項目是統(tǒng)一集團監(jiān)控系統(tǒng)。原來淘寶、支付寶、阿里云、B2B等業(yè)務(wù)都是自建監(jiān)控團隊和系統(tǒng),組織層面統(tǒng)一后必然要將系統(tǒng)進行整合,整合后的新系統(tǒng)叫alimonitor。當時項目主導(dǎo)方是在運維開發(fā)團隊,我參與進來時項目已經(jīng)啟動,只有我一個人是在監(jiān)控團隊,這也是我第一次參與較大型的跨團隊項目。因為剛調(diào)整到集團跟其它成員都不熟悉,所以跟大家合作起來阻力很大,但我還是積極參與到項目中,每天跑到開發(fā)團隊參加晨會,直到有一次在晨會上被氣哭,但神奇的是從那天后合作就變的非常順暢,再也感受不到壁壘的存在。項目持續(xù)了差不多一年時間成功上線,通過這個項目使我和開發(fā)團隊的同學(xué)們建立起了良好的信任關(guān)系,對后續(xù)的工作起到了很大幫助。
開發(fā)團隊負責(zé)著集團所有的運維工具,除alimonitor外還有staragent、armory、aone等,有段時間這些工具經(jīng)常發(fā)生故障,甚至在雙十一雙十二的關(guān)鍵時刻掉鏈子,后來從業(yè)務(wù)團隊轉(zhuǎn)來一位資深同學(xué)負責(zé)團隊,并發(fā)起了運維工具的OD分離項目,我做為主要負責(zé)人承擔所有工具的PE職責(zé),也是這時候我開始帶團隊,最終推動10多個產(chǎn)品上百個應(yīng)用完成OD分離標準化改造,解決了工具的穩(wěn)定性問題。由于每個工具負責(zé)了運維的其中一個環(huán)節(jié),所有工具承載的業(yè)務(wù)加起來構(gòu)成了集團的工具運維體系,這段經(jīng)歷使我對運維業(yè)務(wù)有了更全面和深層次的理解。
工具PE的事情穩(wěn)定后我又接到了一個事情,負責(zé)整個集團開發(fā)測試環(huán)境的資源管理,測試環(huán)境當時有好幾萬臺服務(wù)器,但沒有人知道哪些機器在用以及誰在用,而且每年還有數(shù)千臺的物理機新增預(yù)算,成本浪費非常嚴重。我接手后首先建設(shè)了一個資源生命周期管理系統(tǒng),使所有新資源的申請全部經(jīng)過系統(tǒng),并且對已有資源發(fā)起盤點和認領(lǐng),所有資源設(shè)置有效期,到期后可以續(xù)租或釋放,系統(tǒng)還會定期巡檢資源的使用情況,再配合宕機回收、閑置降配等運營策略,最終將測試資源盤點的清清楚楚,不僅年度預(yù)算0新增,還將回收的幾千臺物理機在雙十一時支援了生產(chǎn)環(huán)境。再后來繼續(xù)嘗試通過混部提升測試資源使用率,調(diào)研多個方案后選擇了跟jstorm團隊合作,但上線后經(jīng)常出現(xiàn)jstorm任務(wù)把測試機資源占滿,影響業(yè)務(wù)的日常測試引發(fā)投訴,受限于當時技術(shù)限制最終沒能繼續(xù)推進下去。
從參與一個跨團隊項目到負責(zé)一個跨團隊項目,再到做一個產(chǎn)品解決業(yè)務(wù)問題,這是我成長最快的兩年。
關(guān)鍵詞:StarAgent、Argus、云監(jiān)控
2016年初我轉(zhuǎn)崗到了產(chǎn)品技術(shù)團隊做StarAgent,SA是一個非常重要的基礎(chǔ)產(chǎn)品,核心功能是命令通道,幾乎所有操作服務(wù)器的場景都強依賴它,但過去SA一直做的不太好,有很長一段時間只有半個人在兼職支持。我當時的想法也比較簡單,就是想改變這樣的局面。產(chǎn)品得不到重視的原因我覺得是命令功能過于單一,業(yè)務(wù)價值需要結(jié)合場景才能體現(xiàn)出來。所以做的第一件事是Portal,推動SA從后臺往前臺走,第一個功能是插件平臺,提供將一個面向全網(wǎng)的發(fā)布能力,發(fā)布的對象可以是各種運維腳本或者agent,并且新擴容服務(wù)器也會自動安裝。這樣做的目的是希望將SA的最大優(yōu)勢全網(wǎng)覆蓋能力開放出來,使上層系統(tǒng)可以將更多執(zhí)行邏輯下放到機器,而不是都轉(zhuǎn)換為命令頻繁調(diào)用SA。
插件平臺的主要用戶群體是各個業(yè)務(wù)運維系統(tǒng),但是一線開發(fā)和運維人員也經(jīng)常需要登錄服務(wù)器執(zhí)行命令,為了能覆蓋到這部分用戶又推出了第二個功能WEB終端,人執(zhí)行命令的場景又可以分為單機的交互操作和多機的批量操作,所以WEB終端又分為交互終端和批量終端兩個子功能,WEB終端在保證安全的前提下解決了人操作服務(wù)器的效率問題。
插件平臺統(tǒng)一全網(wǎng)類變更入口后,我們也看到全網(wǎng)類Agent越來越多,每臺服務(wù)器都有N個運維類Agent,進一步梳理后發(fā)現(xiàn)監(jiān)控類Agent是最多的,因此又發(fā)起監(jiān)控Agent融合的項目,統(tǒng)一后的新Agent叫Argus,完成集團內(nèi)的agent融合后繼續(xù)走向公有云,目前公共云外部客戶和阿里內(nèi)部使用的監(jiān)控Agent都是同一套代碼。
在Argus完成集團內(nèi)多套監(jiān)控系統(tǒng)的Agent統(tǒng)一后,進一步分析會發(fā)現(xiàn)所有監(jiān)控系統(tǒng)的采集實現(xiàn)都有類似性,Argus對接的上游是配置下游是通道,將配置、采集、通道三部分組合起來就是標準的數(shù)據(jù)采集,因此又與alimonitor團隊合作,復(fù)用已有的配置和通道能力建設(shè)了一個覆蓋全網(wǎng)的通用數(shù)據(jù)采集平臺。隨著在監(jiān)控領(lǐng)域做的越來越深入,后來干脆專注于監(jiān)控場景,將SA的事情全部交接了出去,目前我的主要職責(zé)是為業(yè)務(wù)上云提供一站式監(jiān)控方案,包括云資源監(jiān)控、主機監(jiān)控、業(yè)務(wù)監(jiān)控、鏈路監(jiān)控等。
埋頭做了好幾年的產(chǎn)品,但是產(chǎn)品的深度都沒有達到自己的預(yù)期。主要問題我覺得是過于關(guān)注產(chǎn)品技術(shù)本身,沒有做到以業(yè)務(wù)價值驅(qū)動,導(dǎo)致未能獲得持續(xù)的資源投入。
這三個階段我會用三個詞概括:做事情-->做項目-->做產(chǎn)品。
做事情和做項目的重點是“正確的做事”,區(qū)別是項目多了一層協(xié)作。做產(chǎn)品的重點是“做正確的事”,不僅需要關(guān)注當下結(jié)果,更重要的是如何持續(xù)走到未來。
“很傻很天真,又猛又持久。”我覺得這句話可以形容我的待人和做事風(fēng)格,待人方面我會默認相信每一個人,做事方面因為比較笨就會比別人下更多功夫。這些年我始終堅持在一個領(lǐng)域,比別人投入更多的時間和精力,在經(jīng)歷一次又一次失敗后,不斷的吸取經(jīng)驗和教訓(xùn)使自己成長。期間也有過很多次想打退堂鼓,最艱難的時刻總能想到一句充滿力量的阿里土話安慰自己。
互聯(lián)網(wǎng)行業(yè)招人時經(jīng)常會說一句話,崗位對標阿里的P幾,這一點足以說明在阿里級別的重要性,所以晉升對每個人來講都很重要。但當我們把級別看的很重時也帶來了問題,級別變成了每個人的第一標簽,合作時首先看你的級別而不是負責(zé)什么,做事情首先想到的是晉升而非價值。今年公司在這方面已經(jīng)有所調(diào)整包括隱藏職級等,希望可以讓我們回歸到用事情價值和成就感來驅(qū)動自己。
10年前我入職支付寶時級別為P4,到目前共經(jīng)歷8次答辯,平均每2次答辯成功1次,但是P7到P8的晉升用了5年答辯3次……每次晉升失敗后最難的是調(diào)整心態(tài),感覺自己受到了不公平待遇,評委不客觀、不了解我做的事情、只能看到我的短板等,這樣的想法持續(xù)太久必然會影響到自己。
如何調(diào)整?我的做法是首先擺正心態(tài),相信公司相信評委,公司一定希望給每位同學(xué)匹配到最合適的評委,評委主觀上也一定是客觀的,不會刻意針對某一人。然后從自己身上找原因,評委的反饋是什么?為什么會讓評委有這樣的感受?沒表達清楚還是沒思考清楚?
失敗原因可以簡單概括為兩方面:
能力沒達到,包括軟技能和硬技能。
運氣不好,跟評委氣場沒對上。
能力原因個人是可以改變的,但首先需要認知到自己的不足,技術(shù)、業(yè)務(wù)、表達是哪方面的問題?仔細閱讀和理解評委的反饋,有時候反饋可能不那么直接,比如未來展望不夠意思是看不到你負責(zé)這個業(yè)務(wù)的未來,平時你有想過業(yè)務(wù)的未來嗎?多和主管聊一聊,主管一定愿意幫助你找到問題所在。把自己做了一年或者幾年的事情,在20分鐘內(nèi)向幾個陌生評委講清楚,讓他們完全認可和理解我認為一點都不容易。
運氣方面?zhèn)€人能做的就是來年再戰(zhàn),多試幾次總歸運氣有不那么差的時候。每個人都有可以提升的地方,成長是無止境的,只有當實在找不到或不理解的時候,才可以把原因簡單的歸為運氣,使自己心態(tài)能夠調(diào)整過來,當心態(tài)平和后真正的問題就會慢慢清晰,在這個期間需要主管給予更多的安慰和鼓勵。
這10年我只有一次正式轉(zhuǎn)崗,但轉(zhuǎn)崗的念頭還是有過好多次,其中三次印象比較深刻:
第一次是入職兩年后,大概2012年中,第一次覺得遇到了瓶頸,已有事情無法再讓自己突破,所以就去找主管聊了聊,主管也覺得我需要做些更有挑戰(zhàn)的事情,了解想法后也主動幫助我找團隊,就在定下團隊準備走流程時發(fā)生了組織調(diào)整,支付寶整個運維部被合并至集團新成立的BU技術(shù)保障,事情也跟著發(fā)生了變化,從原來的支付寶監(jiān)控轉(zhuǎn)變?yōu)榻y(tǒng)一整個集團的監(jiān)控,對我來講又有了新的挑戰(zhàn)就擁抱變化放棄了轉(zhuǎn)崗。
第二次是在2015年底,當時集團正在去PE化,技術(shù)保障大PE團隊分拆到了各業(yè)務(wù)線,我負責(zé)的工具&測試PE團隊也被拆分調(diào)整,但自己對調(diào)整后的事情并不太感興趣。幾年的PE做下來感覺運維最大挑戰(zhàn)還是工具,思考很久決定轉(zhuǎn)崗至負責(zé)運維工具的產(chǎn)品技術(shù)部,選擇的產(chǎn)品是StarAgent,BU沒有變化還是在技術(shù)保障。
第三次是在2019年底,SA做了近四年且連續(xù)兩次晉升失敗之后,在我的主導(dǎo)下SA從一個純粹的命令通道升級為主機管理平臺,成為所有運維系統(tǒng)和人員管理服務(wù)器的第一入口。感覺自己已經(jīng)用盡了全力,卻仍然不知道怎么突破,陷入了迷茫。后來在主管幫助下終于想明白,自己一直想著怎么把事情做好,但很少思考做的是不是正確的事情,導(dǎo)致做的越來越多越來越累。和主管討論后對職責(zé)進行了調(diào)整,將精力聚焦在一件事上面,其它事情進行了交接。
轉(zhuǎn)崗的目的還是為了解決問題,無論什么時候有轉(zhuǎn)崗想法后,應(yīng)該首先找主管聊一聊,必要的話也可以找主管的主管或HRG去聊。不要擔心聊了會被打“標簽”,坦誠的去溝通,主管一定也很想幫助你,只是他可能還沒意識到問題,問題聊清楚了才可能得到解決,沒有溝通直接找新團隊其實還是在回避。
個人在當前團隊成長受限、看不到當前業(yè)務(wù)的前景,如果溝通后確實是這些方面的問題,那么轉(zhuǎn)崗就是必要的。但除此外遇到如協(xié)作或溝通等方面的問題,則需要慎重考慮。換團隊的成本非常高,需要時間來和新主管及成員建立信任感,當前得不到解決的問題換個地方后大概率還會碰到,新團隊也會帶來新的問題甚至問題更多。
我也經(jīng)常的看書和聽別人分享,要學(xué)習(xí)的方法論實在太多,但每次看完聽完就沒有然后了,最后仍然是走了很多彎路撞了很多次墻,才慢慢吸收形成了自己的方法,我的經(jīng)驗總結(jié)下來就兩句話。
“讓天下沒有難做的生意”,是一件事情。
“做技術(shù)驅(qū)動的世界第一的商業(yè)基礎(chǔ)設(shè)施服務(wù)商”,也是一件事情。
“云上云下監(jiān)控數(shù)據(jù)采集技術(shù)統(tǒng)一”,也是一件事情。
每個人每天都在做事情,為什么有的人做的好有的人做的不好?我認為很重要的一點是做的事情之間有沒有產(chǎn)生連接。做的好的應(yīng)該是:每天做的事是每個月的一件事的一部分,每個月做的事是該季度一件事的一部分,每個季度做的事是本年度一件事的一部分。當做的所有事情建立起了關(guān)系,組成了更大的一件事才有意義。
每天的一件事和每月的一件事的高度是不一樣的,復(fù)雜度和解決需要的時間也不一樣。每個事情都該做,每個問題都該被解決,但我們的時間和精力是有限的,判斷事情該不該做的依據(jù)就是這個事情能否成為你的月度、季度或年度的一件事的一部分,如果可以則制定計劃去做,否則說明這個事情不該你來做。
一件事情可以分為99%和1%兩部分,大部分時候我們做到99%就覺得可以了,如某個成功率指標做到99.99%之后,可能發(fā)現(xiàn)最后0.01%要付出的代價比之前的全部還要高,要不要做?我覺得應(yīng)該盡可能推進,因為越深入越能體現(xiàn)出競爭力,至于最后做到5個9還是6個9取決于和業(yè)界拉開的距離。
99%是必須做的,1%是需要突破的,深度和壁壘往往體現(xiàn)在最后的1%。每次完成一件事情較之前進步0.01%也是突破,100次0.01%就是1%。但如果每次做到99%就停止了,那么我們和流水線上的工人沒有本質(zhì)區(qū)別,都是在重復(fù)做事情只是重復(fù)的東西不一樣而已。
完成一件一件有關(guān)聯(lián)的事情將自己打造成一個服務(wù),避免完成一件一件無關(guān)的事情讓自己成為一個資源。一件事情體現(xiàn)的是業(yè)務(wù)廣度,1%體現(xiàn)的是技術(shù)深度,規(guī)劃時需要業(yè)務(wù)廣度,落地時需要技術(shù)深度,二者結(jié)合起來才能保證所做事情的正確性和競爭力。
帶團隊的目的還是做事情,只是由一個人變成了多個人,多個人做一件不斷逼近100%的事。對于團隊負責(zé)人最重要的事情我總結(jié)為3句話:
一件事就是團隊的目標,團隊目標一定是長遠的,最好能先想清楚幾年后的樣子,然后推導(dǎo)出一年的目標,再拆解出完成目標涉及的技術(shù)領(lǐng)域,最后確定每個領(lǐng)域的季度或月度目標及負責(zé)人。
我是從2014年開始帶團隊,雖然每年也在做計劃,但早些年主要以羅列事情為主,每次匯報都被老板批,直到近兩年才想明白這一點?,F(xiàn)在來看前些年帶團隊自己更像個PM,不停地為產(chǎn)品做新功能,但上線后又缺乏長期演進方案,導(dǎo)致支持工作越來越多,團隊同學(xué)越來越辛苦,產(chǎn)品沒有深度也缺乏競爭力。在老板和其它團隊眼中只把我們當資源,只要支持好業(yè)務(wù)的需求就可以,當業(yè)務(wù)方?jīng)]有投訴老板也不愿意再投入,團隊同學(xué)看不到希望就會想轉(zhuǎn)崗,轉(zhuǎn)走后又沒有新的人員補充,每個人的事情都越來越多,為了不使大家那么辛苦,自己也去負責(zé)答疑做各種日常事務(wù),最終使團隊陷入一種惡性循環(huán)的狀態(tài)。
這段經(jīng)歷使我真正理解了一句話:“用戰(zhàn)術(shù)上的勤奮掩蓋戰(zhàn)略上的懶惰”。
想把事情做的更好必然需要更多優(yōu)秀同學(xué)加入,同時每個團隊都會存在人員流動情況,所以第二重要的事就是確保團隊不斷有新鮮血液加入。
剛開始帶團隊一般都是通過組織調(diào)整,最初幾年我對招人也是完全沒想法,缺人了就找老板要,后來才慢慢明白我是在完成自己的目標,不是在幫老板帶團隊,才意識到招聘對團隊的重要性。
招聘策略我會傾向于多校招,只有少數(shù)專業(yè)類人才需要社招。校招最難的是第一年,因為第二年這些同學(xué)可以推薦學(xué)弟學(xué)妹,后續(xù)每年基本就不會斷檔了。第一年怎么招?如果實在找不到更好的渠道,內(nèi)部的公海池是個不錯的選擇,總歸可以篩選出一些優(yōu)秀的同學(xué)。如果每年都有校招新同學(xué)加入,新同學(xué)又會變成老同學(xué),天然的就建立起了人才梯隊。
隨著團隊成員越來越多,管理方面的問題就會暴露出來,管理最重要的我覺得還是讓每個同學(xué)清楚自己月度、季度和年度的一件事分別是什么,然后定期與同學(xué)溝通交流,了解實現(xiàn)目標過程中遇到的問題并給予幫助和建議,使同學(xué)知道自己的發(fā)力方向。
BU的一件事是靠BU內(nèi)的多個部門合作實現(xiàn),部門的一件事又需要部門內(nèi)多個小組合作完成,重點項目基本都是多個團隊協(xié)同完成,一個團隊的力量始終是有限的。
反觀自己這些年大部分時候在單打獨斗,負責(zé)一塊獨立的業(yè)務(wù),好處是自主空間比較大、不用依賴別人看人臉色,但這樣的業(yè)務(wù)往往也不在主干道上,做的好或不好影響都有限。這一點我覺得自己現(xiàn)在做的還不夠好,還是會有小農(nóng)意識,需要繼續(xù)加強與兄弟團隊的合作,一起做一件更有價值的事。
最好的10年在阿里度過我覺得自己很幸運,公司的同事們都很有智慧,持續(xù)與優(yōu)秀的同事共事,我的認知和行為也受到影響,逐漸得到改變和提升。這十年我得到了很多同事的幫助,謝謝幫助過我的每一位同學(xué),還有歷任主管和團隊的小伙伴們,因為你們對我的包容和支持使我走到了今天,對下一個十年我充滿了信心和期待!
瑪氏中國|2025年度瑪氏箭牌北京區(qū)域包材及原材料倉儲(VMI)項目
2236 閱讀華為的物流“布局”,為何備受關(guān)注?
1495 閱讀北美倉配一體機會和風(fēng)險
1299 閱讀?年營收15億的跨境物流企業(yè)要上市
1182 閱讀解秘粵港澳大灣區(qū)規(guī)模最大的生產(chǎn)服務(wù)型國家物流樞紐——廣州東部公鐵聯(lián)運樞紐
1106 閱讀縱騰集團借殼上市,6.4億收購A股上市公司綠康生化
1008 閱讀TEMU美區(qū)半托管即將開放國內(nèi)發(fā)貨模式
876 閱讀京東物流一線員工日10周年:為5年、10年老員工授勛,為15000名標桿頒獎
829 閱讀15倍爆發(fā)式增長,網(wǎng)絡(luò)貨運行業(yè)跑出了一匹黑馬
832 閱讀2024年快遞滿意度出爐:順豐、京東快遞排名最高
781 閱讀