拜關公,期末考,支付寶有群人“瘋起來連自己都打”


江湖上盛傳:那些穿著格子衫做技術的人,有時會陷入“別人笑我太瘋癲,我笑他人看不穿”。但沒想到,這世界上竟然有技術團隊,“瘋起來連自己都打”。

比如,支付寶。

01

結婚當天發起攻擊

又是一年12月。每到這個月月中,禰衡都要參加一場“恐怖性”十足的內部期末考。

作為工程師,他和隊友以技術之名,噼里啪啦敲下一行行代碼,并將其布置成最為堅固的閘門。這一道道防線在末考時會接受各種瘋狂的攻擊,并且這樣的突襲可能發生在任何時候,在回家的地鐵里,在睡不著的晚上,甚至在結婚當天的儀式上。

統計顯示,人們平均每天要在手機屏幕上滑動2617次,人們一次次的點擊、滑動,催生了技術一次又一次的變革。

“故障的發生是必然的,因此要想盡辦法提早觸發、解決,才能不斷提高金融行業日常應對風險的能力?!蔽浵伣鸱夹g風險部資深總監俊義說。

支付寶的這群工程師,要在這場比賽中挑戰技術極限,搶回故障前發生的幾秒。

大考沿用了古代作戰的模式,分為紅、藍兩方專門進行內部攻守。

藍軍為攻方,專職“找茬”,哪里薄弱朝哪打,沒有薄弱點創造薄弱點也要打?!耙淮涡詠G出上千個故障”,沒有什么是他們做不出來的。

紅軍為守方,日常工作在日常的運營中,提起十二分的精神應付實時、無差別的搗亂和找茬。努力在5分鐘內解決,以保證真實系統也能夠有效應對各類風險和挑戰。

大考的最后一名要當眾收下一個在淘寶上買到的、生了銹還缺珠子的,真“爛算盤”。這幾乎是賭上了技術人的榮譽感在作戰了。

對技術的敬畏和比賽的焦慮,讓這群IT男延伸出了一種儀式感。紅軍額上系紅綢,藍軍身上穿藍袍,格子衫在這個時候有了新的使命——被拿去獻禮關公。


“我們為了能成功防御攻擊,像這種大考之前,都要有個拜關公的儀式?!敝Ц秾毤t軍的帶隊人禰衡說,除了叩拜,大家還得給關公獻禮,最常見的就是旺仔牛奶、格子襯衫、鍵盤和香煙。


甚至連關公,都在支付寶經歷了多輪迭代?!捌鸪跻仓皇怯型瑢W在群里發布內容會貼上一張關公像。后來是有張皮影,大家對著拜一拜。后來發展成木像,現在是一尊銅像,還開過光?!笨×x回憶道,拜關公從最早在雙11大促到現在技術大考不斷傳承,儼然已經成為了支付寶的一種工程師文化。

“這次在大考開始前,還有一個我將關公像交還給阿璽的儀式?!倍[衡是去年紅軍多支隊伍中,拔得頭籌的紅軍帶隊者,按照約定,可以保存關公像一年,得到關公的“庇佑”?!罢f起來技術人員應該是理性客觀的,而我們對于關公的敬畏,其實是技術人員對于技術的敬畏?!睆浐庹f。


這樣的對抗,除了每年5月和12月的兩次大考,有時還會被“周測”突襲。

“我們根本不會通知時間,也從來不劃考試范圍,日常隨時都有可能對系統發起進攻?!彼{軍的帶隊人阿貴稱,藍軍就是要成為“一個讓紅軍感到不舒服”的存在,哪怕遇到婚禮也絕不手軟。

之前一位同學結婚,不少公司的同事被喊去當伴郎。沒曾想,婚禮進行到一半,藍軍突然發起了攻擊,線上的數據警報迅速傳遞到了每個人的手機。為了讓新郎能安心完婚,伴郎團毫不猶豫,齊刷刷地在現場席地而坐,從背包里掏出了筆記本。

于是紅毯兩側,大家“列隊”低頭盯著屏幕、盤腿抱著電腦,并肩作戰完畢,互相會心一笑。那種程序員間相互切磋、一較高下的喜悅,反而成了那次婚禮帶給大家的快樂記憶。

02

支付寶最神秘部門

“技術人的責任感這件事,我們賭上的都是技術人的自尊心?!比肼毷甑陌①F,現在是藍軍的“頭目”。


他和一共9名隊友,圍坐在“六年一班”的作戰室里,畫起攻防圖,構思起對整個支付寶系統每年數次大小考的作戰策略。


螞蟻金服技術風險部資深總監俊義介紹,架構上藍軍從屬于SRE部門,紅軍來自于SRE及螞蟻金服各部門的技術團隊。

可以理解,藍軍是支付寶技術隊伍里一支特殊的存在,極少對外發聲。

SRE的全拼是Site Reliability Engineer,軟件工程師和系統管理員的結合。目前全球只有少數幾家頂級的互聯網公司,才擁有真正意義上的SRE團隊。螞蟻金服不僅是其中之一,還培養了自己獨特的紅、藍軍對戰文化。

最早的時候,螞蟻金服應對技術風險的團隊,主要負責各種問題測試,和基礎設施的運維保障。在內部,被稱為是質量1.0的青銅時代。

2013年螞蟻金服技術團隊升級,將技術風險檢測和修復過程體系化,進入2.0的白銀時代。

進化為SRE團隊是在2016年,就像電競游戲的排位賽一樣,經歷黃金、鉑金走入了鉆石時代。也是在這一年,螞蟻金服開始了最早的全棧級大型攻防。

讓阿貴無法忘懷的能否克服技術的焦慮,而是在攻擊后,紅軍平時的防御建設,已經足夠自動抵擋。費盡心思發起的挑戰,對方可能根本不痛不癢。

阿貴認為,“如果藍軍真的將紅軍攻擊得無力招架,那不是紅軍輸了,而是我們都輸了?!蹦茏屍脚_更加穩定地發展和升級,才是所有技術同學們努力的真正意義。

03

因“人”而迭代

最初的攻防,其實是為了提升系統面對災難的反應和修復能力。其中需要應對的,除了地震、惡劣天氣等天災,還包括代碼錯誤等人禍。

阿里巴巴CEO張勇曾形容雙11帶來了「技術珠穆朗瑪峰」。

“在零點那個緊張的程度,我們自己創造了一個蹦極的體驗,瞬間訂單量爆棚的體驗,自己要去征服它?!彼f。零點那個緊張的程度,擴撒到每個日常的小日子,阿里和螞蟻創造了一個蹦極的體驗,瞬間訂單量爆棚的體驗技術的升級,已經讓支付寶的能從應對“容災”發展到了應對“造災”。


在今年云棲大會ATEC主論壇現場,螞蟻金服副CTO胡喜一聲令下,支付寶近半的服務器被當場切斷。整個現場并沒有崩掉,在支付寶三座城市部署五個機房策略下,一旦發生故障,底層技術會將故障城市流量全部切換到正常運行的機房。

26秒后,支付寶就完全恢復了正常。


目前螞蟻技術應對災難性故障的能力,已經達到了機房級故障發生時,整體服務恢復可用時間小于5分鐘,且數據安全可靠不丟失。

這項技術風險防控系統已經成型,且全鏈路壓測、資金安全監控等方面已經對外開放。

自2015年提出互聯網推進器計劃后,螞蟻金服在技術領域上取得的成果,便開始“成熟一個,開放一個”。

2018年的云棲ATEC大會上,胡喜宣布,螞蟻金服的金融科技正式全面開放,為行業提供完整的數字金融解決方案。包括容災系統在內的多項核心技術和解決方案,如金融安全、區塊鏈等都將對合作伙伴開放。

“改變世界的不僅僅是技術,更有技術背后的價值觀、使命和愿景?!敝Ц秾毜氖紫軜嫀熗蹙S曾說,支付寶能夠從工具,成為金融行業的信任基石,是長期在技術領域投入的結果。

無論是技術迭代,還是內部攻防,其實支付寶的行動初衷,還是源于每一個屏幕前的用戶的需要,所有的技術升級都是為了“人”而迭代。因此能夠通過技術讓金融更安全和普惠,才是值得整個行業一直追求的目標。

收藏
0
有幫助
0
沒幫助
0
免费无码av一区二区