導讀:11月8日,2022vivo開發(fā)者大會以線上直播的形式召開,此次大會以“MORE,近你所想”為主題。在次日的云與基礎架構(gòu)分會場,vivo介紹了近年來其在云原生和容器技術(shù)層面的最新探索和實踐。vivo互聯(lián)網(wǎng)容器技術(shù)負責人潘良彪、互聯(lián)網(wǎng)容器研發(fā)高級工程師束迎亞等6位專家分別在現(xiàn)場做了主題演講。
11月8日,2022vivo開發(fā)者大會以線上直播的形式召開,此次大會以“MORE,近你所想”為主題。在次日的云與基礎架構(gòu)分會場,vivo介紹了近年來其在云原生和容器技術(shù)層面的最新探索和實踐。vivo互聯(lián)網(wǎng)容器技術(shù)負責人潘良彪、互聯(lián)網(wǎng)容器研發(fā)高級工程師束迎亞等6位專家分別在現(xiàn)場做了主題演講。
擁抱云原生,助力算法降本提效
2018年起,vivo以容器作為基礎底座,打造了vivo的一站式云原生機器學習平臺。向上支撐了算法中臺,為算法工程師提供數(shù)據(jù)管理、模型訓練、模型管理、模型部署等能力,為廣告、推薦和搜索等業(yè)務賦能,成功為算法實現(xiàn)了降本、提效,讓云原生和容器價值初露鋒芒。
基于機器學習平臺的試點成果,經(jīng)過算法場景的試點實踐和價值分析,vivo對內(nèi)部戰(zhàn)略做了升級。確定基于云原生理念去構(gòu)建行業(yè)一流的容器生態(tài),實現(xiàn)規(guī)模化的降本提效目標。為了更好匹配戰(zhàn)略落地擁抱云原生,vivo還對內(nèi)部技術(shù)架構(gòu)重新規(guī)劃和升級,新增引入統(tǒng)一流量接入平臺、容器運維管理平臺、統(tǒng)一名字服務、容器監(jiān)控等平臺和能力,支撐容器生態(tài)在公司內(nèi)部的全面建設和推廣。
對此,vivo互聯(lián)網(wǎng)容器技術(shù)負責人潘良彪也詳細介紹了vivo在容器集群高可用建設中的具體實踐,包括在容器集群高可用建設、容器集群自動化運維、容器平臺架構(gòu)升級、容器平臺能力增強、容器生態(tài)打通等層面的打磨和建設。目前,vivo容器產(chǎn)品能力矩陣逐漸趨于完善,并將圍繞全面容器化、擁抱云原生和在離線混部三個方向繼續(xù)發(fā)力。
vivo互聯(lián)網(wǎng)容器技術(shù)負責人潘良彪
不懼千錘百煉,Kubernetes集群升級推動平臺能力躍升
vivo在云原生技術(shù)領(lǐng)域已經(jīng)深耕多年。從2017年開始接觸并積累容器技術(shù),之后搭建與運維Kubernetes集群,到如今提供成熟的容器化平臺解決方案,并在公司內(nèi)部推廣接入在線業(yè)務和離線訓練任務。對于vivo而言,業(yè)務全面容器化可以說是公司級別戰(zhàn)略,在平臺能力陸續(xù)更新上線的背景下,容器化集群無損升級則成了重要課題。
針對這一課題,vivo互聯(lián)網(wǎng)容器研發(fā)高級工程師束迎亞在演講中分享了vivo在容器化集群無損升級過程中的一些實踐經(jīng)驗。
在滿足API兼容性、控制邏輯一致性以及Kubelet穩(wěn)定性三個關(guān)注點的前提下,vivo最終選擇將1.10版本升級到1.17版本。升級后,容器化平臺充分利用高版本Kubernetes以及第三方控制器新特性,功能矩陣持續(xù)完善。對用戶,需求能高效得到建設且穩(wěn)定性更好,收益顯著;對運維同事,統(tǒng)一的內(nèi)部集群Kubernetes版本使得運維復雜度大大降低,工作效率顯著提高。接下來,vivo將圍繞效率建設、自動化建設、標準化建設繼續(xù)進行Kubernetes集群的升級管理。
vivo互聯(lián)網(wǎng)容器研發(fā)高級工程師束迎亞
保持監(jiān)控系統(tǒng)能力穩(wěn)步提升,為業(yè)務服務提供長效保障
vivo自2018年開啟了監(jiān)控系統(tǒng)的自研之路,期間不斷轉(zhuǎn)型、升級,系統(tǒng)服務能力漸趨成熟。從2022年開始,vivo建設了統(tǒng)一監(jiān)控平臺,將基礎監(jiān)控、應用監(jiān)控和自定義監(jiān)控進行統(tǒng)一,包含統(tǒng)一配置服務和統(tǒng)一檢測服務。從監(jiān)控的建設歷程來看,vivo一路覆蓋了IaaS、PaaS、DaaS、CaaS等平臺,其職能也從DevOps向AIOps邁進。
vivo將基礎設施層、系統(tǒng)服務器層、系統(tǒng)服務層、業(yè)務應用層、客戶體驗層視為系統(tǒng)的監(jiān)控對象,通過不同的服務體系達成監(jiān)控全覆蓋,以滿足各類環(huán)境部署訴求。此外,系統(tǒng)還支持多種采集方式,SDK和API采集主要應用在自定義監(jiān)控場景,Agent主要采集主機類指標,由此建立起一套完備的監(jiān)控體系。
vivo互聯(lián)網(wǎng)監(jiān)控服務架構(gòu)師陳寧寧在演講中表示,隨著公司業(yè)務發(fā)展,業(yè)務模型、部署架構(gòu)越來越復雜,故障定位很困難,定位問題成本高,而監(jiān)控系統(tǒng)在面對復雜、異構(gòu)、調(diào)用關(guān)系冗長的系統(tǒng)時,就起到了重要作用。未來,vivo將在場景串聯(lián)、可觀測性、服務能力化等層面進一步探索,深挖產(chǎn)品價值,并構(gòu)建其統(tǒng)一可觀測平臺,通過多維能力的提升,保障業(yè)務的可用性,提升業(yè)務服務質(zhì)量。
vivo互聯(lián)網(wǎng)監(jiān)控服務架構(gòu)師陳寧寧
加速數(shù)據(jù)庫服務建設,讓云原生時代數(shù)據(jù)運維難題迎刃而解
2020年左右進入后移動互聯(lián)網(wǎng)時代,社會數(shù)字化程度進一步加深,云原生的概念應運而生,微服務架構(gòu),資源彈性,容器等云原生技術(shù)廣為傳播。數(shù)據(jù)庫的穩(wěn)定性方面,因為開源數(shù)據(jù)庫的高可用體系普遍成熟而大大緩解。數(shù)據(jù)庫規(guī)模方面,實例數(shù)量和品類都進一步大增。數(shù)據(jù)庫安全方面,2021年8月我國正式出臺了個人信息保護法,個人隱私數(shù)據(jù)保護成為了數(shù)據(jù)庫運維的時代重點。
在以上時代背景下,vivo互聯(lián)網(wǎng)云平臺架構(gòu)師鄧松認為,數(shù)據(jù)庫運維面臨著大規(guī)模數(shù)據(jù)庫實例難以有效運維、數(shù)據(jù)庫難以做好資源彈性伸縮以及個人隱私數(shù)據(jù)安全難以保障這三個方面的挑戰(zhàn)。對此,vivo也給出了自身的應對方案。
首先,vivo自研了數(shù)據(jù)庫運維平臺DaaS來支撐數(shù)據(jù)庫運維工作。在規(guī)模覆蓋、效率提升、故障告警處理等層面均衡發(fā)力,保障了數(shù)據(jù)的穩(wěn)定性,以工單自助,故障自愈為核心,實現(xiàn)了數(shù)據(jù)庫的高效運維。
其次,在數(shù)據(jù)庫資源彈性管理層面,vivo重視資源成本優(yōu)化。圍繞資源分配、資源彈性伸縮、資源隔離分別給出了智能化解決方案,并通過套餐自動優(yōu)化,進一步降低了管理成本。最后,基于個人隱私數(shù)據(jù),平臺也提供了對業(yè)務幾乎無影響的MySQL的透明加密方案,來減輕因為隱私數(shù)據(jù)加密帶來的研發(fā)和運維工作量。
vivo互聯(lián)網(wǎng)云平臺架構(gòu)師鄧松
步履不停,vivo持續(xù)探索消息平臺新可能
長期以來,vivo在超大規(guī)模消息中間件方面也是動作頻頻。在線業(yè)務側(cè),vivo選擇RocketMQ構(gòu)建消息平臺,意在依托其豐富的功能特性滿足業(yè)務間削峰、解耦、異步化的需求。大數(shù)據(jù)側(cè),vivo選擇具備高并發(fā)、高可用、高吞吐的消息流組件Kafka構(gòu)建超大規(guī)模數(shù)據(jù)處理能力的數(shù)據(jù)接入服務。在大數(shù)據(jù)業(yè)務全鏈路中,Kafka作為統(tǒng)一數(shù)據(jù)接入服務和實時數(shù)倉服務,是大數(shù)據(jù)生態(tài)體系建設中不可或缺的重要組件之一。
基于此,vivo互聯(lián)網(wǎng)中間件架構(gòu)師羅明波從資源隔離、流量均衡、限流、集群治理四個維度分享了Kafka在vivo的最佳實踐。vivokafka消息中間件團隊在三年時間內(nèi),根據(jù)實際的業(yè)務場景和生產(chǎn)數(shù)據(jù)規(guī)模沉淀了較多的實踐經(jīng)驗。未來,也將以項目啟動、穩(wěn)定性建設、能力進階、穩(wěn)定運營四個階段為基準,展開對Pulsar組件的長續(xù)規(guī)劃和建設。
vivo互聯(lián)網(wǎng)中間件架構(gòu)師羅明波
除此之外,vivo基于RocketMQ的消息中間件平臺建設也有著豐富的實踐經(jīng)驗。在會上,vivo互聯(lián)網(wǎng)中間件架構(gòu)師劉潤云分享了保障消息平臺高可用落地的三個方面,包括集群部署架構(gòu)和平臺系統(tǒng)架構(gòu)、日常運維操作平臺化以及構(gòu)建集群的監(jiān)控大盤和完善平臺的的監(jiān)控告警能力。以高可用建設落地為基礎,vivo通過建設AMQP消息網(wǎng)關(guān)的方式完成了在線業(yè)務超過1000個服務從RabbitMQ到RocketMQ的無縫遷移,實現(xiàn)了在線業(yè)務消息中間件組件的統(tǒng)一。
圍繞在線業(yè)務消息平臺的未來發(fā)展方向,vivo也有著十分明確的規(guī)劃。在新特性引入層面,vivo表示希望可以調(diào)研升級到RocketMQ5.0版本架構(gòu),力求借該版本的存算分離架構(gòu)來更好的解決其當前遇到的存儲瓶頸問題;通過Pop消費實現(xiàn)更好的消費負載均衡;并基于gRPC協(xié)議建設統(tǒng)一的消息網(wǎng)關(guān)能力。此外,在平臺能力提升層面,vivo則希望可以探索消息中間件容器化部署,提供消息中間件的快速彈性擴縮容能力,更好的支持業(yè)務需求。
vivo互聯(lián)網(wǎng)中間件架構(gòu)師劉潤云
vivo將在消息中間件運維領(lǐng)域繼續(xù)深入研究,期望可以建設擁有更高性能、更豐富功能特性的消息平臺,為各位開發(fā)者與合作伙伴提供更優(yōu)質(zhì)的服務!