導(dǎo)讀:北京2022年12月13日 -- 隨著5G、人工智能、云計算、大數(shù)據(jù)等新興技術(shù)的飛速發(fā)展,數(shù)據(jù)正在經(jīng)歷爆炸式增長,對算力規(guī)模和算力能力的需求快速提升,數(shù)據(jù)中心向著規(guī)?;?、集約化、綠色化不斷進(jìn)階,這對數(shù)據(jù)中心的建設(shè)、運維和管理都提出了更高的要求。
北京2022年12月13日 -- 隨著5G、人工智能、云計算、大數(shù)據(jù)等新興技術(shù)的飛速發(fā)展,數(shù)據(jù)正在經(jīng)歷爆炸式增長,對算力規(guī)模和算力能力的需求快速提升,數(shù)據(jù)中心向著規(guī)模化、集約化、綠色化不斷進(jìn)階,這對數(shù)據(jù)中心的建設(shè)、運維和管理都提出了更高的要求。
盡管許多企業(yè)對在數(shù)據(jù)中心的投資十分重視,但卻往往卻忽略了后期運營管理的成本,在提高計算力部署的同時,后期的運維和管理也相當(dāng)重要。對此,憑借多年來在數(shù)據(jù)中心運維和管理經(jīng)驗,浪潮信息M6服務(wù)器采用了自主研發(fā)的服務(wù)器遠(yuǎn)程管理系統(tǒng)ISBMC,可提供硬件狀態(tài)監(jiān)控、部署、節(jié)能、安全等系列管理工具,ISBMC已支持多種管理接口,這其中就包括IPMI 2.0、SNMPv3、Web GUI和基于RESTful架構(gòu)的Redfish等接口,通過多種保障來強化服務(wù)器自身的管理能力,構(gòu)建現(xiàn)代數(shù)據(jù)中心的可靠基礎(chǔ),幫助用戶高效地管理算力平臺。
基于開放標(biāo)準(zhǔn) 模塊化、精細(xì)化管理
故事要從1988年講起,為了擺脫需要人工在數(shù)據(jù)中心現(xiàn)場運維服務(wù)器的困境,行業(yè)推出了IPMI作為行業(yè)標(biāo)準(zhǔn),它指定了一組接口,以提供獨立于主機(jī)系統(tǒng)的CPU、固件和操作系統(tǒng)(OS)的帶外管理和監(jiān)視功能。然而,由于技術(shù)不斷發(fā)展優(yōu)化,有越來越多碎片化的需求,致使特定的解決方案不能滿足向外擴(kuò)展的數(shù)據(jù)中心用戶的功能和安全需求,IPMI也在2015年后便不再更新。此后迎來了Redfish的新時代。
Redfish是由國際標(biāo)準(zhǔn)化組織DMTF(Distributed Management Task Force,分布式管理任務(wù)組)發(fā)布的開放式行業(yè)標(biāo)準(zhǔn)規(guī)范,旨在對平臺硬件進(jìn)行現(xiàn)代化和安全的管理,由多個軟硬件廠商參與,在標(biāo)準(zhǔn)設(shè)立之初就設(shè)定了四項基本目標(biāo): 安全、高可擴(kuò)展管理、可讀取界面、基于現(xiàn)有硬件可實現(xiàn)。目前,浪潮信息已成為DMTF Leadership 會員和Redfish Promoter 會員。Redfish標(biāo)準(zhǔn)的應(yīng)用讓眾多互聯(lián)網(wǎng)、通信、金融客戶可以更加方便快捷的對超大規(guī)模的數(shù)據(jù)中心進(jìn)行管理和運維。標(biāo)準(zhǔn)開放的接口,為客戶數(shù)據(jù)中心構(gòu)建了一個開放的生態(tài),大幅度降低運維難度,但是基礎(chǔ)的功能實現(xiàn),并不是浪潮信息研發(fā)團(tuán)隊的目標(biāo),“源于開源、高于開源”,讓生態(tài)有更強的活力,為客戶帶來更多價值,才是浪潮信息服務(wù)器研發(fā)團(tuán)隊引入Redfish的“本心”。
據(jù)統(tǒng)計,企業(yè)IT設(shè)備的更新頻率一般是3-5年,那就意味著每臺服務(wù)器的生命周期要達(dá)到3年以上,可想而知,周而復(fù)始每天對服務(wù)器狀態(tài)進(jìn)行不間斷監(jiān)控,定期對服務(wù)器出具安全性能檢測報告,特別對于超大規(guī)模數(shù)據(jù)中心而言,無疑是需要投入大量的人力和精力。所以,浪潮信息的工程師決定通過優(yōu)化產(chǎn)品設(shè)計,尋求突破。
想打造具有高可靠、高可維護(hù)性的服務(wù)器,以解決上述超大規(guī)模數(shù)據(jù)中心客戶的運維難題,就要用好Redfish的特性,通過覆蓋Public、AccountService、SessionService、Chassis、Systems、Managers、UpdateService、TaskService等功能模塊,定義不同接口的URL,讓服務(wù)器的管理實現(xiàn)模塊化和精細(xì)化。
依托自身技術(shù)優(yōu)勢,浪潮信息在M6系列服務(wù)器ISBMC固件上遵照Redfish 1.8.0規(guī)范和Redfish 2019.2 Schema進(jìn)行開發(fā),ISBMC不僅在Redfish標(biāo)準(zhǔn)的節(jié)點資源有較高的覆蓋率,還結(jié)合浪潮服務(wù)器自身特性功能及客戶領(lǐng)先性訴求,進(jìn)行功能開發(fā),如通信行業(yè)客戶對包括lldpService、電源設(shè)置、部件信息獲取與設(shè)置服務(wù)器在內(nèi)的上百個需求功能點,以及頭部科技行業(yè)客戶的通電開機(jī)策略、多個Redfish故障診斷需求等。
為了讓大多數(shù)企業(yè)也可以享受到先進(jìn)技術(shù)帶來的便利,浪潮信息也將先進(jìn)的功能融入到ISBMC通用版本,同時增加更多的系統(tǒng)監(jiān)控動作幫助客戶解決運維和管理難題,實現(xiàn)包括用戶管理、獲取服務(wù)器信息、管理模塊信息、配置服務(wù)器、修改BIOS、升級固件等功能,可提供硬件狀態(tài)監(jiān)控、部署、節(jié)能、安全等系列管理工具,以標(biāo)準(zhǔn)化接口構(gòu)建更加完善的服務(wù)器管理生態(tài)系統(tǒng),確保服務(wù)器底層硬件和固件的安全。浪潮信息同時開創(chuàng)了特有的異步多線程Redfish架構(gòu),實現(xiàn)了Redfish的高度模塊化,可快速地實現(xiàn)跨多平臺移植,并在響應(yīng)時間、并發(fā)數(shù)等接口性能參數(shù)上相比上代產(chǎn)品有30%以上的提升,API平均響應(yīng)小于100ms。
打開上帝視角 讓運維更簡單
攻克了單一產(chǎn)品的難題后,浪潮信息工程師也在從數(shù)據(jù)中心的整體運維上進(jìn)行思考,通過與大量的大型數(shù)據(jù)中心客戶交流發(fā)現(xiàn),數(shù)據(jù)中心的運維工作大量集中在問題爆發(fā)后解決的過程中,而在解決過程中對日志的排查、機(jī)器的檢測、系統(tǒng)的修復(fù)等工作需要不斷反復(fù),這給運維人員的工作造成了極大的挑戰(zhàn),而且問題一旦發(fā)生必將對業(yè)務(wù)造成影響。如何解放運維人員的雙手,讓問題在沒有發(fā)生前就能有效解決,堅守現(xiàn)在,預(yù)見未來,讓運維人員打開上帝視角,是數(shù)據(jù)中心運維的終極目標(biāo)。
所以除了產(chǎn)品本身,為了給客戶提供多維合一的自動管理方案,浪潮信息推出面向數(shù)據(jù)中心的集中管理軟件——浪潮信息物理基礎(chǔ)設(shè)施管理平臺(ISPIM),并采用了Redfish作為主要通信協(xié)議。ISPIM具備資源管理、故障監(jiān)控、性能監(jiān)控、能耗管理、自動部署、報表統(tǒng)計、網(wǎng)絡(luò)拓?fù)浜?D視圖等功能,可同時對數(shù)萬臺不同品牌服務(wù)器、存儲、網(wǎng)絡(luò)等設(shè)備進(jìn)行統(tǒng)一監(jiān)控、運維、告警管理,運維效率提升2倍,基于浪潮信息故障專家?guī)斓拇髷?shù)據(jù)規(guī)則故障診斷功能,可將故障診斷準(zhǔn)確率提升到93%,并且可在快速處理故障的同時極大程度降低數(shù)據(jù)泄露風(fēng)險,幫助用戶打造無人值守數(shù)據(jù)中心,提高運維效率并降低運維成本,保障數(shù)據(jù)中心安全、可靠、穩(wěn)定的運行。
最終,面向數(shù)據(jù)中心運維的各種痛點與難題,逐一被擊破,浪潮信息M6系列服務(wù)搭配ISPIM管理軟件,基于這一套產(chǎn)品組合可滿足企業(yè)從單一產(chǎn)品到超大數(shù)據(jù)中心的由“點”到“面”可管理運維的全鏈條優(yōu)化,保障數(shù)據(jù)中心高效運維,為業(yè)務(wù)提供高效穩(wěn)定的運行基礎(chǔ)。