導讀:云計算為很多企業(yè)提供了機會,以按需供應的基礎設施和“無限”的規(guī)模來應對意外情況。但是在真正的災難情況下,“無限規(guī)?!钡奈锢韺嵱眯蚤_始顯現(xiàn)。
云計算為很多企業(yè)提供了機會,以按需供應的基礎設施和“無限”的規(guī)模來應對意外情況。但是在真正的災難情況下,“無限規(guī)?!钡奈锢韺嵱眯蚤_始顯現(xiàn)。
一位平臺架構師表示,他在2020年3月批準了一個HDInsight群集(微軟公司提供的托管Hadoop產(chǎn)品)到我生產(chǎn)環(huán)境的部署。正在為期待已久的基于Azure的數(shù)據(jù)平臺的下一階段上線,當他突然從DevOps主管那里接到電話時,主管說,“我在新的生產(chǎn)群集上出現(xiàn)配置錯誤,無法部署。而群集無法擴展,無法獲得足夠的節(jié)點。雖然有足夠的配額,但是沒有足夠的節(jié)點來擴展集群?!?/p>
事實證明,這種情況是微軟Azure北歐地區(qū)數(shù)據(jù)中心容量已滿。微軟公司像所有云計算提供商一樣,超額配置了其物理基礎設施,也就是他們可以向客戶提供虛擬機和CPU核心配額,因為他們知道客戶不會全部嘗試一次消耗掉所有容量,但卻遇到了意外情況。
歐洲各國由于疫情持續(xù)蔓延而頒布出行禁令,企業(yè)必須對要求全體員工在家工作迅速做出反應。在發(fā)布出行禁令幾天之后,IT部門必須應對對VDI和協(xié)作工具的空前高峰,并且他們大量地轉向云計算,畢竟,這就是采用云計算技術的目的。
MicrosoftWindows虛擬桌面(基于云計算的Windows10遠程工作解決方案)最近非常及時地進入了通用可用性,IT部門急于部署遠程桌面解決方案。Microsoft Teams提供了可擴展且無縫的協(xié)作和電話會議解決方案,但是所有會議突然都變成了在線會議,這一峰值需要滿足于某個地方的物理基礎設施。
其結果是Azure數(shù)據(jù)中心對計算的需求激增,并且無法滿足所有客戶的需求。除了無法部署新資源之外,一些客戶還難以啟動現(xiàn)有資源,例如,一臺虛擬機會在一夜之間關閉并按計劃啟動,而他們無法在早上再次啟動。
該分析師為此與負責此特定客戶的Microsoft客戶團隊進行了交談,他們表示,其容量管理團隊已了解情況,并正在為醫(yī)療保健和緊急服務的客戶確定容量的優(yōu)先級。當分析師得知有更多硬件在訂購中時,情況看起來很暗淡,但供應鏈正在影響交貨時間。
幸運的是,客戶經(jīng)理能夠在每日容量管理會議上代表客戶并提供必要容量的理由。還被告知微軟公司將20,000個vCPU工作或內(nèi)部工作負載移出了Azure北歐數(shù)據(jù)中心,并在一周后成功部署了HDInsight群集。
分析師目前正在為另一個客戶端制定災難恢復(DR)策略,該策略基于在一個Azure區(qū)域中發(fā)生的服務(如果不太可能發(fā)生區(qū)域性故障)的故障轉移。這是一種基于微軟公司自己的架構建議的標準模式。但是,如果整個Azure區(qū)域確實崩潰了,那么其余Azure區(qū)域中對資源的需求還會突然增加。在災難恢復測試中可以實現(xiàn)的恢復時間目標(RTO),實際上可能由于容量限制而在實際事件中無法實現(xiàn)。
在設計Azure災難恢復策略時,分析師為此提出的建議是:
盡管不能依靠配額來確保資源的可用性,但是需要確保在次要區(qū)域中增加配額準備在發(fā)生故障轉移時與Microsoft容量管理團隊交談以討論容量問題利用微軟的客戶團隊,他們可以在發(fā)生故障轉移時幫助保護容量,并根據(jù)對客戶的影響和對微軟公司的聲譽影響來構建其案例。了解在故障轉移到云計算提供商時,客戶的恢復時間目標(RTO)將處于優(yōu)秀狀態(tài)-最終您不擁有基礎架構,云提供商可能無法滿足需求??紤]采用多云方法,使客戶可以故障轉移到AWS、谷歌云平臺或其他云計算環(huán)境,甚至內(nèi)部部署環(huán)境。