超碰人人爽爽人人爽人人,337p日本欧洲亚洲大胆精筑

疫情對于云計算災難恢復的啟示

2020-07-02 08:48 機房360

導讀：云計算為很多企業(yè)提供了機會，以按需供應的基礎設施和“無限”的規(guī)模來應對意外情況。但是在真正的災難情況下，“無限規(guī)?！钡奈锢韺嵱眯蚤_始顯現(xiàn)。

云計算為很多企業(yè)提供了機會，以按需供應的基礎設施和“無限”的規(guī)模來應對意外情況。但是在真正的災難情況下，“無限規(guī)?！钡奈锢韺嵱眯蚤_始顯現(xiàn)。

一位平臺架構師表示，他在2020年3月批準了一個HDInsight群集(微軟公司提供的托管Hadoop產(chǎn)品)到我生產(chǎn)環(huán)境的部署。正在為期待已久的基于Azure的數(shù)據(jù)平臺的下一階段上線，當他突然從DevOps主管那里接到電話時，主管說，“我在新的生產(chǎn)群集上出現(xiàn)配置錯誤，無法部署。而群集無法擴展，無法獲得足夠的節(jié)點。雖然有足夠的配額，但是沒有足夠的節(jié)點來擴展集群?！?/p>

事實證明，這種情況是微軟Azure北歐地區(qū)數(shù)據(jù)中心容量已滿。微軟公司像所有云計算提供商一樣，超額配置了其物理基礎設施，也就是他們可以向客戶提供虛擬機和CPU核心配額，因為他們知道客戶不會全部嘗試一次消耗掉所有容量，但卻遇到了意外情況。

歐洲各國由于疫情持續(xù)蔓延而頒布出行禁令，企業(yè)必須對要求全體員工在家工作迅速做出反應。在發(fā)布出行禁令幾天之后，IT部門必須應對對VDI和協(xié)作工具的空前高峰，并且他們大量地轉向云計算，畢竟，這就是采用云計算技術的目的。

MicrosoftWindows虛擬桌面(基于云計算的Windows10遠程工作解決方案)最近非常及時地進入了通用可用性，IT部門急于部署遠程桌面解決方案。Microsoft Teams提供了可擴展且無縫的協(xié)作和電話會議解決方案，但是所有會議突然都變成了在線會議，這一峰值需要滿足于某個地方的物理基礎設施。

其結果是Azure數(shù)據(jù)中心對計算的需求激增，并且無法滿足所有客戶的需求。除了無法部署新資源之外，一些客戶還難以啟動現(xiàn)有資源，例如，一臺虛擬機會在一夜之間關閉并按計劃啟動，而他們無法在早上再次啟動。

該分析師為此與負責此特定客戶的Microsoft客戶團隊進行了交談，他們表示，其容量管理團隊已了解情況，并正在為醫(yī)療保健和緊急服務的客戶確定容量的優(yōu)先級。當分析師得知有更多硬件在訂購中時，情況看起來很暗淡，但供應鏈正在影響交貨時間。

幸運的是，客戶經(jīng)理能夠在每日容量管理會議上代表客戶并提供必要容量的理由。還被告知微軟公司將20,000個vCPU工作或內(nèi)部工作負載移出了Azure北歐數(shù)據(jù)中心，并在一周后成功部署了HDInsight群集。

分析師目前正在為另一個客戶端制定災難恢復(DR)策略，該策略基于在一個Azure區(qū)域中發(fā)生的服務(如果不太可能發(fā)生區(qū)域性故障)的故障轉移。這是一種基于微軟公司自己的架構建議的標準模式。但是，如果整個Azure區(qū)域確實崩潰了，那么其余Azure區(qū)域中對資源的需求還會突然增加。在災難恢復測試中可以實現(xiàn)的恢復時間目標(RTO)，實際上可能由于容量限制而在實際事件中無法實現(xiàn)。

在設計Azure災難恢復策略時，分析師為此提出的建議是：

盡管不能依靠配額來確保資源的可用性，但是需要確保在次要區(qū)域中增加配額準備在發(fā)生故障轉移時與Microsoft容量管理團隊交談以討論容量問題利用微軟的客戶團隊，他們可以在發(fā)生故障轉移時幫助保護容量，并根據(jù)對客戶的影響和對微軟公司的聲譽影響來構建其案例。了解在故障轉移到云計算提供商時，客戶的恢復時間目標(RTO)將處于優(yōu)秀狀態(tài)-最終您不擁有基礎架構，云提供商可能無法滿足需求?？紤]采用多云方法，使客戶可以故障轉移到AWS、谷歌云平臺或其他云計算環(huán)境，甚至內(nèi)部部署環(huán)境。

疫情對于云計算災難恢復的啟示

相關閱讀