技術(shù)
導(dǎo)讀:高性能計(jì)算(HPC)是企業(yè)獲得創(chuàng)新能力、洞察力、商業(yè)競(jìng)爭(zhēng)力的動(dòng)力,是這個(gè)數(shù)字時(shí)代不可或缺的資源。例如,采用高性能計(jì)算(HPC)運(yùn)行的復(fù)雜計(jì)算機(jī)模型來測(cè)量和分析近幾十年天氣變化,幫助改善預(yù)測(cè)并模擬氣候變化和其他破壞性事件(如颶風(fēng))的影響。
高性能計(jì)算(HPC)是企業(yè)獲得創(chuàng)新能力、洞察力、商業(yè)競(jìng)爭(zhēng)力的動(dòng)力,是這個(gè)數(shù)字時(shí)代不可或缺的資源。例如,采用高性能計(jì)算(HPC)運(yùn)行的復(fù)雜計(jì)算機(jī)模型來測(cè)量和分析近幾十年天氣變化,幫助改善預(yù)測(cè)并模擬氣候變化和其他破壞性事件(如颶風(fēng))的影響。
而在一系列的制造、工程和工業(yè)環(huán)境中,采用高性能計(jì)算(HPC)技術(shù)可以縮短金融交易時(shí)間,加強(qiáng)合規(guī)性、風(fēng)險(xiǎn)檢測(cè)、數(shù)據(jù)分析,甚至加快原型設(shè)計(jì)。
高性能計(jì)算(HPC)非常適合計(jì)算、數(shù)字和數(shù)據(jù)密集型任務(wù),原來主要應(yīng)用于大型企業(yè)、政府部署、研究機(jī)構(gòu)的少數(shù)領(lǐng)域。但云計(jì)算一直是IT變革的催化劑。它提供了超級(jí)計(jì)算能力,并為規(guī)模較小的實(shí)體提供了大量的計(jì)算能力;推動(dòng)‘云優(yōu)先'的思想。當(dāng)然,這與更廣泛的市場(chǎng)數(shù)字化密切相關(guān),越來越多的業(yè)務(wù)應(yīng)用程序從內(nèi)部數(shù)據(jù)中心轉(zhuǎn)移出來,以提高靈活性,并降低成本。
當(dāng)今的發(fā)展
如今,超大規(guī)模的云計(jì)算供應(yīng)商占據(jù)了大部分的高性能計(jì)算(HPC)市場(chǎng),提供了更高的彈性以及幾乎無限的計(jì)算可擴(kuò)展性。在以往,超級(jí)計(jì)算數(shù)據(jù)中心的技術(shù)更新通常需要兩年或更長(zhǎng)時(shí)間。該過程包括審查現(xiàn)有技術(shù),然后進(jìn)行試驗(yàn)或概念驗(yàn)證階段,并廣泛公布征求建議書(RFP)要求。毫不奇怪的是,這些設(shè)施中通常部署了Cray、IBM、HPE、NEC等公司的服務(wù)器。
但是,超大規(guī)模云計(jì)算構(gòu)建者可以將一些快速網(wǎng)絡(luò)與一系列GPU和一些復(fù)雜的中間件有效地融合在一起,以便管理模擬和建模工作負(fù)載,然后稱之為真正的高性能計(jì)算(HPC),這種想法是錯(cuò)誤的。該模型不適合高性能計(jì)算(HPC)。這些應(yīng)用程序復(fù)雜而密集,并且要求苛刻。雖然對(duì)于某些高性能計(jì)算(HPC)而言,通常是以最低成本獲得最多計(jì)算能力,但其成功交付以及高性能計(jì)算(HPC)應(yīng)用程序的最佳運(yùn)行,在很大程度上依賴于性能和速度。
大型云計(jì)算提供商通過大量使用自己的服務(wù)器來響應(yīng)對(duì)高性能計(jì)算(HPC)集群的需求。通過這些硬件可以提高性能,而服務(wù)器的CPU則可以通過商用GPU進(jìn)行擴(kuò)充,以用于更大規(guī)模的高性能計(jì)算(HPC)應(yīng)用。但這并不是最佳選擇。依靠“大量計(jì)算”并不能簡(jiǎn)單地構(gòu)建一個(gè)出色的高性能計(jì)算(HPC)環(huán)境,即在最佳條件下部署應(yīng)用程序并盡可能高效地運(yùn)行。要實(shí)現(xiàn)這一目標(biāo),企業(yè)需要一個(gè)定制的云環(huán)境,其中應(yīng)用程序優(yōu)先提供真正的高性能計(jì)算(HPC)。
最近,研究機(jī)構(gòu)在Amazon Web Services、Microsoft Azure、私有的高性能計(jì)算(HPC)云平臺(tái)上實(shí)施了相同高性能計(jì)算(HPC)配置的OpenFOAM壓力測(cè)試,以更好地了解性能影響。為了反映合理的中型高性能計(jì)算(HPC)工作量,元素?cái)?shù)量從20萬個(gè)增加到4160萬個(gè)。
針對(duì)每個(gè)高性能計(jì)算(HPC)云平臺(tái)配置嘗試了五次運(yùn)行,揭示了在使用少量核心時(shí),在AWS云平臺(tái)中的擴(kuò)展結(jié)果可重復(fù)性非常好,但隨著CPU數(shù)量的增加,可變性也隨之增加。并會(huì)產(chǎn)生負(fù)面影響。而采用物理服務(wù)器并沒有發(fā)生這種情況,全面加快了30%。在Microsoft Azure云平臺(tái)上擴(kuò)展OpenFOAM模擬也存在一些值得注意的問題。
超大規(guī)模公共云是廣泛的企業(yè)、辦公室和云平臺(tái)支持的應(yīng)用程序和工作負(fù)載的理想計(jì)算資源,提供廣泛的可擴(kuò)展性、靈活的訪問點(diǎn)、定價(jià)計(jì)劃,以適應(yīng)任何部署和時(shí)間表。但是它們依賴于虛擬化的服務(wù)器,這些服務(wù)器通常是跨越國(guó)界的,并且通常遠(yuǎn)離存儲(chǔ)設(shè)備。在考慮位置時(shí),還要做出關(guān)于最佳地理位置的戰(zhàn)略決策。例如,一些地點(diǎn)還可以采用可再生能源,這可能對(duì)組織的利潤(rùn)及其環(huán)境足跡產(chǎn)生巨大影響。
而且,對(duì)于要求更高的高性能計(jì)算(HPC)用戶,尤其是那些希望在近期內(nèi)接受定制機(jī)器和深度學(xué)習(xí)應(yīng)用程序的用戶,或者為了從原型階段過渡到生產(chǎn)產(chǎn)品的人工智能初創(chuàng)公司需要對(duì)此重新思考。不幸的是,定制配置機(jī)器以適應(yīng)他們自己的應(yīng)用程序也違背了超大規(guī)模的原則。公共云需要高度的同質(zhì)性,以便能夠大規(guī)模地運(yùn)營(yíng)基礎(chǔ)設(shè)施。對(duì)于運(yùn)行定制或高度自定義應(yīng)用程序的高性能計(jì)算(HPC)用戶,這些應(yīng)用程序需要高性能計(jì)算(HPC)工程師進(jìn)行精確配置或增加支持時(shí)間以優(yōu)化其部署,用戶將無法在超大規(guī)模云平臺(tái)中找到它。對(duì)于這些專業(yè)應(yīng)用,用戶需要采用“量身定制”服務(wù)。
Hyperion公司報(bào)告稱,10%的高性能計(jì)算(HPC)現(xiàn)在在云平臺(tái)中實(shí)施。隨著企業(yè)越來越依賴高性能計(jì)算(HPC)輸出,他們必須尋找一個(gè)真正優(yōu)化的環(huán)境,在這個(gè)環(huán)境中,高性能計(jì)算(HPC)集群能夠以可重復(fù)的方式部署,并且電力和成本是可持續(xù)的,并且不會(huì)有經(jīng)濟(jì)損失。曾幾何時(shí),“優(yōu)化”意味著使用作業(yè)調(diào)度程序?qū)⒓悍旁谝粋€(gè)地方。而如今,每個(gè)復(fù)制的部署都必須記錄,并隨著時(shí)間的推移而實(shí)施自動(dòng)化,以保持性能完整性。
最終,在云中運(yùn)行復(fù)雜的高性能計(jì)算(HPC)應(yīng)用程序的潛力是巨大的,但如果人們真正獲得好處,必須面對(duì)并解決性能、速度、成本的基本挑戰(zhàn)。