導(dǎo)讀:在傳統(tǒng)工業(yè)領(lǐng)域,大量的研發(fā)制造經(jīng)驗通常存在資深人員的腦袋里,通過“老師傅帶徒弟”的方式來進行傳承。而工業(yè)軟件的價值,則體現(xiàn)在把這些珍貴的經(jīng)驗轉(zhuǎn)變成數(shù)據(jù)和算法,然后固化在軟件中。
在傳統(tǒng)工業(yè)領(lǐng)域,大量的研發(fā)制造經(jīng)驗通常存在資深人員的腦袋里,通過“老師傅帶徒弟”的方式來進行傳承。而工業(yè)軟件的價值,則體現(xiàn)在把這些珍貴的經(jīng)驗轉(zhuǎn)變成數(shù)據(jù)和算法,然后固化在軟件中。
曾經(jīng),工業(yè)軟件是如同“掃地僧”般的存在。一方面,“他”非常低調(diào),普羅大眾幾乎不會對其給予特別的關(guān)注;另一方面,“他”實力強大,以人類基礎(chǔ)學(xué)科和工程知識集大成者的身份撐起了整個工業(yè)體系。
然而,近年來接連不斷的國際制裁,卻讓國產(chǎn)工業(yè)軟件暴露于聚光燈下,站上了風口浪尖。CAD、CAE和EDA是工業(yè)軟件賽道中最難翻越的三座大山,當前,國產(chǎn)產(chǎn)品在其中的表現(xiàn)可謂不容樂觀。
數(shù)據(jù)最能說明現(xiàn)狀的嚴峻性:EDA軟件是芯片研發(fā)過程中不可或缺的關(guān)鍵設(shè)計工具,被業(yè)內(nèi)稱為“芯片之母”,而美國Synopsys、美國Cadence和德國Siemens EDA三巨頭卻占據(jù)了國內(nèi)將近90%的市場,相比之下國產(chǎn)EDA廠商的份額只有可憐的11.5%。
研發(fā)設(shè)計類軟件CAD的情況甚至更加糟糕,綜合多家研究機構(gòu)的數(shù)據(jù)——法國達索、德國西門子、美國PTC以及美國Autodesk在我國市場占有率高達90%以上,國內(nèi)數(shù)碼大方、中望軟件、山大華天等只占不到10%的市場。和CAD關(guān)系緊密的仿真CAE軟件幾乎面臨著相同的局面,全球CAE市場基本被德國西門子、美國Ansys和法國達索前三大供應(yīng)商所主導(dǎo),中國CAE市場國產(chǎn)化率不足5%。
當工業(yè)軟件化身別國手中的制裁大棒時,國產(chǎn)工業(yè)軟件亟需打響一場“突圍戰(zhàn)”。在突圍的背后,除了扎實的基礎(chǔ)學(xué)科知識積累、市場用戶的驗證、軟件本身產(chǎn)品力比拼外,還有不可忽視的隱藏致勝要素——算力。
CAE和HPC是一對“天作之合”
任何一件工業(yè)產(chǎn)品在推向市場之前都必須經(jīng)過反復(fù)驗證,在工程領(lǐng)域,工程師的產(chǎn)品試驗如同是“戴著鐐銬跳舞”。一副“鐐銬”是物理試驗條件,為了滿足很多工業(yè)產(chǎn)品嚴苛的工況,相關(guān)生產(chǎn)樣件往往需要環(huán)境配合進行高低溫試驗,比如等到冬天才能前往漠河開始試驗,準備時間長、約束條件多;還有一些試驗,諸如發(fā)動機燃燒室內(nèi)的汽油噴射和燃燒,物理試驗條件根本無法模擬。另一副“鐐銬”是成本,為了驗證新車的安全性,碰撞測試必不可少,但不可能測試一次就付出報廢一輛車的代價。
仿真軟件CAE通過將物理試驗搬到虛擬世界中,讓這些問題迎刃而解,變相地帶來了品質(zhì)的提升。尤其是在產(chǎn)品快速迭代的當下,CAE的價值得到進一步的凸顯。
回想一下,大學(xué)時我們求解高階多變量的方程式就已經(jīng)很困難了,而想要用CAE模擬更多、更復(fù)雜的物理過程,想要在虛擬世界里研究飛機的飛行,汽車的碰撞,想要擴展到多物理場乃至實現(xiàn)“數(shù)字孿生”,其計算量可想而知。以“制造皇冠上的明珠”——航天發(fā)動機為例,其研發(fā)過程涉及動力學(xué)、傳熱學(xué)、材料力學(xué)、理論力學(xué)、流體力學(xué)、斷裂力學(xué)、彈性力學(xué)、機械動力學(xué)等諸多學(xué)科,是牛頓力學(xué)時代所有力學(xué)的集大成,是所有科技成果的結(jié)晶。為了保障產(chǎn)品質(zhì)量,工程師需要驗證各個部件在高溫、高壓、高轉(zhuǎn)速復(fù)雜環(huán)境下的工況,搞清楚部件相互之間如何影響,還同時要滿足高性能、長壽命、高可靠、輕重量、安全性、經(jīng)濟性和日益苛刻的環(huán)保性等多維約束條件。如果每一個要素都要求解N個方程,CAE背后需要的計算量簡直難以想象,強大的超算幾乎是必不可少的武器。
說到計算,不知道大家是否記得當年“兩彈元勛”鄧稼先先生研制第一顆原子彈的故事。1959年,蘇聯(lián)停止對華技術(shù)援助,撤回所有專家。離開前,有三位蘇聯(lián)核專家在課堂上留下了一個關(guān)于內(nèi)爆過程中產(chǎn)生壓力的技術(shù)指標。但是,在研究人員歷經(jīng)二十天的計算之后,這個參數(shù)出現(xiàn)了偏差,計算工作因此陷入僵局。為了獲得準確的結(jié)果,鄧稼先帶領(lǐng)研究人員用手搖計算機、計算尺乃至算盤反復(fù)計算,最后從理論上證明蘇聯(lián)數(shù)據(jù)是有問題的。正確的參數(shù)給原子彈理論設(shè)計奠定了堅實基礎(chǔ),1964年10月16日,我國第一顆原子彈爆炸成功。
國家博物館館藏 鄧稼先領(lǐng)導(dǎo)研制中國第一顆原子彈時使用的手搖計算機
如今,鄧稼先用過的那臺手搖計算機正安靜躺在中國國家博物館的展臺上,時代變遷,站在前人栽種的大樹下,現(xiàn)代科學(xué)家和工程師們擁有了無與倫比的計算資源和條件,HPC(高性能計算)帶來的算力資源為CAE等工業(yè)軟件提供了源源不斷的算力,讓CAE求解不僅能夠算得快,海量算力讓更高精度的計算可以在可接受的時間內(nèi)完成,也讓CAE算得更準。
由于各種專業(yè)的仿真軟件都需要運行在大量的算力資源上才能完成,CAE天生的求解計算從誕生之初就和HPC緊密結(jié)合。
CAE仿真過程的算力之痛
應(yīng)用CAE軟件對工程或產(chǎn)品進行性能分析和模擬時,一般要經(jīng)歷三道流程:前處理-求解-后處理。這個過程中,算力本應(yīng)該是支撐其計算的加速器,但如果算力資源的使用、分配和調(diào)度存在問題,那么反而可能成為限制研發(fā)效率的桎梏。
在汽車行業(yè),近年來車廠的概念車層出不窮,一款款新車的成功上市,意味著背后的高效研發(fā)。而汽車本身又是一種極其復(fù)雜的產(chǎn)品,研發(fā)過程需要安全碰撞仿真、NVH噪聲仿真、CFD仿真等……當前汽車CAE分析項種類最高多達600余種。
大多數(shù)汽車制造企業(yè)的CAE部門通常采用工作站模式進行單機計算,這個過程存在很多問題和挑戰(zhàn):
首先,汽車CAE仿真業(yè)務(wù)流程因文件拷貝存在“斷點”,工程師用個人工作站進行前后處理,計算前要上傳文件到HPC,計算后要下載結(jié)果到個人工作站,加之往往研發(fā)中心和數(shù)據(jù)中心分隔兩地通過內(nèi)網(wǎng)互聯(lián),帶寬有限,工程師上傳和下載數(shù)據(jù)的等待時間并不增值,是妥妥的浪費;第二,對整車級別大型CAE模型、高精度渲染等場景,個人工作站有時性能不足,共享高性能工作站既不方便,也難以維護,還帶來數(shù)據(jù)無意泄露的風險;第三,車企在建設(shè)計算集群時,硬件選型過程中,因為沒有建立專門的實驗室、也不具備采購各類設(shè)備進行benchmark的能力,可用來測試的硬件設(shè)備非常有限,不同軟件的計算模型不同,對計算資源的性能要求也不一樣,如何從可獲得的各類硬件中選擇出最適合目標應(yīng)用、最佳性價比的算力組合,一直是一個挑戰(zhàn);最后,項目研發(fā)過程中資源需求必然存在波峰波谷,單項目周期超過60%的時間資源不足,資源按部門分配,共享難度大,作業(yè)等待時間長,而車型數(shù)據(jù)凍結(jié)后,CAE需求銳減,資源閑置,企業(yè)也希望能進一步平抑波動提高對算力資源的利用率,從而降低HPC的擁有成本。
某中國高端品牌車型的代表性企業(yè)之一,就在高速發(fā)展過程中遭遇了這些挑戰(zhàn)。由于組織結(jié)構(gòu)和管理體系的問題,其線下HPC資源均是購買2~3年以上的V3和V4主機,設(shè)備性能不滿足業(yè)務(wù)增長要求;PamCrash碰撞計算需要用時超過30小時以上,研發(fā)部門工作效率很低。面對市場的壓力和激烈的競爭,該企業(yè)也在積極求變,并選擇華為HPC來幫助其消除這些煩惱。
具體而言,該企業(yè)采用國產(chǎn)高性能服務(wù)器,通過100G IB網(wǎng)絡(luò)連接。HPC資源建設(shè)在華為云廣州資源池上,從佛山分廠通過專線接入,高速訪問HPC物理機集群, 同時通過華為公有云平臺組件提供網(wǎng)絡(luò)安全防護服務(wù)。在公有云中批量部署彈性云服務(wù)器,作為調(diào)度任務(wù)的計算節(jié)點,計算任務(wù)從云下調(diào)度到云上執(zhí)行,計算結(jié)果自動回傳到線下的NFS服務(wù)器。在這套完整解決方案的助力下,該企業(yè)取得的受益也非常顯著:其研發(fā)碰撞測試時間由原來線下30小時提高到線上18小時完成,效率提升40%。
從中我們可以看出,華為HPC方案的本質(zhì)是將其30余年積累的ICT技術(shù)和數(shù)字化實踐,以云的方式開放分享給企業(yè)客戶,為企業(yè)構(gòu)建穩(wěn)定可靠、安全可信、可持續(xù)發(fā)展的新一代ICT基礎(chǔ)設(shè)施,這帶給客戶的優(yōu)勢顯而易見。
客戶可以基于極致性能的產(chǎn)品獲得業(yè)務(wù)增長所需的算力。例如,華為TaiShan 200 Pro2480高性能服務(wù)器基于鯤鵬920處理器,最高能夠提供256核、3.0GHz主頻的計算能力和最多25個SSD硬盤,適合為企業(yè)關(guān)鍵業(yè)務(wù)提供澎湃的高可靠算力。而這些算力如同從水龍頭里取水一樣方便——既免去了高昂的建設(shè)、管理成本,又能避免算力資源在項目的各個階段以及各部門之間分配不合理的情況,讓算力資源充分適配不同業(yè)務(wù)場景對高性能計算的需求。從長期來看,這將幫助企業(yè)帶來效率的增長和OPEX的降低。
CAE“算力”國產(chǎn)化敲響警鐘
正因為算力如此重要,所以限制算力也能成為扼制的手段。
數(shù)據(jù)顯示,2021年所有國內(nèi)服務(wù)器操作系統(tǒng)裝機量中,Linux市場占有率達到79.1%,CentOS是Linux生態(tài)下的優(yōu)秀開發(fā)版本之一。據(jù)媒體報道,2021年12月31日,CentOS Linux 8 停止維護,CentOS Linux 7于2020年第四季度停止更新,并將于2024年6月30日停止維護,這意味著使用廣泛的CentOS服務(wù)器系統(tǒng)即將停服。CentOS作為免費的、開源的、可以重新分發(fā)的開源操作系統(tǒng),在國內(nèi)服務(wù)器操作系統(tǒng)的占有率非常高,涉及到各個行業(yè)。對于用戶來講,CentOS停服后將無法得到官方的系統(tǒng)升級和補丁安裝支持,一旦發(fā)現(xiàn)新的安全漏洞并被黑客利用,將帶來宕機、服務(wù)中斷、數(shù)據(jù)泄露等風險,網(wǎng)絡(luò)信息安全風險陡增。
不只是軟件和操作系統(tǒng),硬件方面的烏云也久久不散。2020年4月,英偉達官方宣布正式完成對Mellanox 70億美元的收購。Mellanox是一家以色列芯片廠商,數(shù)十年來一直在InfiniBand和以太網(wǎng)互聯(lián)產(chǎn)品的研發(fā)領(lǐng)域深耕。2010年底,Mellanox曾收購著名Infiniband交換機廠商Voltaire,這一收購成就了其在高性能計算、云計算、數(shù)據(jù)中心、企業(yè)計算、存儲市場上的全面業(yè)務(wù)能力。眾所周知,今年9月,英偉達和AMD將對中國進行高算力GPU斷供的消息刷屏各大科技媒體,雖然初期斷供范圍只是高端芯片,未來涉及的范圍難以預(yù)估。
市場上主流的CAE軟件中,歐美商業(yè)軟件居多,這些軟件都已適配x86硬件架構(gòu),但是對于新崛起的ARM架構(gòu)來說,至少還需要重新編譯才能使用。然而,編譯和性能優(yōu)化是需要源代碼的,讓這些歐美軟件開放源碼,似乎是不可能的事情。
這些事件為工業(yè)軟件“算力”國產(chǎn)化敲響警鐘,未來工業(yè)軟件之戰(zhàn)的背后還有暗潮洶涌的算力戰(zhàn)爭。從這個角度來說,產(chǎn)業(yè)呼喚國產(chǎn)自主的HPC產(chǎn)品。而華為HPC基于華為自主研制的算、存、管、網(wǎng)、智5類芯片,具備硬件層的自主可控能力;支持國內(nèi)唯一自主演進的openEuler操作系統(tǒng),從系統(tǒng)層面支持自主可控,免去卡脖子風險。垂直的全棧技術(shù)能力,才是算力和軟件持續(xù)演進的堅實保障。
基于全棧的優(yōu)勢,華為100G AI Fabiric RoCE交換機針對高性能并行計算場景下常用的MPI協(xié)議進行適配,通過在網(wǎng)計算、AI動態(tài)水線等黑科技,將IP網(wǎng)絡(luò)做到和IB網(wǎng)絡(luò)差不多的性能,微秒級時延,滿負載下0丟包,成為平替Infiniband的選擇。其自研的多瑙調(diào)度系統(tǒng)也憑借0信任和支持多集群混合調(diào)度等特性贏得客戶青睞,從國外IBM Spectrum LSF以及Altair PBS Pro的包圍中贏得了屬于自己的份額,成為國產(chǎn)調(diào)度系統(tǒng)的新秀。
寫在最后
《外交評論》雜志的一文中提及:當前,國家間地緣經(jīng)濟競爭模式隨著生產(chǎn)方式的變革而變化,數(shù)據(jù)、硬件與算法已成為數(shù)字時代最核心的生產(chǎn)資源,構(gòu)成了國家的數(shù)字資源。
數(shù)字化的底層競爭是計算,計算的最終形態(tài)是智能。不僅限于前文提及的工業(yè)軟件,泛在計算都可以用HPC提供算力——諸如圖形渲染、AI訓(xùn)練、大數(shù)據(jù)計算等場景,只要能用“命令行”啟動的任務(wù),都可以跑在調(diào)度系統(tǒng)上面,分時復(fù)用集群計算資源。
未來在數(shù)字經(jīng)濟時代占據(jù)高地,國人必須從底層構(gòu)建自己的計算平臺,因為中國的鋼鐵長城決不能建立在它國的沙子堆之上。自主創(chuàng)新是一條漫長但必須堅持的路,前路依然任重道遠,依然荊棘叢叢,但我們已經(jīng)啟程。