導讀:隨著AI、大數(shù)據(jù)時代的到來,數(shù)據(jù)中心的業(yè)務也不斷在演變,新的技術不斷的融入到數(shù)據(jù)中心。這其中,智能化的數(shù)據(jù)中心包含兩方面含義。
隨著AI、大數(shù)據(jù)時代的到來,數(shù)據(jù)中心的業(yè)務也不斷在演變,新的技術不斷的融入到數(shù)據(jù)中心。這其中,智能化的數(shù)據(jù)中心包含兩方面含義。
一方面是數(shù)據(jù)中心如何基于海量數(shù)據(jù),利用人工智能的技術,進一步去優(yōu)化數(shù)據(jù)中心的運營;另個方面是數(shù)據(jù)中心會越來越多地去承載大數(shù)據(jù)的業(yè)務,去承載人工智能訓練的場景以及人工智能應用的場景,在這個場景下數(shù)據(jù)中心自身需要去適應新的智能化業(yè)務的需求。
智能化數(shù)據(jù)中心發(fā)展的三部曲
在中國電信北京研究院副總工程師楊明川看來,智能化的數(shù)據(jù)中心的發(fā)展可以被歸納為三個階段。
在當前階段,除了傳統(tǒng)的以CPU為核心的數(shù)據(jù)中心外,還要考慮人工智能的需求,比如:建設CPU和GPU聯(lián)合的資源池以及建設開展面向邊緣計算場景的FPGA等計算的資源池。在這一過程中,AI驅(qū)動的數(shù)據(jù)中心節(jié)能、AI驅(qū)動的計算、存儲和網(wǎng)絡的自動化優(yōu)化和智慧運營以及AI驅(qū)動的巡檢機器人等等,特別是在面向運營商特有的NFV場景中的一些故障的監(jiān)測、排除等,這些都是當前的智能化數(shù)據(jù)中心正在面臨的新需求、新挑戰(zhàn)。
到了下一個階段,則會提出更高的統(tǒng)一和融合化的需求,包括邊緣和核心的統(tǒng)一以及AI和各個系統(tǒng)的融合、標準化和物聯(lián)網(wǎng)化。尤其是未來整個數(shù)據(jù)中心在邊緣,甚至在邊緣的設備和邊緣的數(shù)據(jù)中心之間,它們進一步的統(tǒng)一和融合,也是未來我們需要重點考慮的地方。
而在最終階段,則是希望能夠?qū)崿F(xiàn)完全自動化的數(shù)據(jù)中心。
四方面助力智能化數(shù)據(jù)中心建設
對于運營商來講,現(xiàn)在這個階段去構建智能化的數(shù)據(jù)中心也面臨著很多的挑戰(zhàn),包括在基礎設施層面的改造、如何去適應人工智能和大數(shù)據(jù)一些新的業(yè)務需求、怎么提供更豐富的API接口以及更多的數(shù)據(jù)存儲。
對此,中國電信正在積極思考在未來智能化的數(shù)據(jù)中心里可以做一些什么樣的探索?!拔宜诘闹袊娦疟本┭芯吭鹤隽艘恍﹪L試,主要包括四大方面?!睏蠲鞔ㄖv到。
首先,第一個方面是智能化的數(shù)據(jù)中心節(jié)能技術。很多專家也都講過在物理基礎設施層面,可以開展很多節(jié)能方面的技術研發(fā),引入很多節(jié)能相關的設備,從而降低我們數(shù)據(jù)中心的能耗。
針對此,楊明川主要介紹了一個純軟件的方法,它的思路是對數(shù)據(jù)中心尤其是云數(shù)據(jù)中心的服務器資源進行調(diào)度,也就是說我們更多是考慮服務器在承載業(yè)務時,隨著業(yè)務需求的變化,怎么通過人工智能的方法去預測這些服務器資源使用的效率以及未來的負荷,進而通過智能化的調(diào)度來使得部分的服務器休眠得以降低其能耗。
“這里面我們需要大量的數(shù)據(jù)采集,從數(shù)據(jù)中心里面去采集各種各樣的包括從云主機、物理主機、能源消耗、業(yè)務變化層面上的各種各樣的數(shù)據(jù),然后去構建基于深度學習的預測模型,使得我們能夠通過動態(tài)負載調(diào)整去降低能耗。”楊明川說。
據(jù)悉,中國電信已經(jīng)在幾個省公司做了智能化節(jié)能的嘗試,在這個過程中中國電信也采用了一些漸進式的方案,當前已經(jīng)能夠在無人值守下實現(xiàn)節(jié)能。平均下來大概能實現(xiàn)20-30%的節(jié)能,而且對于云數(shù)據(jù)中心還能有更大的能源節(jié)省空間。
第二個方面的案例是服務器定制,服務器定制和智能化數(shù)據(jù)中心的演進是一脈相承的。其中,中國電信早期定制的是整機柜的服務器、單機的服務器,到2015、2016年則是超融合的定制化的服務器,以及低功耗的定制服務器。在2017年考慮的主要是ServerSAN領域的定制服務器、NFV的定制化服務器以及面向人工智能的GPU定制化服務器。今年,中國電信又拓展新的領域,比如說針對邊緣機房條件定制的服務器。
楊明川表示:“隨著數(shù)據(jù)中心業(yè)務的發(fā)展,服務器層面必須要適應相應的變化,開展新的類型的服務器定制工作。這塊工作和ODCC的工作是相互配合、相互促進的?!?/p>
第三個方面則是在數(shù)據(jù)中心里構建人工智能的PaaS平臺,這塊工作目前主要是在中國電信的云計算實驗室做一些嘗試。面向人工智能的PaaS平臺有兩類:一類是面向公有云的,一類是面向行業(yè)的。
目前,中國電信已經(jīng)搭建了一個面向AI的能力中臺的基礎架構。這個面向人工智能AI的PaaS平臺,在面向一些行業(yè)的智能化解決方案里就能夠去發(fā)揮作用,使得以AI為核心的行業(yè)解決方案成為可能。
第四個方面則是AI輔助智能運維。當前,原有的運維方式正面臨很多挑戰(zhàn),比如:虛擬化之后的IT架構,跨計算、存儲、網(wǎng)絡的端到端運維工具,容器、微服務和虛擬化的應用,以及多廠商集成等問題。
中國電信正在嘗試去構建一個AI智能輔助運維系統(tǒng),研究如何從數(shù)據(jù)感知層面、故障診斷層面、故障預測和故障自愈層面,如何能夠更加充分的運用大數(shù)據(jù)、人工智能的技術,使得整個數(shù)據(jù)中心的運維工作更加智能化、自動化。
當然,數(shù)據(jù)中心智能化的道路剛剛開始,未來還有大量的工作,業(yè)界都需要進一步研究和進一步合作,相信未來的數(shù)據(jù)中心能夠具有更高的智能。