導讀:隨著無線網(wǎng)絡的發(fā)展和5G的興起,網(wǎng)絡變得更加復雜,中興通訊不斷同運營商加強合作,加速網(wǎng)絡智化技術創(chuàng)新和成果轉(zhuǎn)化,通過網(wǎng)絡進化、運維進化、運營進化三大進化助力運營商開源節(jié)流、提升效率,助力網(wǎng)絡智能化轉(zhuǎn)型。
無線網(wǎng)絡關鍵性能指標(KPI)就猶如一把懸空之劍,讓無數(shù)運維人和網(wǎng)優(yōu)人為之費心勞神、殫精竭慮。KPI異動往往預示著網(wǎng)絡某個層面出現(xiàn)問題,就好像我們?nèi)祟惓霈F(xiàn)發(fā)燒,往往可能是身體某處出現(xiàn)炎癥一樣。作為“網(wǎng)絡醫(yī)生”的運維網(wǎng)優(yōu)人,每天面對成百上千KPI變化和大大小小的告警處理,很多時候疲于奔命,對KPI監(jiān)控無法做到精確化和快速化,經(jīng)常等到用戶投訴了才發(fā)現(xiàn)KPI的異常,才啟動處理流程,十分被動。出現(xiàn)這種情況,非運維網(wǎng)優(yōu)專家不為也,很多時候是真不能也。比如傳統(tǒng)KPI監(jiān)控只能設置靜態(tài)閾值,難以根據(jù)區(qū)域/場景以及時間段的不同差異進行區(qū)分,網(wǎng)絡指標異動容易被波動淹沒,人工統(tǒng)計KPI很難判斷,即使發(fā)現(xiàn)問題,再“望、聞、問、切”,逐步定位病根,給出藥方,這周期難免較長,而且對技術人員的技能要求也很高(“老專家”凸顯價值?。∽匀?,我們希望有個系統(tǒng)能實時監(jiān)控網(wǎng)絡KPI,對指標異動自動識別并定位引起異動的根因,那面對復雜網(wǎng)絡也能應對自如了。
中興無線智能運維系統(tǒng)借助AI人工智能,通過機器學習(ML:Machine Learning)和專家規(guī)則相結(jié)合來實現(xiàn)無線網(wǎng)絡KPI的異常檢測和故障診斷的自動化,相當于一個24小時運行的“網(wǎng)絡健康監(jiān)測和診斷儀”,為網(wǎng)絡醫(yī)生們提供分析數(shù)據(jù)和根因診斷。
要想解決問題,先要能發(fā)現(xiàn)問題。無線網(wǎng)絡KPI隨著網(wǎng)絡制式及規(guī)模增長,應用場景差異及話務潮汐變化等,數(shù)據(jù)量變得非常龐大,在海量數(shù)據(jù)中及時發(fā)現(xiàn)KPI是正常波動還是異常變化,即使對“老專家”來說,也是一個艱巨的挑戰(zhàn)。為降低各種KPI綜合建模的難度,系統(tǒng)引入了基于結(jié)構(gòu)特征的時間序列聚類方法。先通過傅立葉變換,將時間序列分為兩大類,重要周期性和非重要周期性,再基于KPI序列中提取的數(shù)個特征,采用k均值算法對每個主類別中的時間序列進行聚類。KPI分類完成后,系統(tǒng)為每個KPI類別選擇適當?shù)臅r間序列模型,預測KPI在下個時間粒度的正?;€,如果網(wǎng)絡KPI實時測量值超過了在線檢測的基線,能夠在首個時間粒度內(nèi)及時發(fā)現(xiàn),也避免因潮汐效應以及網(wǎng)絡基礎條件等差異導致的誤報,漏報。
當系統(tǒng)檢測到KPI異常時,需要快速下鉆分析定位根因,以便于運維人員及時排除故障。智能運維系統(tǒng)采用基于規(guī)則的診斷模塊和基于ML的診斷模塊相結(jié)合的異常診斷方法,發(fā)揮中興在無線領域幾十年的經(jīng)驗積累及AI智能的自我學習能力,實現(xiàn)根因判斷的快速收斂和高準確性,并適應多種復雜場景應用。
如下圖所示,當檢測到的異常是已定義的已知故障時,系統(tǒng)根據(jù)關聯(lián)告警、操作日志、網(wǎng)絡拓撲和專家規(guī)則庫進行綜合分析,給出根因判斷和故障排查操作建議。
當檢測到的異常是未知故障時,基于ML的診斷模塊使用部分最小二乘回歸算法(PLS:Partial Least Square)進行根因分析和定位,通過對可能原因進行貢獻度分析,找出頂端的根計數(shù)器指標作為異常根因判定。
該系統(tǒng)建立在一個輕量化大數(shù)據(jù)底座上,與傳統(tǒng)部署在集群上的大數(shù)據(jù)系統(tǒng)不同,輕量化底座所需的硬件資源很少,甚至可以單機運行,但同時保留了傳統(tǒng)大數(shù)據(jù)系統(tǒng)的功能。這一特性可以使用戶利用現(xiàn)有環(huán)境或在資源受限時也能部署大數(shù)據(jù)和AI相關功能,大大減少了用戶網(wǎng)絡智能化轉(zhuǎn)型過程中的探索成本。同時,輕量化底座又有很好的可拓展性,可以從單機平滑拓展成分布式集群環(huán)境,且過程不影響業(yè)務的正常運行,可以將探索成果直接轉(zhuǎn)化上線。
目前,該功能在山東聯(lián)通和中興通訊聯(lián)合創(chuàng)新基地通過驗證,現(xiàn)網(wǎng)8萬小區(qū)成功接入無線網(wǎng)絡智能運維平臺,實現(xiàn)網(wǎng)絡KPI異動實時監(jiān)控和根因精準定位分析,大幅縮短KPI異動小區(qū)問題定位和解決時間。這也是業(yè)界首個采用AI算法洞察網(wǎng)絡KPI異動,通過規(guī)則學習和機器學習快速準確定位問題根因,實現(xiàn)端到端閉環(huán)的解決方案。
在驗證期間,某子網(wǎng)LTE的E-RAB建立成功率突然從99.9%下降到99.2%,系統(tǒng)異動根因檢測功能很快發(fā)現(xiàn)并下鉆分析本次異動的根因,快速定位到ID 208203的eNodeB,發(fā)現(xiàn)這個基站的一個小區(qū)的成功率指標下降到0,引發(fā)全網(wǎng)相應指標異常波動。通過告警關聯(lián)分析,在KPI異動時間點,小區(qū)出現(xiàn)一次RRU異常導致的退服,后續(xù)的E-RAB空口建立指標全部超時失敗,依據(jù)智能系統(tǒng)分析結(jié)果,快速得出RRU故障導致本次指標下降異動的結(jié)論,整個故障定位分析時間不到10分鐘。而以前通過人工分析,一個有經(jīng)驗的工程技術人員通過網(wǎng)管統(tǒng)計KPI分析指標異動,關聯(lián)告警、日志,下鉆TopN小區(qū)直至找出問題所在,至少得2小時。
隨著無線網(wǎng)絡的發(fā)展和5G的興起,網(wǎng)絡變得更加復雜,中興通訊不斷同運營商加強合作,加速網(wǎng)絡智化技術創(chuàng)新和成果轉(zhuǎn)化,通過網(wǎng)絡進化、運維進化、運營進化三大進化助力運營商開源節(jié)流、提升效率,助力網(wǎng)絡智能化轉(zhuǎn)型。