湖北國(guó)聯(lián)計(jì)算機(jī)科技有限公司
  • 首頁(yè)HOME
  • 公司簡(jiǎn)介INTRODUCTION
  • 安全防御DEFENSE
  • 軟件開發(fā)SOFTWARE
  • 物聯(lián)網(wǎng)IOT
  • 運(yùn)行維護(hù)SRE
  • 成功案例CASE
  • 聯(lián)系我們CONTACT
  • SRE |運(yùn)行維護(hù)

    什么是網(wǎng)絡(luò)智能運(yùn)維?
    來(lái)源:湖北國(guó)菱計(jì)算機(jī)科技有限公司-湖北國(guó)聯(lián)計(jì)算機(jī)科技有限公司-荊州網(wǎng)站建設(shè)-荊州軟件開發(fā)-政府網(wǎng)站建設(shè)公司 時(shí)間:2025-05-26

    為什么需要網(wǎng)絡(luò)智能運(yùn)維

    業(yè)務(wù)難感知

    當(dāng)前網(wǎng)絡(luò)運(yùn)維主要還是面臨單一的告警事件,但是由于現(xiàn)網(wǎng)的告警事件比較多,所以會(huì)針對(duì)告警做一些過(guò)濾,這樣會(huì)導(dǎo)致缺乏網(wǎng)絡(luò)級(jí)的完整評(píng)估能力。尤其在SDN等新技術(shù)在網(wǎng)絡(luò)大規(guī)模應(yīng)用后,除了要維護(hù)Underlay物理網(wǎng)絡(luò)外,還需要額外維護(hù)一張?zhí)摂M的Overlay網(wǎng)絡(luò),而面向告警的運(yùn)維能力是沒有辦法覆蓋整個(gè)層面的內(nèi)容。

    傳統(tǒng)運(yùn)維模式,運(yùn)維人員往往扮演著事后“救火”的角色,需要事故發(fā)生后才處理。管理員無(wú)法對(duì)未來(lái)可能發(fā)生的故障進(jìn)行動(dòng)態(tài)預(yù)測(cè),掌握運(yùn)維的主動(dòng)權(quán)。

    故障難定位

    管理規(guī)模大:云計(jì)算場(chǎng)景下運(yùn)維人員的管理對(duì)象從物理設(shè)備延伸到虛擬機(jī),網(wǎng)元管理規(guī)模增加了幾十倍;另一方面由于實(shí)時(shí)性分析的要求,設(shè)備指標(biāo)的收集粒度從分鐘級(jí)提升到毫秒級(jí),數(shù)據(jù)量增加了近千倍;更重要的是對(duì)于故障的主動(dòng)感知和排障,除了收集分析網(wǎng)絡(luò)設(shè)備指標(biāo)外,還需要結(jié)合實(shí)際轉(zhuǎn)發(fā)業(yè)務(wù)流進(jìn)行分析,數(shù)據(jù)規(guī)模則進(jìn)一步擴(kuò)大。

    業(yè)務(wù)路徑多:網(wǎng)絡(luò)為了提供高可靠和高帶寬,往往被設(shè)計(jì)成負(fù)載分擔(dān)方式轉(zhuǎn)發(fā)流量,此時(shí)會(huì)使節(jié)點(diǎn)間流量經(jīng)由哈希算法選擇路徑,轉(zhuǎn)發(fā)路徑的可能性隨網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)冪級(jí)增加,管理員無(wú)法確定某業(yè)務(wù)流量究竟通過(guò)網(wǎng)絡(luò)中什么樣的路徑轉(zhuǎn)發(fā),傳統(tǒng)的定位手段時(shí)間長(zhǎng)、嚴(yán)重依賴運(yùn)維人員的個(gè)人經(jīng)驗(yàn)。

    故障恢復(fù)慢

    網(wǎng)絡(luò)的穩(wěn)定運(yùn)行關(guān)系著國(guó)家信息安全和社會(huì)穩(wěn)定。為了防范災(zāi)難和風(fēng)險(xiǎn),保障業(yè)務(wù)連續(xù)性,國(guó)內(nèi)外監(jiān)管部門頒布了一系列業(yè)務(wù)連續(xù)性及容災(zāi)的標(biāo)準(zhǔn)。對(duì)于金融行業(yè)而言,若單機(jī)構(gòu)單省中斷半小時(shí),那么定位為III級(jí)事故并上報(bào)銀監(jiān)會(huì)。對(duì)于大部分企業(yè),業(yè)務(wù)中斷會(huì)導(dǎo)致企業(yè)經(jīng)濟(jì)利益不同程度受損。這就要求遇到故障首先要在最短時(shí)間內(nèi)恢復(fù)業(yè)務(wù)。

    在金融業(yè)務(wù)場(chǎng)景集中式部署轉(zhuǎn)向分布式部署,系統(tǒng)部署復(fù)雜,運(yùn)維人員被動(dòng)響應(yīng)加長(zhǎng)了故障定位周期,故障定位時(shí)間平均76min,不能保障業(yè)務(wù)連續(xù)性。

    為了解決以上問(wèn)題,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)實(shí)現(xiàn)精確運(yùn)維,使網(wǎng)絡(luò)的管理水平和服務(wù)質(zhì)量得到持續(xù)提升,華為推出了網(wǎng)絡(luò)智能運(yùn)維解決方案。

    網(wǎng)絡(luò)智能運(yùn)維有哪些好處

    健康度全面評(píng)估,實(shí)現(xiàn)業(yè)務(wù)、網(wǎng)絡(luò)實(shí)時(shí)感知

    網(wǎng)絡(luò)健康度評(píng)估方案對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行系統(tǒng)化的網(wǎng)絡(luò)級(jí)的評(píng)估檢測(cè),幫助運(yùn)維人員“看網(wǎng)識(shí)網(wǎng)”,提升運(yùn)維效率和業(yè)務(wù)體驗(yàn)質(zhì)量。主要包括三大部分:

    網(wǎng)絡(luò)級(jí)的抽象建模:構(gòu)建多層評(píng)估體系,定期收集網(wǎng)絡(luò)的設(shè)備、協(xié)議、連接、業(yè)務(wù)等狀態(tài)。

    全面智能化的健康狀態(tài)評(píng)估:針對(duì)每一個(gè)層面分別構(gòu)建網(wǎng)絡(luò)對(duì)象模型,與傳統(tǒng)網(wǎng)管的差異是,會(huì)關(guān)聯(lián)網(wǎng)絡(luò)的日志數(shù)據(jù)、性能數(shù)據(jù)、網(wǎng)絡(luò)設(shè)備配置數(shù)據(jù)、以及業(yè)務(wù)主機(jī)交互的業(yè)務(wù)流等多個(gè)維度的數(shù)據(jù)。結(jié)合智能分析算法,智能化的評(píng)估網(wǎng)絡(luò)每個(gè)層面的狀態(tài)。還能夠動(dòng)態(tài)檢測(cè)工作狀態(tài)、網(wǎng)絡(luò)容量等關(guān)鍵指標(biāo)異常,主動(dòng)預(yù)測(cè)容量、流量風(fēng)險(xiǎn)。

    界面化實(shí)時(shí)可視:通過(guò)多維度(包括圖表等)的方式實(shí)時(shí)展示給客戶,支持周期性生成網(wǎng)絡(luò)健康度評(píng)估報(bào)告。便于用戶網(wǎng)絡(luò)部例行進(jìn)行網(wǎng)絡(luò)健康度檢查,輔助用戶主動(dòng)排障。

    故障根因快速定位,實(shí)現(xiàn)智能診斷

    當(dāng)前網(wǎng)絡(luò)規(guī)模大、配置復(fù)雜、變化量大,很難快速地進(jìn)行故障定位和排查。并且定位手段時(shí)間長(zhǎng),嚴(yán)重依賴運(yùn)維人員的個(gè)人經(jīng)驗(yàn)。網(wǎng)絡(luò)智能運(yùn)維方案,可以實(shí)現(xiàn)故障根因快速定位:

    通過(guò)隨流檢測(cè)技術(shù)iFIT,對(duì)質(zhì)差類業(yè)務(wù)(業(yè)務(wù)未中斷但主觀感知體驗(yàn)差)進(jìn)行端到端的逐跳檢測(cè)。智能網(wǎng)絡(luò)控制器逐跳收集檢測(cè)信息,并根據(jù)收集的檢測(cè)數(shù)據(jù)精準(zhǔn)定位故障點(diǎn)。

    結(jié)合用戶現(xiàn)網(wǎng)的海量故障案例庫(kù)和華為運(yùn)維專家經(jīng)驗(yàn),根據(jù)不同的故障模式編排出用戶可執(zhí)行的排障任務(wù)鏈,從而縮短故障定位定界時(shí)長(zhǎng)。例如針對(duì)業(yè)務(wù)連通性類故障場(chǎng)景,自動(dòng)編排出相應(yīng)的排障步驟,支持用戶一鍵式自動(dòng)排障。

    通過(guò)采集設(shè)備的ERSPAN流、Telemetry性能Metrics進(jìn)行大數(shù)據(jù)分析,并結(jié)合AI算法,主動(dòng)感知Fabric內(nèi)可能存在的故障,智能分析識(shí)別是否存在網(wǎng)絡(luò)或者應(yīng)用的群體性故障。輔助用戶逐步實(shí)現(xiàn)故障主動(dòng)感知、分鐘級(jí)故障定位定界的主動(dòng)智能運(yùn)維目標(biāo)。

    通過(guò)AI算法,也可對(duì)一些未知故障進(jìn)行學(xué)習(xí)和故障推理,幫助運(yùn)維人員深度探索未知故障的根因。

    故障自閉環(huán),業(yè)務(wù)運(yùn)行“0”中斷

    網(wǎng)絡(luò)智能運(yùn)維系統(tǒng)采用規(guī)則引擎、智能化引擎、知識(shí)圖譜等技術(shù)進(jìn)行大數(shù)據(jù)挖掘分析,實(shí)現(xiàn)對(duì)故障的快速發(fā)現(xiàn)和定位,并通過(guò)與控制器的聯(lián)動(dòng),可實(shí)現(xiàn)對(duì)故障的一鍵式恢復(fù)或隔離。在此過(guò)程中還可根據(jù)具體故障信息給出對(duì)網(wǎng)絡(luò)或業(yè)務(wù)的影響分析,在下發(fā)恢復(fù)或隔離預(yù)案之前,也會(huì)向用戶展示對(duì)應(yīng)預(yù)案下發(fā)后對(duì)網(wǎng)絡(luò)或業(yè)務(wù)將產(chǎn)生哪些影響,以便用戶進(jìn)行決策。

    針對(duì)質(zhì)差類業(yè)務(wù),網(wǎng)絡(luò)智能運(yùn)維系統(tǒng)可進(jìn)行業(yè)務(wù)路徑自動(dòng)調(diào)整,避開引起質(zhì)差的鏈路或者節(jié)點(diǎn),實(shí)現(xiàn)業(yè)務(wù)SLA的自動(dòng)恢復(fù)。

    網(wǎng)絡(luò)智能運(yùn)維的架構(gòu)

    網(wǎng)絡(luò)智能運(yùn)維按照?qǐng)鼍安煌?,又分為?shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維和運(yùn)營(yíng)商網(wǎng)絡(luò)智能運(yùn)維,下面分別介紹兩種方式的架構(gòu)。

    數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維的架構(gòu)

    數(shù)據(jù)中心智能運(yùn)維方案架構(gòu)如下圖所示,邏輯上分為網(wǎng)絡(luò)層、控制層和分析層:

    網(wǎng)絡(luò)層:主要是指數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備,這些設(shè)備在運(yùn)行過(guò)程中上報(bào)指定的鏡像報(bào)文或性能、日志等信息給分析層做進(jìn)一步處理和呈現(xiàn)。網(wǎng)絡(luò)層是分析層的數(shù)據(jù)來(lái)源。

    控制層:主要由iMasterNCE-Fabric控制器組成。iMasterNCE-FabricFabricInsight對(duì)接,完成運(yùn)維過(guò)程中網(wǎng)絡(luò)業(yè)務(wù)自動(dòng)發(fā)放,可以對(duì)接云平臺(tái)實(shí)現(xiàn)云網(wǎng)場(chǎng)景或?qū)?/span>VMM實(shí)現(xiàn)網(wǎng)絡(luò)虛擬化場(chǎng)景下的邏輯網(wǎng)絡(luò)編排及網(wǎng)絡(luò)設(shè)備配置的自動(dòng)轉(zhuǎn)換與下發(fā)。除了網(wǎng)絡(luò)業(yè)務(wù)自動(dòng)發(fā)放以外,還能實(shí)現(xiàn)路徑探測(cè)、網(wǎng)絡(luò)可達(dá)性校驗(yàn)、以及故障智能發(fā)現(xiàn)、定位、恢復(fù)或隔離。

    分析層:主要由iMasterNCE-FabricInsight承擔(dān)。iMasterNCE-FabricInsight基于華為大數(shù)據(jù)平臺(tái)構(gòu)建,接收來(lái)自網(wǎng)絡(luò)設(shè)備的Telemetry方式的數(shù)據(jù)上報(bào),運(yùn)用智能算法對(duì)上報(bào)的數(shù)據(jù)進(jìn)行分析、呈現(xiàn)。iMaster NCE-FabricInsight可輔助用戶逐步實(shí)現(xiàn)故障主動(dòng)感知、分鐘級(jí)故障定位定界的主動(dòng)智能運(yùn)維目標(biāo)。

    數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案架構(gòu)示意圖

    運(yùn)營(yíng)商網(wǎng)絡(luò)智能運(yùn)維的架構(gòu)

    運(yùn)營(yíng)商智能運(yùn)維方案架構(gòu)如下圖所示,邏輯上分為數(shù)據(jù)收集、數(shù)據(jù)分析、數(shù)據(jù)呈現(xiàn)三部分。數(shù)據(jù)收集:智能網(wǎng)絡(luò)管控器iMaster NCE-IP向設(shè)備下發(fā)訂閱消息,網(wǎng)絡(luò)設(shè)備通過(guò)網(wǎng)絡(luò)管理協(xié)議實(shí)時(shí)上送運(yùn)行數(shù)據(jù)、配置數(shù)據(jù)、資源數(shù)據(jù)給數(shù)據(jù)分析域進(jìn)行分析。數(shù)據(jù)分析:數(shù)據(jù)分析實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)數(shù)據(jù)(設(shè)備、連接、協(xié)議、安全)和業(yè)務(wù)數(shù)據(jù)的分析。分析包括以下3個(gè)方面:

    對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)健康度分析、評(píng)估,向數(shù)據(jù)呈現(xiàn)模塊提供健康分析數(shù)據(jù),并將分析評(píng)估后的網(wǎng)絡(luò)隱患上報(bào)給數(shù)據(jù)呈現(xiàn)模塊,實(shí)現(xiàn)網(wǎng)絡(luò)的主動(dòng)運(yùn)維。

    對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行業(yè)務(wù)質(zhì)差分析,識(shí)別出質(zhì)差業(yè)務(wù),上報(bào)給數(shù)據(jù)呈現(xiàn)模塊,對(duì)于有自愈需求的業(yè)務(wù)可同時(shí)實(shí)現(xiàn)業(yè)務(wù)路徑自動(dòng)切換,實(shí)現(xiàn)業(yè)務(wù)的主動(dòng)故障感知、主動(dòng)運(yùn)維。

    對(duì)網(wǎng)絡(luò)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,基于AI大數(shù)據(jù)以及專家經(jīng)驗(yàn)等,實(shí)現(xiàn)故障的智能診斷,生成故障診斷報(bào)告上報(bào)給數(shù)據(jù)呈現(xiàn)模塊。

    數(shù)據(jù)呈現(xiàn):智能網(wǎng)絡(luò)管控器iMasterNCE-IP將接收的數(shù)據(jù)分析結(jié)果多維度展示給客戶,包括儀表盤、圖表、報(bào)表、關(guān)系圖等。數(shù)據(jù)呈現(xiàn)還可通過(guò)北向接口供第三方調(diào)用數(shù)據(jù)分析結(jié)果。
    運(yùn)營(yíng)商運(yùn)維方案架構(gòu)示意圖

    網(wǎng)絡(luò)智能運(yùn)維的應(yīng)用場(chǎng)景

    數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維的應(yīng)用場(chǎng)景

    業(yè)務(wù)變更的應(yīng)用:實(shí)現(xiàn)仿真驗(yàn)證,評(píng)估業(yè)務(wù)下發(fā)是否符合預(yù)期;實(shí)現(xiàn)網(wǎng)絡(luò)變更差異實(shí)時(shí)可見,識(shí)別設(shè)備變更前后快照數(shù)據(jù)及表項(xiàng)變化,從而輔助分析網(wǎng)絡(luò)狀態(tài);實(shí)現(xiàn)VM生命周期跟蹤,快速了解當(dāng)前在線設(shè)備分布情況,幫助提前合理規(guī)劃資源;提供配置回滾,快速恢復(fù)生產(chǎn),減少業(yè)務(wù)中斷損失;提供服務(wù)器自動(dòng)化擴(kuò)容,保障業(yè)務(wù)快速上線的需要。

    日常巡檢的應(yīng)用:評(píng)估設(shè)備、網(wǎng)絡(luò)、協(xié)議、Overlay、業(yè)務(wù)多維度的網(wǎng)絡(luò)健康度,結(jié)合Telemetry機(jī)制,整合網(wǎng)絡(luò)中的配置數(shù)據(jù)、表項(xiàng)數(shù)據(jù)、日志數(shù)據(jù)、KPI性能數(shù)據(jù),實(shí)時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中各個(gè)層面的問(wèn)題和風(fēng)險(xiǎn);檢測(cè)范圍覆蓋工作狀態(tài)異常、網(wǎng)絡(luò)容量異常、器件亞健康、業(yè)務(wù)流量交互異常等范圍;還能實(shí)現(xiàn)網(wǎng)絡(luò)性能異常的智能化檢測(cè),使網(wǎng)絡(luò)先于業(yè)務(wù)發(fā)現(xiàn)隱患。從而幫助運(yùn)維人員“看網(wǎng)識(shí)網(wǎng)”,直觀地呈現(xiàn)全網(wǎng)體驗(yàn)質(zhì)量。

    故障應(yīng)急恢復(fù)的應(yīng)用:通過(guò)收集網(wǎng)絡(luò)中多種故障信息,從海量信息中找到故障相關(guān)的線索,實(shí)現(xiàn)故障快速準(zhǔn)確的分析定位。并提供一鍵式故障閉環(huán)能力,保障業(yè)務(wù)持續(xù)穩(wěn)定運(yùn)行。

    故障根因定位的應(yīng)用:通過(guò)基于“知識(shí)圖譜”的推理引擎對(duì)收集的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析,對(duì)故障進(jìn)行快速根因定位。對(duì)于未知故障也能進(jìn)行學(xué)習(xí)和故障推理,幫助運(yùn)維人員深度探索未知故障的根因。

    運(yùn)營(yíng)商網(wǎng)絡(luò)智能運(yùn)維的應(yīng)用場(chǎng)景

    運(yùn)營(yíng)商智能運(yùn)維已應(yīng)用于智能云網(wǎng)解決方案。目前,運(yùn)營(yíng)商已使用了運(yùn)營(yíng)商智能運(yùn)維方案,應(yīng)用場(chǎng)景包括:

    專線業(yè)務(wù)質(zhì)量多維多視,質(zhì)差主動(dòng)預(yù)警。

    運(yùn)營(yíng)商智能運(yùn)維系統(tǒng)提供異常VPN KPI指標(biāo)分析、異常VPN流量分析、接入點(diǎn)KPI指標(biāo)分析。

    專線客戶可實(shí)時(shí)查看專線業(yè)務(wù)丟包率、時(shí)延等SLA指標(biāo),并設(shè)置質(zhì)差閾值,超過(guò)閾值可主動(dòng)預(yù)警。

    故障自動(dòng)精準(zhǔn)定界,支撐精準(zhǔn)故障派單。

    專線業(yè)務(wù)7x24小時(shí)歷史回放,便于事后故障按需分析。

    專線業(yè)務(wù)路徑精準(zhǔn)呈現(xiàn),故障點(diǎn)逐跳定界,輔助運(yùn)維人員快速排障。

    (轉(zhuǎn)載自:全棧云技術(shù)架構(gòu))



    荊州地區(qū)政府網(wǎng)站建設(shè) 解決方案 專業(yè)團(tuán)隊(duì) 騰訊第三方平臺(tái) 地址:湖北省荊州市沙市區(qū)荊沙大道楚天都市佳園一期C區(qū)29棟112       地址:湖北省松滋市新江口街道才知文化廣場(chǎng)1幢1146-1151室     郵編:434200 聯(lián)系電話:0716-6666211     網(wǎng)站編輯部郵箱:business@gl-ns.com 鄂公網(wǎng)安備 42100202000212號(hào) 備案號(hào):鄂ICP備2021015094號(hào)-1     企業(yè)名稱:湖北國(guó)菱計(jì)算機(jī)科技有限公司