智能運維在各行各業(yè)的應用情況如何?
時間:2022-12-01
關鍵字:智能運維,運維自動化
智慧運維作為當前備受關注的技術領域,在Gartner的報告中也給出預測:2020年,智慧運維會在一半以上的企業(yè)中落地并形成生產力。
在高利潤、低成本的驅動下,智能運維也成為各行各業(yè)研究的熱點,互聯(lián)網公司、金融機構、IT技術公司都紛紛走在了智能運維研究和應用的前列。
(1)科研機構
科研機構一向是新技術革命的領頭羊。在智能運維研究領域,國內外科研機構不僅有先進的科研成果,也與工業(yè)界展開密切合作,從算法層面上支撐了智能運維的落地與發(fā)展。
卡內基梅隆大學與Netflix公司合作,在網絡視頻運維領域提出并應用多種人工智能方法:利用不同數(shù)據(jù)分析及統(tǒng)計分析方法,靈活使用可視化、相關分析、信息熵增益等工具,將雜亂無章數(shù)據(jù)轉化為直觀清晰信息,從而分析海量數(shù)據(jù)背后視頻體驗不佳的規(guī)律和瓶頸。
雙方共同設計了視頻傳輸智能優(yōu)化方案,可根據(jù)客戶的網絡狀態(tài),動態(tài)地優(yōu)化視頻傳輸;通過決策樹模型建立用戶參與度的預測模型,指導關鍵性能指標的優(yōu)化策略,改善用戶的體驗質量。
南京大學周志華教授團隊專注于機器學習算法的研究,所提出的isolation forest孤立森林算法可用于挖掘異常數(shù)據(jù),檢測和分析異常。
清華大學NetMan智能運維實驗室則專注于異常檢測、分析與預測,提出了多種算法和工具。
(2)互聯(lián)網行業(yè)
阿里巴巴研發(fā)了智能故障管理平臺,以業(yè)務為導向,實現(xiàn)了基于機器學習的業(yè)務異常檢測,準確及時發(fā)現(xiàn)故障。通過時間序列分析和機器學習,對未來一段時間的業(yè)務指標趨勢進行預測。
針對業(yè)務異常時間,自動調用各類型AP接口實現(xiàn)一鍵切換,快速恢復業(yè)務異常。并針對業(yè)務異常事件自動拆解相關維度,逐層剝離定位故障原因。
目前該平臺已經在阿里云上成功實踐,故障發(fā)現(xiàn)準確率、故障發(fā)現(xiàn)召回率分別提升到80%和90%,每周節(jié)省因為誤報而花費的操作時間約為29小時。
百度實現(xiàn)了基于智能流量調度的單機房故障自愈能力,將止損過程劃分為統(tǒng)一的感知、決策、執(zhí)行三個階段,通過策略框架支持智能化異常檢測、策略編排、流量調度,實現(xiàn)了單機房故障自愈能力。
京東金融實現(xiàn)了基于網絡拓撲的根源告警分析,結合調用鏈,通過時間相關性、權重、關聯(lián)規(guī)則算法、神經網絡算法等,將告警分類篩選,快速找到告警根源,從而縮短故障排查及恢復時間。
京東金融還在其云計算數(shù)據(jù)中心應用了智能巡檢機器人,提升了機房及數(shù)據(jù)中心的巡檢效率和智能化管理水平,避免人工的錯檢和漏檢,對巡檢數(shù)據(jù)進行數(shù)據(jù)化管理和高效利用。
騰訊在其織云監(jiān)控平臺中建設了基于機器學習的時間序列異常檢測方案,在百萬條基于時間序列的日志信息中,以少量的時間實現(xiàn)了異常檢測。
(3)金融行業(yè)
交通銀行通過數(shù)據(jù)中心運維大數(shù)據(jù)平臺的建設,將各類日志、告警等運維數(shù)據(jù)統(tǒng)一集中存儲。通過關聯(lián)分析、建模預測等方式發(fā)現(xiàn)日志、告警信息中潛在聯(lián)系,并建設監(jiān)控歷史數(shù)據(jù)分析、監(jiān)控告警智能分析以及日志智能檢索分析等大數(shù)據(jù)運維應用場景,實現(xiàn)了事前智能預警、事后快速定位故障。
中國銀行初步形成了“運維大數(shù)據(jù)倉庫”、“運維數(shù)據(jù)分析平臺”的計算框架,對系統(tǒng)日志、應用日志、監(jiān)控數(shù)據(jù)和網絡鏡像包等全量數(shù)據(jù)進行集中存放和處理,并在異常檢測、故障快速定位、系統(tǒng)容量預估和動態(tài)調配等多個場景中應用。
太平洋保險在智能運維方面實現(xiàn)了告警收斂,將多個告警做匯聚合并和主源分析,還開展了云腦項目以實現(xiàn)業(yè)務趨勢預測和容量管理功能,還開發(fā)點點2.0 APP,實現(xiàn)風險監(jiān)測和智能交互等功能。
陽光保險利用大數(shù)據(jù)和機器學習,實現(xiàn)了智能巡檢、報警聚合、故障自愈及故障避免、自動發(fā)版與止損等多項功能。招商銀行在性能容量評估、故障定位與診斷方面采用智能運維的方案,以應對業(yè)務高峰的需求。
上海銀行張江數(shù)據(jù)中心啟用了智能巡檢機器人,對設備運行狀態(tài)、機房環(huán)境、機柜微環(huán)境實時監(jiān)測,保證數(shù)據(jù)中心狀態(tài)實時可視、可控及數(shù)據(jù)的準確性。