智能運維:從場景中積蓄運維變革的未來

伴隨金融機構數(shù)字化轉型的加速,IT運維從理念到模式正在向智能運維全面邁進。作為率先實現(xiàn)智能運維工程化落地的全棧IT運維服務商,云智慧(北京)科技有限公司總裁劉洪濤先生為《新金融世界》分享了智能運維對于金融數(shù)字化和FinTech的意義,以及智能運維在金融機構落地過程中的注意要點。

金融數(shù)字化的運維變革

數(shù)字化時代,IT對金融業(yè)務的重要程度與日俱增,是推動機構進行智能運維變革的關鍵。

舉例而言,在幾年前,很多金融機構會在半夜12點-1點暫停交易進行系統(tǒng)維護,這在今天是絕不允許的。現(xiàn)在的金融客戶怎么可能接受零點秒殺卻無法完成支付的情況?!

如今的金融交易必須達到24小時不間斷的秒級響應要求。這就意味著,IT對于金融而言已經(jīng)由業(yè)務支撐系統(tǒng)轉變?yōu)闃I(yè)務本身。

劉洪濤表示:“我們在跟金融行業(yè)用戶交流的時候,大家談的都是業(yè)務,關注的也是業(yè)務。”在這樣的應用環(huán)境下,傳統(tǒng)運維針對IT系統(tǒng)或者單獨IT平臺的監(jiān)控已經(jīng)不能滿足需求。“客戶關心的是交易是否成功,用戶交易的體驗怎么樣,所以對運維要求與過去相比有很大的不同。過去,IT從底層設備、操作系統(tǒng)、應用、到業(yè)務這么幾層,運維的關注點在于底層設備的高可用和穩(wěn)定性,衡量指標是SLA能達到幾個9。今天,大家的關注點集中到業(yè)務層面,衡量IT對業(yè)務影響程度的指標變成了MTTR(Mean Time to Recovery,平均故障修復時間),這就需要從業(yè)務的視角,實現(xiàn)覆蓋所有業(yè)務鏈路的端到端全局監(jiān)控、管理和分析,把監(jiān)控的點和面都做完整,還要與業(yè)務指標進行關聯(lián),這就比傳統(tǒng)運維復雜度高很多”,劉洪濤說。

當前金融運維的另外一個挑戰(zhàn)來自于數(shù)字化轉型的推進。區(qū)塊鏈、虛擬化、容器、IoT等FinTech新技術的應用,導致IT規(guī)模和復雜度呈指數(shù)增長。過去,傳統(tǒng)運維收到不明原因的告警信息,可以把相關設備一臺臺關掉,再逐一重啟來進行排查,解除故障。但在金融系統(tǒng)如此龐大的今天,這類單純依靠人工的故障修復方法顯然是不可取的。不僅如此,隨著IT運行環(huán)境越來越復雜,每時每刻產生的IT數(shù)據(jù)量更加驚人,依靠人工設定告警閾值、分析處理海量告警信息同樣不現(xiàn)實。這就需要利用大數(shù)據(jù)和AI技術的助力,通過模式識別和算法對歷史數(shù)據(jù)進行學習,設置更加有效的動態(tài)告警閾值,同時對海量告警信息進行實時壓縮、收斂和關聯(lián)分析,利用根因分析追蹤導致事件發(fā)生的根本原因,實現(xiàn)告警事件的及時處置,有效降低MTTR。

智能運維的認知和核心技術

到目前為止,業(yè)界針對AIOps(智能運維)的認知尚未統(tǒng)一,有人說AIOps就是算法,有的則認為是自動化運維。劉洪濤表示:“其實AIOps并不是像APM那樣的產品,而是一種理念。用AI技術去提升金融機構的運維能力和效率,讓它具有更好的智能化,更高效的解決金融業(yè)務運行過程中遇到的種種問題。同時,AI是一種可以工程化的實用科技,AIOps就是AI在IT運維領域的落地,通過AI技術的工程化,全面提升現(xiàn)有ITOM、ITSM 和ITOA產品和解決方案能力。”

智能運維:從場景中積蓄運維變革的未來

  云智慧金融行業(yè)智能運維管控中心

談到AIOps(智能運維)的核心技術,劉洪濤認為:“目前,智能運維的關鍵不是算法,因為很多算法都已經(jīng)非常成熟而且開源了。但是,客戶的應用場景千差萬別,需求也各不相同,到底哪種算法用什么樣的模式匹配到客戶場景中,這才是核心。這是一個‘技術工程化’落地的過程,對于智能運維提供商來說,既要有非常好的算法能力,又要對客戶的應用場景有非常好的理解力,還要有工程化落地的能力。這幾種能力都具備,才能幫客戶解決問題。”

此外,AIOps需要完整的歷史數(shù)據(jù)、日志數(shù)據(jù)和實時監(jiān)測數(shù)據(jù)。因此,要實現(xiàn)AIOps落地,數(shù)據(jù)采集能力同樣必不可少,只有這樣才能通過AI得到有價值的結果。

金融行業(yè)智能運維落地的理念和建議

早在2016年,云智慧就率先提出了智能運維的概念,并在金融、通信、制造、零售等多個行業(yè)進行了實踐。針對AIOps在金融行業(yè)的落地,云智慧秉承的理念是: “以數(shù)據(jù)為基礎,算法為支撐,場景為導向”。

部署智能運維首先要理解傳統(tǒng)運維管理與智能運維的邏輯差異:傳統(tǒng)運維管理是依賴流程——故障、告警、處理,依靠工單系統(tǒng)把這些串起來。智能運維是基于數(shù)據(jù)和智能化分析結果進行運維管理,與傳統(tǒng)運維的邏輯完全不一樣。

智能運維:從場景中積蓄運維變革的未來

  云智慧DOCP智能運維中臺

與傳統(tǒng)運維管理依靠ITSM平臺管理所有IT問題不同,智能運維的落地注重場景化,解決的是某一類問題。例如智能運維的四大場景:統(tǒng)一監(jiān)控、根因分析、動態(tài)基線、故障預測。當然,智慧運維的基礎仍然是數(shù)據(jù),在數(shù)據(jù)之上構建AI分析能力,在AI之上是事件管理等產品模塊。這些模塊以松耦合的方式組成,可根據(jù)用戶需求的不同任意組合,提供告警抑制、異常檢測、根因分析、多維分析、調用鏈追蹤、故障預測等場景化解決方案能力。最后通過可視化運維監(jiān)控中心,把IT價值直觀呈現(xiàn)在IT和業(yè)務部門面前,讓管理者和業(yè)務運營負責人都能看懂IT。

劉洪濤建議:“智能運維不要上來就做大而全的,我們的建議是‘小步快跑,階梯式前進’。具體來說,先從某個運維問題總結出來的場景入手,而落地的時候要充分考慮未來幾個、甚至幾十個場景的整體需求。這種做法的好處在于效率最高,ROI最合算,也最有可能達成目標。IT團隊在逐步積累AIOps經(jīng)驗的同時,樹立起智能運維成功部署的信心。而業(yè)務部門可以從一個場景的變化快速看到AIOps價值和成效,自然更愿意配合IT部門的變革,推進業(yè)務與IT的融合。所以,我們的建議是做好規(guī)劃,階段式實現(xiàn)AIOps落地。”

金融行業(yè)智能運維的四大典型場景

云智慧總結了現(xiàn)階段金融機構推進AIOps智能運維落地的四個典型場景。

一、統(tǒng)一監(jiān)控。這是幾乎所有用戶在完成系統(tǒng)構建、業(yè)務上線之后都要用到的。統(tǒng)一監(jiān)控與傳統(tǒng)監(jiān)控不同之處在于,它是服務于業(yè)務的。過去的監(jiān)控系統(tǒng)主要監(jiān)控底層硬件設備和豎井式IT系統(tǒng),但對于金融機構來說,這些分散的監(jiān)控系統(tǒng)共同支撐起業(yè)務的運轉。因此,必須有一個開放的統(tǒng)一監(jiān)控平臺,把業(yè)務和一個個孤立的監(jiān)控系統(tǒng)整合起來,同時也可以依托這個平臺獲得完整的IT數(shù)據(jù)。目前,在IT成熟度最高的銀行業(yè),已經(jīng)有部分機構完成了統(tǒng)一監(jiān)控平臺的構建,而規(guī)模較小的城商行、農信、證券、基金等金融機構則有明顯的統(tǒng)一監(jiān)控需求。

二、根因分析。系統(tǒng)產生的大量告警信息怎么判斷?依靠人工處理和工程師的經(jīng)驗判斷故障變得越來越困難。利用智能算法對異?;蛘吖收系母蜻M行分析,給出故障的根因推薦以及深入分析結果,讓事件得到迅速處理。這也是一個AIOps的主要應用場景。

三、動態(tài)基線。動態(tài)基線是各種監(jiān)控場景里的典型需求,基于歷史數(shù)據(jù),利用智能算法深度學習,對未來一段時間內每個時間點的數(shù)值進行精準預測,將預測值作為基線來監(jiān)控和告警。由于業(yè)務指標受時間、季節(jié)、事件等因素影響不斷波動,這就導致IT指標的變化同樣是動態(tài)的,也只有動態(tài)閾值才能更快、更準確的發(fā)現(xiàn)問題,提高運維的事件響應和處理效率。

四、故障預測。很多問題的發(fā)生都是有征兆的,故障預測基于歷史告警消息的相關性,對當前處于故障狀態(tài)的警報可能造成的影響進行預測判斷 ,從而實現(xiàn)故障的提前預警。這種場景最能體現(xiàn)AIOps的智能分析能力,但需要針對歷史數(shù)據(jù)進行大量學習和訓練,取得成效相對較慢。

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-05-24
智能運維:從場景中積蓄運維變革的未來
伴隨金融機構數(shù)字化轉型的加速,IT運維從理念到模式正在向智能運維全面邁進。

長按掃碼 閱讀全文