隨著企業(yè)數(shù)據(jù)資產(chǎn)不斷累積,數(shù)據(jù)庫也逐漸龐大。如何在半小時內(nèi)巡檢完所有的數(shù)據(jù)庫?如何防范風險并及時應對?深信服DMP即可搞定,并能夠幫助企業(yè)實現(xiàn)簡化運維。
該平臺搭載智能診斷助手,幫助企業(yè)開展數(shù)據(jù)庫的監(jiān)控、巡檢、診斷、優(yōu)化等多項工作,支持MySQL、Oracle、SQLServer等主流的數(shù)據(jù)庫產(chǎn)品。
智能診斷助手兩大模塊
收集模塊主要是用于收集和存儲系統(tǒng)的運行數(shù)據(jù)和指標。各種類型的探針完成相關數(shù)據(jù)(包括系統(tǒng)數(shù)據(jù)、網(wǎng)絡數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)、消息和事件等)的探測和采集后,通過接口提供給收集系統(tǒng)。
指標采集組件主要包括兩類:一類收集系統(tǒng)的指標,包括云主機的CPU、內(nèi)存和磁盤等相關信息;一類收集數(shù)據(jù)庫的性能指標,指針連接上數(shù)據(jù)庫系統(tǒng),通過相關SQL語句采集數(shù)據(jù)庫的性能指標。
收集系統(tǒng)會定時收集數(shù)據(jù)庫和云主機系統(tǒng)的運行指標和關鍵數(shù)據(jù),再通過接口寫入到時序數(shù)據(jù)庫(TSDB)中。收集系統(tǒng)采用的是telegraf+influxdb的開源組件組合,通過telegraf組件拉取指標采集系統(tǒng)上面的信息,再存儲到時序數(shù)據(jù)庫influxdb中。
分析模塊主要提供監(jiān)控和診斷相關的功能和服務。監(jiān)控模塊負責處理實時數(shù)據(jù)以及調(diào)度相關的任務更新配置,通過各類查詢語句和程序進行處理實時數(shù)據(jù)。診斷模塊基于規(guī)則策略和專家經(jīng)驗,結(jié)合學習引擎處理各類診斷分析接口,提供巡檢和智能診斷的功能。
這些模塊的工作機制是,收集模塊采集數(shù)據(jù)庫和系統(tǒng)環(huán)境的指標和數(shù)據(jù),并傳輸相關事件和指標到時序數(shù)據(jù)庫和監(jiān)控中心。監(jiān)控模塊和巡檢模塊處理數(shù)據(jù)以后輸出到告警平臺和用戶界面上面,通過API和Web服務給用戶界面提供性能圖標、監(jiān)控大屏以及各類告警和診斷的功能。
智能診斷助手四大功能
與傳統(tǒng)數(shù)據(jù)庫管理方式相比,智能診斷助手具有實時監(jiān)控、健康巡檢、智能診斷、多維分析四個特點。
實時監(jiān)控
實時監(jiān)控收集豐富和細粒度的監(jiān)控指標,實時顯示數(shù)據(jù)庫的運行狀態(tài)。
比如MySQL數(shù)據(jù)庫,智能診斷助手從鏈路上采集超過200個以上云主機和數(shù)據(jù)庫性能指標以及相關信息,通過監(jiān)控大屏和集群概覽提供基于排行的集群的狀態(tài),讓用戶實時了解每個數(shù)據(jù)庫系統(tǒng)的整體運行情況。
系統(tǒng)完成大量的數(shù)據(jù)分析之后,基于數(shù)據(jù)庫領域的實時預測和異常分析算法,對潛在的風險進行告警和提示,讓用戶關注風險高的數(shù)據(jù)庫,避免信息過載。
在監(jiān)控大屏的區(qū)域內(nèi),顯示了集群概覽、告警趨勢和指標排行等用戶需要關注的不同類型和級別的信息。
健康巡檢
健康巡檢對集群定時進行健康狀態(tài)掃描,幫助用戶深入了解數(shù)據(jù)庫實例健康情況、發(fā)現(xiàn)系統(tǒng)不合理的狀況和潛在的風險。
智能診斷助手基于豐富的知識庫和全面的巡檢算法,細化并關注每個數(shù)據(jù)庫的健康狀況。
以Oracle數(shù)據(jù)庫為例,巡檢包括了系統(tǒng)資源、數(shù)據(jù)庫集群、數(shù)據(jù)庫配置、數(shù)據(jù)庫對象和數(shù)據(jù)庫性能等五個大類,超過50多項的巡檢項和算法的支持,全面真實還原了數(shù)據(jù)庫的配置和運行情況,并結(jié)合最佳實踐和專家經(jīng)驗,在巡檢報告中總結(jié)和歸納出系統(tǒng)狀態(tài)和潛在問題,給出一份專業(yè)的健康報告。
下圖Oracle的巡檢報告第一部分巡檢概況就總結(jié)歸納了整個數(shù)據(jù)庫系統(tǒng)在巡檢期間的運行情況。
智能診斷
可以直觀便捷地查看當前數(shù)據(jù)庫的整體運行狀況。從系統(tǒng)、性能和實時運行情況等多個維度,幫助用戶快速診斷系統(tǒng)運行情況,直接定位和處理相關問題。
基于數(shù)據(jù)庫運行的指標數(shù)據(jù)和系統(tǒng)實時狀態(tài),包括系統(tǒng)的資源情況、性能數(shù)據(jù)、實時會話、鎖情況和性能情況等等,智能診斷助手對數(shù)據(jù)庫的運行情況完成全方位的整體評估,用戶可以直觀了解診斷結(jié)果,并通過診斷助手提供的處置方式快速定位和分析問題,對相關異??焖偬幚?,從而解決問題。
多維分析
性能問題是數(shù)據(jù)庫運行管理中的痛點,智能診斷助手的多維分析提供了可視化的性能和指標的對比工具,通過直觀的性能數(shù)據(jù)對比,多維度地動態(tài)查看和鉆取數(shù)據(jù)庫的性能數(shù)據(jù)。
針對Oracle數(shù)據(jù)庫,多維分析功能結(jié)合了DB Time和AWR中的各類豐富的統(tǒng)計信息,可以顯示不同時段的DB Time趨勢信息。
用戶可以在DB Time趨勢圖上任意圈選值得關注的時間區(qū)域,分析系統(tǒng)可以方便統(tǒng)計出這段時間AWR中各類統(tǒng)計信息(Top SQL、TOP會話、TOP Event和TOP Service/Module等),并查看相關的SQL語句和執(zhí)行計劃,幫助用戶直觀對上述整理好的信息做分析處理,快速定位系統(tǒng)的性能瓶頸。
對于MySQL數(shù)據(jù)庫,多維分析通過對系統(tǒng)資源和慢SQL數(shù)量的各維度的對比信息,幫助用戶定位系統(tǒng)和查詢性能的瓶頸。
在SQL語句的優(yōu)化上,多維分析綜合了Oracle的STA商業(yè)工具、Percona Toolkit和SOAR等開源系統(tǒng),結(jié)合規(guī)則系統(tǒng),給用戶提供專業(yè)和直觀的查詢計劃分析和優(yōu)化建議。
基于以上的功能和特性,智能診斷助手能有效幫助用戶快速發(fā)現(xiàn)數(shù)據(jù)庫運行與維護中的問題,幫助企業(yè)及時防范和應對風險。
比如,某數(shù)據(jù)庫使用智能診斷助手對數(shù)據(jù)庫運行情況進行檢查,發(fā)現(xiàn)許多空閑異常連接,然后使用智能診斷的會話管理對這些異常連接進行關閉,并通知相應應用開發(fā)做出修改,使系統(tǒng)整體性能有了較大提升。
某數(shù)據(jù)庫出現(xiàn)部分查詢無法響應的情況,使用智能診斷助手分析后發(fā)現(xiàn)是數(shù)據(jù)庫等待事件導致應用阻塞,使用診斷助手提供的鎖分析工具對造成阻塞的進程進行處理,之后等待事件消失,應用恢復正常。
某數(shù)據(jù)庫出現(xiàn)CPU和IO等指標同比上升明顯的現(xiàn)象,智能診斷助手分析之后確認是一個慢SQL導致,然后使用SQL優(yōu)化功能對該SQL進行分析和優(yōu)化,SQL語句優(yōu)化處理上線后提升了性能效果,CPU和各項指標恢復到正常,完成了問題的閉環(huán)處理。
有了深信服DMP的智能診斷助手,用戶不僅可以降低運維成本,也能輕松保障數(shù)據(jù)庫的穩(wěn)定安全。
以上就是本期《信服云黑板報》的分享,關注“深信服科技”公眾號,持續(xù)獲取更多技術干貨內(nèi)容哦!
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )