自動化巡檢服務
3778人瀏覽自動化巡檢服務
初期階段IT基礎設施通常處在小規模狀態,很多公司都不一定配有專門的運維人員或者部門。隨著云時代到來了,IT基礎設施迅速發展成幾百上千服務器。更多的業務系統上線,運維人員開始專業化,獨立成部門。各類孤島式的運維管理工具上線,提升運維效率。
可是在各類運維工具上線之后,大家發現運維人員仍然時常要充當“救火隊員”,收警告、修機器,哪里宕機去哪里。雖然有了運維管理工具自動化收集監控數據之后,但還是有很多問題,讓底層物理資源運維工作無法實現完全自動化。
目前,多數客戶所選擇的運維監控方式都是在操作系統上安裝Agent訪問設備驅動,讀取硬件狀態數據。所有監控狀態的數據抓取都受限于驅動程序。而驅動程序的編寫人員所關注的重點在于設備的正常運行,而不在于設備的狀態監控。因此,通過驅動程序所抓取的硬件狀態參數始終有限。這也就能解釋,為什么很多客戶在上線了運維監控軟件之后,還是需要人工巡檢。
方案內容
從專業的角度來看,網絡管理可分為帶外管理(out-of-band)和帶內管理(in-band)兩種管理模式。上述在系統下,也就是客戶的生產環境下抓取數據,通過生產網絡讀取監控數據屬于帶內管理。這種管理方式,最大的問題就在于當系統出現故障時,機器就無法管理。而且如上所述,獲取的監控數據有限。而幾乎所有的it設備廠商都為客戶提供帶外管理口,也就是與生產系統相隔離的管理口。管理口下,設備廠商本身就提供了詳細的硬件參數。這些硬件參數直接來自于服務器上百多個sensor,直接從硬件層面獲取的狀態參數。
方案優勢
帶外監控通過sensor監視服務器狀態,就像在設備上安裝了上百個攝像頭一樣,時刻巡視設備運行狀態。冗余電源離線、機器上任一條內存容量、內存頻率、內存槽位信息、HBA卡槽位信息等等,這些帶內軟件無法捕捉的信息,都可以通過帶外監控獲取,帶外監控的輪訓周期可以達到秒級,通過帶外監控來彌補帶內監控的部分空缺,可以極大的提升運維效率,真正意義上實現無需人工巡檢。
這一日益完善的架構,不僅僅可以用來做帶外管理,還可以利用其優勢構建一個完整的底層DCOS(Data Center Operating System)。揚帶外之長,實施建造一套完整的底層運維架構。通過DCOS的全生命周期自動化平臺管理,實現部署、監控、分析、管理全自動,數據中心的無人值守。盡可能的保證服務過程的標準化,減少其中的人為管理。
客戶受益
24小時不間斷保障物理設備的正常運行;
更直觀、全面,更標準化的視圖來簡化巡檢的管理;
提升基礎工作的管理效率;
真正意義上實現無需人工巡檢
保證服務過程的標準化,減少其中的人為管理