第223期 / May 5, 2016

研發新視界

分享到臉書!分享到維特!分享到噗浪!分享到Google+!分享到微博!轉寄友人友善列印

淺談IT維運管理系統

作者/張乃中

[發表日期:2016/5/5]

前言

IT維運管理是對IT運行環境的維護及運作,以維持各設備元件的效能及對外的服務品質。然而,IT設備與軟體資產的數量多,維運工作項目繁雜,導致管理混雜,處理效率低落。維運管理系統目的為解決傳統管理的問題,將維運工作項目中繁雜的工作,利用維運管理系統,協助維運管理人員執行。並透
過系統中表單的功能將管理資訊統計、數據化提升IT維運的效率。

維運管理系統特色

IT維運的工作項目多且繁雜,沒有經過系統性的整合,通常會造成系統工程師工作負載過重,管理雜亂,工作交接困難。


《圖一》IT維運的工作項目


維運管理系統將這些作業項目整合,以改善機房維運作業流程,提高整體工作效率。將資料整合,配合監控設備資訊,提供監控服務台,即時正確的取得資訊,避免維護困難並同時進行備份、定期巡檢以及報表產出。

表單及流程化

為了將維運工作簡單化,我們將原有的多項工作整合,將其視為一種工作請求,透過表單以及流程引擎,將IT維運電子流程化。除了制式功能的表單,同時也提供自定義表單的功能,對於不同的單位特性,可以自行簡單的建立新的表單,配合自訂的處理流程,將不同的維運管理項目標準化。


《圖二》工作項目整合表單化


系統提供多種事故偵測,包含從合規巡檢、系統監控、服務監控、備份排程、異常的Log等等,系統於接獲異常事故時,依照規則定義自動開單,並透過流程,自動指派一線處理人員,依照流程處理。

當一線處理人員接獲事故表單後,可以透過問題管理,迅速了解情形,配合流程掌控處理程序,提升處理品質與速度;也可以透過設備資產資料庫以及變更管理紀錄,來快速的掌握事故發生原因。同時透過管理變更設備,來降低異常事故的發生。而管理主管可透過維運報表,了解服務品質與員工效率,對服務進行改進與檢討。此外表單系統也會紀錄處理過程與解決方案,往後可縮短題處理時間,並由處理反應時間來衡量服務水準與品質。利用多合一的監控模式(本機/第三方角度)、備份服務、安全性巡檢以及Log收集,來確保機房維運的穩定。

流程引擎與機器代理人

不同的功能表單,有不同的流程,使用者經由簡單的步驟,即可自定義流程,建立不同的作業流程。此外,使用機器代理人(Agent)的機制,進行自動化處理。Agent可自動下達預設之命令,透過表單系統的引擎進行流程控管,對表單進行處理與操作。透過表單系統的紀錄功能,所有的操作記錄都會留下,當有任何突發情形或異常執行結果,一線人員可以隨時介入操作,修正問題並切換Agent進行操作。

此系統架構支援LB及HA機制,後端資料庫可使用自帶的HA機制,命令均使用Agent相互溝通,Agent也可控制syslog-ng,並將log訊息寫入資料庫。而Agent Less的監控功能亦使用Agent來執行命令。此外,表單系統本身也提供REST API供外部系統呼叫 , 並提供指令行工具(CLI) 進行開單及修改表單的動作。使用這兩種方式與其他外部系統進行介接與整合。


《圖三》


結論

由於維運管理的工作項目繁雜,透過系統的自定表單與流程、流程自動化機制、整合式監控,將維運管理的工作進行整合,簡化繁瑣步驟,提高服務的可靠性與服務速度,並且能提供即時正確的資訊,使一線處理人員以及管理主管皆能對維運時所發生的狀況與問題,能有明確的了解,改善服務水準。

參考資料

MBA智庫百科