【第159期 December 8, 2010】
 

產業觀察

網路管理之實務基礎建置

作者/陳偉宏

[發表日期:2010/11/29]




簡介

記得在今年九月時,媒體成功炒熱「中華民國99年9月9日長長久久」口號,許多預備結婚的新人,或者也有計劃地恭逢其時,搭上熱潮;在金融界,9999(四個九)代表黃金純度,意思是含金量99.99%,其他金屬和雜質含量不大於0.01%。不過這一切看在IT人眼裡,9999所代表意義卻是完全不同的,它所代表的是整體系統的可用度﹝Availability﹞要達到99.99%,意思是一整年只能有約5分鐘的Down Time,這是IT人員所夢寐以求的境界。過去只有兩家公司的產品敢號稱NonStop作業系統,就是Tandem 以及 Stratus,特別是 Tandem 公司界定了容錯運算的標準。許多企業都為IT資源提供 7X24服務而努力,任何停機的代價都是非常昂貴的,停機成本包括人力的浪費、商機、市場上的商譽及客戶的滿意度。

現在企業或公司內部有各式各樣的網路設備,意味著要實現對各種網路硬體平臺、各種作業系統中運行軔體程式的統一管理是不太可能的。在企業中,為了幫助組織營運,需要透過一些資訊管理系統來幫助;而佔公司企業中人數不多的IT人員也常依賴一些軟硬體來監控服務、發警訊通知承辦人員;實際上,對這些設備的管理無非就是向它們發送命令和訊號資料,以及從它們那裏取得資料和狀態資訊。企業使用網路管理系統的首要需求,便是確保網路不中斷,不管是連接 internet的 ISP 線路或是連接各分公司,或各部門的內部網路,備援線路等,其次便是網路所提供的服務品質,包括流量監控、事件監控等。當企業網路連線品質出問題時,MIS人員接到使用者電話時,卻不知該從何處著手解決問題;一般情形是網管人員要等到使用者抱怨後,才知道網路斷了或變慢了,可是在Troubleshooting的過程中,網管人員卻不知道哪一環節造成問題,只好不斷增加頻寬,更新設備,只是,光增加頻寬與更新設備就能解決問題嗎?公司的預算是否允許不斷提升頻寬與設備呢?如果提升之後問題仍然沒有解決,網管人員不就成為千古罪人。

當企業檢視內部網路效能時,首先要知道問題出在哪,現代企業的內部網路,同時執行多種應用程式,一旦網路停擺,就等於企業停擺,員工沒事可做,所以網路是否正常穩定,就影響到一個企業的運營效率。所以網路管理系統的導入,對企業服務價值是極大的,

根據筆者瞭解,現在仍有許多企業,特別是中小企業,還沒有安裝網管系統,或者一些大型企業依然在使用古老的網管系統,這可能發生以下的情形:

1. 沒有網管系統時,當網路有問題,管理人員並沒發現,要等到報修電話進來,或接獲其他單位通知才會知道。

2. 現有網管系統老舊,無法正確偵測網路設備的問題,或無法滿足使用者的需求。

3. 現有網管系統的維護成本太高,讓企業無法讓成本降低;維護費太高,這可能是廠商收取維護費用太高,或者是該系統需要企業投入大量人力或是需要管理者花費大量的時間去維持或維護該系統,人力與時間成本太高。

4. 現有網管系統常誤報假告警或根本不報。

5. 或是網路規模大幅成長但網管系統的納管能力或納管設備數量的版權沒有跟著成長。

6. 現有網管系統的效能不彰,反應遲緩。


《圖一》


對一個企業組織的資訊技術(IT)而言,對基礎建設的全面管理是一個基本要求;因為不管是員工或顧客都十分倚賴IT服務的可用性和高效能,並且可以讓問題迅速辯識和解決。而且故障問題的平均修復時間(MTTR)必須是越短越好,而且儘可能避免發生。這樣才能降低系統停工時間與營業損失。

名詞定義

在談到像QoS,IPSLA,Traffic engineering等進階的網管技術之前,我相信許多人對網路管理之基礎觀念與建置更有興趣,而且如果網路管理的基本觀念很穩固,這對MIS網管人員未來在學習進階技術時,將更有幫助。

首先要介紹一些網管常見的詞彙:

網路管理(Network Management):本文所指的網路管理,是指對企業IT設備,特別是區域網路(LAN)或校園網路(Campus Network)或廣域網路(WAN)的設備,包括路由器、交換器、防火牆、主機、應用程式系統、電路等,所做的管理與監控行為。這裡的設備一般而言,並不包括PC及 Printer。

網路管理系統(Network Management System,簡稱NMS):執行網路管理工作的系統。

Baseline:量測基準值或量測基準線,常用在效能指標上。

SNMP( simple network management protocol):1988年,SNMP一推出就得到了廣泛的應用和支援。1990年IETF在RFC 1 157中正式公佈了SNMP,1993年4月又發佈了SNMP v2(RFC 1441)。當ISO的網路管理標準終於趨向成熟時,SNMP已經得到了數百家廠商的支持,其中包括IBM、HP、Fujitsu、SunSoft等大公司和製造廠商。事實上目前SNMP已成為網路管理領域中的工業標準,並被廣泛支援和應用,大多數網路管理系統和平臺都是支援SNMP的。

網管的標準

網管的類型在國際標準組織中是否有訂立標準呢?答案是有的。

FCAPS就是國際標準組織ISO中,有關網路管理的電信管理網路模式和平台架構(簡稱ISO Model)。 FCAPS是錯誤(故障)管理(Fault Management),組態管理(Configuration Management),會計管理(Accounting Management),效能管理(Performance Management),安全管理(Security Management)頭一個字母的縮寫,屬於 ISO模型所定義管理類別中網路管理工作項目。

在某些非官方組織的分類中,會計管理(Accounting Management)被行政管理(Administration Management)所取代。


《圖二》


FCAPS歷史緣由

在1980年代初期,ISO 10040介紹了FCAPS的第一份草案(N1719),也就是OSI之系統管理概要(SMO)標準。那時就為各個功能領域定義幾種不同標準協定。 但從最初的經驗顯示,這些標準協議慢慢的變得非常相似,ISO工作團體對ISO/TC97/SC16/WG4(以後改名為ISO-IEC/JTC1/SC21/WG4) 負責的,後來決定將這些領域的協議變成一個單一的協議;並將這個協議命名為「普通管理資訊協議(CMIP)」。 在1990年代ITU-T,把FCAPS作為他們的在電信管理網路(TMN)工作的一部分,更進一步提升了FCAPS作為關於管理功能(M.3400)的TMN之建議的一部分;而且並用來作網路管理教學,FCAPS理論是非常有用的;因此許多書開始以專門的章節說明FCAPS的部分。

錯誤(又稱故障)管理(Fault Management)

錯誤管理可以說是網路管理的始祖,當年一談到網管,指的就是錯誤管理,其目的是減少報修電話的數量,甚至希望完全消失掉。故障代表的是消極意義的事件。 錯誤管理的目標是對在網路所發生故障的辨認與隔離,”快速”修正和列入日誌。 此外,它使用趨勢分析預測錯誤的發生,以便使網路總是具備可用性的。這可以透過監測網路異常行為事件的建立。


《圖三》


當故障或事件發生,網路元件經常透過私有協定或SNMP協定送一個通知到網路管理者或網路操作員(OP),或者送一則訊息給控制臺(Console),讓控制臺服務器能列入紀錄。這個通知行為可能觸發一則手動或自動的設定,現代常見的有發簡訊或電子郵件通知管理者。例如,數據資料的收集是為辨認故障問題的根本原因並儘快將網路備用設備替換上線。錯誤管理也常與拓樸圖相結合,透過地圖顯示設備的關聯性與位置及狀態。

事件日誌是為統計的目的,以便確認各個網路元件或子網路或整體網路能提供一定的服務水準。事件紀錄也用於確認瀕臨故障的網路元件。


《圖四》


現在的錯誤管理系統常用紅綠燈號,來代表設備的狀況,綠燈代表運作正常,紅燈代表設備或介面當了出問題,常見的使用工具有ping,trace route 等,透過 ICMP 的回應,來判斷設備是否正常。

組態管理(Configuration Management)

組態管理同樣相當重要。它初始化網路,並配置網路,以使其提供網路服務。組態管理是一組對辨別、定義、控制和監視組成一個通信網路的物件所必要的相關功能,目的是為了實作某個特定功能或使網路性能達到最優。這包括:設置開放系統中有關路由操作的參數、被管物件和被管物件組名字的管理、初始化或關閉被管對象、根據要求收集系統當前狀態的有關資訊、獲取系統重要變化的資訊、更改系統的配置等。

組態管理的目標包括:
‧收集和儲存網路設備的組態(這可以在本機或遠端做)。
‧簡化設備的組態設定
‧紀錄對組態的變動
‧透過非交換網路去設定網路組態包含電路設定或路由設定

會計管理(Accounting Management)

會計管理記錄網路資源的使用,目的是控制和監測網路操作的費用和代價。它對一些公共商業網絡尤為重要。它可以估算出用戶使用網路資源可能需要的費用和代價,以及已經使用的資源。網路管理員還可規定用戶可使用的最大限度,從而控制用戶過多佔用和使用網路資源。這也從另一方面提高了網路的效率。另外,當用戶為了一個通信目的需要使用多個網路中的資源時,計費管理應可計算總計費用。

所以會計管理經常與收費系統(Billing System)相關聯,目的是收集使用者的統計資料。

例如:
‧硬碟空間
‧使用頻寬
‧CPU時間


《圖五》


Radius、TACACS是常用來作為會計管理的工具。在某些非官方組織的分類中,會計管理(Accounting Management)被行政管理(Administration Management)所取代。行政管理的目的是建立用戶、密碼和授權執行操作的設備以便讓使用者可。

效能管理(Performance Management)

繼錯誤管理之後,緊接著發展出效能管理,效能管理如同錯誤管理,都是網管系統最基本的成員,一套網管系統若沒有錯誤(故障)管理及效能管理的話,就稱不上是一套網管系統。效能管理使網路管理者知道現今網路的效率,並為未來做準備,以確定軟硬體的投資是正確的。網路效能講的是流量、使用率、誤差率和反應時間等。當我們談到量測基準值(Baseline)時,對象也常指的是效能管理。

藉由收集和分析效能資料,可以監測網路健診。也可讓問題影響服務之前,透過趨勢圖顯明容量問題或可靠性問題。

效能管理的對象常見的有:
1. Server performance (CPU,Memory,disk)
2. Router/Switch/Firewall performance (CPU,Memory,buffers)
3. Circuit performance (bandwidth utilization,errors)
4. Analysis of network traffic and congestion(網路環境)


《圖六》


效能管理的原理,如同錯誤管理的原理,效能管理也可透過使用SNMP 去 query存在於設備的記憶體中的MIB得到相關資訊,MIB(由RFC所定義)又有分public 與private。例如使用者可以寄一封信給同事或給自已,看郵件伺服器的回應有多快(也可當成Baseline),就是一種基本效能的評估。

效能項目也可以設定門檻值,透過超過或低於臨界值而觸發告警動作。警報將由錯誤管理過程(參見前頁)處理。告警也可根據嚴重層級而發出不同訊息。

安全管理(Security Management)

安全管理負責系統使用的認證及系統記錄等。為避免惡意或非正當使用者接近並使用網路資源,所衍生出之機制。

安全管理是控制操作者對網路軟硬體設備的登入的過程;也就是權限控管。資料安全保密主要可以藉由認證和加密達到。 並可授權組態及OS和DBMS存取控制設置。

姑且不論以上的五種網路管理的類型,一般要能稱得上是一套網路管理系統(是系統而不是工具),必須至少同時具有錯誤管理及效能管理兩項。

建立量測基準值是網管系統成功的基礎

在建置網管系統之前,管理者必須要知道,網管系統所做不到的:

1.如果你不知道如何設定網路設備組態,網管系統是不會幫你設的,即使是來自網路設備原廠的網管軟體,要設定網路設備的IP,hostname‧‧‧等,管理者必需要先了解一些各個廠商的專門指令與技術,這部份常請賣設備的廠商來負責安裝與設定。

2.如果你有設備不穩定,或網路服務供應商的連線不穩定;網管系統也無法幫你解決這些問題;也就是說網管系統並不會把你有問題的設備變沒問題,也不會把網路服務供應商的連線變穩定,但是可以透過網管軟體去收集資訊,提供給設備廠商或網路服務供應商。

3.網管軟體也不會幫你派送應用系統到一般的使用者端(End User)的電腦,這需要其他專門的派送軟體。

一旦決定要導入網管系統,首先要做的是建立量測基準線,例如服務的可用性有多少(Availibility),連線的可用性有多少,Down Time 有多少,這樣在建置完網管系統後,才知道公司或企業的網路整體效能提高了多少;建立基準線或做紀錄永遠是不嫌多的,這樣我們才能知道差別,未來才能提出數據,證明投資網管系統的決定是正確的…。

一個熟練的系統工程師,往往會養成這樣的好習慣,把要下的指令先按序就般的寫下,並瀏覽一遍後,再下到設備,這樣一但出錯,就可以知道是在哪一程序或指令下錯。我看過一些工程師,都不做紀錄,出問題後也迷迷糊糊,不確定到底是下哪一個指令出錯的。

不過要特別指出,現今大部份使用者回報故障的問題,常是效能管理問題,而不是錯誤管理的問題,這是因為網路介面可能依舊是 Up,但因為伺服器的效能問題、或儲存媒體的效能問題、甚至是 DNS 的效能問題,都會讓使用者感覺網路不通。

建置網管之最佳實踐

建置網管系統有幾個最佳實踐的要素:

‧企業必須知道自己要什麼,已經擁有什麼。包含公司多年以前所購買的網管系統,是否有新版,還有買維護嗎?

‧記得勤做記錄,幫助企業做評估,或是有任何改變,包括架構、設備型號、IP、MAC、Hostname等。

‧有多少錢可以運用?

‧尋求專業顧問,會提供最新最即時的資訊,包括設備機型與架構技術,網管相關論壇也可得到一些免費的幫助。

‧心動不如馬上行動,因為我們永遠不知道,網路系統何時會出問題,設計規劃半天,但是不起而行的話,都是空談,所以馬上你的廠商聯絡吧!


《圖七》


結語

凌群電腦便站在輔助的立場,在企業客戶導入思科解決方案時,凌群電腦所提供的網管軟體便能幫助使用者,發揮最大的效益。

NETCenter 網管軟體的架構完整,為國內自行研發產品,並非是外國產品,不容易客製;又不用使用像 HP Openview, IBM Tivoli 等大型網管軟體花費巨額的金錢。目前 NETCenter 的客戶主要在政府公家單位,金控公司,證券商等,近期有許多大型企業也都預期將導入 NETCenter。我們期望在未來,與大家分享一些進階網管的專題。

參考資料

ISO/IEC 10040日1998年, 「資訊技術-開放系統互聯-系統管理概要」
ITU-T 1996年, 「M.3010電信管理網路的原則」
ITU-T 1997年, 「M.3400 TMN管理功能」
Wikipedia.org 之 FCAPS 定義
Solarwinds公司的網管教材