第189期 / July 5, 2013

產品&服務

分享到臉書!分享到維特!分享到噗浪!分享到Google+!分享到微博!轉寄友人友善列印

虛擬化帶來的便利性,讓企業異地備援變得更容易

作者/莊尚儒

前言

經過近幾年虛擬化(Virtualization)技術的日漸成熟及穩定,虛擬化在IT領域裡的接受度已經大為提升,雖然有部分企業核心系統仍在保留及觀望階段,無法全面虛擬化,但隨著企業對於虛擬化以及雲端運算(Cloud Computing)的認識與接受度逐漸提高,加上企業渴望透過虛擬化以及雲端運算來提高效率並降低成本等需求,少數未虛擬化的企業核心系統,在不久的將來也會開始逐漸往虛擬化技術靠攏。

虛擬化讓高可用性不再高不可攀

從已導入虛擬化的企業用戶經驗來看,在這些企業的虛擬化應用的過程中,虛擬化的應用不再只是整併老舊的實體主機或負載較輕的應用程式,他們也開始將負載較高的應用程式、資料庫系統,甚至是企業核心的ERP系統移植至虛擬化平台。這些年許多陸續導入虛擬化的企業用戶,歷經在實際線上應用環境的效能和穩定的驗證肯定,更加強化企業對虛擬化平台的接受度。

現今x86伺服器虛擬化市場的競爭,宛如赤壁一戰後的三國群雄鼎立,VMware、Citrix、Microsoft各據一方。微軟(Microsoft)在2008年7月正式發表Hyper-V,不僅在技術上走向主流的半虛擬化技術,更以作業系統的優勢祭出低價策略,推出搭配Hyper-V虛擬化技術的Windows Server 2008作業系統,其Hyper-V的底層架構,主要是取自於一開始為開放原始碼起家的XenSource,隨著微軟的長期戰友Citrix在併購了XenSource之後,基於彼此的架構相同,在XenServer或Hyper-V上執行的虛擬伺服器甚至可以互通,微軟與Citrix藉由彼此的合作來搶佔x86伺服器虛擬化市場。而VMware領先群倫投入x86伺服器虛擬化的研發,自然有其不可輕忽的實力,雖然VMware無法在價格上與微軟力拚低價,但VMware在技術上仍佔有領先地位,其產品穩定性及功能的先進已獲得許多企業的信賴,而這也是後進者仍需投入大量資源與時間來證明的。

根據IDC的調查,在台灣已完成導入x86伺服器虛擬化的企業中,絕大多數是採用VMware伺服器虛擬化平台,而全世界採用虛擬化技術的企業中,有高達八成以上都是採用VMware的虛擬化產品,VMware堪稱當今x86伺服器虛擬化霸主,也因為VMware在虛擬化產品線的多元性及完整性,以下就VMware的虛擬化平台進行更進一步的探討。

想要建構高可用性的VMware虛擬平台,需由整體架構設計作考量,由上而下可分為運算層(Server Layer)、網路層(Network Layer)、儲存層(Storage Layer),由於虛擬化之後,相對比以前的實體機器架構,虛擬化像是將雞蛋放在同一個籃子中,若是整體架構上有單點失效(Single point of failure)發生的可能性,整體風險反而提高,所以各層的硬體設備的防護能力是防止停機與資料流失的基本要件,包括完整的備援(Redundant)硬體元件、可容錯的運轉結構設計、故障時可熱抽換(Hot Swappable)硬體零件,像是儲存設備的控制器、網路設備的電源模組等各元件都必須具備備援的能力;若單台設備的硬體設計有所不足,可用二台或多台設備建立容錯運轉機制,讓各層就算發生單點失效的狀況,也不會危害到整個虛擬化平台的運作。加上VMware提供了許多原本由實體主機不易達到的高可用性功能,以往需要依賴作業系統和應用程式支援的高可用性叢集(High-Availability Cluster)功能,現在可以透過VMware虛擬平台直接提供,讓上面執行的虛擬機器(Virtual Machine)達到高可用性,像是不停機的虛擬機線上轉移(VMware vMotion)功能、由底層直接提供的高可用性(VMware HA / VMware High Availability)機制、自動平衡主機間的負載(VMware DRS / VMware Distributed Resource Scheduler)管理,甚至是更高等級的虛擬機鏡像容錯(VMware FT / VMware Fault Tolerance)等功能,並且藉由VMware虛擬化平台的虛擬硬體(Virtual Hardware)擴充能力不斷提高,可提供給高硬體需求的實體機轉換進虛擬環境使用。

災難愈是不可預期,企業愈是要重視異地備援

許多的災難是無法預測的,伴隨而來的是許多有形及無形的損失,雖然很難去精確估計損失的金額,但可以肯定的是,災難的發生對於企業而言往往是致命的,隨著企業營運轉型為服務導向,持續營運也就日益重要,因為一旦系統中斷,服務立即停止,企業承受的不只是財務上的損失、可貴的資料損毀,更重要的還有信譽的損害。

尤其台灣位處環太平洋地震帶,加上天候異常帶來的豪雨以及人為操作疏失所潛藏的風險,企業IT營運隨時都可能產生危機,根據美國國家檔案保存及紀錄管理局(National Archives and Records Administration)的統計顯示,資料中心因發生災難而超過九天仍無法恢復正常運作的企業,有高達93%會在一年面臨破產倒閉。

目前企業看重的不只有伺服器的整併,而是虛擬化架構帶來的高可用性,依靠著VMware虛擬化架構出的高可用性,進而將更多的企業核心應用移植到虛擬平台上。一般而言,每家企業都會考慮建置備份與備援機制,以維持整體系統的高可用性。但異地備援的成本過高,而且技術複雜,通常只有大型企業才有能力建置,過去企業傳統的異地備援架構,對於系統災難復原方案所採取的方法,不外乎就是以實體主機做為系統備援,透過叢集技術加上硬體架構相互搭配而成,而所耗費的成本會依需要保護的系統數量而提高,而線上機房的每一套實體伺服器,都必須至少有另一台對應的伺服器設置在異地機房,光伺服器就需要花掉大筆經費。而虛擬化的出現打破硬體的限制,讓這種情況發生很大的轉變,數台虛擬伺服器可以集中在單一實體伺服器上,讓建置的成本大幅降低。

但是要維護以虛擬化平台建立的災難復原系統的難度較高,資料中心因業務型態不斷變化,軟體與硬體架構也在不斷更新,導入虛擬化之後,容易建立虛擬機器的方便特性,造成要管理的虛擬機數量隨著時間直線上升,IT人員能否在短時間內將資料備援至異地機房就是個很大的挑戰,更別提還必須兼顧到企業所訂定的RTO(Recovery Time Objective / 復原時間目標)及RPO(Recovery Point Objective / 復原點目標)。

VMware災害備援方案vCenter Site Recovery Manager,讓虛擬環境復原更快速

災難備援計畫的目的,是為了在萬一發生災難時,能夠在最短的時間內修復或恢復企業主要的作業與服務,最終能做到所有系統恢復正常的作業與服務,因此擬定一個緊急應變的規劃也就至關重要。在擬定計畫之前要有個觀念,災難備援並不是一項專案,而是一個持續的計畫。專案有終止的時間點,但計畫卻沒有停止線,從規劃、部署、檢查、確認到演練,企業必須不斷重覆的執行、演練,無論企業選擇哪種層級的備援,在建置完成後,都不能疏忽演練的工作。因為不管哪一種備援解決方案,被使用的機率都不會太高,如果相關負責人員沒有養成定期操作、檢視的習慣,一旦發生意外狀況,容易手忙腳亂,持續不斷的演練才能在真正遇到災難時,能夠從容不迫地維持企業營運。

愈來愈多的企業選擇將系統運行在虛擬化平台,並且希望關鍵系統運行能不中斷,也因為如此,企業更需要完善的備援解決方案,以預防天災人禍可能帶來的損害,讓關鍵系統運作能夠盡快的復原。然而,傳統的異地備援解決方案不僅技術複雜,需要專業訓練的技術人員來完成設定和管理,同時也需要額外的硬體設備以及軟體授權費用,且操作程序複雜,無法降低人為操作的可能風險。

一般傳統的解決方案存在不少缺點,包括復原時間可能從數天到數週不等,異地備援中心的建置也可能因為成本考量而只針對Tier 1的應用程式系統進行保護,其他的中小型企業或是遠端辦公室也可能因為預算有限,往往處於無保護狀態,基於這些難以達到的挑戰,VMware發展出災難備援管理工具VMware vCenter Site Recovery Manager 5(簡稱VMware SRM)來協助企業因應災難發生時可能帶來的衝擊。

VMware SRM可以協助企業解決傳統災難復原所面臨的挑戰,達成其復原時間目標(RTO / Recovery Time Objective)、復原點目標(RPO / Recovery Point Objective)和法規要求,並且可自動化或簡化容錯轉移至備援資料中心的程序,協助進行資料中心的容錯轉移。

VMware SRM可以針對不同的企業規模提供復原機制,一般中小企業因為成本考量,並沒有在兩端都配置儲存設備時,透過VMware vSphere 5.1所提供的vSphere Replication功能,可以直接作到伺服器對伺服器上VM的抄寫;而中大型企業若已部署儲存設備,那麼企業可以透過Storage-based/Array-based Replication的方式來進行高效能的異地備援。以往企業部署的異地備援方案,通常會透過儲存設備來進行資料複製,但在抄寫的同時,其實備援的儲存設備是被鎖住的,必須把這個抄寫的關係中斷,才能把備援的儲存設備啟動,因此會需要人工手動的程序來介入處理,而VMware SRM則可以配合儲存設備複寫轉接器(Storage Replication Adapters),把這個半自動化過程變為自動化機制。

透過使用VMware SRM,企業能夠很容易的管理災難復原計畫,VMware SRM可以讓管理者建立、更新並記錄復原計畫,做為管理VMware虛擬環境的一個整合部分。使用傳統災難復原解決方案時,必須在操作手冊中記錄容錯轉移所有必要的步驟與資源,但是如何保持操作手冊的正確性與內容的即時更新卻是一大難題,有了VMware SRM,整個容錯轉移計畫的程序步驟與資源,都可以直接從VMware vCenter Server進行管理。

在災難復原計畫中,可自行定義需要保護的虛擬機,而當虛擬機切換到備援站台時,通常會有不一樣的網路設定,另外資源配置及所在位置可能會依實際資源分配而有所不同,VMware SRM提供管理者可自行重新配置IP及相關資源,節省人工手動進行設定的時間。災難復原計畫不僅僅是如此,企業的服務與服務之間常常彼此存在關聯性,例如一定要先開啟資料庫伺服器,否則光是啟動網頁或是應用程式伺服器,結果還是因為無法對應到資料庫而無法運作等等的順序考量,VMware也替企業設想好了,VMware SRM可以設定五組優先順序,一旦管理人員將虛擬機器分組設定,重新開機的順序也跟著一併被定義好了。


《圖一》訂定災難復原計畫,可針對每個步驟順序及細節再自行設定調整。(資料來源:VMware)


VMware SRM可以在不中斷作業的情況下,執行容錯轉移與復原的災難復原計畫測試,透過儲存快照功能執行復原測試,而不會影響正在進行的同步複寫,而且它會將虛擬機連接到隔離網路,避免影響線上網路環境,企業能夠在不干擾線上環境的情況下,執行其復原計畫的自動測試。在每次的復原計畫測試時,可以針對各個步驟及環節,查看測試執行結果及相關訊息,並在測試完成後,自動清理測試環境,藉此讓IT管理者可以了解作好的災難復原計畫是否完整可行,進而對計畫測試發生的錯誤項目進行修正,以便確保復原計畫的正確性與即時性。


《圖二》自動化的好處就在於可以把演練時間有效縮短,同時讓測試更為頻繁,企業服務相對也會更有保障。(資料來源:VMware)


在要實際執行自動化的容錯轉移與復原時,透過VMware SRM就可以自動執行復原計畫,只需點擊一個按鈕,即可在VMware vCenter Server中啟動恢復計劃,並管理和監控恢復計劃的執行,免除傳統災難復原中許多緩慢且不可靠的手動程序,也能同時確保復原計畫如預期的執行。

如果只是短暫的切換到備援環境,在原先的線上環境並沒有發生大規模損毀的狀況下,可藉由故障回復(Failback)功能,重新執行現有復原計畫,由備援環境回復到原始的線上環境,透過自動反向複製到原始線上環境,讓受保護的虛擬機移回原始線上環境繼續運作。


《圖三》回復計劃可將受保護的虛擬機移回原始主要站台,在進行移轉(Migration)之後,再執行重新保護(Reprotect),即可完成容錯回復(Failback)。(資料來源:VMware)


結語

透過使用VMware SRM,企業可以管理從線上資料中心容錯轉移到災難復原網站的作業,並且可以進行災難復原計畫管理、無中斷計畫測試、自動故障切換和故障恢復、計劃內遷移功能,在兩個VMware vCenter Server之間管理容錯轉移,也可作為彼此的復原網站。

VMware SRM提供的自動化災害備援的好處在於不需要準備厚厚的操作手冊,萬一撰寫者離開或調職,接手的人也不會因為看不懂而使得企業曝露在風險中。建議企業至少應該在每一季,針對公司系統的改變狀況作一檢視,確認備援系統與本地系統間仍能緊密配合,萬一應用服務與基礎架構的組態改變,就得重新調整程序與流程。

VMware SRM的自動化機制,不僅可以把演練時間有效縮短,同時讓測試更為頻繁,企業服務運行相對也會更有保障。但除了計畫測試之外,應該也要定期進行實地的演練,演練時會幫助企業發現系統設計時忽略的細節,並檢視災難演變計畫是否合理,是否有其他疏漏之處,唯有演練計畫的落實不輕忽,才能讓備援投資發揮充份的效益。

參考資料

虛擬化起飛: 企業關鍵應用開始導入虛擬化 | 技術專題 | iThome online

關鍵系統災難備援 自動化才夠快 - 產業趨勢 - 網管人NetAdmin

CIO看2012(中):伺服器虛擬化篇 | 技術專題 | iThome online

VMware:企業核心應用 將步入虛擬化 - 深度專訪 - 網管人NetAdmin

虛擬化服務的安全導入6大步驟,Information Security 資安人科技網