[技術分享] HPE NonStop CLIM Failover 介紹(下)

作者/黃仕奇

作者簡介 作者擁有超過30年的資深IT服務經驗,現任凌群電腦NSK服務總處副總工程師。主要負責HPE NonStop證券、期貨、信用卡、銀行客戶交易系統維運服務、軟體產品整合服務,專長為HPE NonStop系統整合以及專案管理。 前言 網路的穩定性以及可用性對於交易主機而言極其重要,舉凡交易、操作管理、系統監控均需要經由網路進行,當主機網路介面或設備發生異常時,影響之重可想而知。 HPE NonStop Cluster I/O Protocols (CIP) 子系統提供故障轉移(Failover)的功能,允許將與故障介面關聯的資源切換到另外一個接口,以便它們仍然可供外部網路使用。 當一個或多個Ethernet介面或整台CLIM發生故障時,CIP可以透過在同一台CLIM上的多個實體介面共用這些資源或遷移這些資源,來確保介面資源(例如:IP addresses、Routes、 Sockets and Tunnels)的可用性。或者到不同的CLIM上的另一個介面。 本期延續上期討論Failover-Pair的特性和優點以及Bonded、一般Failover-Pair及ATCP的比較。 Failover-Pair failover ( CLIM-to-CLIM ) without Connection Failover 介紹 一、概述: 兩台不同CLIM的兩個介面(Ethernet / Bonded)可以配置為 Failover-Pair以實現容錯能力。但是兩個介面不需要將彼此指定為 Failover-Pair,例如:可以將 CLIM1 的 eth1 配置 failover 到 CLIM2 的 eth1,但 CLIM2 的 eth1 可以不需要進行任何的 failover 配置。 配置為 Failover-Pair 的兩個介面必須屬於同一個 Provider。Failover-Pair 的介面應位於同一個 broadcast domain 中,如果交換器配置了 VLAN,則介面應位於同一個 VLAN 中。 二、造成Failover-Pair failover切換的因素:
  • CLIM硬體或軟體故障、NonStop Server與CLIM之間的ServerNet / Infiniband連線完全遺失)。
  • 網路介面卡(NIC)故障、驅動程式故障或Link Pulse遺失。
  • 執行 SCF SWITCH 指令進行failover切換。
三、Failover-Pair說明:
  • Failover-Pair必須配置在兩台不同的CLIM上,不可以配置在相同的CLIM。
  • 由於Failover-Pair是配置在不同台的CLIM上,因此當CLIM故障時,會進行failover切換至另一台CLIM上減少影響。
  • 由於Failover-Pair是配置在不同台的CLIM上,因此當CLIM進行維護更新時,可以執行指令手動進行failover切換至另一台CLIM上減少影響。
  • Failover-Pair為Active-Standby模式,平時由主要CLIM的網路埠進行傳送,當主要CLIM的網路埠故障或其連接的交換器異常或主要的CLIM故障時,則會進行failover切換至Backup的網路埠。
  • 進行failover切換時,所有的連線都會斷線,故failover切換完成後,所有使用該Failover-Pair的連線都要重新進行連線。
  • 因為進行 Failover 切換時會造成連線中斷,故所有使用該網路的服務都會受到影響,需要重新連線甚至重啟服務程式。
四、Failover-Pair failover架構示意圖:
Failover-Pair failover ( CLIM-to-CLIM ) with Connection Failover - Automatic TCP/IP Connection failover介紹 一、概述 Automatic TCP/IP Connection failover(ATCP)是Failover-Pair failover ( CLIM-to-CLIM ) 的功能增強,其引入了NonStop X上的TCP/IPv4連線自動故障復原的功能,使其當進行failover切換時不會造成連線中斷,不需重新連線,避免連線服務因為failover切換而造成影響。 二、造成Automatic TCP/IP Connection failover切換的因素
  • CLIM硬體或軟體故障、NonStop Server與CLIM之間的ServerNet / Infiniband連線完全遺失)。
  • 網路介面卡(NIC)故障、驅動程式故障或Link Pulse遺失。
  • 執行 SCF SWITCH 指令進行failover切換。
  • 由於發生自動故障轉移,使介面正在其backup CLIM上執行,當Home CLIM恢復正常運作觸發automatic restore而進行的failover切換。
三、Automatic TCP/IP Connection failover說明
  • Automatic TCP/IP Connection failover是在L19.08版本引入,但在L19.03以及之後的版本安裝相關的SPRs即可配置。
  • Automatic TCP/IP Connection failover必須配置在兩台不同的CLIM上,不可以配置在相同的CLIM。
  • 由於Automatic TCP/IP Connection failover是配置在不同台的CLIM上,因此當CLIM故障時,會進行failover切換至另一台CLIM上減少影響。
  • 由於Automatic TCP/IP Connection failover是配置在不同台的CLIM上,因此當CLIM進行維護更新時,可以執行指令手動進行failover切換至另一台CLIM上減少影響。
  • Automatic TCP/IP Connection failover為Active-Standby模式,平時由Home CLIM的網路埠進行傳送,當Home CLIM的網路埠故障或其連接的交換器異常或主要的CLIM故障時,則會進行failover切換至Backup CLIM的網路埠。
  • 進行failover切換時,所有的連線都會被保留,故failover切換完成後,所有使用該Automatic TCP/IP Connection failover的連線不須要再重新進行連線。
四、Restore wait time 當介面配置為自動恢復模式時,為避免發生primary與backup介面之間因網路或設定不穩定而造成快速振盪,可以設定Restore wait time來確保主介面在設定的間時內持續保持正常運作才會進行自動復原。
  • 當Home interface在下列條件下,並持續狀態在Restore wait time的時間時,會進行自動復原: (1)介面配置為自動恢復模式。 (2)由於發生自動故障轉移,使介面正在其backup CLIM上執行。 (3)Home CLIM在「STARTED」的狀態。 (4)Home Interface在「Ready」的狀態。/ (5)Home Interface有link pulse。
  • 如果在automatic restore timer啟動運作中進行修改Restore wait time的設定值,則會持續使用原設定值,直到觸發restore之後再使用新設定值。
五、Automatic TCP/IP Connection failover架構示意圖:
HPE NonStop CLIM failover特性優缺點比較
參考資料
  • HPE NonStop Cluster I/O Protocol (CIP) Failover White Paper
  • HPE NonStop Cluster I/O Protocols (CIP) Configuration and Management Manual
  • HPE Cluster I/O Protocols (CIP) Configuration and Management Manual Technical Update