略過巡覽連結首頁 > 產品與服務 > 技術分享

技術分享

[技術分享] HPE NonStop性能分析與調校

作者/郭哲銘
作者簡歷

作者現職凌群電腦NSK服務總處系統工程師,主要負責HPE NonStop證券、期貨、銀行客戶交易系統維運服務、軟體產品整合服務,專長為HPE NonStop系統整合。

前言

HPE NonStop Servers是一款高可用性和可靠性為特點的伺服器,廣泛應用於金融、銀行、電信和其他需要處理大量事務和即時交易的關鍵業務環境。效能分析和調校在HPE NonStop Servers的管理中具有重要作用,目標是最大程度地提高系統的吞吐量、降低延遲,使其更好滿足用戶需求,並確保系統能夠有效地應對高負載和即時需求。


《圖一》


性能分析介紹

一、一般調校程序



《圖二》


  • 辨識效能不足(Identify Performance Shortfalls):首先找出Performance不足的部分,將不足的部分量化 (Response Times、Throughput),並確定SLA需要什麼?例如:正常情況下,95% 的交易在2秒內完成 ; 在月底,90% 的交易在2秒內完成 ; Batch在4小時內完成。(Service-Level Agreement ; 服務等級協定,是技術人員和管理層之間的協議)
  • Learn System:學習系統,繪製系統圖,方便識別出系統中可能存在的瓶頸和效能問題。
  • Learn Application:學習應用程序(AP),確定關鍵Processes和Files,以及其互動。
  • Measure System使用Measure或其他工具取得系統的詳細效能資料。
  • Identify Performance Problems:確認是否偵測到任何異常、瓶頸或配置不良的跡象。
  • Make Tuning Changes:盡量一次只更改一個部分。
  • Meet SLA:如果滿足SLA,就完成了。如果未滿足SLA,則重新Measure並繼續調整。

二、基本調校原理

HPE NonStop Servers Disk Subsystem是最常見的初始瓶頸,Response times廣泛變化通常是由系統最慢的設備 (硬碟) 引起,因此建議先最小化Disk的使用率,再來平衡CPU使用率。


《圖三》


許多SLA都是根據 ‘平均回應時間’ 指定,對許多用戶來說,一個經過良好調整的系統應該要如上方左側的窄曲線圖,平均回應時間較低且標準差也低,可說明系統中沒有重大的瓶頸,為較理想情況;反之右側的寬曲線圖,高平均回應時間、高標準差,因為其高度的可變性,表明存在主要瓶頸,是不理想情況,較長的反應時間意味著有較長的Queue,這時就需要對系統進行效能調校。

排隊理論(Queuing Theory)

一、Queuing理論


排隊理論是研究排隊系?行為的數學理論,它涉及到許多影響排隊系?性能的因素,HPE NonStop Servers上的Queue行為和排隊理論非常接近,Response time (Request的總時間) 取決於Service time和Queue time:
Response time = Queue time + Service time
Queue time也稱為Wait time – Request在排隊中等待,直到被服務的時間長度。
Service time – Request離開隊列後,在服務內執行的時間。

影響排隊理論的六個主要因素如下:
  • 到達模式:Request進入系統的方式和時間分佈,可以是隨機的、有規律的或其他模式。
  • 服務模式:系統如何處理請求,包括服務的時間和方式,這可以是隨機的、有規律的或其他模式。
  • 伺服器數量:系統中可用的伺服器或處理單位的數量。
  • 到達人口:可以進入系統的請求數量。
  • 排隊長度:系統中等待處理的請求數量。
  • 加入優先權:系統的事物或請求之間的優先順序。

將這些因素應用於特定的系統組態中,可以有不同的設定:
  • CPU in OLTP:Random/ Random/ 1/ Infinity/ Infinity/ Priority
  • CPU in Batch:Constant/ Constant/ 1/ Finite/ Infinity/ Priority
  • Disc in OLTP:Random/ Uniform/ 1/ Infinity/ Infinity/ Priority

二、隊列長度與使用率 (Queue Length Versus Utilization)


《圖四》


這是排隊理論中最基本的曲線和公式 (M/M/1的假設),到達模式和服務模式都是隨機 (M),並且遵循指數分布,這意味著請求到達和服務時間之間的間隔是隨機的,不受前一個到達或服務時間影響,並且只有一個服務設備提供服務,系統中不會有多個並行的服務通道,請求必須依次排隊等待被服務。

基於這些假設,M/M/1模型可以用來計算排隊理論的一些關鍵性能指標,任何設備的使用率和隊列長度之間的關係如上圖所述,當設備的使用率增加,隊列長度呈線性緩慢增加,隨著通過「曲線拐點」而隊列長度呈指數迅速增加,「曲線拐點」的使用率約為70%,所以使用率應該盡量保持在曲線拐點的左側,也就是不超過70%。

下方列出曲線所描繪的數學公式Q = U/(1-U):
  • U = 20% Q = 0.25
  • U = 40% Q = 0.67
  • U = 50% Q = 1.0
  • U = 60% Q = 1.5
  • U = 70% Q = 2.3
  • U = 80% Q = 4.0
  • U = 90% Q = 9.0
  • U = 99% Q = 99.0

三、相對反應時間與使用率 (Relative Response Time Versus Utilization)

《圖五》


這個公式的基本含意為,當系統的使用率 (U) 較低時,即系統中的服務通道較少被占用,相對反應時間 (RT) 會比較小,請求和作業通常不需要等待太久就可以被服務,圖中顯示服務設施的回應時間相對於其服務時間如何增加,X軸為使用率,Y軸是反應時間與服務時間的比率 (RT/ST),所以當曲線是服務時間高度的兩倍時,反應時間是服務時間的兩倍。

這個公式在效能分析和優化中經常被使用,可以幫助系統工程師了解系統在不同負載下的性能表現,並且可以根據系統的使用率來調整系統的配置和資源分配,以提高系統效能。
反應時間是兩個因素的函數,設施的服務時間及其目前的使用率水準:
‧服務時間取決於設施類型和請求的性質。
‧使用率是動態的,取決於目前的請求。

這個曲線是通用的,對所有服務設施都有效,一旦我們從相對反應時間轉向絕對反應時間,曲線就會根據服務設施的速度而變化。

下方列出曲線所描繪的數學公式RT = ST / (1-U):

  • U = 20% RT = 1.25 * service time
  • U = 40% RT = 1.67 * service time
  • U = 50% RT = 2.00 * service time
  • U = 60% RT = 2.50 * service time
  • U = 70% RT = 3.33 * service time
  • U = 80% RT = 5.00 * service time
  • U = 90% RT = 10.0 * service time
  • U = 99% RT = 100 * service time

四、實際反應時間與使用率 (Actual Response Time Versus Utilization)


《圖六》


這張圖表顯示實際設備的回應時間與使用率的關係 (下方是快速設備CPU、上面是慢速設備Disk)。

快速設備 (CPU),因性能較高,系統能夠更快地處理服務請求,減少了請求等待的時間,隨著使用率的增加,實際回應時間呈指數成長,但因為服務時間較短,在50% busy時,CPU的回應時間是其服務時間的兩倍,但由於服務時間很短,因此回應時間也很短。

慢速設備 (Disk),特別是在需要頻繁進行I/O的情況下,隨著使用率的增加,實際反應時間呈指數成長,這種成長又與長時間服務有關,在50% busy時,硬碟的回應時間是其服務時間的兩倍,這表示反應時間也很長。Disk反應時間的「曲線拐點」約在70%,在90% 的情況下回應時間是其服務時間的10倍,也意味著效能下降了10倍,這就是為什麼說Disk是NonStop中最常出現的初始瓶頸。

從這些理論中可以得知,快速設備的使用率可以達到或超過曲線的拐點,而對反應時間的影響很小。慢速設備的使用率必須維持在曲線拐點以下,以避免反應時間的嚴重損失。

參考資料
  • Measure Reference Manual
  • Performance Analysis and Tuning for NonStop Systems Student Guide

 

回上一頁