凌群電腦THE SYSCOM GROUP

[技術分享]NonStop Server系統效能技術分析(下)

作者/馬先讓

作者簡歷 作者擁有26年IT服務資歷，現職凌群電腦NSK服務總處副總工程師，主要負責HPE Nonstop 證券、期貨、銀行客戶交易系統維運服務，專長為HPE NonStop系統整合。前言 HPE NonStop Server系統效能分析包含了很多面向，上一期文章針對系統效能分析MEASURE工具操作做了說明，本期文章會針對如何快速分析MEASURE DATA的方式做詳細說明。 自動分析MEASURE DATA 一、凌群提供用ENFORM撰寫MEASURE分析REPORT，程式清單如下：

WCPU：分析CPU BUSY
WIPU：分析每顆CPU內IPU BUSY
WDISC：分析DISC BUSY
WDISCACH：分析DISK CACHE
WDSCOPEN：分析DISK內檔案的READ/WRITE
WPROCESS：分析PROCESS BUSY
ZDFWAIT：分析檔案LOCKWAIT
WOPENX：分析檔案READ/WRITE 是那些PROCESSES 造成

二、其他相關執行的OBEYFILE如下：

執行自動分析報表的程序
MEASOBY2：將CPU、DISC、PROCESS、DISCOPEN產生成CODE 170的MEASURE DATA FILE，供ENFORM分析。
MEASOBY4：將CPU用LISTALL CPU *方式產生每個時間點的值到MEASURE DATA FILE，讓ENFORM報表程式-WIPU分析每個時間點CPU/IPU BUSY值。
ENFOB2：執行ENFORM報表程式。
MEASSTRT：收集MEASURE OBEYFILE
MEASSTOP：停止收集MEASURE OBEYFILE

三、建立自動分析MEASURE環境

到一個新的目錄，複製系統$SYSTEM.SYSnn.MEASDDLS到該目錄，執行DDL/IN MEASDDLS/DICT !

《圖一》

執行完DDL後就會在該目錄建立MEASURE的DICTIONARY，如下

《圖二》

將報表程式放入該目錄內，以及其他分析報表所需的檔案

《圖三》

四、收集MEASURE-MEASSTRT/MEASSTOP

執行收集MEASURE程序
等待收集一段時間後，再執行：RUN MEASSTOP MDATA 即完成收集該時間的MEASURE會產生CODE 175的MDATA檔案

《圖四》

五、執行分析MEASURE REPORT - A

執行分析MEASURE OBEYFIL RUN A MDATA 執行完後，它會將REPORT 檔案放到OUT的目錄內。

《圖五》
執行完後，它會將REPORT 檔案放到OUT的目錄內。

《圖六》
將這些檔案下載至PC查看。

六、分析CPU REPORT- WCPU

CPU REPORT是分析系統CPU上的負載是否平均

《圖七》
Pct Busy：這段時間內CPU的BUSY % Swaps：這段時間內CPU的Swaps Cpu Qlen：這段時間內CPU的Qlen

七、分析DISC REPORT- WDISC

DISC REPORT是分析系統上的DISK是否有DISK BUSY過高(超過15) 若有的話，要再分析該DISK的WOPEN報表，找出負載過重的檔案。

《圖八》
BUSY：該值為DISK的DEVICE-QBUSY-TIME，需低於15%

八、分析CACHE REPORT- WDISCACH

CACHE REPORT是分析系統上的DISK CACHE是否足夠

《圖九》
%CACHE HIT：DISC CACHE READ HIT 要大於95%

九、分析PROC REPORT- WPROCESS

PROC REPORT 是分析系統上的PROCESS BUSY

《圖十》
Busy Perc：Process Busy % 註：有些PROCESS 的執行時間極短，Busy 極高，所以BUSY值需要加乘時間因素才能算得真正PROCESS BUSY. EXCEL公式： =(((HOUR(C2)*60*60+MINUTE(C2)*60+SECOND(C2))/1800)*H2)/2

《圖十一》
說明： (1)將PROC的檔案用EXCEL匯入 (2)產生C欄位(值為B-A;計算實際的秒數)為TOTAL TIME，並將欄位A-C格式改成如下：

《圖十二》
(3)產生I欄位，設定公式如下： ((process 花費的總時間/收集MEASURE 總秒數)* Proc Busy)/CPU核心數) =(((HOUR(C2)*60*60+MINUTE(C2)*60+SECOND(C2))/1800)*H2)/2 其中1800是該MEASURE收集的總秒數，最後一個2是因為該系統CPU 是雙核心要除以2.

十、分析WOPEN REPORT- WDSCOPEN WOPEN REPORT 是分析DISK上檔案的負載(READs/WRITEs)和Block Splits次數。

《圖十三》

DISC READS：檔案READ的次數 DISC WRITES：檔案WRITE的次數 READ HITS：檔案在DISK CACHE中READ的次數 WRITE HITS：檔案在DISK CACHE 中WRITE的次數 BLOCK SPLITES：檔案在WRITE時，發生BLOCK SPLITES次數 十一、分析WAIT REPORT- ZDFWAIT

WAIT REPORT 是分析有發生LOCKWAIT的檔案和PROCESS關係

《圖十四》
OCKWAIT-TIME：檔案LOCKWAIT TIME(毫秒ms)，若發現有檔案的LOCKWAIT TIME值很高，需請AP人員確認程式對該檔的I/O是否能改善。

十二、分析OPENX REPORT- WOPENX

OPENX REPORT是分析檔案實際是被那些PROCESS 做READ/WRITE的次數，更能確認檔案主要是被那支程式做I/O

《圖十五》
Disc Read：檔案被Read的次數 Disc Write：檔案被Write的次數註：每次MEASURE要分析檔案與PROCESS的關係的檔案不同，所以當要分析的檔案不同時，要先修改WOPENX 報表程式的內容，將要分析的檔案放到報表程式內，並重新執行ENFORM程序。

《圖十六》

如何降低TSMSGIP負載 TSMSGIP(Tnet Services Message System Interrupt Process)，是系統用來處理message system interrupt，當兩個process 在不同CPU互相交換資料或訊息時，兩顆CPU上的TSMSGIP Process就會處理這些資訊，但若當兩個process 在同一個CPU互相交換資料或訊息時，則TSMSGIP就不會花費CPU資源。若降低TSMSGIP負載，就能將省下來的CPU資源讓交易程式使用，所以在透過MEASURE分析系統效能時，考量將Process和它主要I/O檔案的DISK放在同一顆CPU，或是將互相關聯的Process放在同一個CPU上，就能降低TSMSGIP對CPU資源的耗損。 分析系統效能程序一、收集MEASURE 二、先手動分析該時段MEASURE，確認系統最忙碌的時間點 程序如下：

LIST CPU *
ADD PLOT CPU-BUSY-TIME
LIST PLOT

三、調整measoby2和measoby4內容，加上要分析的時間點 + LIST CPU * , FROM 9：00, TO 10：00 + LIST DISC $* , FROM 9：00, TO 10：00 + LIST PROCESS * , FROM 9：00, TO 10：00 + LIST DISCOPEN * , FROM 9：00, TO 10：00LIST PLOT 四、執行自動分析measure程序A Run A MDATA -- MDATA為收集的MEASURE DATA 五、會產生八個MEASURE ENFORM REPORT CPU、CACHE、DISC、IPU、PROC、WAIT、WOPEN、OPENX 六、將IPU REPORT 匯至EXCEL，可產生該時段CPU BUSY的曲線圖 七、檢查CPU REPORT 確認CPU BUSY 是否負載平均.若沒有，就要分析PROC REPORT，確認該顆CPU上的PROCESS 負載較重的PROCESS是什麼，若是DISK PROCESS就要再分析WOPEN REPORT，確認該顆DISK上負載較重的檔案是那些，將它們分散到其他較不忙的DISK上。若是一般PROCESS，就可以進行CPU間PROCESS的調配，以達成系統的CPU負載平均。 八、檢查DISC REPORT 檢查是否有DISK的BUSY過高(大於15)，若有的話，分析WOPEN REPORT，確認該顆DISK上負載較重的檔案是那些，將它們分散到其他較不忙的DISK上。 九、檢查CACHE REPORT 確認DISK CACHE的READ HIT 都在95%以上 十、檢查WAIT REPORT 確認是否有檔案LOCKWAIT時間過高.若有檔案的LOCKWAIT 時間明顯過高，將該檔案名放到WOPENX內，重新執行ENFORM/IN WOPENX/產生OPENX的REPORT，確認該檔案是被那些程式做I/O (READ/WRITE).再交由AP人員分析程式行為是否有改善方式。 十一、手動檢查有沒有PROCESS RECV-QTIME過高 若值為2位數，就要分析該程式行為是否正常。指令： LIST PROCESS *，BY RECV-QTIME，FORMAT BRIEF 十二、調整檔案位置讓DISK的負載分配平均，調整PROCESS分配 讓CPU負載平均，即完成系統效能調校。 十三、若系統資源接近滿載時，就要考量降低TSMSGIP的BUSY 分析方式如下： A.分析WOPEN REPORT，找出負載最重的檔案。 B.將這些檔案加入WOPENX的程式內，重新產生OPENX的REPORT。 C.找出這些檔案最主要被那個程式所OPEN.交叉比對PROC REPORT。 D.將這些負載過重的檔案DISK的CPU調配和主要程式的PROCESS在同一顆CPU，就能降低兩顆CPU上的TSMSGIP的BUSY。 參考資料 1.Performance Analysis and Tuning for NonStop Systems 2.Measure Users Guide 3.Measure Reference Manual