IBM高性能計算機系統一次重大故障分析

時間:2022-07-15 05:17:00

導語:IBM高性能計算機系統一次重大故障分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

IBM高性能計算機系統一次重大故障分析

摘要ibm高性能計算機系統承擔著中國氣象局主要氣象氣候業務科研模式運行,整個系統的數據交換網絡是通過HPS(HighPerformanceswitch)來實現的。2006年9月21日,IBM高性能計算機系統的HPS網絡發生故障,導致了科研分區不能使用,但沒有影響業務模式系統。文章主要介紹了這次故障現象和解決辦法,分析了故障發生的原因,并通過對故障的分析總結,探討了目前存在的問題,以及以后的一些工作計劃和建議。

關鍵詞故障解決HPSIBM高性能計算機

引言

IBM高性能計算機系統承擔中國氣象局主要的天氣氣候業務科研模式運行,系統在2004年末安裝以來,運行一直比較平穩。在整個系統中,數據交換是通過IBMHPS(HighPerformanceSwitch)網絡實現的,通過SWITCH網絡為用戶的并行作業提供通信。如果SWITCH網絡出現問題,就會影響模式的運行效率,甚至可以導致整個系統不能使用。在2006年9月21日,科研分區的SWITCH網絡故障,導致了整個科研分區的癱瘓,9月24日故障恢復;此次故障對數值預報系統和動力氣候模式預測系統的業務模式沒有影響,只是涉及了科研分區的用戶和作業。

1故障基本情況

1.1故障現象

2006年9月21日,科研分區的系統性能下降,用戶作業的運算速度比較慢,檢查發現HPS(HighPerformanceSwitch)[1]網絡的通信狀態大面積出現異常,影響了GPFS(GeneralParallelFileSystem)[2]數據文件系統和作業管理軟件LDLEVEL的正常運行,導致用戶無法使用數據空間和正常提交用戶作業,最終導致了用戶無法使用科研分區;在SWITCH網絡通信正常后,GPFS文件系統中的有些文件不能正常訪問。

1.2處理過程

在故障發生后,為了確保不影響業務,論文對系統上運行的業務模式分析并做應急處理。系統承擔的業務模式包括數值預報業務模式系統和動力氣候模式系統,這些業務模式都運行在業務分區,但是動力氣候模式系統的用戶空間掛接在科研分區的服務節點上,為了避免維護科研分區時影響業務,緊急切換HACMP(HighAvailableClusterMulti—Processing),使文件系統掛接在業務分區。

在確保業務可以穩定運行后,由于當時用戶已無法使用科研分區,因此首先申請對科研分區進行停機維護,然后分析并解決故障,處理過程如下。

(1)分析HPS網絡通信數據,發現F45一S11和F46一S07的兩塊主板上的芯片內部通信不正常,決定更換這兩塊主板;但由于備件新損的原因,只有一塊主板可用,只更換了F46一S07SWITCH的主板。

(2)在重新加電啟動完畢后,仍有大量的HPS網絡不能通信,導致GPFS不能穩定工作,用戶無法正常提交作業。

(3)用SWITCH管理界面檢查SWITCH狀態時,顯示大量節點存在光纖卡故障的報錯,但光纖卡的狀態指示燈顯示正常,更換了5塊光纖卡進行檢測,沒有作用,故排除了大批量光纖卡故障的可能。

(4)收集SWITCH的SNAP數據傳給美國實驗室,對數據進行分析;經過數據的多次收集傳遞,美國實驗室SWITCH產品專家對底層數據進行分析后,建議對F20、F21、F22、F24、F28、F30、F34、F36、F38、F45、F46、F47、F48、F49、F50機柜進行電源微碼刷新,刷新為統一的26A6版本后,SWITCH網絡恢復正常。

(5)系統啟動后,對科研分區進行檢查,發現不能正常訪問GPFS文件系統,3個文件系統均報I/O讀的錯誤,但可以正常寫入數據;fsl可以用mmfsck命令進行修復,但fs2和fs3均各有一個NsD(Net—workSharedDisk)的狀態為“down”狀態,然后手工啟動GPFS文件系統,整個系統恢復正常。

2故障原因分析

2.1控制信號傳輸過程

從圖1可見,IBM高性能計算機系統是通過硬件控制終端HMC(HardwareManagementConsole)對主機和SWITCH的硬件進行控制,通過HMC上的SNM(SWITCHNetworkManager)軟件管理HPS,在HMC上啟動FNMD(FederationNetworkManagerDaemon)進程,實現對HPS網絡的配置、初始化、監視、控制、恢復、分析和診斷。此功能與節點是否安裝操作系統無關,因為這些指令直接由HMC發起,控制指令都是通過電源傳輸的,只要電源正常,就會響應執行,SWITCH的拓撲結構是在電源啟動的過程中通過自檢獲得的。

每個HMC系統有一個RS232串口連接CSP(CommonServiceProcessor)[2],畢業論文實現對主機的控制和管理,如開機、關機、關閉系統、重新啟動等;有兩個RS422串口分別連接節點和SWITCH機柜的兩個BPA(BulkPowerAssembly)電源,實現對BPA的監視和firmware管理。所有的HPS都是通過BPA提供電源,對于每一個SWITCH,通過HMC將信號發送給BPA,再通過BPA將控制信息通過SWITCH的DCA(DistributedConverterAssembly)電源傳送給SWITCH,來實現對SWITCH的管理。

2.2SWITCH初始化實現的功能

在啟動SWITCH之前,首先要確保HMC已經正常啟動;在SWITCH機柜加電后,由SSP(SWITCHServiceProcessor)控制SWITCH的加電過程,在每一個SWITCH芯片的寄存器中記錄本地以及相鄰芯片的機柜號、端口號等信息。

在節點機柜加電后,每個SNI芯片寄存器中保存自己的機柜號和GX-BUS信息,并將這些信息傳輸給相鄰的SNI芯片寄存器。

由HMC節點啟動FNM進程,對所有的硬件控制器初始化,配置FNM網絡;網絡配置好以后對FNM初始化,FNM將與每個激活的SWITCH和SNI網絡部件通信;將FRAME、CHIP、PORT、ROUTE、SWITCH等信息都保存在寄存器中,節點轉入LPAR狀態后將信息保存在內存中,SWITCH初始化完畢。

2.3故障原因分析

在2006年6月到9月期問,科研分區共更換了7塊BPA機柜電源、8塊SWITCHDCA電源、8塊p655DCA節點電源。

由于IBM高性能計算機系統的有些電源模塊被更換,并且有些備件號發生了變化,雖然新備件可以實現對原備件的替代功能,但是新舊電源備件的微碼版本部分存在不一致;而SWITCH的控制信息是通過HMC—BPA—DCA進行傳送,電源相關部件微碼版本的不一致影響了信息的正常傳送,進而影響SWITCH的網絡初始化,不能得到正確的網絡拓撲結構,導致不能建立正常的SwITCH通路;而通過刷新一次機柜電源BPA同版本微碼,使電源模塊上的通信進程狀態重新初始化(歸零操作),清除了電源模塊上的錯誤通信信息記錄,可以將控制信息正確傳送,重新建立了正確的網絡通路。

GPFS文件系統不能正常讀寫主要是由于SWITCH網絡通信不穩定,GPFS的通信頻繁發生中斷,所以GPFS的文件系統也會頻繁異常上線或離線(mount或umount狀態),使GPFS文件系統控制的有些硬盤上的NSD(NetworkSharedDisk)控制信息不一致,GPFS為了保證數據的安全性,系統自動對此NSD進行了隔離操作。

3故障事件的分析和啟發

從這次發生的故障情況來看,由于在系統本身設計和日常維護的過程中考慮了高可靠性和對于用戶數據的一致性管理,因此在科研分區出現問題的情況下,并沒有影響業務作業的正常運行,這是對系統高可靠性的一次檢驗;但同時通過這次故障事件,也發現了我們的許多不足,并且也為日常維護提供了一個經驗和教訓。

3.1系統可靠性驗證

由于在系統設計上考慮了用戶文件系統高可用性的設計以及全局的用戶環境一致性,職稱論文同時在日常維護工作中對用戶文件系統都做了備份,因此對業務用戶沒有造成影響。

3.2系統本身的問題

SWITCH設備故障率比較高:從系統投入運行以來,SWITCH設備的故障率就比較高。2006年5月1日到10月31日期問,科研分區就出現了39次SWITCH硬件故障,其中光纖卡故障22次,銅卡故障6次,主板故障1次、電源故障10次;業務分區有17次SWITCH硬件故障,其中光纖卡故障8次,電源故障9次。

故障診斷定位難:在對SWITCH設備維護時,光纖卡和銅卡的故障診斷相對容易,故障現象明顯,有冗余連接,一般不影響系統和用戶的正常使用;而SWITCH背板故障及電源微碼不一致等故障,則不容易定位具體的故障點,對系統的影響也比較大。

3.3日常維護及管理問題

日常維護不夠深入:在日常的維護過程中,主要還是停留在處理現象明顯的軟硬件故障,并沒有對系統的一些潛在故障進行分析研究,而且對系統了解不夠深入,在出現大的故障時不知如何判斷處理。

管理流程不完善:從本次故障來看,備件不能滿足在重大情況下的處理要求;廠家技術支持不暢通,響應速度慢,這都直接延長了故障恢復時問。

4后續工作和建議

此次故障發生后,陸續完成和制定了一些工作計劃。

(1)完成了業務分區電源微碼的檢查。察看了業務分區SWITCH的微碼版本,發現也存在需要重新安裝的警告提示,但是由于報錯的機柜比較少,并沒有對系統造成影響,目前已經完成對業務分區電源微碼的統一刷新。

(2)制定了IBM高性能計算機系統業務應急備份方案。當遇到緊急情況時,能夠快速評估當前狀況并進行處理。

(3)完成了系統存儲資源的擴充。擴大了目前用戶的存儲資源,并滿足了業務應用系統備份的資源需求。

(4)完成了HPGS系統的微碼升級。2007年4月已經將整個系統HPS的ServicePack版本級別升級到21。

(5)加強管理。督促廠家人員完善技術緊急支持的響應速度和流程,保證技術支持的暢通;同時要確保備件的充足可用。

(6)加強維護手段和交流。在日常維護中,工作總結不僅是滿足于簡單的問題解決,需要深入分析診斷,找到問題的真正原因,避免潛在的隱患故障;同時要多通過學習以及技術交流,加深對全系統的了解,不斷提高維護水平,提高自己的故障解決能力。

5結束語

此次故障雖然沒有對我們的業務造成影響,但是通過此次故障情況,我們看到了我們還存在的許多不足,需要我們在以后的工作中加以改進。通過不斷地分析和總結,維護好我們的系統,保持系統高效穩定的運行。

參考文獻

[1]IBM,Inc.AnIntroductiontotheNewIBMF.serverpS~''''ie8HighPerformanceSWITCH[EB/OL].http://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/SG246978.htm1.

[2]IBM,Inc.GeneralParallelFileSystemAdministrationandPro.grammingReference[EB/OL].http://publib.boulder.ibm.comAnfocenter/dresetr/vxrxAndex.jsp?topic=/corn.ibm.clus—ter.gpfs.doc/gpfsbooks.htm1.