主機監控系統在中型銀行的實踐

時間:2022-08-18 09:31:14

導語:主機監控系統在中型銀行的實踐一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

主機監控系統在中型銀行的實踐

摘要:本文首選介紹了IBM大型主機和IBMTivoli系列產品,然后以南方某中型銀行為例,通過對Tivoli相關產品進行整合利用,探索并建設了一套包含告警收集與豐富、事件生成與處理、性能與可用性基線管理、大屏展示等功能的主機監控系統。利用主機監控系統,南方某中型銀行完善了主機資源性能監控,實現了IT運維管理與業務發展的融合,提高了數據中心運維自動化管理水平。

關鍵詞:銀行;大型機;Tivoli;監控

一、相關技術概述

(一)IBM大型主機

1964年,IBM研制出第一代商用大型計算機服務器,經過50多年的不斷發展,其穩定性和安全性在所有計算機系統中首屈一指。大型主機擅長處理海量的并發任務,穩定性超過其他類型的服務器,I/O能力強,因此特別適合運行銀行的核心系統。從20世紀80年代開始,中國的國有銀行開始使用IBM大型主機。目前,國有五大行(工商、農行、中行、建行、交行)和部分銀行類金融機構(江蘇農信、四川農信)的核心系統運行在大型主機平臺上。Z/OS,CICS,DB2分別是大型主機上專用的操作系統、交易中間件和數據庫軟件。

(二)IBMTivoli產品

Tivoli是IBM為大中型企業專門設計的一套完善的產品家族,擁有完善的產品線,可用于管理網絡和計算機的各種產品,為各種IT系統和平臺提供管理功能。與監控相關的Tivoli系列軟件包括以下幾種。1.Omegamon。Omegamon對大型機的Z/OS操作系統、CICS中間件、DB2數據庫等子系統進行性能監測和報表分析,可實時查看交易的運行情況。2.Monitoring。Monitoring(簡稱ITM)通過程序自動監視重要系統資源,檢測運行故障和潛在的問題,同時自動觸發對事件的操作。3.OMNIbus。OMNIbus功能是將各子系統和監控管理平臺收集到信息進行匯總、判斷、關聯、壓縮、處理等操作,再將其發送給監控人員和事件處理人員。4.WebTop。WebTop是Tivoli用于給用戶提供Web視圖的軟件模塊,可以根據用戶需求進行定制,通過一張監控視圖就可以實時了解所有相關資源當前的狀態和變化,并且可以直接查看事件的具體信息和性能等詳細指標。5.Impact。Impact是用來進行事件豐富的工具模塊,可將告警事件與外部數據庫中的信息進行比對,將事件相關的外部信息填充至告警信息中,從而使維護人員準確把握某一事件的真正原因及可能造成的后果。

二、需求分析

由于銀行的核心系統承載了所有重要業務的記賬功能,因此實現對大型主機運行狀態的實時監控至關重要。以南方某中型銀行為例。該銀行核心系統運行在IBM大型主機上,希望通過一個主機監控系統對核心系統所有指標進行全方位實時監控,并幫助技術人員多層次、多角度地了解主機系統的運行狀況、趨勢走向。經需求分析,系統主要操作人員涉及監控平臺管理員、主機系統及數據庫維護人員、監控平臺操作員、ECC操作員,最終確定的系統總體用例如圖1所示。圖1 系統總體用例集中監控系統主要包括系統管理、事件管理、性能管理、報表管理、可用性管理、統一門戶等用例,每個用例都有不同的功能。下文將以事件管理為例進行詳細介紹。事件管理主要實現監控系統管理員、ECC操作員、監控平臺操作員對告警事件的配置、處置、轉事件單等功能。具體需要實現的功能有以下幾種:重復告警過濾功能,通過設定濾除某些不重要的事件,避免事件風暴的產生,減輕技術人員的處理工作量;告警關聯功能,通過設定特定相關事件的關聯性來幫助技術人員快速定位并解決問題;告警自動恢復功能,通過對可自動處理的異常告警制定自動化恢復策略,以縮短事件處理時間,規避人為失誤風險;告警分類功能,根據事件的影響程度、類型、來源對事件進行分類;告警豐富功能,將事件與其中文解釋建立關聯,以及將事件與對應的參考應急處理資料建立關聯,為技術人員提供參考,提高應急處理的效率;告警監控屏蔽功能,提供靈活的配置界面,實現在特殊條件(如正常停機)下的事件監控動態屏蔽;告警嚴重等級自動升級功能,實現事件響應超長條件下的嚴重等級自動升級及相應通知對象提升;事件通知功能,通過短信、電郵告警通知,使事件得到準確的響應和處理。監控系統管理員制定監控管理配置表,部門主管提出監控目標和具體指標的初步需求,監控管理員對需求進行整理,ECC操作員提出視圖和工單轉發需求,監控平臺操作員提出處理需求,部門主管提供告警接收人的信息,監控系統管理員對所有需求進行匯總,由主管審批后,即可按照需求對事件進行處理。事件管理業務流程如圖2所示。

三、設計與實現

(一)系統拓撲設計

主機監控系統主要集中部署在該銀行內網,可以通過銀行內部網絡訪問,也可以通過互聯網訪問。內網環境主要部署事件告警服務器、ITM監控服務器、可用性管理服務器、報表服務器、門戶服務器、認證服務器以及數據庫服務器。同時,事件告警服務器與短信服務平臺、流程平臺進行網絡連通。所有服務器均采用負載均衡的高可用方式進行部署。系統拓撲如圖3所示.

(二)總體架構設計

本系統主要包括管理資源層、管理工具層、管理分析層、統一展現層,系統架構如圖4所示。1.主機管理資源層。即被監控對象層,包括主機Omegamon監控對象的操作系統Z/OS、數據庫DB2、中間件CICS等。2.管理工具層。即對管理資源層進行監控所需要的所有工具軟件,包括Omegamon主機實時監控工具、RMFIII主機性能監控工具、NetviewE/AS主機事件監控工具、REXX自開發主機健康檢查工具。3.管理分析層。根據管理工具層所提供的監控數據,按照數據的來源以及屬性分別送入不同的分析模塊中進行處理。告警分析和集中處理模塊完成對告警信息的收集、過濾、關聯、壓縮和豐富;可用性管理模塊提取主機端運行狀態數據,進行主機健康狀態的處理和判斷。4.統一展現層。負責統一門戶的展示管理,將下層管理分析層準備好的展示數據進行統一展示管理。同時,為管理員提供專門的維護界面以對整個監控系統進行客戶化和靈活的配置。

(三)功能模塊實現

在功能模塊的實現上,本文以告警分析與集中處理模塊為例進行詳細說明。告警分析與集中處理模塊通過告警接收器接收來自各類資源管理工具產生的告警事件。告警接收器提供對不同事件源的接收接口,用于接收主機端各類管理工具產生的異常事件告警,之后針對不同類型來源的告警事件采用不同的預處理規則進行處理,之后進入綜合處理。告警綜合處理功能包括豐富告警信息、關聯告警和分析告警根原因等,而完成這些功能將可能通過綜合數據服務與交互平臺來訪問其他的各類數據源。這些行為包括根據配置庫的信息進行告警豐富、根據配置庫關聯關系進行告警信息的關聯、讀取知識庫信息獲取告警的解決方案等,并且通過數據交互接口實現告警事件與業務服務管理平臺的關聯。告警分析與集中處理模塊的詳細功能架構如圖5所示。

四、功能測試

主機監控系統是基于B/S結構實現的,所有服務器均部署在x86虛擬化環境中,客戶端用戶使用瀏覽器訪問服務器。測試服務器的硬件配置為IntelXeonE5-2650v4CPU4核、內存32G、磁盤800G,操作系統為Suse12,應用部署的中間件為WebSphere8.0,數據庫為DB2V10。在進行測試用例設計時,該銀行共編寫了32個測試用例,覆蓋了所有的功能需求,并于2020年5月至6月順利執行通過了全部的測試用例,測試結果見表1所列。以大屏展示功能測試用例為例,測試結果展示的效果如圖6所示。

五、結束語

本文以南方某中型銀行為例,在前期進行需求分析的基礎上,對市場上現有的Tivoli產品進行整合利用,并設計出了一套功能豐富的主機監控系統。利用主機監控系統,該銀行不僅可以對IBM大型主機的操作系統、中間件、數據庫等基礎軟件的技術指標進行實時監控和異常告警,而且可以對運行其上的銀行核心系統進行每秒交易量、總交易量合計、交易響應時間等業務指標的實時集中展示,大大提高了銀行系統管理員的工作效率。

參考文獻:

[1]楊光.大型機平臺個人貸款業務系統的設計與實現[D].成都:電子科技大學,2013.

[2]曾光.基于IBM主機的銀行系統解決方案[D].上海:同濟大學,2008.

[3]袁春風,王帥.大學計算機專業教育應重視“系統觀”培養[J].中國大學教學,2013(12):41-46.

[4]薛寶明,苑華偉.主機在中型銀行的應用實例、挑戰與解決方案[J].金融科技時代,2020(4):77-83.

[5]劉凱強,呂遠陽.淺談商業銀行系統高可用技術架構設計與實現[J].信息技術與信息化,2017(9):57-59.

[6]黃強.IT集中監控系統告警關聯分析模型研究[J].科技尚品,2017(5):1-4.

作者:苑華偉 薛寶明 單位:江蘇省農村信用社聯合社