銀行科技服務規范化實踐
時間:2022-07-20 08:58:04
導語:銀行科技服務規范化實踐一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
科技服務標準化是信息化建設中重要的基礎環節,其發展從早期依靠科技人員的技術水平,到初步規范科技運維服務,再到利用現代化運維工具結合人、技術實現科技服務標準化。人民銀行烏魯木齊中心支行借鑒ITIL理論及最佳實踐,嘗試將IT運維監控平臺和科技服務流程相結合,在規范化、合規性要求的基礎上形成了一套覆蓋全行信息化業務的定量化、可控的科技管理體系。
一、解決方案和建設目標
一是改變以往“事后補救”為“事前防范”,從被動服務轉變為主動服務,采用信息化的手段管理,提高對業務的支持力度,把科技部門從“救火隊”的角色中解脫出來,成為“保健醫生”。二是對目前人民銀行使用的現代化支付系統、賬戶管理等重要應用系統進行分析,找出這些重要系統的風險點,部署相應的軟件對各重要應用系統的軟硬件、網絡運行情況進行實時監測,各監控軟件可以7×24小時工作,為應用系統提供忠實、可靠的異常狀態報警。三是提高科技服務的規范性和可靠性,工作目標和要求成為可檢驗的指標,大幅提升事前預防、事中記錄及事后追溯的能力。我們發現利用目前的自動化網絡管理系統(IT監控管理平臺)與人民銀行科技服務管理相適應的流程化工具(IT服務管理平臺)相結合可以達到預期目標,同時借鑒ITIL理論及最佳實踐,設計出我行IT運維綜合管理平臺的整體架構,如圖1所示。
二、服務標準化的基礎——IT監控管理平臺
IT監控管理平臺(以下簡稱監控平臺)由多個子系統組成,包括機房環境、軟硬件平臺、網站類業務、安全集成等,是一個全局統一的監控平臺,能夠在一套監控平臺上對以上系統進行有效監控。系統具有分類業務視圖、網絡拓撲實時監測,在線采集系統資源、機房環境數據采集及數據、報表分析、告警通知等功能。系統采用B/S與C/S相結合的架構,通過簡單網絡管理協議(SNMP)、程序(Agent)等多種方式實時采集生產環境中的各種網絡設備、服務器、應用系統、中間件、UPS、空調等運行數據,并通過SNMPTrap和Syslog信息集成第三方告警信息。監控平臺除了具有系統監控、閥值預警、多渠道報警等功能外,還具有一些自身特點。主要體現在以下幾方面。
1.監控平臺的B/S結構監控平臺在使用SNMP、Agent等傳統監控方式的基礎上,整合了服務器、系統軟件廠商的監控告警消息,機房環境監測的告警,以及存儲、網絡等資源的監控告警消息,形成多種消息通過統一告警平臺進行預警的目的。由于每個監控子系統都是由不同廠商使用不同結構、不同語言開發的產品,其接口和數據調用都有自己的原則,需要將眾多結構不一的監控系統和協議在統一的需求框架下整合起來。人民銀行烏魯木齊中心支行項目實施小組在經過大量技術論證后,以松耦合集成為原則,保持各系統底層架構不變,統一監控平臺的界面風格,統一的操作方法集成各類事件消息。操作人員可在任何一臺終端上通過瀏覽器對幾百臺設備的運行狀態進行監控和處理。
2.多層次的系統架構監控平臺從邏輯架構上劃分為采集層、數據層、應用層和表現層。采集層主要負責采集被監控系統的各類原始信息,包含性能數據、鏈路數據、故障數據等。數據層主要完成對采集來的各類資源數據進行預處理及標準化處理。應用層對監控數據完成進一步加工,提供完善的管理功能,包括:性能管理、告警管理、資源管理、報表管理、拓撲管理、安全管理等模塊。表現層是通過Web界面或Client界面將采集到的監控信息以可視化的形式展現出來,具有良好的人機交互性。
3.多種數據采集方式系統采用多種數據采集方式:一是支持SNMP輪詢的數據采集,SNMP協議支持V1、V2和V3版本。二是支持在被檢查設備上安裝Agent程序的采集方式。Agent方式能夠支持主流的Unix、Linux、Windows操作平臺,并且支持再擴充功能,即一個系統只需要安裝一個Agent,如被監控節點發生變更或增加,只需編寫相應的腳本導入Agent即可。
4.多種報警和預警方式告警平臺以事件接收服務器為核心,負責報警事件的接收、過濾、篩選、分析、標準化等工作。我們采用多種方式通知告警事件,包括短信通知、郵件通知、客戶端頁面通知、聲光通知等。系統管理員無論在監控室內還是外出辦公,均可及時收到并處理報警信息。同時,為避免中間節點故障產生連鎖告警事件而產生告警風暴,監控平臺還采用重復告警合并、告警壓制、事件關聯性分析等,有效控制告警風暴的產生,提高告警的有效性和準確性。
5.全面的統計分析報表功能監控平臺提供各種常用報表模板,如:當前嚴重告警統計分析;按用戶要求自定義的設備可用性分析報表;當前系統運行狀態、趨勢等多種報表。還能按用戶指定要求訂閱數據報表,發送到指定郵箱。這些報表的應用一方面可以及時掌控各種資源的運行情況,另一方面可以通過趨勢分析,為資源整合、優化和設備管理提供依據。
三、服務標準化的初步嘗試——流程化管理
將監控平臺所發現的事件與告警,自動與服務流程管理系統相結合,由監控平臺的事件告警處理中心將告警分類,將嚴重告警和主要告警自動生成工單,派發給相應的管理員進行處理,這樣即能夠及時解決故障,又能夠將故障的處理過程全面記錄。我們將全轄業務系統運行的各種事件按照ITIL的標準劃分為事件、故障、變更、、科技工作管理等幾類,分別對這幾類事件規定了相應的工作流程,在每個流程中制訂了相應的角色、分工,從而使各項工作標準化,對科技人員的工作績效實現量化考核。技術支持人員的每項工作以及對系統的維護改動都具有可追溯性,全面反映信息資產的生命周期狀態,為今后的審計和績效考核提供服務。同時,將這些運維經驗積累并建立“知識庫”,在全轄范圍內實現知識共享。每位業務、技術人員將遇到的問題和解決方法、經驗等形成文字資料后可放到該平臺上,全疆業務和運維人員在遇到類似問題時就可以得到實時幫助。
四、科技服務標準化初見成效
首先,該平臺的使用大大降低了科技人員檢查巡檢各信息系統及基礎設施所耗費的精力和時間,科技人員只需要登錄到監控服務器就可以隨時了解各信息系統及基礎設施狀況。例如,各地市中支巡檢時間從以往的2小時減少為現在的15~20分鐘,極大提高了工作效率,有效緩解了大量的維護任務與有限的人力資源之間的矛盾。其次,告警準確,預警及時,變被動防護為主要預防,有效降低系統故障率。平臺除了一般故障告警外,還能夠在統一的界面下對網絡設備、各重要應用系統的主機、數據庫、中間件設置告警閥值。如CPU和內存的使用率,文件系統和數據庫日志空間的使用率,重新啟動指定的應用程序進程等等。有效控制風險發生,使管理員能很快地定位系統故障,大大降低故障響應時間,同時盡早發現系統異常,在系統尚未發生故障時即對系統進行維護和干預。據統計,監控平臺上線后,超過95%的系統異常均通過告警提示,由管理員及時介入干預而未形成故障。第三,通過提供的報表和圖表,便于運維人員評估運行壓力,提出解決方案,提高設備利用率,并通過趨勢分析對系統資源優化,設備配備升級提供科學合理的依據。第四,促進了整個運維管理的制度化、標準化發展。從發現告警、通知機制、到達現場時間、故障診斷、處理時限、應急啟動到設備健康檢查、資源使用情況等,都做到有章可循、責任分明,并有相關處理記錄,使運維管理體系更加規范化,實現科技服務標準化跨越。
- 上一篇:網絡時代黨組織創建經驗交流
- 下一篇:科技信息資源平臺創建