IT運維服務危機管理研究

時間:2022-01-16 02:46:34

導語:IT運維服務危機管理研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

IT運維服務危機管理研究

1危機管理的特點

(1)復雜性隨著知識產權事業的高速發展,專利信息化水平不斷提高,服務器設備、存儲、網絡交換機、數據庫、中間件等系統不斷增加,IT運維規模越來越大,在一定程度上增加了運維的復雜性,另外還涉及不同廠商、不同品牌等,IT環境結構龐大、復雜,各業務系統調用接口眾多,從而導致故障定位困難。(2)先兆性IT系統發生故障時,會有一定的先兆性,例如:設備硬件異響、內存、CPU使用率高、監控指標達到預警值等,需要運維人員根據經驗、能力敏銳察覺設備故障先兆表現,及時發現問題,快速定位,把問題解決在萌芽狀態。(3)突發性IT運維中,也會有一些突發性故障,例如機房停電、漏水、消防火警等,對于這類緊急情況的處理需要按照應急預案進行操作。需要運維人員沉著冷靜,正確應對。突發性故障如果不能及時響應,正確應對,造成的危害將是災難性的。這就要求必須提前制定相應的應急預案。

2危機主要表現

(1)服務臺故障報修量經過統計近幾年服務臺故障報修數量(包括桌面客戶端、業務系統、服務器、存儲、電話、網絡、動力環境):2013年8萬件,2014年9萬件,2015年突破9萬,2016年將近10萬。如圖1所示看出隨著設備使用年限的增長,已進入故障高發期。(2)機房動力環境機房動力環境包括空調、UPS、消防、門禁、新風機等,其中空調故障占87.5%,UPS故障占2.5%,外圍保障占10%。機房動力環境故障主要集中在空調故障,空調故障有可能導致機房高溫,造成服務器設備宕機,進而影響業務系統,空調故障危害性大,影響面廣,是機房動力環境需要重點關注的對象。(3)IT業務系統IT業務系統包括服務器、網絡、小機、安全設備、主機、數據庫、中間件、存儲等。根據IT工作的特點,可以將IT業務系統故障分為兩類:硬件和軟件。一種是服務器、網絡交換機等硬件設備故障,另一種是數據庫、中間件等軟件故障。IT業務系統故障主要集中在硬件故障,經過統計數據發現,硬件故障占85%,軟件故障占15%。其中硬件故障又細分為電源、硬盤、內存、其他幾類,分別占45%,35%,3%,17%。在硬件故障中,電源和硬盤為主要故障占80%。

3現有危機管理舉措

(1)應急預案根據各自業務特點制定了相應的應急預案,在危機發生時運維人員能夠做到有預案可依,正確應對,把危機帶來的危害降到最低。例如機房動環部分有停電應急預案、漏水應急預案、消防應急預案,IT系統部分有E系統應急預案、S系統應急預案、存儲應急預案、網絡應急預案等。另外,針對節假日期間,還制定了非工作時間重大事件處理流程,以方便值班人員在故障發生時,可以遵循相應的規則操作,解決問題。(2)建立聯動機制為了更好地應對IT運維服務危機,建立了聯動機制,危機發生時,適時啟動更好的解決問題。有些故障比較復雜,可能涉及多方面業務,例如網絡、存儲、應用等,需要協作共同定位排查問題,解決故障。針對這種情況,建立了總值班人制度,由總值班人進行統一溝通、協調、匯報。(3)危機恢復后及時總結當IT運維故障處理完畢后,及時對問題進行分析總結,找到事發原因,形成分析報告,為今后避免此類情況再發生打下基礎。

4危機管理對策改進

引用4R危機管理模型構建一個完整的危機管理架構進行支撐,構建信息中心IT運維服務危機管理體系,包括危機縮減、危機預備、危機反應、危機恢復4個方面。(1)危機縮減在4R模型中,危機縮減是整個危機管理過程的核心,對于組織來說,如果能夠將危機風險解決在萌芽狀態,有效阻止危機潛在的誘因繼續發展擴大,就能夠在危機全面形成前將其控制,把危機帶來的危害降到最低。危機縮減主要是未雨綢繆,進行預防,把相關工作布置在危機發生之前,危機縮減在危機管理中是關鍵的一環,該階段也是解決危機最有效果的。IT運維服務危機縮減管理主要包括進行風險評估、加強風險縮減。在信息中心日常IT運維中,應采取一系列措施,降低風險發生的機率,根據風險評估表,制定有效的應對方法,確保該風險能夠降低到組織可以接受的水平。(2)危機預備危機預備是危機管理過程的關鍵,針對各種危機情況,提前做好預防,在危機來臨時,可以進行主動的,有準備的應對,更好地消除危機。所以,在信息中心IT運維服務危機管理時,應重視預防,堅持預防為主,防治結合的原則。IT運維服務危機可以提前進行預防,不管人為因素或突發事件引起的危機,都可以提前制定應急預防,并進行定期演練,這樣在一定程度上對危機進行防范,最大程度控制危機,減輕危機對組織帶來的不利影響。IT運維服務危機預備管理包括4個方面:組建危機管理團隊、完善危機預警系統、強化危機管理預案、定期開展容災演練。(3)危機反應IT運維服務危機反應階段是指當危機發生后,危機管理團隊馬上進行評估,確定危機的級別及影響范圍、程度,根據相關應急預案進行處置,該階段是解決危機的重要環節,在IT運維服務危機反應階段應做到準確、快速、及時、有效,把危機帶給組織的沖擊降到最低,減輕損失。IT運維服務危機反應管理包括快速識別確認危機、統一權威信息、危機處理與消除危機。在反應管理中,運維人員應急處置能力至關重要,提高運維人員應急處置能力可以從兩方面入手。第一,在信息中心開展培訓活動中,加強對業務技能培訓的支持力度,通過培訓提高運維人員綜合業務素質水平。第二,加強容災演練,通過實戰積累經驗,提高運維人員的應急處置能力。(4)危機恢復IT運維服務危機結束后,需要對危機管理過程進行回顧、總結,發現問題,找出不足,對原有的應急預案進行完善、優化,為組織進一步提高打下堅實的基礎。IT運維服務危機的恢復管理包括危機恢復、化危機為機遇兩部分。信息中心IT運維服務危機恢復主要從以下幾個方面進行考慮,1)對更換下來的故障備件進行妥善處置,例如硬盤進行格式化處理,保證數據不外泄。2)加強與客戶的溝通,爭取其理解與支持。3)對危機處置效果進行評估,做好相關文檔記錄,對發現的問題不回避,不隱瞞。信息中心危機管理團隊通過分析總結后,審視IT運維服務危機管理的效果,找出問題并制定有效的措施進行改進。在危機縮減環節,對可能存在的風險進行識別,加強風險管控。在危機預備環節,對危機管理團隊的職責進一步界定,優化應急預案,對運維人員加強培訓和演練。在危機反應環節,通過總結,完善針對突發事件的響應流程、策略,提高危機管理團隊識別、處理危機的能力。另外,利用wiki開發一個危機知識庫,對危機處理過程、方法進行總結后按版塊進行分類加入知識庫,進行經驗積累,為日后危機處理提供依據。

參考文獻

[1]魏華.公共管理視角下的中國危機管理研究-現狀,趨勢和未來方向[J].才智,2016,(8):253.

[2]許雁容.巨變時代的危機管理[J].機器人產業,2016,(2):96-100.

[3][美]羅伯特•希斯.危機管理[M].王成,宋炳輝,金瑛.北京:中信出版社,2001:13.

[4]科索路咨詢.IT服務管理白皮書[M].科索路咨詢,2013:13.

[5][美]羅伯特•希斯.危機管理[M].王成,宋炳輝,金瑛.北京:中信出版社,2001.

[6]趙平.公共危機管理的理論與實踐研究[J].人民論壇,2013,(23):56-57.

[7]胡百精.危機傳播管理[M].北京:中國傳媒大學出版社,2005:8.

作者:于文奇 單位:中國專利信息中心