IT基礎(chǔ)設(shè)施運維管理規(guī)范
《IT基礎(chǔ)設(shè)施運維管理規(guī)范》由會員分享,可在線閱讀,更多相關(guān)《IT基礎(chǔ)設(shè)施運維管理規(guī)范(12頁珍藏版)》請在裝配圖網(wǎng)上搜索。
IT基礎(chǔ)設(shè)施運維管理規(guī)范 文件編號: 版本號: 一、 總則 為了規(guī)范本部門的運維管理工作,使得相關(guān)工作具有持續(xù)改善性及相互協(xié)作性,能夠支撐公司系統(tǒng)的健康可靠的運行,由此制定本規(guī)范。 本規(guī)范適用于信息管理中心技術(shù)保障部所有崗位人員。 二、 部門職能 (1) 負(fù)責(zé)信息化基礎(chǔ)設(shè)施的技術(shù)保障,包括網(wǎng)絡(luò)、電話、機房、服務(wù)器系統(tǒng)、數(shù)據(jù)安全等技術(shù)支持; (2) 負(fù)責(zé)所有服務(wù)器系統(tǒng)的技術(shù)運維工作 (3) 負(fù)責(zé)核心數(shù)據(jù)庫的性能調(diào)優(yōu)及技術(shù)運維工作 (4) 負(fù)責(zé)各種網(wǎng)絡(luò)設(shè)施、線路的技術(shù)運維保障工作 (5) 負(fù)責(zé)其他設(shè)施的運維保障工作,如機房設(shè)施、一卡通、考勤機等智能化設(shè)施。 (6) 負(fù)責(zé)信息化安全的建設(shè)與執(zhí)行; 三、 崗位職責(zé) (1) 經(jīng)理: 負(fù)責(zé)信息化基礎(chǔ)設(shè)施的技術(shù)保障,包括,電腦終端、網(wǎng)絡(luò)、電話、機房、服務(wù)器系統(tǒng)、數(shù)據(jù)安全等技術(shù)支持; 負(fù)責(zé)信息化安全的建設(shè)與執(zhí)行; 負(fù)責(zé)本部門的組織管理,包括,修訂組織職責(zé)、架構(gòu)編制、崗位職級、分工授權(quán)等; 負(fù)責(zé)本部業(yè)務(wù)制度流程規(guī)范的制定和監(jiān)督執(zhí)行; 負(fù)責(zé)本部團隊建設(shè),包括,新員工入職、員工培訓(xùn)、績效考核、員工心政、團隊活動等; 負(fù)責(zé)本部門工作管理,包括,預(yù)算編制與管控、計劃管理、匯報管理、會議管理等; (2) 系統(tǒng)工程師: 負(fù)責(zé)所有服務(wù)器系統(tǒng)的技術(shù)運維工作 負(fù)責(zé)核心數(shù)據(jù)庫的性能調(diào)優(yōu)及技術(shù)運維工作 (3) 網(wǎng)絡(luò)工程師: 負(fù)責(zé)各種網(wǎng)絡(luò)設(shè)施、線路的技術(shù)運維保障工作 負(fù)責(zé)其他設(shè)施的運維保障工作,如機房設(shè)施、一卡通、考勤機等智能化設(shè)施 (4) 安全工程師: 負(fù)責(zé)信息化安全的建設(shè)與執(zhí)行; (5) 其他說明事項: 系統(tǒng)工程師、DBA、網(wǎng)絡(luò)工程師、安全工程師,以下統(tǒng)稱運維工程師; 權(quán)限控制:除負(fù)責(zé)基礎(chǔ)設(shè)施的網(wǎng)絡(luò)工程師,其余工程師不得擁有進入數(shù)據(jù)中心機房的權(quán)限。網(wǎng)絡(luò)工程師不得擁有系統(tǒng)工程師的管理權(quán)限。 各崗位周期性工作清單見附一。 四、 管理對象 IT基礎(chǔ)設(shè)施管理對象包括網(wǎng)絡(luò)、電話、機房、服務(wù)器、系統(tǒng)、信息安全等,具體內(nèi)容如下: (1) 網(wǎng)絡(luò):XXXX運營中心、JJJJ工業(yè)園、WWWW工業(yè)園、數(shù)據(jù)中心、北京辦事處的網(wǎng)絡(luò)建設(shè)與維護。 (2) 電話:XXXX運營中心、JJJJ工業(yè)園、WWWW工業(yè)園的電話網(wǎng)絡(luò)建設(shè)與維護。 (3) 機房:數(shù)據(jù)中心機房的建設(shè)與日常維護。 (4) 服務(wù)器:服務(wù)器軟硬件的采購、建設(shè)與日常維護。 (5) 系統(tǒng):操作系統(tǒng)、數(shù)據(jù)庫、應(yīng)用系統(tǒng)、虛擬化的日常維護。 (6) 信息安全:信息安全建設(shè)與維護。 五、 運維規(guī)范 內(nèi)部運維 (1) 運維工程師,負(fù)責(zé)崗位職責(zé)內(nèi)相應(yīng)的IT設(shè)施的《維護手冊》的制定和完善、并按照本運維規(guī)范執(zhí)行維護管理工作和巡檢工作。 (2) 運維工程師應(yīng)當(dāng)依據(jù)運維過程收集的記錄信息,每月整理出當(dāng)月的《月度運維報告》提報部門經(jīng)理,報告中要重點關(guān)注IT設(shè)施的問題和改進分析,并提出改進措施和建議。 (3) 部門經(jīng)理,負(fù)責(zé)保障運維管理體系的有效執(zhí)行,包括本運維管理規(guī)范的制定和完善,督導(dǎo)維護工程師完善各設(shè)施維護手冊。 (4) 部門經(jīng)理在月度工作會議上就當(dāng)月各個運維工作報告與團隊溝通共識出整改措施,并形成新的工作計劃,推動落實執(zhí)行。 參考運維手冊: 《網(wǎng)絡(luò)維護手冊》 《系統(tǒng)維護手冊》 巡檢管理 (1) 巡檢對象:機房、數(shù)據(jù)備份、網(wǎng)絡(luò)、服務(wù)器、系統(tǒng)的運行狀態(tài)。 (2) 巡檢周期:每日、每周、每月,詳見附一《周期性工作清單》。 (3) 每位運維工程師依據(jù)各自維護設(shè)施,按時對檢核內(nèi)容進行檢查。每日:當(dāng)日下班前要把當(dāng)天檢查情況填報檢核表。 (4) 部門經(jīng)理將不定期檢查巡檢的完成情況。 (5) 巡檢期間,如果發(fā)現(xiàn)設(shè)備或系統(tǒng)異常,應(yīng)立即上報部門經(jīng)理并展開調(diào)查,確認(rèn)故障的應(yīng)立即進入故障處理環(huán)節(jié)。 監(jiān)控告警 (1) 使用*******作為統(tǒng)一的監(jiān)控中心,提供在線監(jiān)控、流量分析、故障告警; (2) 設(shè)定告警閥值:磁盤閥值95%,非數(shù)據(jù)庫系統(tǒng)內(nèi)存閥值70%,CPU閥值70%。 (3) 告警:達到閥值或系統(tǒng)中斷時,平臺通過短信通知到運維工程師,運維工程師收到告警后,應(yīng)該立即檢查系統(tǒng)的健康狀況,并在應(yīng)急預(yù)案規(guī)定時間內(nèi)恢復(fù)正常; 故障處理 (1) 根據(jù)公司《應(yīng)急預(yù)案》的要求,在規(guī)定時限內(nèi)進行故障恢復(fù); (2) 預(yù)案的安全等級:(詳細(xì)系統(tǒng)的安全要求,見《應(yīng)急預(yù)案》) 安全等級 非常重要 重要 一般 RTO 不間斷 1小時以內(nèi) 24小時以內(nèi) RPO 不間斷 1小時以內(nèi) 24小時以內(nèi) (3) 故障發(fā)生時,運維工程師在無法鎖定問題根源時,應(yīng)該立即啟動應(yīng)急機制,在規(guī)定時間內(nèi)先恢復(fù)業(yè)務(wù)使用,并在非工作時間進行詳細(xì)的故障排查; (4) 經(jīng)過排查仍然無法解決時,應(yīng)立即向部門經(jīng)理匯報,并尋求外部資源直至問題解決; 運維審計 (1) 三權(quán)分立:角色分為審計員、設(shè)備管理員、運維人員,審計員僅能進行審計工作,對設(shè)備管理員和運維人員的行為進行審計,不能創(chuàng)建運維賬號,沒有系統(tǒng)權(quán)限和賬號,無法進行運維工作。設(shè)備管理員保管系統(tǒng)賬號及權(quán)限分配,但不能創(chuàng)建運維賬號,也無法進行運維工作。運維人員只能進行運維工作,沒有系統(tǒng)賬號及設(shè)備管理權(quán)限; (2) 內(nèi)部運維工程師使用AD賬號登錄堡壘機,進行日常的運維工作; (3) 外協(xié)人員通過臨時創(chuàng)建的運維賬號登錄堡壘機,進行相關(guān)工作; (4) 任何人員都嚴(yán)禁擅自更改系統(tǒng)的密碼、端口等配置; (5) 審計記錄保留一年,審計人員不定期進行抽檢; 跨部門協(xié)作 各運維工程師做為信息服務(wù)部的二線支持,收到服務(wù)部門的工單請求時應(yīng)及時對請求進行反饋或處理。在半小時內(nèi)反饋、在4小時內(nèi)處理完成視為及時。詳細(xì)流程參見信息服務(wù)部的《IT設(shè)施服務(wù)管理制度》。 六、 運維流程 IT基礎(chǔ)設(shè)施運維作業(yè)過程中,出現(xiàn)問題需要用到的流程:事件管理、問題管理、變更管理,隨著運維活動的不斷深入和持續(xù)改進,其他流程可能會逐步獨立并規(guī)范。 事件管理 事件管理流程的主要目標(biāo)是盡快恢復(fù)IT服務(wù),并減少其對業(yè)務(wù)的不利影響,盡可能保證最好的IT服務(wù)質(zhì)量和可用性。 (1) 事件流程: (2) 事件表單 處理人 事件分類 網(wǎng)絡(luò)、電話、機房、服務(wù)器、系統(tǒng)、虛擬化、數(shù)據(jù)庫、信息安全 標(biāo)題 事件編號 系統(tǒng)自動生成 事件描述 事件描述: 錯誤代碼:如果有請?zhí)顚? 解決方案 事件開始時間 事件結(jié)束時間 事件原因分析 口 人為過失 口 設(shè)備故障 口外部原因__________ (3) 流程說明 任何引起服務(wù)中斷和服務(wù)質(zhì)量下降的現(xiàn)象,統(tǒng)稱事件。處理人:表示事件的受理人,并負(fù)責(zé)整個事件的解決,直到事件結(jié)束。受理人負(fù)責(zé)事件流程的發(fā)起,經(jīng)理負(fù)責(zé)審核事件的狀態(tài)及表單信息的完整性。事件結(jié)束自動轉(zhuǎn)入問題管理。 問題管理 問題管理流程的主要目標(biāo)是預(yù)防問題和事故的再次發(fā)生,并且在事故的再次發(fā)生時,可以找到有效的處理方法。問題管理流程包括診斷事件根本原因和確定問題解決方案所需要的活動,問題管理還將維護有關(guān)問題、應(yīng)急方案和解決方案的信息。 (1) 問題流程 (2) 問題表單 發(fā)起人 問題分類 網(wǎng)絡(luò)、電話、機房、服務(wù)器、系統(tǒng)、虛擬化、數(shù)據(jù)庫、信息安全 標(biāo)題 問題編號 系統(tǒng)自動生成 影響范圍 口 影響較大 口 影響較小 主要影響用戶: 問題描述 問題描述: 影響范圍:受影響的用戶及系統(tǒng) 解決方案 計劃開始日期 計劃結(jié)束日期 用戶通知 通知受影響用戶 (3) 流程說明 所有問題都應(yīng)該被完整準(zhǔn)確的記錄下來,并保證相關(guān)信息應(yīng)盡可能詳細(xì)。明確問題管理的問題信息來源,問題可能來源于某些事件的進一步調(diào)查,也可能來源于主動巡檢和事件報表分析。問題發(fā)起人首先識別問題,分析可能造成的危害,提出解決方案,計劃好問題的處置時間,并通知受影響的用戶。經(jīng)理負(fù)責(zé)評估方案的合理性。 影響較大:涉及全公司使用、門店使用,用戶范圍較廣的系統(tǒng)或關(guān)鍵業(yè)務(wù)系統(tǒng),需總監(jiān)審核。 影響較?。壕植坑脩羰褂?、非關(guān)鍵業(yè)務(wù)系統(tǒng)。 變更管理 變更管理實現(xiàn)所有IT基礎(chǔ)設(shè)施和應(yīng)用系統(tǒng)的變更,變更管理應(yīng)記錄并對所有要求的變更進行分類,應(yīng)評估變更請求的風(fēng)險、影響和業(yè)務(wù)收益。其主要目標(biāo)是以對服務(wù)最小的干擾實現(xiàn)有益的變更。 (1) 變更流程 (2) 變更表單 發(fā)起人 變更分類 網(wǎng)絡(luò)、電話、機房、服務(wù)器、系統(tǒng)、虛擬化、數(shù)據(jù)庫、信息安全 標(biāo)題 變更編號 系統(tǒng)自動生成 影響范圍 口 影響較大 口 影響較小 主要影響用戶: 變更描述 變更描述: 影響范圍:受影響的用戶及系統(tǒng) 變更方案 變更方案: 方案測試:如果有 變更后測試方案: 變更失敗回滾方案: 計劃開始日期 計劃結(jié)束日期 用戶通知 通知受影響用戶 (3) 流程說明 所有涉及運維生產(chǎn)環(huán)境的變化,都必須走變更流程。變更的發(fā)起人,負(fù)責(zé)發(fā)起變更,提交變更方案,并負(fù)責(zé)變更的執(zhí)行。經(jīng)理負(fù)責(zé)評估變更方案的可行性。 變更委員會:變更發(fā)起部門經(jīng)理及各部門指定對接人員組成,變更發(fā)起部門經(jīng)理主持變更會議,評估變更對各部門業(yè)務(wù)的影響,各部門委員負(fù)責(zé)協(xié)調(diào)相關(guān)資源和用戶,以及安排變更后的測試工作。 七、 IT運維服務(wù)質(zhì)量指標(biāo) IT運維服務(wù)質(zhì)量指標(biāo)體系是用來衡量整個運維服務(wù)工作質(zhì)量的標(biāo)準(zhǔn)規(guī)范,指標(biāo)標(biāo)準(zhǔn)如下: 運維服務(wù)體系質(zhì)量指標(biāo) 衡量指標(biāo) 指標(biāo)說明 指標(biāo)公式 用戶投訴次數(shù) IT故障服務(wù)投訴 投訴一次扣20分,扣完為止。 本項總分100分,權(quán)重20%。 事故 在《應(yīng)急預(yù)案》當(dāng)前恢復(fù)時間范圍之內(nèi)恢復(fù)的,屬于正常事故,公司應(yīng)急預(yù)案范圍外的系統(tǒng),按一般安全級別考核。 超過4小時不能恢復(fù),定義為一次重大事故;1-4小時之間定義為中等事故;1小時以內(nèi)定義為一般事故。 考核期內(nèi)無事故100分,重大事故一次扣100分,中等事故一次扣50分,一般事故一次扣20分,扣完為止。 本項總分100分,權(quán)重20%。 安全 1)公司網(wǎng)絡(luò)被黑客攻擊導(dǎo)致中斷; 2)被非授權(quán)終端設(shè)備登入公司內(nèi)網(wǎng); 3)公司內(nèi)部發(fā)生已知病毒大范圍感染(5臺以上電腦同時爆發(fā)病毒); 一次扣10分,扣完為止。 本項總分100分,權(quán)重20%。 附一:周期性工作清單 周期 工作內(nèi)容 角色 范圍或行為 日 機房環(huán)境巡檢 網(wǎng)絡(luò)工程師 配電、室內(nèi)環(huán)境、設(shè)備狀態(tài) 設(shè)備健康巡檢 網(wǎng)絡(luò)工程師 網(wǎng)絡(luò)設(shè)備、信息安全設(shè)備、服務(wù)器、系統(tǒng) 備份狀態(tài)檢查 系統(tǒng)工程師 業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫每日備份計劃的完成情況 OA單據(jù)處理 ALL 各日常運維單據(jù) 周 周例會 ALL 組織每周例會 備份狀態(tài)檢查 系統(tǒng)工程師 業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫每周備份計劃的完成情況 運維周報 ALL 各自動負(fù)責(zé)系統(tǒng)的周運維報告 月 月運維報告 ALL 每月第一周, 各系統(tǒng)工程師提交上月運維報告 運營商付費及對賬 網(wǎng)絡(luò)工程師 3G卡,聯(lián)通帶寬付費跟蹤 網(wǎng)絡(luò)設(shè)備備份 網(wǎng)絡(luò)工程師 每月第一周備份所有設(shè)備配置 流量統(tǒng)計 網(wǎng)絡(luò)工程師 每月5號前,提交各中心流量統(tǒng)計 季 機房UPS放電檢測 網(wǎng)絡(luò)工程師 每季度第一個月第一周放電 備份數(shù)據(jù)有效性檢查 系統(tǒng)工程師 業(yè)務(wù)系統(tǒng)備份數(shù)據(jù)的有效性檢查 AD單點登錄整理 系統(tǒng)工程師 AD用戶綁定對應(yīng)的計算機名 半年 備份數(shù)據(jù)恢復(fù)測試 系統(tǒng)工程師 抽檢,對系統(tǒng)的備份數(shù)據(jù)進行恢復(fù) 空調(diào)檢測 網(wǎng)絡(luò)工程師 每半年檢查一下整機運行情況,特別是外機 漏洞掃描評估 安全工程師 基線核查、系統(tǒng)漏洞掃描、WEB漏洞掃描與修復(fù)工作 年 恢復(fù)演練 ALL 關(guān)鍵系統(tǒng)每年演練一次 預(yù)算與總結(jié) ALL 從項目、日常運維、維保等方面制定本部門下一年預(yù)算 其他 訂貨會支持安排 ALL 網(wǎng)絡(luò)保障及安全審核 績效考核 ALL 根據(jù)人力要求- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
15 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- IT 基礎(chǔ)設(shè)施 管理 規(guī)范
鏈接地址:http://www.820124.com/p-9756535.html