Wiki源代码05 某网管中心IT集中运维咨询项目调研分析报告
由 superadmin 于 2024/06/05, 11:08 最后修改
Show last authors
author | version | line-number | content |
---|---|---|---|
1 | [[返回本章节索引>>url:https://www.itil4hub.cn/bin/view/G%20%E5%8F%82%E8%80%83%E8%B5%84%E6%96%99/ITIL%E5%AE%9E%E6%96%BD%E9%A1%B9%E7%9B%AE%E8%B5%84%E6%96%99/ITIL%E5%AE%9E%E6%96%BD%E9%A1%B9%E7%9B%AE%E6%B5%81%E7%A8%8B%E8%AE%BE%E8%AE%A1%E6%96%B9%E6%A1%88%E9%9B%86/%E5%BA%94%E6%80%A5%E7%AE%A1%E7%90%86/]] [[ 阅读下一篇>>https://www.itil4hub.cn/bin/view/G%20%E5%8F%82%E8%80%83%E8%B5%84%E6%96%99/ITIL%E5%AE%9E%E6%96%BD%E9%A1%B9%E7%9B%AE%E8%B5%84%E6%96%99/ITIL%E5%AE%9E%E6%96%BD%E9%A1%B9%E7%9B%AE%E6%B5%81%E7%A8%8B%E8%AE%BE%E8%AE%A1%E6%96%B9%E6%A1%88%E9%9B%86/%E5%BA%94%E6%80%A5%E7%AE%A1%E7%90%86/ITIL%E5%BA%94%E6%80%A5%E4%B8%8E%E4%BA%8B%E4%BB%B6%E7%AE%A1%E7%90%86%E6%B5%81%E7%A8%8B%E5%88%9D%E5%AE%A1%E7%9A%84%E6%84%8F%E4%B9%89/]] | ||
2 | |||
3 | |||
4 | = **某网管中心IT集中运维咨询项目调研分析报告** = | ||
5 | |||
6 | |||
7 | === **应急管理—现状与问题** === | ||
8 | |||
9 | |||
10 | ==== **管理要求** ==== | ||
11 | |||
12 | |||
13 | ===== **集团的要求:**要有应急灾备方案,并定期演练 ===== | ||
14 | |||
15 | **网管中心的要求:**各主要专业要制定容灾方案、演练计划、演练方案 | ||
16 | |||
17 | **上级领导要求:** | ||
18 | |||
19 | 如何快速应对手机阅读故障。保障硬件快速恢复是应急主要内容 | ||
20 | |||
21 | 梳理现有应急场景 ,有针对性的采取应急措施 | ||
22 | |||
23 | 应急要标准化、自动化,首先第一步应该是制度标准化,明确由谁来执行、各个环节的衔接 | ||
24 | |||
25 | 应急预案要简洁实用,流程管理也应简化 | ||
26 | |||
27 | 朝自动化应急、标准化启动、一键式平台努力 | ||
28 | |||
29 | |||
30 | ==== **应急组织** ==== | ||
31 | |||
32 | |||
33 | 当前IT维护室应急组织架构、人员角色职责、应急流程尚未明确,应急管理制度缺失 | ||
34 | |||
35 | 手机阅读与资源池是IT运维室重点应急对象 | ||
36 | |||
37 | |||
38 | ==== **流程** ==== | ||
39 | |||
40 | |||
41 | 缺乏应急启用的具体条件约束 | ||
42 | |||
43 | 紧急事件发生期间的检查点有待明确 | ||
44 | |||
45 | 有紧急事件发生期间的升级过程,上级制度有相应要求,有待明确如何在应急过程中有效调动现场人员 在应急过程中,是否可通过远程接入来诊断故障、服务器的串口管理有待加强 | ||
46 | |||
47 | 值守要求有待明确,譬如错峰上班、获取厂家支持的方式如通讯方式等 | ||
48 | |||
49 | 目前手机阅读应急中的沟通方式和通讯方式尚未明确要求 | ||
50 | |||
51 | |||
52 | ==== **应急技术** ==== | ||
53 | |||
54 | |||
55 | 有容灾应急措施; | ||
56 | |||
57 | 底层的存储设备级别容灾~-~--同机房、同城, 技术手段:复制、镜像, | ||
58 | |||
59 | 当前容灾分业务级别的容灾与 | ||
60 | |||
61 | 主机级别的容灾 | ||
62 | |||
63 | 手机阅读业务级的容灾已经实现 业务测容灾有工具和脚本,有 一键切换平台 | ||
64 | |||
65 | |||
66 | ==== **演练(以最近一次演练为例)** ==== | ||
67 | |||
68 | |||
69 | **演练内容:**存储容灾改成基于数据库的容灾 | ||
70 | |||
71 | **演练地点:XXX** | ||
72 | |||
73 | **演练业务:**手机阅读业务 | ||
74 | |||
75 | **演练要求:** 由于主营业务长期跑在B,所以也要确保B能切换到A。 | ||
76 | |||
77 | **停业务->停DB->正向切换->反向切换 演练沟通方式:** | ||
78 | |||
79 | 演练中主要是通过skype 或者电话的方式 进行沟通 | ||
80 | |||
81 | **值守方式:**演练人员48小时值守 | ||
82 | |||
83 | (在演练准备、执行上基于经验已经摸索出了一套演练的方法,并予以实践,但未标准化、系统化,在一些关键环节上有待改进,如,应急决策条件与系统的预案支撑等) | ||
84 | |||
85 | |||
86 | ==== **应急备份** ==== | ||
87 | |||
88 | |||
89 | **备份工作现状 正在筹备备份平台、目前有备份策略 备份优先级: ** | ||
90 | |||
91 | 1根据设备等级,设备级别比较高的优先考虑 | ||
92 | |||
93 | 2辅助设备放后或者不予考虑 | ||
94 | |||
95 | **备份机制:** RPO,一周备份一次 , RTO,根据运维经验进行计算判断 (如,通过光纤备份的RTO=容量/恢复的最大速度) | ||
96 | |||
97 | **备份过程:** | ||
98 | |||
99 | 1备份管理员跟业务接口人沟通是否要恢复,并确定能够恢复到什么时间点 (RPO); | ||
100 | |||
101 | 2业务接口人进行决策; | ||
102 | |||
103 | 3计划走变更流程,工程师按照变更方案操作; | ||
104 | |||
105 | 4数据恢复以后,业务接口人恢复业务。 | ||
106 | |||
107 | **备份操作步骤: ** | ||
108 | |||
109 | 启动小型机—>启动主机—>通过网络引导启动—>网络引导连接备份boot | ||
110 | |||
111 | Server—>识别磁带—>从磁带读数据恢复到硬盘—>然后重启 | ||
112 | |||
113 | **备份恢复预案状态:** | ||
114 | |||
115 | 当前“预案”相当于官方技术操作文档 | ||
116 | |||
117 | |||
118 | ==== **应急风险场景(业务角度)** ==== | ||
119 | |||
120 | |||
121 | **手机阅读应急风险:**核心数据库风险较大,往年故障都出在这上面,备份切换要两个小时; | ||
122 | |||
123 | 应急难点应急决策; | ||
124 | |||
125 | **智能网应急风险:**应急准备时间,决策机制,目前没有实际切换过,负荷一直比较高、切换成本较高; | ||
126 | |||
127 | **资源池应急风险:**未知风险、现在应急预案和演练都是空白,目前支撑内容越来越多,双机可能会存在软件宕掉的风险,会直接影响业务 | ||
128 | |||
129 | |||
130 | ==== **应急风险场景(技术角度)** ==== | ||
131 | |||
132 | |||
133 | **主机应急风险:** 单块主机挂了;Cluster挂了;整个物理刀框挂了 双网卡都出现故障;虚拟分区出现故障等 | ||
134 | |||
135 | **数据库应急风险:** | ||
136 | |||
137 | DB切换失败,如何人工干预以确保数据不丢 | ||
138 | |||
139 | RAC的单点故障(容灾机制失效了,业务在存活的节点无法承载,再次挂掉) | ||
140 | |||
141 | HA双机切换失败(HA软件问题或者硬件未及时更新) | ||
142 | |||
143 | **网络应急风险:** | ||
144 | |||
145 | 最担忧防火墙和路由器的出口应急 | ||
146 | |||
147 | 网管资源池路由器可能存在单点故障 | ||
148 | |||
149 | 光纤交换机异常,高可用之外有异常 SVC存储虚拟化引擎(非常关键 )紧急故障 | ||
150 | |||
151 | 负载均衡故障;核心交换机故障;接入交换机故障 | ||
152 | |||
153 | 虚拟交换机故障; | ||
154 | |||
155 | **概率较低杀伤力大的风险:** | ||
156 | |||
157 | 各专业组目前未做备份 | ||
158 | |||
159 | **误操作的应急风险:**IT集中化,很多东西都批量操作,可能带来风险,如账号组如果有危险操作误删账号,可能会导致应急场景的出现 | ||
160 | |||
161 | (上述风险场景尚未开展风险场景的梳理) | ||
162 | |||
163 | |||
164 | === **应急管理—现状评估** === | ||
165 | |||
166 | |||
167 | **冗余技术~-~-》应急管理基础-》应急管理优化-》应急管理平台化-》应急执行自动化** | ||
168 | |||
169 | |||
170 | **[[image:微信图片_20240603132303.png]]** | ||
171 | |||
172 | |||
173 | === **应急管理—需求汇总** === | ||
174 | |||
175 | |||
176 | **应急工作急迫须解决的问题** | ||
177 | |||
178 | 0应急管理制度缺失 | ||
179 | |||
180 | 1业务的各种容灾环境下是否有演练流程、演练计划、应急保障方式、应集中沟通方式; | ||
181 | |||
182 | 2如何决定是否切换 | ||
183 | |||
184 | 3每个实际情况的预案描述; | ||
185 | |||
186 | 4 手机阅读风险场景都有哪些; | ||
187 | |||
188 | 5如何通过工具实现应急 | ||
189 | |||
190 | |||
191 | |需求领域|需求详细说明 | ||
192 | | 应急组织|•应急组织设计 | ||
193 | |应急管理制度|•从制度层面,完善容灾应急方案、容灾演练方案、容灾演练计划 | ||
194 | |应急流程|•明确应急过程中如何启动应急、应集中内部如何沟通、后续工作如何展开 | ||
195 | |风险场景梳理|•对各专业领域风险场景的认知,并以此作为今后预案编写的依据 | ||
196 | |应急演练计划|•将IT运维室演练实践精华固化下来的演练计划 | ||
197 | |(% rowspan="3" %)应急预案|•符合实际情况的、可用的应急预案 | ||
198 | | | ||
199 | |•备份恢复预案的制定 | ||
200 | |(% rowspan="3" %)自动化应急|•应急管理工具平台 | ||
201 | | | ||
202 | |•应急自动执行 | ||
203 | |||
204 | === **应急管理流程—目标及阶段性实现** === | ||
205 | |||
206 | |||
207 | **冗余技术~-~-》应急管理基础-》应急管理优化-》应急管理平台化-》应急执行自动化** | ||
208 | |||
209 | |||
210 | |阶段|目标描述 | ||
211 | |应急管理基础|“应急管理制度设计” : 初步设计 XX-XX 优化设计 XX-XX 管理确认 XX-XX | ||
212 | | | | ||
213 | | |.应急预案启动的条件讨论与设计;应急组织架构梳理;风险的界定与评价设计;应急预案管理设计;应急处置流程设计;应急信息通报要求设计;应急善后处理要求设计;应急保障要求设计;应急演练要求设计 | ||
214 | |第一阶段|“应急演练方案设计”:初步设计X年X月-X年X月 优化设计X年X月-X年X月 管理确认X年X月-X年X月 | ||
215 | | | | ||
216 | |(X年X月-X年X月)|演练方案内容要素设计;演练信息发布流程梳理;演练准备工作梳理;演练流程梳理;演练后保障措施梳理 | ||
217 | | |“应急风险场景梳理”:初步设计X年X月-X年X月 优化设计X年X月-X年X月 管理确认X年X月-X年X月 | ||
218 | | | | ||
219 | | |围绕手机阅读,基于现有运维人员的维护经验、顾问指导,收集、梳理手机阅读业务现有风险场景 | ||
220 | | |“应急预案制定” 初步设计X年X月-X年X月 优化设计X年X月-X年X月 管理确认 X年X月-X年X月 | ||
221 | | | | ||
222 | | |针对主要应急场景建立1-2个预案。预案内容要素包括:风险分析;应急预案启动条件;应急组织成员;应急时长;应急处置流程;故障排查表;信息发布流程;应急处置步骤;关联影响;善后处理措施 | ||
223 | |应急管理优化|“继续完善场景与预案” | ||
224 | | | | ||
225 | | |继续完善手机阅读应急场景设计、预案编写 | ||
226 | |第二阶段| | ||
227 | | |“演练验证与优化”: | ||
228 | |(X年X月-X年X月)| | ||
229 | | |通过应急演练检验流程设计,并据此寻找改进点 | ||
230 | | |“经验拓展”: | ||
231 | | | | ||
232 | | |通过应急演练检验流程设计,并据此寻找改进点基于手机阅读的风险场景梳理、预案制定经验,将其拓展到资源池应急管理中 | ||
233 | |||
234 | |应急管理平台化|“经验拓展”: | ||
235 | | | | ||
236 | | |通过应急演练检验流程设计,并据此寻找改进点基于手机阅读的风险场景梳理、预案制定经验,将其拓展到智能网应急管理中 | ||
237 | |第三阶段| | ||
238 | | | | ||
239 | |(X年X月-X年X月)|“应急管理平台建设”: | ||
240 | | | | ||
241 | | |应急管理平台建设,将应急流程固化,应急操作标准化于工具之中,提升沟通效率和执行效率 | ||
242 | |应急执行自动化|“应急自动化建设”: | ||
243 | | | | ||
244 | | |在应急流程与操作标准化、固化基础上,实现应急脚本自动执行 | ||
245 | |第四阶段| | ||
246 | | | | ||
247 | |(X年X月-X年X月)|“应急改进”: | ||
248 | | | | ||
249 | | |在上述阶段基础之上,继续完善应急管理制度、应急方案、预案、与管理工具优化 | ||
250 | |||
251 | |||
252 | [[返回本章节索引>>url:https://www.itil4hub.cn/bin/view/G%20%E5%8F%82%E8%80%83%E8%B5%84%E6%96%99/ITIL%E5%AE%9E%E6%96%BD%E9%A1%B9%E7%9B%AE%E8%B5%84%E6%96%99/ITIL%E5%AE%9E%E6%96%BD%E9%A1%B9%E7%9B%AE%E6%B5%81%E7%A8%8B%E8%AE%BE%E8%AE%A1%E6%96%B9%E6%A1%88%E9%9B%86/%E5%BA%94%E6%80%A5%E7%AE%A1%E7%90%86/]] [[ 阅读下一篇>>https://www.itil4hub.cn/bin/view/G%20%E5%8F%82%E8%80%83%E8%B5%84%E6%96%99/ITIL%E5%AE%9E%E6%96%BD%E9%A1%B9%E7%9B%AE%E8%B5%84%E6%96%99/ITIL%E5%AE%9E%E6%96%BD%E9%A1%B9%E7%9B%AE%E6%B5%81%E7%A8%8B%E8%AE%BE%E8%AE%A1%E6%96%B9%E6%A1%88%E9%9B%86/%E5%BA%94%E6%80%A5%E7%AE%A1%E7%90%86/ITIL%E5%BA%94%E6%80%A5%E4%B8%8E%E4%BA%8B%E4%BB%B6%E7%AE%A1%E7%90%86%E6%B5%81%E7%A8%8B%E5%88%9D%E5%AE%A1%E7%9A%84%E6%84%8F%E4%B9%89/]] |