Show last authors
1 = **1. 综述** =
2
3 == **1.1文档目的** ==
4
5 本文档是结合XX移动网管中心IT集中运维管理的特点,制定的事件管理流程设计报告。本文档的目的是分析XX移动网管中心事件管理流程的现状和存在的问题;针对XX移动网管中心IT集中运维管理发展需要和日常维护需求,设计事件管理流程。
6
7 本文档是依据目前XX移动网管中心的IT集中运维管理发展需要和日常维护需求而制定的,以后进一步的更新和优化将由浙江移动网管中心IT维护室负责。
8
9 == ==
10
11 == **1.2 相关术语** ==
12
13
14 * 事件
15
16 指包括任何使服务中断或可能使服务中断的事件; IT 服务的意外中断或 IT 服务质量的下降。尚未影响服务的配置项失效也是事件,如镜像组中一块磁盘的失效。
17
18 * 告警工单
19
20 指通过告警管理平台标准化处理过以后的告警信息,并由此产生的事件工单。
21
22 * 紧急事件
23
24 指由于影响范围和紧急程度都非常高的事件,此类事件可以通过紧急事件处理流程进行解决,待解决后再进行补填工作单。
25
26
27 = =
28
29 = =
30
31 = **2. 目标和范围** =
32
33 == **2.1 目标** ==
34
35 1. 尽快解决事件,提升IT技术支持的效率,减小对业务的影响。
36 1. 客观准确记录工作,辅助IT维护室领导了解IT运维状况,促进IT运维的持续改进。
37 1. 对事件处理进行全过程跟踪,进行有效控制。
38
39 == ==
40
41 == **2.2 范围** ==
42
43 1. 业务范围:IT维护室纳管设备所属业务系统相关的IT事件。
44 1. 专业范围:IT维护室各专业组所负责的领域,包括:服务器、刀片、Oracle、Informix及其他数据库、网络、存储六个专业方面的故障处理。
45
46
47 = =
48
49 = =
50
51 = **3. 事件管理流程** =
52
53 == **3.1 流程概要设计** ==
54
55 事件管理概要流程图如下:
56
57 (% style="text-align:center" %)
58 [[image:图片3.jpg]]
59
60 事件管理概要设计流程说明
61
62 |**序号**|**步骤名称**|**角色**|**说明**
63 |100.1|事件受理|事件受理人|(((
64 1. 事件受理人对事件申请人提交的事件单进行受理;
65 1. 参考事件受理子流程。
66 )))
67 |100.2|事件单分派|事件受理人|(((
68 1. 根据事件的业务和专业分类,确定合适的事件处理人;
69 1. 将事件单发送给合适的处理人。
70 )))
71 |100.3|事件解决过程跟踪|事件受理人|(((
72 1. 事件受理人负责监控所有事件单的解决过程;
73 1. 在事件单即将超时的时候,提醒和督办事件单的解决;
74 1. 在事件单超时的时候,督办事件单解决并通知事件经理。
75 )))
76 |100.4|事件处理|事件处理人|(((
77 1. 事件处理人对接受的事件工单进行处理;
78 1. 参考事件处理子流程。
79 )))
80 |100.5|事件监控|事件经理|(((
81 1. 事件经理负责监控所有事件解决的总体情况;
82 1. 对于超时事件进行协调和督办;
83 1. 负责协调个别事件的协办;
84 1. 对事件单与其他流程的关联进行审批和把控。
85 )))
86 |100.6|事件关闭|(((
87 事件处理人
88
89 事件受理人
90 )))|(((
91 1. 事件受理人对事件单进行关闭;
92 1. 参考事件关闭子流程。
93 )))
94 |100.7|紧急事件处理|(((
95 事件受理人
96
97 事件经理
98
99 事件处理人
100 )))|(((
101 1. 对紧急事件进行处理的特殊流程;
102 1. 参考紧急事件处理流程。
103 )))
104 |100.8|监控告警事件处理|(((
105 监控管理人员
106
107 事件受理人
108
109 事件处理人
110 )))|(((
111 1. 针对监控平台产生的工单进行处理;
112 1. 参考监控事件处理子流程。
113 )))
114
115 == ==
116
117 == **3.2 流程详细设计** ==
118
119 === **3.2.1 事件受理子流程** ===
120
121 (% style="text-align:center" %)
122 [[image:图片4.jpg]]
123
124 流程描述如下:
125
126 |**序号**|**活动名称**|**角色**|**说明**
127 |100.1.1|抄送工单至事件受理人|事件受理人|(((
128 1. 来自监控告警的工作单,在发送给处理人的同时,抄送至事件受理人,用于IT维护室内部的跟踪和监控。
129 )))
130 |100.1.2|填写事件申请单|事件申请人|(((
131 1. 事件申请人根据事件相关信息,填写事件申请单相关字段;
132 1. 将事件申请单发送至事件受理人。
133 )))
134 |100.1.3|事件信息收集|事件受理人|(((
135 1. 事件受理人根据事件申请单的信息,将事件处理所需信息收集完成;
136 1. 可以通过查询CMDB的方式进行信息收集;
137 1. 必要时与事件申请人和其他相关人员进行沟通。
138 )))
139 |100.1.4|新建工单|事件受理人|(((
140 1. 如果事件申请单符合建单要求,事件受理人负责将事件工单所有字段填写完整。
141 )))
142 |100.1.5|尝试解决|事件受理人|(((
143 1. 事件受理人根据工单信息和已有预处理方案,判断是否可以对事件进行处理;
144 1. 如果可以处理,则由事件受理人对事件进行处理并解决;
145 1. 如果不能处理,则分派给相应的事件处理人。
146 )))
147 |100.1.6|驳回事件申请|事件受理人|(((
148 1. 如果事件申请单信息不规范,则通知申请人重新填写;
149 1. 如果事件申请单信息内容不完整或者范围超出IT维护室业务范围,则将事件申请取消,并通知事件申请人。
150 )))
151 |100.2|事件单分派|事件受理人|(((
152 1. 事件受理人根据业务和专业分类,将事件工单准确分派至相应事件处理人。
153 )))
154 |100.6|事件关闭|事件受理人|(((
155 1. 如果事件有事件受理人解决,则直接转入入事件关闭活动;
156 1. 参考事件关闭活动。
157 )))
158 |100.7|紧急事件处理流程|事件经理|(((
159 1. 如果事件单经过事件受理人和事件经理确认为紧急事件,则进入紧急事件处理流程;
160 1. 参考紧急事件处理流程。
161 )))
162
163
164 === **3.2.2 事件处理子流程** ===
165
166 (% style="text-align:center" %)
167 [[image:图片5.jpg]]
168
169 流程描述如下:
170
171 |**序号**|**活动名称**|**角色**|**说明**
172 |100.4.1|接受事件工单|事件处理人|(((
173 1. 根据自身条件,接受由事件受理人分派的事件工单;
174 1. 如果事件处理人无法处理或者分派错误,则将工单直接转发至其他事件受理人。
175 )))
176 |100.4.2|收集详细信息|事件处理人|(((
177 1. 事件处理人依据事件工单内容,为处理事件收集更多信息,包括配置项信息。
178 )))
179 |100.4.3|制定处理方案|事件处理人|(((
180 1. 事件处理人依据事件信息和参考资料以及个人经验,针对事件处理,制定详细的处理方案。
181 )))
182 |100.4.4|填写协办工单|事件处理人|(((
183 1. 如果事件处理需要其他工程师的协助,需要填写协办工单,工单内容包括任务内容、时间等信息;
184 1. 将协办工单发送至事件经理,由事件经理审批。
185 )))
186 |100.4.5|将协办工单发送至相关处理人或第三方厂商,并加入处理方案|事件处理人|(((
187 1. 如果协办工单得到事件经理批准,将协办工单发送到相关处理人;
188 1. 将协办内容加入至处理方案。
189 )))
190 |100.4.6|启动处理方案|事件处理人|(((
191 1. 启动处理方案,按照既定处理方案,对事件进行处理;
192 1. 如果需要变更,则提交RFC至变更管理。
193 )))
194 |100.4.7|解决事件|事件处理人|(((
195 1. 验证和整理事件处理结果;
196 1. 进入事件关闭活动。
197 )))
198 |100.4.8|分派工单至第三方厂商|事件处理人|(((
199 1. 如果事件处理人无法处理事件,需要第三方厂商处理,则由事件处理人直接将事件单分派给相应的厂商。
200 )))
201 |100.4.9|接受事件工单|第三方厂商|(((
202 1. 第三方厂商接受来自事件处理人的工单。
203 )))
204 |100.4.10|制定处理方案|第三方厂商|(((
205 1. 第三方厂商根据事件单内容,制定处理方案;
206 1. 如果需要变更,则提交变更申请。
207 )))
208 |100.4.11|执行处理方案|第三方厂商|(((
209 1. 如果不需要变更,第三方厂商根据已制定的处理方案,处理事件。
210 )))
211 |100.6|事件关闭|(((
212 事件处理人
213
214 第三方厂商
215 )))|(((
216 1. 事件处理完毕后进入事件关闭环节;
217 1. 参考事件关闭活动。
218 )))
219 |100.8|监控告警事件处理子流程|(((
220 事件受理人
221
222 监控管理人员
223 )))|(((
224 1. 如果是监控告警事件,则根据监控告警事件关闭活动要求进行关闭;
225 1. 参考监控告警事件处理子流程。
226 )))
227
228
229 === **3.2.3 事件关闭子流程** ===
230
231 (% style="text-align:center" %)
232 [[image:图片6.jpg]]
233
234 流程描述如下:
235
236 |**序号**|**活动名称**|**角色**|**说明**
237 |100.6.1|提交事件处理结果|事件处理人|(((
238 1. 事件处理人将事件处理结果提交至事件受理人;
239 )))
240 |100.6.2|验证事件处理结果|事件受理人|(((
241 1. 事件受理人根据事件关闭要求,验证事件处理结果是否符合要求。
242 )))
243 |100.6.3|与实践提交人沟通|事件受理人|(((
244 1. 事件受理人与事件提交人沟通时间处理结果,判断是否可以关闭。
245 )))
246 |100.6.4|事件关闭|事件受理人|(((
247 1. 如果事件处理结果符合关闭要求,则将事件单关闭;
248 1. 根据处理结果选择关闭代码:成功解决、变通解决、不成功、自动恢复、误报。
249 )))
250 |100.4|事件处理|(((
251 事件处理人
252
253 第三方厂商
254 )))|(((
255 1. 如果事件处理结果不符合关闭要求,则重新进入事件处理活动;
256 1. 参考事件处理子活动。
257 )))
258
259
260 === **3.2.4 监控告警事件子流程** ===
261
262 (% style="text-align:center" %)
263 [[image:图片7.jpg]]
264
265 流程描述如下:
266
267 |**序号**|**活动名称**|**角色**|**说明**
268 |100.8.1|监控告警事件工单派发|(((
269 监控管理人员
270
271 事件受理人
272 )))|(((
273 1. 监控告警工单由监控平台自动派发或者监控管理人员进行人工派发;
274 1. 监控告警工单事件受理人为监控管理人员;
275 1. 监控告警平台将标准化处理过的告警转换为事件工单,并自动发送给相应的事件处理人;
276 1. 监控告警人员可以对告警工单进行人工干预,包括取消派发、手工派发等;
277 1. 告警工单派发给事件处理人的同时,抄送一份给IT维护室事件受理人。
278 )))
279 |100.8.2|接受工单|事件处理人|(((
280 1. 事件处理人接受来自监控告警的事件工单;
281 1. 收集相关信息,准备处理工单。
282 )))
283 |100.4|事件处理|事件处理人|(((
284 1. 按照事件处理活动要求进行对事件工单进行处理;
285 1. 参考事件处理活动。
286 )))
287 |100.8.3|申请报结|事件处理人|(((
288 1. 事件处理结束后,将处理结果发送给监控管理人员,申请报结。
289 )))
290 |100.8.4|事件单报结并关闭|监控管理人员|(((
291 1. 监控人员根据告警处理结果标准,判断工单是否符合关闭标准;
292 1. 如果不符合关闭标准,则返回事件处理过程重新处理;
293 1. 如果符合关闭标准,即关闭工单。
294 )))
295
296
297 === **3.2.5 紧急事件子流程** ===
298
299 (% style="text-align:center" %)
300 [[image:图片8.jpg]]
301
302 流程描述如下:
303
304 |**序号**|**活动名称**|**角色**|**说明**
305 |100.1|事件受理|(((
306 事件受理人
307
308 事件经理
309 )))|(((
310 * 经过事件经理确认为紧急事件后,进入紧急事件处理流程。
311 )))
312 |100.7.1|召开紧急事件处理会议|事件经理|(((
313 * 事件经理召集相关领导和工程师,针对紧急事件的解决,进行讨论。
314 )))
315 |100.7.2|上报紧急事件|事件经理|(((
316 * 事件经理将紧急事件的相关情况上报给上级领导。
317 )))
318 |100.7.3|协调资源|事件经理|(((
319 * 事件经理根据解决紧急事件的需求,协调组织相关资源。
320 )))
321 |100.7.4|组织相关厂商分析并制定处理方案|事件经理|(((
322 * 如果没有处理预案,事件经理组织相关厂商对事件进行分析;
323 * 针对紧急事件制定处理方案。
324 )))
325 |100.7.5|启用应急处理预案|事件处理人|(((
326 * 如果已有处理预案,事件处理人启用处理预案。
327 )))
328 |100.7.6|处理紧急事件|事件处理人|(((
329 * 事件处理人根据处理预案,处理紧急事件。
330 )))
331 |100.7.7|紧急事件解除确认|事件处理人|(((
332 * 事件处理人根据紧急事件处理结果判断是否可以解除;
333 * 如果可以解除,进入善后处理;
334 * 如果未解除,需要组织厂商再次进行处理,并更新处理方案。
335 )))
336 |100.7.8|善后处理|(((
337 事件处理人
338
339 事件经理
340 )))|(((
341 * 事件处理人根据紧急事件处理过程信息,补填事件处理工单;
342 * 生成或更新紧急事件处理预案;
343 * 提交紧急事件处理报告。
344 )))
345 |100.7.9|汇报处理结果|事件经理|(((
346 * 事件经理根据事件处理报告,向上级领导汇报紧急事件处理过程和结果。
347 )))
348
349
350
351 == **3.3 角色与职责** ==
352
353 === **3.3.1 事件管理流程负责人** ===
354
355 主要职责:
356
357 1. 确定事件管理流程的衡量指标;
358 1. 确保事件管理流程符合IT维护室实际状况和发展战略;
359 1. 在总体上管理和监控流程,建立事件管理流程实施、评估和持续优化机制;
360 1. 确保事件管理流程实用、有效、正确地执行;
361 1. 保持与其他流程负责人的定期沟通。
362
363 技能要求:
364
365 1. 拥有多年IT运维经验;
366 1. 精通ITIL最佳实践;
367 1. 全面了解IT维护室的业务情况和组织架构;
368 1. 了解事件管理的相关规则和制度;
369 1. 具有良好的管理和协调能力。
370
371 === ===
372
373 === **3.3.2 事件经理** ===
374
375 主要职责:
376
377 1. 确保事件流程能够取得管理层的参与和支持;
378 1. 对事件的挂起协办等请求进行审批;
379 1. 负责对事件的解决协调资源,保证故障的最终排除;
380 1. 当事件优先级为紧急或者超过规定的时限,负责对事件处理进行督办,并协调资源,督促快速恢复正常服务;
381 1. 确保和问题经理的有效合作;
382 1. 正确和广泛地收集和分析事件数据,发现IT和业务相关的问题。
383
384 技能要求:
385
386 1. 拥有多年IT运维经验;
387 1. 精通ITIL最佳实践;
388 1. 全面了解IT维护室的业务情况和组织架构;
389 1. 了解事件管理的相关规则和制度;
390 1. 具有良好的沟通能力和准确表达能力;
391 1. 具有良好的管理和协调能力;
392
393 === ===
394
395 === **3.3.3 事件受理人** ===
396
397 主要职责:
398
399 1. 创建新的事件单,完整记录所接收的事件信息,包括:记录事件报告人的详细联系方式、事件表现、描述、发生时间等;
400 1. 帮助事件提交人创建事件单;
401 1. 查询解决方案,尝试解决事件;
402 1. 将紧急事件提交至事件经理;
403 1. 将事件工单分配至合适的处理人员;
404 1. 跟踪、监督、督促事件的解决过程;
405 1. 将超时事件升级至事件经理;
406 1. 根据事件单处理结果关闭事件。
407
408 技能要求:
409
410 1. 具备相关的IT专业技能;
411 1. 熟悉ITIL最佳实践;
412 1. 具有良好的沟通能力和准确表达能力;
413 1. 全面了解IT维护室业务情况和组织架构。
414
415 === ===
416
417 === **3.3.4 事件处理人** ===
418
419 主要职责:
420
421 1. 响应事件的分派;
422 1. 验证事件的描述和信息,与用户直接进行沟通,补充相关信息;
423 1. 对于事件进行处理,包括分派、等待、接单、解决等操作;
424 1. 为第三方厂商提供未解决事件的解决过程和测试结果记录;
425 1. 提交事件/告警解决方案;
426 1. 为无法找到根本原因的事件创建问题单,并提交问题单;
427
428 技能要求:
429
430 1. 具备专业IT运维能力;
431 1. 拥有多年IT运维经验;
432 1. 熟悉ITIL最佳实践;
433 1. 全面了解IT维护室的业务情况和组织架构;
434 1. 了解事件管理的相关规则和制度;
435 1. 具备强大的专业运维技能;
436 1. 具有良好的沟通能力和准确表达能力;
437
438
439 === **3.3.5 第三方厂商** ===
440
441 主要职责:
442
443 * 验证事件的描述和信息,进一步收集相关信息;
444 * 根据经验和专业技能,决定需要采取何种措施恢复服务并实施有效的行动;
445 * 提供有效的解决方案;
446 * 执行解决方案,并关闭事件单;
447 * 更新事件解决过程信息。
448
449 技能要求:
450
451 * 具有专业的IT技能和问题处理能力。
452
453 == ==
454
455 == **3.4 角色人员映射列表 ** ==
456
457 |(% colspan="2" %)**角色**|**成员**
458 |(% colspan="2" %)流程负责人 |潘宇虹
459 |(% colspan="2" %)事件经理 |潘宇虹
460 |(% colspan="2" %)事件受理人 |黄俊、朱颖艾、王文栋
461 |(% rowspan="6" %)事件处理人 |主机组 |冯王可、杨浩春、张小核、陈禹文、郑利雄、陆沈波
462 |刀片组 |裴达兵、周雷震、徐海鹏、杨军、陈金波、苏亚南
463 |存储组 |付家乐、周鹏、刑彪、杨晓敏
464 |Oracle组 |康祖令、孙峰、刘华兵、陈偲、张涛、郑琛华、夏斌
465 |Informix组 |廖晋清、邱级谋、刘健、韦昌来
466 |网络组 |陈牧也、刘翌江、杜飞、方清
467 | | |
468 |(% colspan="2" %)第三方厂商|第三方厂商相关人员
469
470
471
472
473 = **4. 流程执行原则** =
474
475 === **4.1.1 常规原则** ===
476
477 1. 所有IT维护室业务范围内发生的故障,都应该记录在事件管理流程平台中,记录的信息应足够详细,包括故障处理交互过程,详细的解决方案和相应的附件。
478 1. 每月将事件管理相关指标生成报表,并对所发生的故障及处理过程进行总结和评估。
479 1. 每半年对事件管理流程进行评估和改进。
480
481 === ===
482
483 === **4.1.2 受理原则** ===
484
485 1. 受理时,事件受理人判断是否属于IT维护室管理范围,如果不属于,则退回。
486 1. 受理时,判断是否需要人为处理,如果不需要则直接退回,如果需要,录入事件单。
487 1. 判断事件级别,如是紧急事件,则进入紧急事件子流程;
488 1. 监控告警工单的事件受理工作,由监控告警管理人员执行。
489
490 === ===
491
492 === **4.1.3 预处理原则 ** ===
493
494 1. 事件受理人在接到机房值班、巡检、和业务反馈的事件工单时,需要首先参考现有处理方案或经验,进行预处理。
495 1. 如果预处理后故障未恢复或者无法处理,则进行首次分派。
496 1. 如果预处理后,故障消失或者相关告警解除,则进行工单关闭。
497
498 === ===
499
500 === **4.1.4 分派原则 ** ===
501
502 1. 事件受理人可以将工单分派给事件处理人。
503 1. 同一专业组内的事件处理人可以将工单再分派一次,不同专业组之间转派工单,需要先转回事件受理人,再由事件受理人分派至其他专业组事件处理人。
504 1. 事件工单默认发送给专业组内所有人员,同时指定第一处理人和第二处理人,原则上第一处理人优先负责处理,在第一处理人无效情况下由第二处理人负责处理
505 1. 在试运行阶段,工单派给事件的第一处理人时,如果处理人无法处理,可以将工单继续分派给其他事件处理人,并且对分派不做限制。
506 1. 监控告警自动生成工单需按照告警中的业务或者专业方面的负责人信息,准确进行派发。
507 1. 节假日的所有告警生成事件单派发至负责人时,需增加短信息提醒,对于优先级为高和极高的事件工单,进行电话通知。
508
509 === ===
510
511 === **4.1.5 所有权原则 ** ===
512
513 1. 所有用户都可以提交事件申请。
514 1. 事件工单的责任人是事件受理人,负责跟踪事件处理的全过程。
515
516 === ===
517
518 === **4.1.6 重复事件原则 ** ===
519
520 1. 同一故障由于多次上报,而导致的多个事件单,需要标识,并合并处理与关闭。
521 1. 同一故障(相同症状)的多次发生(三次以上),必须生成问题,并提交问题单。
522 1. 属于重复事件的多个事件单,当其中任一事件单关闭时,其余重复关联的事件单同时关闭。
523
524
525 === **4.1.7 升级原则 ** ===
526
527 1. 如果确认事件为紧急事件,则立即升级到事件经理,并由事件经理通知相应的管理层,由事件经理启动紧急事件处理流程。
528 1. 如果事件单超出了解决时限,通报事件经理,由事件经理协调资源并督促事件解决。
529 1. 如果事件处理过程中,由于客观原因(例如等待备件等)需要申请将事件单挂起。
530 1. 事件升级需要事件经理的确认,否则不允许进行升级。
531 1. 事件受理人负责提醒和督办超时或已超时的工单,当工单处理时限还剩1小时,通过邮件和短信息的形式对事件处理人进行提醒,并监督剩余处理进程;当到达工单处理时限时,通过邮件、短信息和电话通知事件处理人,并由事件经理督办。
532 1. 可以通过督办解决的事件单,不允许挂起。
533
534 === ===
535
536 === **4.1.8 关联原则 ** ===
537
538 1. 事件解决过程如果需要变更操作,则关联变更管理流程,进行变更处理。
539 1. 标识为重复事件和紧急事件的事件单,应创建或关联问题单,并关联到问题管理流程。
540 1. 事件单转入变更流程时,需要得到事件经理的确认。
541 1. 事件处理过程中,所有涉及风险的操作,全部通过变更管理流程执行。
542 1. 当事件处理结束,但业务尚未恢复时,由事件经理决定是否允许将工单转入问题管理流程。
543 1. 当事件工单转入其他流程进行处理时,工单自动挂起。
544 1. 通过变通方式解决和未解决的事件单,应创建或关联问题单,并关联到问题管理流程。
545 1. 属于同一故障源的事件工单应进行关联,并标记为重复事件。
546 1. 由于现阶段系统平台限制,暂不对关联工单进行自动化处理。
547
548 === ===
549
550 === **4.1.9 关闭原则 ** ===
551
552 1. 事件单的关闭前,需要得到事件提交人的确认。
553 1. 事件单的关闭代码若为成功解决,必须有具体的处理措施。
554 1. 事件单由事件受理人负责关闭。
555 1. 处理结果包含完整填写的处理工单各个字段以及必要的解决方案或者处理报告附件。
556 1. 如果事件单未解决并关闭,需要由事件经理进行确认。
557 1. 来自告警自动派单的事件单,由事件处理人报结,由监控管理人员确认关闭。
558
559 === ===
560
561 === **4.1.10 典型事件原则** ===
562
563 1. 首次发生,且没有完善的标准处理方法。
564 1. 与业务或者其他类型设备有较强的关联性。
565 1. 有较重大或重大的潜在风险。
566 1. 符合以上条件的事件单均需要提交事件处理报告,请参考模板。
567
568 === ===
569
570 === **4.1.11 持续改进原则 ** ===
571
572 1. 流程负责人负责每半年对事件管理流程的执行情况进行评审,提出改进建议和方案。
573 1. 每周召开例会,对事件管流程的KPI报表进行讨论,提出改进建议。
574 1. 每月召开例会,与其他各流程经理讨论并调整影响服务效率和质量的因素。
575 1. 事件经理在例会中组织针对典型事件进行讨论,并制定标准解决方案。
576
577 === ===
578
579 === **4.1.12 紧急事件判定原则** ===
580
581 1. 已经产生重大经济损失的事件。
582 1. 对于已经严重影响生产系统的事件。
583 1. 事件的紧急程度极高,必须在7X24小时范围内立即进行处理。
584 1. 满足以上条件的事件为紧急事件,必须进入紧急事件流程进行处理。
585
586 === ===
587
588 === **4.1.13 紧急事件处理原则 ** ===
589
590 1. 来自监控管理人员电话通知的紧急事件,需要告知事件经理,同时按照紧急事件处理流程进行线下处理。
591 1. 所有紧急事件可以进行线下处理,处理完毕后,由事件受理人根据处理情况进行补充记录。
592 1. 紧急事件执行首问责任制,即首先接到事件的人负责整个事件的处理过程。
593
594 = =
595
596 = =
597
598 = **5. 基础数据定义** =
599
600 === **5.1.1 事件来源** ===
601
602
603 |**编号**|**代码**|**描述**
604 |1|监控告警|接受来自监控告警平台的事件单,通过平台接口自动进行转发,并抄送事件受理人,由监控管理人员进行预处理和关闭动作。
605 |2|远程巡检|在日常巡检过程中主动发现的事件。
606 |3|业务反馈|业务人员遇到IT事件时,填写事件申请单,并提交给事件受理人。
607 |4|日常维护|在执行日常作业计划任务过程中,发现的事件。
608 |5|机房巡检|机房值班人员巡检发现告警灯产生的故障告警。
609
610
611 === **5.1.2 事件分类** ===
612
613 |(% colspan="2" %)**一级专业分类**|**二级事件分类**|**三级事件分类**
614 |(% colspan="2" rowspan="5" %)服务器 |硬件|电源、风扇、主板、内存、CPU、硬盘、网卡
615 |软件|操作系统、应用程序、配置
616 |安全|账号、权限、病毒、黑客
617 |性能|CPU、内存、硬盘
618 |其他|自定义
619 |(% colspan="2" rowspan="5" %)刀片 |硬件|电源、风扇、主板、内存、CPU、硬盘、网卡
620 |软件|操作系统、应用程序、配置
621 |安全|账号、权限、病毒、黑客
622 |性能|CPU、内存、硬盘
623 |其他|自定义
624 |(% rowspan="5" %)网络 | |硬件|电源、风扇、模块
625 |路由器|配置|策略、路由、用户、权限
626 |交换机|安全|DDOS、广播风暴、访问控制
627 |防火墙|性能|带宽、CPU、内存、连接数
628 | |其他|自定义
629 |(% colspan="2" rowspan="5" %)存储 |硬件|电源、风扇、主板、内存、CPU、硬盘、网卡
630 |配置|操作系统、应用程序、配置
631 |安全|账号、权限、病毒、黑客
632 |性能|CPU、内存、硬盘
633 |其他|自定义
634 |(% colspan="2" rowspan="4" %)Oracle|配置|用户、权限、表空间
635 |性能|语句、连接、CPU、内存、表空间
636 |安全|系统bug、网络连接
637 |其他|自定义
638 |(% colspan="2" rowspan="4" %)Informix|配置|用户、权限、表空间
639 |性能|语句、连接、CPU、内存、表空间
640 |安全|系统bug、网络连接
641 |其他|自定义
642
643 业务系统分类:
644
645 |**业务系统 **|**业务模块 **
646 |(% rowspan="6" %)IP认证计费系统 |校园portal区域
647 |校园WLAN接口服务区
648 |Raduis认证区域
649 |校园WLAN接口服务区
650 |校园WLAN OBS应用
651 |校园WLAN OBS数据库
652 |(% rowspan="7" %)SCG综合网关系统 |GGSN
653 |UIDB
654 |iParser
655 |iProxy
656 |WAPGW
657 |CA
658 |BP
659 |(% rowspan="9" %)SCG综合网关系统 |RPT
660 |SMPA服务器
661 |I2000
662 |OAMagent
663 |SUR
664 |防火墙日志
665 |OMC
666 |DMC
667 |远程跳板机
668 |(% rowspan="4" %)统一增值平台 |来电助手
669 |V网彩信
670 |彩信超市
671 |校讯通
672 |(% rowspan="9" %)统一增值平台 |天气预报
673 |手机签名
674 |短彩信文化俱乐部
675 |数码相框
676 |CA公共认证
677 |交通秘书
678 |TD-FI试点认证
679 |......
680 |…...
681
682
683 === **5.1.3 事件影响度** ===
684
685 事件影响度用于衡量事件所影响业务的严重程度。严重程度通常通过事件所影响的人数、关键系统数以及故障所造成的损失来设定。
686
687 定义事件影响度等级的因素有:
688
689 1. 是否影响了关键/核心业务;
690 1. 所影响的用户范围;
691 1. 服务失效的影响范围。
692
693
694 |**编号**|**代码**|**描述**|**设备星级**
695 |1|极高|设备关联核心业务,并影响了大部分用户。|5
696 |2|高|设备关联核心业务,影响了一部分用户。|4
697 |3|中|设备关联一般业务,影响了部分用户。|3
698 |4|低|未对业务用户产生影响。|2
699
700
701 === **5.1.4 事件紧急度** ===
702
703 |**编号**|**代码**|**描述**|**告警级别**
704 |1|高|告警级别为一级,或者即将产生重大影响;或者支撑系统完全不可用,无备份手段的单点故障。|1
705 |2|中|告警级别为二级,或者可能产生影响;或者系统可用性受到影响,导致业务品质下降。|2
706 |3|低|告警级别为三级,或者未必产生影响;或者系统可用,对业务无影响,但是可用性受到威胁。|3
707
708
709 === **5.1.5 事件优先级** ===
710
711 事件优先级定义了事件优先获得资源并得到处理的优先顺序。事件优先级是与事件影响度和紧急度是相互对应的,其决定了事件的最终处理期限。
712
713
714 |(% colspan="4" %)**事件优先级**
715 |(((
716 紧急度
717
718
719 影响度
720 )))|高|中|低
721 |极高|**极高**|高|中
722 |高|高|中|中
723 |中|中|中|低
724 |低|中|低|低
725
726
727 === **5.1.6 事件状态** ===
728
729 |**状态代码**|**描述**
730 |新建 |事件单被记录或创建 。
731 |已分派 |事件单已派发至事件处理人 。
732 |处理中 |从事件处理人响应工单开始至处理结束。
733 |挂起 |由于某些客观原因导致无法继续处理事件。
734 |等待再分派 |事件单由第一次分派处理人转回受理人,等待再分派给其他事件处理人 。
735 |申请报结|为一个事件找到解决方案或变通方法,服务得到恢复,向事件受理人申请报结。
736 |已关闭|事件单已经关闭。
737
738
739
740 === **5.1.7 事件挂起** ===
741
742 |**挂起原因**|**描述**
743 |等待变更|事件处理过程需要等待变更的实施解决。
744 |等待备件 |事件处理过程中需要等待备件。
745 |等待问题解决 |事件处理需要等待问题的解决。
746 |等待资源 |事件处理需要更多的资源进行协助。
747
748
749
750 === **5.1.8 事件单响应和解决时限** ===
751
752 |**优先级**|**响应时限**|**处理时限**
753 |极高|15分钟|4小时
754 |高|30分钟|8小时
755 |中|1小时|36小时
756 |低|2小时|72小时
757
758
759
760 === **5.1.9 关闭代码** ===
761
762 |**关闭代码**|**描述**
763 |成功解决|找到事件的根本原因,故障成功解决。
764 |变通解决|故障已通过变通方法或者临时措施获得解决,但是需要进行更进一步的根源分析。
765 |不成功|故障没有获得解决(事件提交人没有认可解决时使用)。
766 |自动恢复|故障自行消失。
767 |误报|IT维护室纳管范围外的故障或故障信息有误。
768
769
770
771
772 = **6. 表单设计** =
773
774 |(% style="width:227px" %)字段|(% style="width:1317px" %)赋值条件
775 |(% colspan="2" %)公共信息部分
776 |(% style="width:227px" %)事件工单ID|(% style="width:1317px" %)编码规则:IM+4位年+2位月+2位日+4位流水号,由系统自动产生
777 |(% style="width:227px" %)事件标题|(% style="width:1317px" %)根据固定格式填写的事件标题
778 |(% style="width:227px" %)事件状态|(% style="width:1317px" %)事件处理过程中的状态
779 |(% style="width:227px" %)登记时间|(% style="width:1317px" %)事件单生成的时间
780 |(% style="width:227px" %)解决时限|(% style="width:1317px" %)根据优先级自动生成
781 |(% style="width:227px" %)解决时间|(% style="width:1317px" %)在事件单解决时系统自动生成
782 |(% style="width:227px" %)响应时限|(% style="width:1317px" %)根据优先级自动生成
783 |(% style="width:227px" %)响应时间|(% style="width:1317px" %)处理人响应事件单时系统自动生成
784 |(% style="width:227px" %)关闭时间|(% style="width:1317px" %)事件单关闭时系统自动生成
785 |(% colspan="2" %)申请信息部分
786 |(% style="width:227px" %)事件申请提交人|(% style="width:1317px" %)选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息。其中部门范围为:支撑室、传输室、数据室、IT维护室、增值业务室、动力室、工程室、交换室、监控室
787 |(% style="width:227px" %)事件申请单标题|(% style="width:1317px" %)手工填写
788 |(% style="width:227px" %)现象描述|(% style="width:1317px" %)手工填写
789 |(% style="width:227px" %)发生时间|(% style="width:1317px" %)手工填写
790 |(% style="width:227px" %)事件紧急度|(% style="width:1317px" %)选项:高、中、低
791 |(% style="width:227px" %)事件影响度|(% style="width:1317px" %)选项:极高、高、中、低
792 |(% style="width:227px" %)事件优先级|(% style="width:1317px" %)选项:极高、高、中、低;参看《优先级判定表》
793 |(% style="width:227px" %)事件来源|(% style="width:1317px" %)选项:监控告警、远程巡检、业务反馈、日常维护、机房巡检
794 |(% style="width:227px" %)业务系统|(% style="width:1317px" %)参看《业务系统表》
795 |(% style="width:227px" %)业务模块|(% style="width:1317px" %)参看《业务模块表》
796 |(% style="width:227px" %)事件一级分类|(% style="width:1317px" %)参看《事件分类表》
797 |(% style="width:227px" %)事件二级分类|(% style="width:1317px" %)参看《事件分类表》
798 |(% style="width:227px" %)事件三级分类|(% style="width:1317px" %)参看《事件分类表》
799 |(% style="width:227px" %)关联配置项ID|(% style="width:1317px" %)故障对象的标识,通过这个标识关联具体的配置信息。
800 |(% style="width:227px" %)设备名|(% style="width:1317px" %)发生故障的设备的名称。
801 |(% style="width:227px" %)设备类型|(% style="width:1317px" %)根据IT维护室维护设备的所有类型选择。
802 |(% style="width:227px" %)设备位置|(% style="width:1317px" %)故障设备所在具体为止
803 |(% style="width:227px" %)设备型号|(% style="width:1317px" %)故障设备的具体型号
804 |(% style="width:227px" %)设备序列号|(% style="width:1317px" %)故障设备的序列号
805 |(% style="width:227px" %)IP地址|(% style="width:1317px" %)故障设备的IP地址
806 |(% style="width:227px" %)生产厂商|(% style="width:1317px" %)故障设备的生产厂商
807 |(% colspan="2" %)事件受理分派信息部分
808 |(% style="width:227px" %)事件受理人|(% style="width:1317px" %)选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息,其中部门范围为IT维护室
809 |(% style="width:227px" %)事件处理人|(% style="width:1317px" %)选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息,其中部门范围为IT维护室
810 |(% style="width:227px" %)事件申请提交人|(% style="width:1317px" %)选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息
811 |(% style="width:227px" %)现象描述|(% style="width:1317px" %)对故障现象的全面描述,为事件处理提供参考。
812 |(% style="width:227px" %)发生时间|(% style="width:1317px" %)故障实际发生的时间
813 |(% style="width:227px" %)事件紧急度|(% style="width:1317px" %)选项:高、中、低。参考紧急度列表。
814 |(% style="width:227px" %)事件影响度|(% style="width:1317px" %)选项:极高、高、中、低。参考影响度列表。
815 |(% style="width:227px" %)事件优先级|(% style="width:1317px" %)选项:极高、高、中、低。参考优先级判定表
816 |(% style="width:227px" %)事件来源|(% style="width:1317px" %)选项:监控告警、远程巡检、业务反馈、日常维护、机房巡检
817 |(% style="width:227px" %)业务系统|(% style="width:1317px" %)参看《业务系统表》
818 |(% style="width:227px" %)业务模块|(% style="width:1317px" %)参看《业务模块表》
819 |(% style="width:227px" %)事件一级分类|(% style="width:1317px" %)参看《事件分类表》
820 |(% style="width:227px" %)事件二级分类|(% style="width:1317px" %)参看《事件分类表》
821 |(% style="width:227px" %)事件三级分类|(% style="width:1317px" %)参看《事件分类表》
822 |(% style="width:227px" %)关联配置项ID|(% style="width:1317px" %)故障对象的标识,通过这个标识关联具体的配置信息。
823 |(% style="width:227px" %)设备名|(% style="width:1317px" %)发生故障的设备的名称。
824 |(% style="width:227px" %)设备类型|(% style="width:1317px" %)根据IT维护室维护设备的所有类型选择。
825 |(% style="width:227px" %)设备位置|(% style="width:1317px" %)故障设备所在具体为止
826 |(% style="width:227px" %)设备型号|(% style="width:1317px" %)故障设备的具体型号
827 |(% style="width:227px" %)设备序列号|(% style="width:1317px" %)故障设备的序列号
828 |(% style="width:227px" %)IP地址|(% style="width:1317px" %)故障设备的IP地址
829 |(% style="width:227px" %)生产厂商|(% style="width:1317px" %)故障设备的生产厂商
830 |(% style="width:227px" %)是否再分派|(% style="width:1317px" %)选项:是、否(默认为“否”,如果从处理人驳回的事件单,则为“是”)
831 |(% style="width:227px" %)受理人处理方案|(% style="width:1317px" %)如果故障被受理人处理,受理人在此填写处理方案。
832 |(% colspan="2" %)事件处理信息部分(IT维护室处理)
833 |(% style="width:227px" %)事件处理人|(% style="width:1317px" %)根据上一阶段,系统自动生成
834 |(% style="width:227px" %)转派其他事件处理人|(% style="width:1317px" %)选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息,其中部门范围为IT维护室
835 |(% style="width:227px" %)协办人|(% style="width:1317px" %)选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息,其中部门范围为IT维护室(可选多个)(沿用EMOS)
836 |(% style="width:227px" %)协办任务标题|(% style="width:1317px" %)手工填写(沿用EMOS)
837 |(% style="width:227px" %)协办任务描述|(% style="width:1317px" %)手工填写(沿用EMOS)
838 |(% style="width:227px" %)协办任务要求完成时间|(% style="width:1317px" %)手工填写(沿用EMOS)
839 |(% style="width:227px" %)处理人处理方案|(% style="width:1317px" %)事件处理人填写处理方案
840 |(% style="width:227px" %)关联标准解决方案|(% style="width:1317px" %)手工填写标准解决方案标题
841 |(% style="width:227px" %)处理过程记录|(% style="width:1317px" %)故障处理的过程记录。
842 |(% style="width:227px" %)挂起原因|(% style="width:1317px" %)参看《挂起原因》
843 |(% style="width:227px" %)附件|(% style="width:1317px" %)上传事件相关的文档、图片等形式的附件
844 |(% style="width:227px" %)是否重复事件|(% style="width:1317px" %)选项:是,否。报告的事件与某个已经创建且尚未解决的事件单相同
845 |(% style="width:227px" %)关联的事件单号|(% style="width:1317px" %)与该事件工单相关联的其他事件的ID
846 |(% style="width:227px" %)关联的问题单号|(% style="width:1317px" %)与该事件工单相关联的问题工单的ID
847 |(% style="width:227px" %)关联的变更单号|(% style="width:1317px" %)与该事件工单相关联的变更工单的ID
848 |(% style="width:227px" %)第三方厂商(或人员)|(% style="width:1317px" %)对事件单进行处理的厂商名称
849 |(% colspan="2" %)事件处理信息部分(第三方厂商处理)
850 |(% style="width:227px" %)第三方厂商(或人员)|(% style="width:1317px" %)根据上一阶段,系统自动生成
851 |(% style="width:227px" %)厂商解决方案|(% style="width:1317px" %)厂商对事件单的解决方案
852 |(% style="width:227px" %)附件|(% style="width:1317px" %)上传事件相关的文档、图片等形式的附件
853 |(% style="width:227px" %)挂起原因|(% style="width:1317px" %)参看《挂起原因》
854 |(% style="width:227px" %)是否重复事件|(% style="width:1317px" %)选项:是,否。报告的事件与某个已经创建且尚未解决的事件单相同
855 |(% style="width:227px" %)关联的事件单号|(% style="width:1317px" %)与该事件工单相关联的其他事件的ID
856 |(% style="width:227px" %)关联的问题单号|(% style="width:1317px" %)与该事件工单相关联的问题工单的ID
857 |(% style="width:227px" %)关联的变更单号|(% style="width:1317px" %)与该事件工单相关联的变更工单的ID
858 |(% colspan="2" %)事件结束信息部分
859 |(% style="width:227px" %)事件结束代码|(% style="width:1317px" %)选项:成功解决、变通解决、未解决、自动恢复、误报
860 |(% style="width:227px" %)满意度|(% style="width:1317px" %)选项:0、0.5、1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5、5.0
861 |(% style="width:227px" %)是否需要提交知识|(% style="width:1317px" %)选项:是、否
862
863
864
865
866 = **7. 关键流程衡量指标** =
867
868 为了控制流程的质量,必须为流程设置衡量指标。通过对指标的分析,可以有效地对流程的运行情况进行监控和改进。
869
870 (% style="width:1052px" %)
871 |**序号**|(% style="width:388px" %)**衡量指标**|(% style="width:556px" %)**说明**
872 |1|(% style="width:388px" %)事件单总数 |(% style="width:556px" %)规定时间内产生事件单的总数。
873 |2|(% style="width:388px" %)事件单关闭的数量 |(% style="width:556px" %)规定时间内事件单关闭的总数。
874 |3|(% style="width:388px" %)事件成功解决的数量/比率 |(% style="width:556px" %)规定时间内成功解决事件单数量,以及占事件单总数的比率。
875 |4|(% style="width:388px" %)解决的事件数量/比率 |(% style="width:556px" %)规定时间内成功解决与变通解决事件单数量,以及占事件单总数的比率。
876 |5|(% style="width:388px" %)平均解决时间 |(% style="width:556px" %)规定时间内所有已解决事件单所耗处理时间的平均值。
877 |6|(% style="width:388px" %)超时未解决的事件单数量 |(% style="width:556px" %)规定时间内超时且未解决事件单的数量。
878 |7|(% style="width:388px" %)重复事件数量/比率 |(% style="width:556px" %)重复事件单的总数,以及占事件单总量的比率。
879 |8|(% style="width:388px" %)生成问题的数量/比率 |(% style="width:556px" %)生成问题单的事件单总数,以及占事件单总量的比率。
880 |9|(% style="width:388px" %)报结退回率 |(% style="width:556px" %)规定时间内,一次申请报结成功的事件单数量占所有事件单总数的比率。
881 |10|(% style="width:388px" %)一线解决率 |(% style="width:556px" %)由事件受理人处理并解决的事件工单数量,站事件单总数的比率。
882
883 = =
884
885 = =
886
887 = **8. 附录:高紧急度事件参考表** =
888
889 === **8.1.1 刀片服务器类** ===
890
891 |**序号**|**事件类别**|**事件名称**|**事件描述**|**解除标准**|**设备星级**
892 |1|硬件类|内存报错|内存报uncorrectable error|更换内存,无报错|五级
893 |2|硬件类|设备宕机|主板问题,设备无法访问|更换硬件,系统恢复|五级
894 |3|系统类|设备宕机|操作系统异常,设备无法访问|系统恢复|五级
895 |4|网络类|通信丢失|机框通信丢失或单板通信丢失|通信恢复|五级
896 |5|系统类|文件读写异常|文件读写报错|读写正常|五级
897
898 === ===
899
900 === **8.1.2 网络类** ===
901
902 |**序号**|**事件类别**|**事件名称**|**事件描述**|**解除标准**|**设备星级**
903 |1|安全事件|DDOS攻击导致网络设备拥塞|因部署业务时服务器密码设置过于简单,导致服务器被非法植入木马程序,不停往外网发送数据包,造成网络交换机和防火墙负载增加|网络恢复正常,业务正常访问|五级
904
905 === ===
906
907 === **8.1.3 存储类** ===
908
909 |**序号**|**事件类别**|**事件名称**|**事件描述**|**解除标准**|**设备星级**
910 |1|存储硬件故障|存储控制器宕机|由于存储控制器硬件异常导致存储宕机,故障切换未能生效,部分或者全部存储功能无法正常运行|存储备件完成更换或者应用切换至其他存储设备|五级
911 |2|存储硬件故障|存储磁盘柜宕机|由于存储磁盘柜硬件异常导致部分或全部存储服务异常,部分或者全部存储功能无法正常运行|存储备件完成更换或者应用切换至其他存储设备|五级
912 |3|存储硬件故障|存储内联故障|由于存储内联的FC/SAS/以太网/Infiniband等线缆或接口异常,导致部分或者全部存储功能无法正常运行|存储备件完成更换或者应用切换至其他存储设备|五级
913 |4|存储硬件故障|存储硬盘故障,阵列失败状态|由于存储短时间内发生多个硬盘故障,热备盘正常提供保护,导致部分或全部阵列失败|存储备件完成更换或者应用切换至其他存储设备|五级
914 |5|存储硬件故障|存储硬盘故障,阵列临界状态|由于存储短时间内发生1个或者多个硬盘故障,且无热备盘使用,处于部分或全部阵列失败的临界状态,业务正常|存储备件完成更换或者应用切换至其他存储设备|五级
915 |6|存储硬件故障|存储缓存电池故障|由于存储缓存电池或其他缓存保护机制失败,导致存储缓存失效,部分或者全部业务性能大幅度下降,无法满足业务需求|存储备件完成更换或者应用切换至其他存储设备|五级
916 |7|存储硬件故障|存储温度过高宕机|由于风扇或者环境温度过高导致存储自动停机,全部存储功能无法正常运行|存储备件完成更换或者应用切换至其他存储设备|五级
917 |8|存储硬件故障|存储电源故障宕机|由于存储电源模块或者供电故障导致存储停机,全部存储功能无法正常运行|存储备件完成更换或者应用切换至其他存储设备|五级
918 |9|存储软件故障|存储故障切换失败|由于存储控制器发生故障切换,且故障切换未能正常生效,导致部分或者全部存储功能无法正常运行|存储软件功能正常或者应用切换至其他存储|五级
919 |10|存储软件故障|存储软件异常hung死|由于存储控制器的存储软件异常,导致存储控制器hung死,无法触发故障切换,导致部分或者全部存储功能无法正常运行|存储软件功能正常或者应用切换至其他存储|五级
920 | |存储软件故障|存储软件异常RAID失败|由于存储控制器的存储软件异常,导致存储控制器RAID失败,无法触发故障切换,导致部分或者全部存储功能无法正常运行|存储软件功能正常或者应用切换至其他存储|五级
921 |11|存储软件故障|存储配置误操作|由于存储配置被误操作或人为操作破坏,导致部分或者全部存储功能无法正常运行|存储软件功能正常或者应用切换至其他存储|五级
922 |12|存储软件故障|存储微码版本升级失败|由于存储设备微码版本升级失效导致存储无法正常运行|存储软件功能正常或者应用切换至其他存储|五级
923 |13|存储软件故障|存储微码版本bug|由于存储设备微码版本存在bug,导致存储系统无法正常运行|存储软件功能正常或者应用切换至其他存储|五级
924 |14|存储软件故障|存储内部保护配置生效进入保护模式或halt|由于存储设备软件自身的内部保护配置被触发,导致存储系统进入保护模式或halt,无法满足业务需求|存储软件功能正常或者应用切换至其他存储|五级
925 |15|存储软件故障|NAS设备文件系统异常|由于NAS NFS/CIFS文件系统受损导致业务异常|存储软件功能正常或者应用切换至其他存储|五级
926 |16|存储软件故障|NAS文件系统利用率98%|由于NAS文件系统整体使用率超过98%,导致NAS设备无法正常运行|存储软件功能正常或者应用切换至其他存储|五级
927 |17|存储软件故障|NAS时间同步异常|由于NAS文件系统的时间同步异常,导致文件系统上文件与业务服务器上的文件的时间有冲突,无法满足业务需求|存储软件功能正常或者应用切换至其他存储|五级
928 |18|存储软件故障|存储LICENSE异常|由于存储侧功能或者容量license异常导致功能无法正常使用,无法满足业务需求|存储软件功能正常或者应用切换至其他存储|五级
929 |19|存储外接链路故障|存储FC链路故障|由于存储外接FC链路异常,且多链路未能正常生效导致存储功能无法正常使用或无法满足业务需求|存储链路正常或者应用切换至其他存储|五级
930 |20|存储外接链路故障|存储以太网链路故障|由于存储外接NAS或者iscsi使用以太网链路异常,且链路聚合未能正常生效导致存储功能无法正常使用或无法满足业务需求|存储链路正常或者应用切换至其他存储|五级
931 |21|存储容量需求超标|存储容量使用超标|由于存储需求过大,导致存储空间使用超过90%,影响业务扩容需求,需要紧急扩容或预警|存储紧急扩容或者部分应用切换到其他存储|五级
932 |22|存储性能需求超标|存储性能需求超标|由于业务侧原因,存储侧长期出现IO压力过大严重超过存储性能预警指标,无法满足业务IO需求|存储紧急性能优化/扩容或者部分应用切换到其他存储|五级
933 |23|FC交换机硬件故障|FC交换机硬件故障|由于FC交换机主板/模块/其他组件发生异常,导致部分或者全部存储功能无法正常运行|FC交换机备件完成更换或者应用单链路恢复|五级
934 |24|FC交换机软件故障|FC交换机软件故障|由于FC交换机软件配置发生异常,导致部分或者全部存储功能无法正常运行|FC交换机软件功能正常或者应用单链路恢复|五级
935
936 === ===
937
938 === **8.1.4** **Oracle数据库类** ===
939
940 |**序号**|**事件类别**|**事件名称**|**事件描述**|**解除标准**|**设备星级**
941 |1|数据库实例宕机|数据库实例宕机|由于后台错误或者人为故障导致数据库实例crash|数据库实例启动正常,业务恢复|
942 |2|数据库hung|数据库hung|数据库hung,响应异常缓慢|数据库恢复正常,业务恢复|
943 |3|数据库连接失败|数据库连接失败|由于连接数满或者网络原因导致数据库连接失败|数据库连接恢复正常,业务恢复|
944 |4|数据库归档目录使用率超过阈值|数据库归档目录使用率超过阈值|数据库归档目录使用率超过阈值|数据库归档目录使用率恢复正常|五级
945 |5|数据库无法归档|数据库无法归档|由于归档目录满,导致数据库无法归档,业务挂起|数据库归档恢复正常,业务恢复|
946 |6|数据库表空间使用率超过阈值|数据库表空间使用率超过阈值|数据库表空间使用率超过阈值|数据库表空间使用率恢复正常|五级
947 |7|数据库表空间无法扩展|数据库表空间无法扩展|数据库表空间无法扩展,业务受到影响|数据库归档恢复正常,业务恢复|
948 |8|数据库异常等待|数据库异常等待|数据库异常等待较高,业务受到影响|数据库异常等待消失,业务恢复|五级
949 |9|数据库alert日志批量告警|数据库alert日志批量告警|alert日志批量告警,显示数据库存在一定异常|alert日志批量告警消失|五级
950 |10|数据库主机cpu使用率超过阈值|数据库主机cpu使用率超过阈值|数据库主机cpu使用率超过阈值,业务可能存在异常|数据库主机cpu使用率恢复正常|五级
951 |11|业务反馈业务响应缓慢,业务超时|业务反馈业务响应缓慢,业务超时|业务反馈业务响应缓慢,业务超时,要求共同排查原因|业务恢复|五级
952
953 === ===
954
955 === **8.1.5 Informix数据库类** ===
956
957 |**序号**|**事件类别**|**事件名称**|**事件描述**|**解除标准**|**设备星级**
958 |1|数据库|数据库主机挂死|数据库主机挂死,无法连接,集群无法切换。
959 处理方法:若有容灾,业务切换至容灾;若无容灾,直接恢复数据库、集群。再按正常流程恢复数据库。|业务恢复运行|五级
960 |2|数据库|数据库主机挂死|数据库主机挂死,无法连接,集群可切换。
961 处理方法:数据库切换至备机,业务切换至备机。再按正常流程恢复数据库。|业务恢复运行|五级
962 |3|数据库|数据库备机挂死|数据库备机挂死,并影响主机运行。
963 处理方法:备机数据库关闭,保证业务正常运行。再按正常流程恢复数据库。|业务恢复运行|五级
964 |4|数据库|数据库主机宕机|数据库主机宕机,集群无法切换。
965 处理方法:若有容灾,业务切换至容灾;若无容灾,直接恢复数据库、集群。再按正常流程恢复数据库。|业务恢复运行|五级
966 |5|数据库|数据库主机宕机|数据库主机宕机,集群可切换。
967 处理方法:数据库切换至备机,业务切换至备机。再按正常流程恢复数据库。|业务恢复运行|五级
968 |6|数据库|数据库挂死|单机数据库挂死,可切换至容灾。
969 处理方法:切换业务至容灾,恢复业务运行。再按正常流程恢复数据库。|业务恢复运行|五级
970 |7|数据库|数据库挂死|单机数据库挂死,无容灾。
971 处理方法:直接恢复数据库,恢复业务运行。|业务恢复运行|五级
972 |8|数据库|数据库宕机|单机数据库宕机,可切换至容灾。
973 处理方法:切换业务至容灾,恢复业务运行。再按正常流程恢复数据库。|业务恢复运行|五级
974 |9|数据库|数据库宕机|单机数据库宕机,无容灾。
975 处理方法:直接恢复数据库,恢复业务运行。|业务恢复运行|五级
976
977 === ===
978
979 === **8.1.6 主机类** ===
980
981 |**序号**|**事件类别**|**事件名称**|**事件描述**|**解除标准**|**设备星级**
982 |1|主机宕机|主机宕机|系统无法登录,也无法正常使用|系统能够正常使用,业务能够正常使用|五级
983 |2|主板故障|主板故障|主板故障导致主机不能正常使用|系统能够正常使用,业务能够正常使用|五级
984 |3|CPU故障|CPU故障|CPU故障导致主机偶断性重启及挂死|系统能够正常使用,业务能够正常使用|五级
985 |4|硬盘故障|硬盘故障|镜像硬盘故障导致系统宕机|系统能够正常使用,业务能够正常使用|五级
986 |5|电源故障|电源故障|电源故障导致系统宕机|系统能够正常使用,业务能够正常使用|五级
987 |6|内存故障|内存故障|内存故障导致系统宕机|系统能够正常使用,业务能够正常使用|五级
988 |7|光纤卡故障|光纤卡故障|光纤卡故障引起链路失败或者切换瞬断|系统能够正常使用,业务能够正常使用|五级
989 |8|操作系统BUG|系统BUG|操作系统BUG引起主机HUANG机|系统能够正常使用,业务能够正常使用|五级
990 |9|操作系统配置文件修改|操作系统配置文件修改|操作系统配置文件修改造成系统问题|系统能够正常使用,业务能够正常使用|五级
991 |10|操作系统内核错误|操作系统内核错误|操作系统内核错误,造成系统问题|系统能够正常使用,业务能够正常使用|五级
992 |11|文件系统使用率100%|文件系统使用率100%|文件系统使用率100%,造成数据无法写入|系统能够正常使用,业务能够正常使用|五级
993 |12|磁盘繁忙率100%|磁盘繁忙率100%|IO读写过高,造成磁盘读写性能严重影响|系统能够正常使用,业务能够正常使用|五级
994 |13|CPU使用率100%|CPU使用率100%|CPU使用率100%,造成业务受阻|系统能够正常使用,业务能够正常使用|五级
995 |14|内存使用率100%|内存使用率100%|内存使用率100%,造成业务受阻|系统能够正常使用,业务能够正常使用|五级
996 |15|交换空间使用率100%|交换空间使用率100%|交换空间使用率100%,造成业务受阻|系统能够正常使用,业务能够正常使用|五级
997
998
深圳市艾拓先锋企业管理咨询有限公司