Show last authors
1 = **1. 文档目的** =
2
3
4 事件管理流程的目标是及时响应IT服务的意外事件,并按照服务级别要求恢复。 事件管理流程也用于对服务请求实施的管理。
5
6 本文定义了南方基地提供适应性运维管理服务过程中所遵循的事件处理流程,用于指导运维服务团队进行日常的突发事件和服务请求的管理,包括突发事件和服务请求的报告、记录、评估分类、解决、确认以及关闭活动,本文也定义了事件管理的相关代码、与客户的相关接口以及职责角色分工。
7
8 = =
9
10 = =
11
12 = **2. 流程范围** =
13
14
15 本文档定义的事件管理流程适用于南方基地与XX所签署的《运维管理服务协议》范围内的系统架构的突发事件和服务请求的管理。
16
17
18 = =
19
20 = =
21
22 = **3. 流程相关定义** =
23
24 == **3.1事件性质** ==
25
26
27 |**编号**|**代码**|**描述**
28 |1|故障|(((
29 指与系统故障(包括主机和存储)有关的引发业务系统部分或全部功能不能正常使用的报障;
30
31 监控管理平台上报的影响系统正常使用的告警
32 )))
33 |2|告警|监控平台自动产生的没有影响到系统正常使用的告警,以及备份或监控系统异常无法进行正常的操作
34 |3|服务请求|指客户发起的例行维护需求,例如文件系统的调整等
35 |4|咨询|对产品或操作使用进行咨询
36
37 注:接受来自SSB用户发送的服务请求,不属于IT基础设施方面的故障。如果被请求的服务将改变IT基础设施状态,则应该提交变更请求(RFC),进入变更管理流程。
38
39 == ==
40
41 == **3.2 事件来源** ==
42
43 事件来源代码用来标明事件的提出方式,事件来源可以包括以下几种:
44
45 |**编号**|**代码**|**描述**
46 |1|用户报告|客户维护人员通过电话/邮件/系统报告的事件,由HP运维工程师手工创建事件单
47 |2|内部开单|HP运维工程师在监控和维护过程中自行发现的事件
48 |3|监控告警|自动报警系统产生的事件
49
50 == ==
51
52 == **3.3 事件分类** ==
53
54
55 |**类别**|**子类**
56 |(% rowspan="4" %)系统硬件|HP 9000服务器
57 |磁盘阵列
58 |存储光纤交换机
59 |磁带库
60 |(% rowspan="5" %)系统软件|数据库
61 |操作系统
62 |集群软件
63 |备份软件
64 |监控脚本
65 |(% rowspan="3" %)业务系统|业务系统
66 |网站系统
67 |市民查询系统
68
69 == ==
70
71 == **3.4 事件影响、优先级和响应时限** ==
72
73 响应时限指的是事件状态从“已登记”到“运维工程师(OE)处理中”经过的时间。
74
75
76 |(% rowspan="2" %)**编号**|(% rowspan="2" %)**优先级代码**|(% colspan="3" %)**描述**|(% rowspan="2" %)**响应时限**
77 |**影响面**|**业务是否中断**|**是否有临时解决方案**
78 |1|紧急|**大**(整个业务,某个部门,某个生产系统)|是|否|40分钟
79 |2|高|**大**(整个业务,某个部门,某个生产系统,重要用户)|是|是|1.5小时
80 |3|中|**一般**(内部系统,非生产系统)|是/否|是/否|4小时
81 |4|普通|**小**(普通个人,不影响前台业务)|否|是/否|第二天
82
83 == ==
84
85 == **3.5 事件状态** ==
86
87 事件状态代码表明事件所处的处理状态,事件状态如下:
88
89 |**编号**|**代码**|**描述**
90 |1|已登记|已由客户或运维工程师登记
91 |2|OE处理中|根据工作手册中的描述处理相关事件
92 |3|升级|运维工程师向后线支持之间升级事件时
93 |4|800 处理中|接受系统软硬件故障并进行处理
94 |5|技术支持处理中|后线技专家(ITSM 、OVO或备份专家)接受事件并处理
95 |6|返回|后线支持返回处理结果给运维工程师
96 |7|已解决|与客户确认事件已经解决
97 |8|关闭|根据解决方案不同关闭事件
98
99 == ==
100
101 == **3.6 事件结束代码** ==
102
103 事件结束代码说明了事件是在何种情况下关闭的,结束代码如下:
104
105 |**编号**|**代码**|**描述**
106 |1|成功解决|事件获得成功解决
107 |2|变通方法解决|事件已通过变通方法或者临时措施获得解决,但是需要进行更进一步的根源分析
108 |3|第三方问题|已确认的第三方问题,例如数据库、应用程序等
109
110 == ==
111
112 == **3.7 事件信息项** ==
113
114 建议事件单包含如下事件信息项:
115
116 |**序号**|**信息项**|**说明**
117 |1|事件ID|事件单流水号(自动产生)
118 |2|请求人信息|事件申报人的信息,包括:姓名、部门、电子邮件、办公电话(手工填写)
119 |3|登记时间|生成事件记录的时间(手工填写)
120 |4|地点|事件发生的地点 (手工填写)
121 |5|事件发生时间|针对故障:指的是业务中断的实际时间 (可能早于登记时间,需要手工填写)
122 |6|业务恢复时间|针对故障的业务恢复实际时间(手工填写)
123 |7|事件性质|参见“事件性质”定义(选择)
124 |8|事件来源 |参见“事件来源”定义(选择)
125 |9|事件分类|参见“事件分类”定义(选择)
126 |10|配置项|关联的配置项(手工填写)
127 |11|事件优先级|参见“事件影响、优先级和响应时限”定义(选择)
128 |12|事件影响|参见“事件影响、优先级和响应时限”定义(选择)
129 |13|事件标题|事件的简要描述(手工填写)
130 |14|事件描述|对于整个事件内容的详细描述(手工填写)
131 |15|事件解决人|事件的最终解决人(手工填写)
132 |16|事件状态|参见“事件状态”定义(选择)
133 |17|解决方案|事件解决方案的描述(手工填写)
134 |18|事件结束代码|参见“事件结束代码”定义(选择)
135 | 19|关联的变更单号|记录由事件引发变更时,关联的变更单号(手工填写)
136 |20|关联WFM单号|记录生成事件的来源系统工单号
137
138 == ==
139
140 == **3.8 与SSB事件管理流程接口** ==
141
142 1. 南方基地事件来源:SSB运维专家发现并交由HP工程师处理;OE或MCE发现并处理;监控平台告警。
143 1. XX运维工程师(OE)接到客户上报事件后,根据实际情况,按照AO事件管理流程处理事件。
144 1. 对于紧急事件,南方基地可以通过紧急事件处理流程第一时间联系ASM或MCE,同时确保周知OE。
145
146 HP接口人员联系信息如下:
147
148 |**编号**|**惠普接口人员**|**联系方式**
149 |1|(((
150 HP运维工程师(OE)
151
152 朱XX
153 )))|/
154 |2|(((
155 MCE
156
157 宋XX
158 )))|/
159 |3|(((
160 客户服务经理(ASM)
161
162 廖XX
163 )))|/
164
165
166
167
168 = **4. 流程图** =
169
170 == **4.1AO事件管理流程图** ==
171
172 事件管理流程图如下:
173
174 (% style="text-align:center" %)
175 [[image:图片1.jpg]]
176
177
178
179 事件管理流程说明如下:
180
181 |**序号**|**步骤名称**|**责任人**|**说明**
182 |100.1|事件记录和分类|HP运维工程师|(((
183 * HP运维工程师对来自用户/监控系统/自己发现的事件进行详细记录,具体参见《AO事件管理工作表》中的“事件登记”页面
184 * HP 运维工程师负责在接收到事件后进行分类转发,对服务请求转发给客户服务经理 协调处理
185 )))
186 | |判断是否为服务请求|HP 运维工程师|(((
187 * 如果是服务请求,是否在运维合同的范围内,如果是,转100.2;否则转100.11
188 )))
189 | |判断是否为紧急事件|HP 运维工程师|(((
190 * 如果该事件属于紧急事件,立即转100.13,由客户服务经理决定是否启动紧急事件流程
191 )))
192 | |判读是否能独立解决|HP 运维工程师|(((
193 * 如果该事件可以独立解决,转 100.2初始诊断和支持
194 * 如果该事件无法独立解决,进一步判断。如果该事件属于系统故障,则转100.3,通知800 响应中心;如果属于操作故障,转100.6,通知客户服务经理协调处理
195 )))
196 |100.2|初始诊断和支持|HP 运维工程师|(((
197 * 对于来自用户和系统的事件,HP 运维工程师根据操作手册指导或相关经验进行初始化诊断和支持
198 )))
199 |100.3|通知800响应中心|HP 运维工程师|(((
200 * 提供客户贵宾号、主机序列号、地点等给CCR
201 * 打开Modem电源,并登录到响应故障系统
202 * 记录Case ID
203 )))
204 |100.4|CCR记录转发|800 CCR|(((
205 * 记录HP 运维工程师报障信息,开出Case ID, 转发给RC
206 )))
207 |100.5|RC尝试解决|800 RC|(((
208 * RC工程师接受事件,登录客户故障系统,进行远程诊断支持,尝试解决方案;如果远程无法解决,派单给本地工程师进行现场维修
209 * 对于需要通过变更解决的事件提出变更申请,通过变更流程实施解决方案
210 * 事件解决后,在HP内部平台中记录事件解决方案
211 * 回复HP 运维工程师 处理过程和方案
212 )))
213 |(((
214 100.6
215
216
217 )))|通知客户服务经理协调处理|HP 运维工程师|(((
218 * 对于非运维工程师职责范围内事件,通知客户服务经理进行协调处理
219 )))
220 |100.7|(((
221
222
223 组织运维专家
224
225
226 )))|客户服务经理|(((
227 * 协调HP内部备份或监控方面资源,制定解决方案,以修复客户操作方面故障
228 )))
229 |100.8|实施解决方案|运维专家|(((
230 * 解决方案实施前要得到客户和客户服务经理的认可,如果涉及系统变更,需要提交变更申请,遵循变更管理流程
231 )))
232 | |与客户确认是否解决?|HP 运维工程师|(((
233 * HP运维工程师根据《AO事件管理工作表》中的“单项事件报告模板”页面,提交事件报告,由客户签字确认故障现象得到解决
234 * 如果没有解决,通知客户服务经理协调处理
235 )))
236 |100.9|记录解决方案细节|HP 运维工程师|(((
237 * 在事件得到解决后,HP 运维工程师负责详细记录事件解决过程及方案,并更新《AO事件管理工作表》中的“事件追踪”页面中事件解决方案等信息
238 )))
239 |100.10|关闭事件 |HP 运维工程师|(((
240 * 事件解决后,需要在《AO事件管理工作表》中的“事件追踪”页面中选择事件结束代码
241 * 关闭事件的同时必须确认事件单记录的业务恢复时间是否准确,同时,检查解决方案记录是否完整详尽
242 )))
243 |100.11|可行性分析|客户服务经理|(((
244 * 客户服务经理根据实际情况判断是否可以实施该服务请求
245 )))
246 |100.12|回复运维工程师|客户服务经理|(((
247 * 客户服务经理将决定通知运维工程师
248 )))
249 |100.13|紧急事件再确认|客户服务经理|(((
250 * 客户服务经理接受到来自HP运维工程师 的”紧急”事件后,根据事件优先级别标准再次确认事件是否为”紧急”事件
251 * 如果优先级确实紧急,则通知相应的管理层,转101紧急事件处理子流程
252 * 如不是,转正常事件解决流程
253 )))
254 |101|紧急事件处理流程|客户服务经理|(((
255 * 负责协调紧急事件的处理,具体过程见紧急事件处理子流程
256 )))
257
258 **注:**
259
260 * 由运维工程师对事件解决过程进行全程跟踪,并更新《AO事件管理工作表》中的“事件追踪”页面
261
262 == ==
263
264 == **4.2 AO紧急事件处理子流程图** ==
265
266 ==== **4.2.1 流程原则** ====
267
268 1. 制定各系统应急处理预案
269
270 为了确保系统发生重大故障时,能够尽快恢复业务,并充分调动技术力量,在最短时间内排除故障,各系统应该建立相应的应急处理预案,建议预案中的内容至少应涵盖以下方面:
271
272 * 应急预案启动条件
273 * 应急处理小组负责人和成员联系名单和联系方式
274 * 应急处理步骤
275 * 应急信息通报
276 * 应急善后处理
277 * 应急保障措施(人员、培训、演习、场地等)
278
279 ==== ====
280
281 ==== **4.2.2 AO紧急事件处理子流程** ====
282
283 (% style="text-align:center" %)
284 [[image:1730523425708-314.png]]
285
286
287
288
289 紧急事件处理流程说明如下:
290
291 |**序号**|**步骤名称**|**说明**
292 |101.1|召集应急小组,协调应急会议|客户服务经理主持应急会议,协调各方资源,分析紧急事件处理方案,并将紧急事件情况通报客户 和CHP管理层
293 |101.2|判断是否属于应急预案中的事件?|(((
294 客户和CHP应急小组根据紧急事件现象和影响程度,判断是否需要启动相应系统的应急预案?
295
296 1. 如果没有应急预案,则进入101.4组织运维专家共同分析紧急事件,制定处理方案并处理;
297 1. 如果有应急预案,则进入101.3按照应急预案处理
298 )))
299 |101.3|按照应急预案处理|根据各系统制定的应急预案中的实施步骤,处理紧急事件
300 |101.4|组织运维专家分析,制定处理方案并实施|(((
301 事件经理负责组织相关CHP内部资源共同分析紧急事件,制定相应的处理方案
302
303 处理方案在实施前应得到应急小组和相关领导的认可;
304
305 事件处理过程中如果需要中断业务或对系统的IT组件产生变更,则需要按照紧急变更管理流程的定义和要求,提出紧急变更请求
306 )))
307 |101.5|紧急事件解除确认?|(((
308 在紧急事件处理方案实施后,应急小组和相关部门对紧急事件是否解除进行确认
309
310 1. 紧急事件如果没有解除,则重新进入101.4组织相关资源共同分析紧急事件,制定处理方案并处理;
311 1. 如果解除,则进入101.6紧急事件善后处理和总结分析
312 )))
313 |101.6|善后处理和通报|(((
314 1. 紧急事件解除后,应急小组向申告方、公司相关领导简要报告紧急事件处理过程,解决方法,业务恢复时间,业务恢复情况等
315 1. 紧急事件解除后,客户服务经理组织运维专家对事件的根本原因进行分析,消除导致事件再次发生的潜在故障因素
316 1. 三天内向用户提交紧急事件分析报告
317 1. 如果没有在《AO事件管理工作表》中登记和记录,补登记“事件登记”、“事件追踪”页面中的信息
318 )))
319
320
321
322
323 = **5. 关键角色和职责定义** =
324
325 流程的实现是通过不同的流程角色以及其被赋予的职责来实现的,因此流程的每一个角色可以被定义为一系列职责的集合,在实际的管理操作中,不同的人员将被赋予不同的职责,也可能一个人被赋予多个职责,同时也可以将其职责授权给其管理结构之下的人员,因此,以下所提及的管理流程和角色的目的是为了在充分满足流程所需角色的基础上,为具体的实现提供足够的灵活性。
326
327 事件管理流程主要分为以下几个职责/角色,分别简述如下:
328
329 == ==
330
331 == **5.1 IT运维咨询顾问** ==
332
333 即事件管理流程负责人,从宏观上监控流程,确保事件管理流程在IT部门范围内被正确的执行。当流程不能够适应系统维护部门的情况时,流程负责人必须及时的对此进行分析、找出缺陷、进行改进,从而实现可持续提高。
334
335 **职责:**
336
337 1. 确定事件管理流程的衡量指标
338 1. 确保事件管理流程能够取得管理层的参与和支持
339 1. 确保事件管理流程符合本单位实际状况和 IT发展战略
340 1. 总体上管理和监控流程,建立事件管理流程实施、评估和持续优化机制
341 1. 确保事件管理流程有效、正确地执行,当流程不能够适应公司的情况时,必须及时进行分析、找出缺陷、进行改进,从而实现可持续提高
342 1. 保持与其他流程负责人的定期沟通
343
344 == ==
345
346 == **5.2 客户服务经理** ==
347
348 客户服务经理负责事件解决过程中的协调和监控,以及事件升级的判断以及具体执行。
349
350 **职责:**
351
352 1. 确保有效协调资源(swat, RC, ITO),促进升级事件的尽快解决;
353 1. 确保完整收集和分析事件数据,定期向客户提供事件分析报告,为客户提供系统改善建议;
354 1. 定期或不定期地对事件流程进行回顾,找出事件管理流程的不足;
355
356 == ==
357
358 == **5.3 HP运维工程师** ==
359
360 **职责:**
361
362 1. 负责事件的接收、记录、分类和优先级排序
363 1. 在规定的时间内解决事件(突发事件,监控系统自动发现的故障等)
364 1. 把事件的影响降到最小,并确保快速恢复到正常服务水平
365 1. 当事件不能解决时应及时将事件升级给800 或客户服务经理
366 1. 跟踪事件的处理过程以确保在规定的时间内解决事件
367 1. 将事件的解决步骤文档化,并将解决方案记录系统中或事件控制表
368 1. 及时与客户沟通确认事件的解决状态, 事件解决后, 取得客户的确认
369 1. 对第三方的故障,联系第三方的支持人员,并通知客户IT人员跟进监控
370
371 == ==
372
373 == **5.4 HP运维专家** ==
374
375 运维专家负责对运维工程师无法解决的事件进行快速有效的分析,提出解决方案以尽快恢复服务,并在必要时提供现场支持。
376
377 运维专家既是相关问题领域的专家。负责提供对运维工程师无法解决的问题进一步进行调研,找出解决方案并尽快恢复服务。
378
379 **职责:**
380
381 1. 后端支持专家(SWAT/GSC/HPCE/ITO)
382 1. 及时响应和处理现场运维工程师升级来的事件
383 1. 必要时提供现场支持服务
384
385 == ==
386
387 == **5.5 SSB 运维专家** ==
388
389 SSB运维专家负责对发现和升级的的事件进行快速有效的分析,判断是否需要XX支持,以便将事件及时向XX做横向升级,并在必要时提供现场支持。
390
391 **职责:**
392
393 1. 及时响应和处理发现和升级来的事件
394 1. 对事件进行快速有效分析,判断是否需要XX支持
395 1. 将需要升级至XX的事件及时升级至厂商运维维护人员
396 1. 必要时提供现场支持服务
397
398 == ==
399
400 == **5.6 流程角色和人员对应表** ==
401
402 |**角色**|**成员**
403 |IT运维咨询顾问BCC|罗XX
404 |客户服务经理ASM|廖XX
405 |运维工程师MCE|宋XX
406 |运维专家OE|
407 |SSB运维专家|
408
409
410
411 = **6. 关键流程衡量指标** =
412
413 为了控制流程的质量,必须为流程设置衡量指标。通过对指标的分析,可以有效地对流程的运行情况进行监控和改进。
414
415 |**序号**|**衡量指标**
416 |1|按月显示事件总数
417 |2|按照事件分类统计事件数量/比率
418 |3|运维工程师完成的事件比例
419 |4|事件关闭的数量
420 |5|事件成功关闭的数量/比率
421 |6|平均解决时间
422 |7|事件升级的数量/比率
423 |8|超时未解决的事件数量
424
425 = =
426
427 = =
428
429 = **7. 专业词汇解释** =
430
431 CE:客户支持专家
432
433 OE:硬件支持专家
434
435 RC:远程支持专家
436
437 MCE:客户支持专家
438
439 SWAT:快速反应部队
440
441 GSC:全球服务中心
442
443 ITO:HP合作伙伴
深圳市艾拓先锋企业管理咨询有限公司