Show last authors
1 = 1. 综述 =
2
3
4 == 1.1 适用范围与对象 ==
5
6 本文档作为本次项目的事件管理流程详细设计的交付物,读者对象为与事件管理流程相关的所有技术与管理人员。
7
8
9 == 1.2 重要参考资料 ==
10
11 ITIL(IT Infrastructure Library )V3.0。
12
13 《大XX事件、变更级别说明》。
14
15
16 == 1.3 相关术语 ==
17
18 * ITIL(IT Infrastructure Library )
19
20 是英国政府在1987年制定的有关IT服务管理的方法论,现已成为事实上的IT管理标准。
21
22 * ISO20000
23
24 国际标准组织ISO/IEC在2005年底发布的全球IT服务管理标准,包括服务实施、控制、发布、解决、关系管理5个域13个流程,强调持续改进过程。ISO20000可以提供针对企业或部门的国际标准认证。
25
26 * 服务台(Service Desk)
27
28 服务台从根本上来说是提供了用户和IT部门的唯一接口。此项功能常通过集中方式提供服务。服务台的根本目的是提供初始支持,并通过变通方法、解决方案或升级到一线、二线支持等手段帮助用户恢复到正常工作状态。
29
30 * 事件管理( Incident Management)
31
32 ITIL流程之一,事件管理负责解决所有的IT事件、问题和用户请求。它的目的是尽快恢复被中断或受到影响的IT服务,所以它的特点往往是以解决表征现象为目的,而不在于查找根本原因。
33
34 * 问题管理(Problem Management)
35
36 ITIL流程之一,问题管理负责解决重大紧急事件或具有相同症状的一组事件。它的目的是找出事件的根本原因,并通过解除根本原因从而使类似事件不再发生。同时问题管理流程也负责预防事件的发生。
37
38 * 配置管理(Configuration Management)
39
40 ITIL 流程之一,配置管理负责描述,跟踪和汇报IT基础架构中每一个设备或系统的管理流程。这些设备和系统被称为配置项(CI)。每一个CI必须有效管理,跟踪和控制以支持公司的IT服务和基础设施成功运行。
41
42 * 配置管理数据库(CMDB - Configuration Management Database)
43
44 是在配置管理流程中用于记录企业所有IT相关配置项信息及其相互关系而建立的数据库。
45
46 * 变更管理(Change Management)
47
48 ITIL流程之一,变更管理通过控制和管理服务相关的变更, 使变更对生产环境可能的影响和风险降到最小,从而提高IT环境的整体稳定性。
49
50 * 服务级别管理(Service Level Management)
51
52 服务级别管理流程通过签订和维护服务水平协议(SLA)的方式,确保以协定的质量和成本向客户交付既定的服务。同时该流程维护、监控和持续改进协定的服务级别。
53
54 * 日常运维管理(Operation and maintenance management)
55
56 日常运维管理用来支持运行维护人员需要定期重复或临时发起的,需要人工参与执行或检查的日常任务,使日常运维工作规范化,并最大程度实现自动化。
57
58 * 知识管理(Knowledge management)
59
60 为日常使用、培训和丰富组织文化而设计的进行收集、组织、结构化和分发知识活动的集合,在整个服务生命周期中,通过提供充足、可信、可靠的知识,提升服务和组织决策的质量和效率。
61
62
63
64
65 = 2. 事件管理流程介绍 =
66
67 == 2.1 流程目的 ==
68
69 事件管理流程是负责解决IT服务的突发事件的运维流程。它的目的是尽快恢复被中断或受到影响的IT服务,所以事件管理的特点往往是以解决表征现象为目的,而不在于查找根本原因。
70
71
72 == 2.2 流程主要内容 ==
73
74 事件管理流程着眼于快速解决IT环境中的突发事件,并降低其对业务的影响度,流程内容如下:
75
76 检测和记录  事件的主要来源包括监控系统自动上报和用户电话生成,所有事件都需要被记录。
77
78
79 判断并分派  确定是服务请求、事件、咨询还是投诉。如果是事件,收集信息, 确定事件影响,尝试解决问题。
80
81
82 服务台尝试解决  确定是否能由服务台解决,如果无法解决则由服务台分派给后线支持人员进一步诊断处理。
83
84
85 调查和诊断  一线、二线和三线(飞创公司、厂商、集成商、服务商等)支持人员利用自身技能和相关工具,力图在规定的时间内提出解决方案,尝试解决事件。
86
87
88 服务台确认  对事件的解决方案进行确认,如未解决,根据情况重新分派。
89
90
91 结束   如果确认已解决,关闭记录,更新文档。
92
93
94 == 2.3 业务价值 ==
95
96 事件管理流程将在多方面对XX所技术运维中心的IT服务产生积极作用,具体表现在:
97
98 * 提高服务可用性 – 不管什么原因,当用户不能使用IT提供的IT服务的时候(如设备宕机,网络过载等),服务都是被认为不可用的,它影响了用户的生产率。事件管理流程通过保证事件的快速处理来达到服务可用性的最大化。
99 * 提高客户满意度 – 事件管理流程通过记录和管理事件的集成系统来提供有效服务。同时,也提供了服务供应者和使用者的沟通渠道,加强了技术运维中心和用户之间的双向认同。
100 * 集中化事件数据 – 通过事件管理流程来统一收集事件数据,这些数据被其他流程所使用,如问题管理流程将分析这些数据以确定事件的根本原因,并确定纠正措施以消除再次发生的可能性。
101
102 (% class="wikigeneratedid" %)
103 = =
104
105 (% class="wikigeneratedid" %)
106 = =
107
108 = 3. IT服务模式 =
109
110 XX所的IT服务支撑工作由所内运维人员、XX公司和外部厂商、服务商共同承担,按照职责和技能划分为服务台、一线、二线、三线的层级支撑结构,服务台作为面向用户的统一入口,主要负责事件的受理和分派;一、二、三线支持由所内技术人员和外部支持人员组成,负责解决事件。IT服务模式如下图所示:
111
112 (% style="text-align:center" %)
113 [[image:1730084819894-163.png]]
114
115
116
117 = 4. 事件管理的策略与原则 =
118
119 == 4.1 常规原则 ==
120
121 1. 服务台是IT部门向IT用户提供的单一联系点,(通过电话、邮件等)对事件进行集中响应;
122 1. 任何IT事件都必须执行事件管理流程。服务台提交事件单,所有事件或服务请求及其解决方案,都要记录在IT服务管理平台中;
123 1. 服务台是事件处理过程的监督人,负责跟踪事件的处理,确保事件能按时解决;
124 1. 定义服务台、一线支持、二线支持、三线支持人员,并落实到人员,使IT支持人员明确自己的角色和相关的责任,流程能够得到正确的执行,保证服务的质量,使IT人员变成服务人员。
125
126 (% class="wikigeneratedid" %)
127 == ==
128
129 == 4.2 沟通原则 ==
130
131 1. 事件管理流程将就任何已知的或可能的事件的相关情况与受到影响的用户进行沟通。在事件解决过程中,服务台应及时向最终用户通报事件的处理情况,使用户了解事件的解决状态;
132 1. 对于已知或计划内的服务中断要及时准确的提前通知所有受影响的部门和用户。
133
134 (% class="wikigeneratedid" %)
135 == ==
136
137 == 4.3 事件升级原则 ==
138
139 为了确保重要事件的及时解决,应严格执行定事件升级流程。制定升级原则的目的是确保事件在规定的解决时限内能够及时通知相关技术人员和领导,引起更多的重视,提供合适的资源,从而快速找到事件的解决方案。
140
141 1. 服务台、一线、二线支持应及时将不能解决的事件升级到其后一级的支持人员,若未及时升级,事件经理应及时介入,负责协调升级处理;
142 1. 各支持人员应及时响应和处理分配到本组或自己的事件单,如果超出规定的响应时限和解决时限,系统应将事件信息通报事件经理,事件经理负责协调资源,并督促事件能够及时响应和处理。
143
144 (% class="wikigeneratedid" %)
145 == ==
146
147 == 4.4 事件关闭原则 ==
148
149 1. 事件的关闭遵循谁开单谁关闭的原则;(由IT用户申报的事件单,关闭必须由服务台完成)
150 1. 紧急程度较低的事件可设定自动关闭时间,在解决一段时间后由系统自动关闭。
151
152 (% class="wikigeneratedid" %)
153 == ==
154
155 == 4.5 定期回顾原则 ==
156
157 建立定期的服务回顾和检查制度。
158
159 1. 回顾本周期内的故障记录,分析是否需要提出问题;
160 1. 回顾正在进行中的故障(查看故障处理记录,工作日志、处理状态等等),分析是否存在优先级较高的待解决的故障,需要协调解决。
161
162 (% class="wikigeneratedid" %)
163 == ==
164
165 == 4.6 流程关联原则 ==
166
167 * 和问题管理流程的关系
168
169 事件管理流程将提供事件的详细、精确的记录信息给问题管理流程来定位问题及分析问题的趋势。
170
171 * 和配置管理流程的关系
172
173 需要从配置管理数据库中查询配置项的属性和配置项间的关联关系来定位故障和帮助快速恢复。
174
175 * 和变更管理流程的关系
176
177 服务台应了解变更管理流程中目前正在进行的变更信息。在事件的解决过程中,涉及变更都需要发起变更请求来解决事件。
178
179 事件的处理涉及启动变更流程RFC。
180
181 * 和知识管理流程的关系
182
183 常见故障的解决方案可以升级为知识,或用户常用的服务呼叫和技术咨询类的流程规范和操作手册等都将是知识管理流程的入口。
184
185 事件流程查询知识库知识信息,为事件处理提供支持。
186
187
188 == 4.7 紧急事件处理原则 ==
189
190 当发生事件优先级为特大或者重大的事件后,服务台应立即通知事件经理,由事件经理通知相关领导共同协调相关资源,启动紧急事件流程(参见《XX商品交易所信息系统应急处置报告流程》),待事件处理完毕后再由事件处理人登陆系统补录事件信息。
191
192
193
194
195 = 5. 事件管理的人员角色和职责 =
196
197 XX所事件管理流程设计的角色包含事件经理、服务台及一线、二线、三线支持。
198
199 == ==
200
201 == 5.1 事件管理流程负责人 ==
202
203 事件管理流程负责人从宏观上监控流程,确保事件流程被正确执行。当流程不能够适应技术运维中心的维护要求时,流程负责人必须及时分析、找出缺陷、进行改进,从而实现流程的可持续提高。
204
205 职责:
206
207 1. 确保事件流程能够取得管理层的参与和支持;
208 1. 总体上管理和监控流程,对事件管理流程的规划、实施、监督、改进负责;
209 1. 保持与其他流程负责人的定期沟通;
210 1. 定期召开部门级别的流程回顾会议(如每个季度1次);
211 1. 进行流程优化的发起,负责决定优化活动的负责人,并检查跟踪执行情况。
212
213 技能要求:
214
215 1. 深刻理解事件管理流程;
216 1. 理解业务对于事件管理的需求;
217 1. 良好的沟通技能,能够取得公司高层的支持,获得所需资源。
218
219 (% class="wikigeneratedid" %)
220 == ==
221
222 == 5.2 事件经理 ==
223
224 事件经理负责事件解决过程中的协调和监控,事件升级的判断以及具体执行。
225
226 职责:
227
228 1. 负责协调资源,保证事件得到最终解决;
229 1. 确保正确和广泛地收集和分析事件数据,发现IT和业务相关的问题;
230 1. 确保和问题管理流程经理的有效合作;
231 1. 参与流程改进活动,提出流程改进建议。
232
233 技能要求:
234
235 1. 深刻了解事件管理流程;
236 1. 较强的领导能力;
237 1. 了解技术架构和技术环境;
238 1. 了解维护支撑架构和人员岗位分工;
239 1. 较强的口头表达能力和客户沟通技巧;
240 1. 处理纠纷的能力。
241
242 (% class="wikigeneratedid" %)
243 == ==
244
245 == 5.3 服务台 ==
246
247 服务台人员负责接收所有事件,对事件进行初步处理,不能处理的事件分派到合适的一线支持或者二线支持人员。
248
249 职责:
250
251 1. 受理不同来源的事件,包括电话、邮件等;
252 1. 对事件进行分析和诊断,尝试提供解决方案;
253 1. 事件解决后,在关闭事件前向用户进行确认事件已解决;
254 1. 结束事件,更新信息。
255
256 技能要求:
257
258 1. 熟悉技术平台和技术环境;
259 1. 熟悉事件管理流程;
260 1. 熟悉维护支撑架构和人员岗位分工;
261 1. 良好的工作素养和服务态度;
262 1. 一定的技术能力;
263 1. 较强的沟通能力。
264
265 (% class="wikigeneratedid" %)
266 == ==
267
268 == 5.4 一线支持 ==
269
270 一线支持人员负责对服务台分派的事件进行分析,提出解决方案,并在必要时提供现场支持。
271
272 职责:
273
274 1. 验证事件的描述,进一步收集相关信息;
275 1. 在规定的时间内解决事件;
276 1. 在需要时及时利用其它资源(开发商, 厂家) 参与事件解决;
277 1. 根据解决方案进行IT服务恢复;
278 1. 向服务台人员提供必要的技术支持和协助;
279 1. 需要时根据解决方案发起变更请求RFC,监控变更请求过程并对解决结果进行确认。
280
281 技能要求:
282
283 1. 熟悉技术平台和技术环境;
284 1. 较强的技术能力;
285 1. 较强的分析能力。
286
287 (% class="wikigeneratedid" %)
288 == ==
289
290 == 5.5 二线支持 ==
291
292 二线支持人员是技术领域的专家。处理一线支持人员无法解决的事件,实施解决方案。
293
294 职责:
295
296 1. 验证事件的描述,进一步收集相关信息;
297 1. 在规定的时间内解决事件;
298 1. 在需要时及时利用其它资源(开发商, 厂家) 参与事件解决;
299 1. 根据解决方案进行IT服务恢复;
300 1. 向服务台人员提供必要的技术支持和协助;
301 1. 需要时根据解决方案发起变更请求RFC,监控变更请求过程并对解决结果进行确认。
302
303 技能要求:
304
305 1. 某项技术领域的专家;
306 1. 资深技术背景和技术能力;
307 1. 较强的分析能力。
308
309 (% class="wikigeneratedid" %)
310 == ==
311
312 == 5.6 三线支持 ==
313
314 对于XX所运维中心来说,三线支持主要是XX公司和外部厂商,在事件处理流程中,由一线或二线支持专家,来协调三线人员协助处理事件。
315
316 职责:
317
318 1. 验证事件的描述,进一步收集相关信息;
319 1. 在规定的时间内解决事件;
320 1. 负责协调厂商、开发商内部资源;
321
322 技能要求:
323
324 1. 熟悉术平台和技术环境;
325 1. 相关技术领域专家;
326 1. 较强的分析能力。
327
328
329
330 = 6. 技术平台相关代码定义 =
331
332 == 6.1 事件单信息项 ==
333
334
335 |**编号**|**属性**|**说明**
336 |1|突发事件ID|事件IM/服务请求SR/问题PM/变更CH例如:IM090224000001
337 |2|状态|事件单当前状态,参见“事件状态”定义
338 |3|联系人|事件的联系人
339 |4|位置|事件发生的位置
340 |5|受影响的配置项|相关配置项
341 |6|事件来源|参见“事件来源”定义
342 |7|类别|对事件的具体分类,参见“事件分类”定义
343 |8|子类别|对事件的具体分类,参见“事件分类”定义
344 |9|服务|事件相关服务
345 |10|优先级|参见“优先级”定义
346 |11|厂商|事件相关厂商
347 |12|是否需要XX公司参与|
348 |13|是否为重复事件|标识重复事件
349 |14|独立处理分配组|
350 |15|独立处理分配人|
351 |16|是否协作处理|
352 |17|标题|事件的标题
353 |18|描述|对于整个事件内容的详细描述
354 |19|是否为问题候选项|
355 |20|是否为知识库候选项|
356 |21|新更新类型|
357 |22|新更新|
358 |23|日记更新|
359 |24|活动类型|
360 |25|活动日志|处理步骤的活动记录,包括类型、人员、日期、更新内容
361 |26|是否对客户显示|
362 |27|相关记录|事件相关记录
363 |28|添加附件|相关附件
364 |29|响应时间目标|
365
366
367 == 6.2 任务单信息项 ==
368
369 维护任务单包含如下信息项:
370
371 |**编号**|**信息项**|**说明**
372 |1|任务单ID|系统自动产生
373 |2|创建时间|系统自动产生
374 |3|类型|对任务的具体分类,参见“事件分类”定义
375 |4|简要描述|任务的简要描述(手工填写)
376 |5|执行内容|对于整个任务内容的详细描述(手工填写)
377 |6|所属业务系统|任务所属系统,参见“所属系统”
378 |7|状态|任务单当前状态,参见“事件状态”定义
379 |8|活动日志|处理步骤的活动记录,包括类型、人员、日期、更新内容(系统自动产生)
380 |9|执行人|任务的执行人
381 |10|执行组|任务的执行人所属工作组
382 |11|执行结果描述|任务的执行结果
383 |12|响应时间|任务实际开始执行的时间,系统自动填写
384 |13|实际完成时间|任务实际完成的时间,系统自动填写
385 |14|任务结束代码|参见“事件结束代码”定义
386 |15|附件|相关附件
387 |16|配置项|相关配置项
388 |17|相关|与事件、问题、变更之间的关联
389
390 (% class="wikigeneratedid" %)
391 == ==
392
393 == 6.3 事件分类 ==
394
395 对事件进行分类,主要目的在于方便各个事件处理组之间的信息沟通,为事件的诊断和处理提供信息,并产生相关的管理信息报表,从而达到优化提高IT服务质量,提高事件处理效率的目标。
396
397
398 |**第一层**|**第二层**|**第三层**
399 |(% rowspan="18" %)软件类|(% rowspan="2" %)系统软件|操作系统
400 |系统管理软件
401 |监控软件|
402 |(% rowspan="6" %)安全软件|终端管理与审计
403 |安全运营管理平台
404 |终端准入系统
405 |漏洞扫描器
406 |身份认证和帐号管理
407 |其它
408 |数据库软件|
409 |备份软件|
410 |中间件软件|
411 |应用软件|
412 |(% rowspan="4" %)机房软件|集控系统
413 |门禁系统
414 |安防系统
415 |其它
416 |其它|
417 |(% rowspan="31" %)硬件类|(% rowspan="3" %)服务器类|小型机
418 |刀片服务器
419 |PC 服务器
420 |(% rowspan="8" %)网络设备类|路由器
421 |交换机
422 |流量监控探针
423 |负载均衡设备
424 |统一通信设备
425 |传输设备
426 |链路
427 |其它
428 |(% rowspan="11" %)安全设备类|IDS入侵检测
429 |IPS入侵防御
430 |TDS入侵分析
431 |防病毒网关
432 |防病毒系统
433 |防DoS攻击
434 |安全审计
435 |数据摆渡
436 |病毒分析
437 |签名
438 |SSL加速
439 | |其它
440 |(% rowspan="5" %)存储设备类|存储
441 |磁带库
442 |光盘库
443 |存储光纤交换机
444 |其它
445 |(% rowspan="3" %)其他|KVM设备
446 |UPS
447 |ATS
448 |(% rowspan="12" %)交易大厅|(% rowspan="7" %)硬件类|主机
449 |键盘
450 |鼠标
451 |电源
452 |网络
453 |(% rowspan="2" %)其它
454 |
455 |(% rowspan="4" %)软件类|操作系统
456 |交易软件
457 |管理软件
458 |其它
459 |其他|
460 |(% rowspan="4" %)业务终端|(% rowspan="2" %)硬件类|PC
461 |网络
462 |(% rowspan="2" %)软件类|业务软件
463 |管理软件
464
465
466 == 6.4 影响度、优先级 ==
467
468 通过事件的“影响程度”来评估每个事件的“优先级”。
469
470 * **优先级**
471
472 |**编号**|**代码**|**解释**
473 |1|P1|特大事件
474 |2|P2|重大事件
475 |3|P3|较大事件
476 |4|P4|普通事件
477 |5|P5|次要事件
478
479 * **影响程度**
480
481 |**编号**|**事件级别**|**影响程度**
482 |1|特大事件|(((
483 因部门原因,导致重要业务系统出现异常,系统恢复时间(RTO-Recovery Time Objective)在30 分钟以上,影响所有客户:
484
485 * 交易主机因非应用软件原因宕机,导致核心交易中断。
486 * 交易核心网络故障,导致所有交易大厅或所有远程会员无法联通交易。
487 * 数据库故障导致交易、结算、行情数据发生严重错误,影响所有会员。
488 * 信息安全原因导致核心交易中断。
489 * 应用软件的日常维护、启停原因,导致核心交易中断。
490 * 因病毒、攻击、拥堵等使系统异常,给市场或客户造成可感知的影响,且交易时段2 个小时内没有恢复。
491 * 业务数据完整性被破坏,且在1 个交易日内没有修复。
492 * 通信线路发生故障,对业务造成严重影响,10%以上会员无法正常交易,且在1 个交易日系统没有恢复正常。
493 * 灾害事故(停电、水灾、火灾等)发生后,重要业务系统在一个交易日系统没有恢复正常。
494 * 网站上出现有害信息,且未能及时删除、屏蔽或未能保留审计线索的。
495 * 其他因部门原因,导致核心交易中断。
496 )))
497 |2|重大事件|(((
498 因部门原因,导致重要业务系统出现异常,系统恢复时间(RTO-Recovery Time Objective)在30 分钟以内,影响所有客户:
499
500 * 因病毒、攻击、拥堵等使系统异常,给市场或客户造成可感知的影响,但交易时段2 个小时内恢复的。
501 * 系统数据完整性被破坏,但在1 个交易日内能够修复的。
502 * 灾害事故(停电、水灾、火灾等)发生后,重要业务系统能在1 个交易日恢复正常。
503 * 网站上出现有害信息,但能及时删除、屏蔽并保留审计线索的。
504 * 通信线路发生故障且对业务造成不良影响,10%以上会员无法正常交易,1 个交易日内系统恢复正常。
505 * 敏感业务数据泄漏。
506 * 机房空调无法正常运转导致部分核心主机运行故障,影响部分会员正常交易。
507 * 交易核心或交易所自身远程网络故障导致10%以上会员无法交易。
508 * 互联网系统出现非计划性网络中断,所有外部网络不可达,网站系统无法提供服务达2 小时以上。
509 * 全部或大部分会员或所有信息公司无法收到行情达2 小时以上。
510 )))
511 |3|较大事件|(((
512 主要服务对少部分会员(5%~~10%)产生了一定影响。
513
514 * 由于系统、网络、数据库、应用运行、监控、信息安全等原因导致交易系统、结算系统、行情系统故障,致使个别
515 * 会员(5%~~10%)无法正常交易、接收行情2 小时内没有恢复。
516 * 因非行情软件和计划原因导致交易大厅大屏幕行情无法显示或显示错误,一个交易日以上没恢复。
517 * 互联网系统出现中断,所有外部网络不可达,达1~2 小时。
518 * 交易、交割、结算、监察业务终端出现非软件故障,导致某业务部门所有终端无法进行业务管理操作达1~2 小时。
519 * 办公网病毒大规模爆发或邮件系统故障,影响所有员工办公达2~4 小时。
520 )))
521 |4|普通事件|(((
522 服务出现问题,但大部分功能仍然可用,影响个别会员(<5%)。
523
524 * 由于系统、网络、数据库、应用运行、监控、信息安全等原因导致交易系统、结算系统、行情系统故障,致使个别
525 * 会员无法正常交易、接收行情、收取结算数据延迟,但未超过30 分钟。
526 * 我所互联网和办公网系统出现故障:外部网络不可达,但时间小于1 小时;办公网络中断或者网络拥塞,但通过处理,2 小时内能够快速恢复。
527 * 客户端一般故障处理。
528 * 非交易系统技术故障,由于系统冗余、自动切换、非交易时间或系统重启可恢复,对客户的潜在影响较小,不会对客户产生可感知的影响。
529 * 局部办公网络短暂中断。
530 * 所领导办公电脑故障。
531 )))
532 |5|次要事件|(((
533 技术请求和服务类事件,或者一般事件,对客户不产生负面影响
534
535 * 一般系统技术故障,由于系统冗余、自动切换、非交易时间或系统重启可恢复,对客户没有产生可感知的影响。
536 * 所内个别员工办公电脑故障、电子邮件故障。
537 * 开通行情、成交回报,交易大厅终端、业务系统终端安装。
538 * 数字证书处理。
539 * 服务请求。
540 )))
541
542 (% class="wikigeneratedid" %)
543 == ==
544
545 == 6.5 优先级和解决时限 ==
546
547 对于不同的事件优先级,事件处理的解决时限要求和响应时限要求不同。
548
549 |**编号**|**优先级代码**|**解决时限(工作时间)**|**响应时限**
550 |1|P1|1个小时|5分钟
551 |2|P2|0.5个小时|10分钟
552 |3|P3|3个小时|0.5小时
553 |4|P4|24个小时|2小时
554 |5|P5|48个小时|4小时
555
556 **解决时限的定义**:事件单的实际完成时间(状态为已解决) - 事件单的分派时间(状态为处理中)。
557
558 **响应时限的定义**:事件单的响应时间(状态处理中)- 事件单的创建时间(状态为已分派)。
559
560 == ==
561
562 == 6.6 事件通告路径 ==
563
564 对于特大和重大的事件,需要及时通告事件经理。如果该事件的响应或解决超过了时限,需要通告事件经理,同时也要根据具体情况通告给其他相关管理人员。具体定义如下表:
565
566 **超出和即将超出时限的通告定义**
567
568 |**事件级别**|**通告条件**
569 |(% rowspan="3" %)特大事件|(((
570 * 特大事件登记后立即通知事件经理、技术负责人、相关主岗、中心领导
571 )))
572 |(((
573 * 特大事件超过5分钟未响应立即通知事件经理、技术负责人、相关主岗、中心领导
574 )))
575 |(((
576 * 特大事件超过1小时未解决立即通知事件经理、技术负责人、相关主岗、中心领导
577 )))
578 |(% rowspan="3" %)重大事件|(((
579 * 重大事件登记后立即通知事件经理、技术负责人、相关主岗、中心领导
580 )))
581 |(((
582 * 重大事件超过5分钟未响应立即通知事件经理、技术负责人、相关主岗、中心领导
583 )))
584 |(((
585 * 重大事件超过1小时未解决立即通知事件经理、技术负责人、相关主岗、中心领导
586 )))
587 |(% rowspan="2" %)较大事件|(((
588 * 较大事件超过30分钟未响应立即通知事件经理、技术负责人、相关主岗
589 )))
590 |(((
591 * 较大事件超过1小时未解决立即通知事件经理、技术负责人、相关主岗
592 )))
593 |(% rowspan="2" %)普通事件|(((
594 * 普通事件超过2小时未响应立即通知事件经理、技术负责人、相关主岗
595 )))
596 |(((
597 * 普通事件超过24小时未解决立即通知事件经理、技术负责人、相关主岗
598 )))
599 |(% rowspan="2" %)次要事件|(((
600 * 次要事件超过4小时未响应立即通知事件经理、技术负责人、相关主岗
601 )))
602 |(((
603 * 次要事件超过48小时未解决立即通知事件经理、技术负责人、相关主岗
604 )))
605
606 (% class="wikigeneratedid" %)
607 == ==
608
609 == 6.7 事件状态 ==
610
611 |**编号**|**代码**|**描述**
612 |1|已登记|新开事件记录或事件已创建
613 |2|已分派|事件已经分配给支持人员,等待处理人处理
614 |3|处理中|支持人员已接手处理事件
615 |4|已解决|事件已解决
616 |5|关闭|事件已关闭
617
618 (% class="wikigeneratedid" %)
619 == ==
620
621 == 6.8 事件结束代码 ==
622
623 |**编号**|(% colspan="2" %)**代码**|**描述**
624 |1.|服务台解决|服务台解决|由服务台维护解决
625 |(% rowspan="2" %)2.|(% rowspan="2" %)一线解决|根本解决|找到事件的根本原因
626 |替代方法|使用替代方法解决
627 |(% rowspan="2" %)3.|(% rowspan="2" %)二线解决|根本解决|找到事件的根本原因
628 |替代方法|使用替代方法解决
629 |(% rowspan="2" %)4.|(% rowspan="2" %)三线解决|飞创解决|由飞创公司人员解决
630 |厂商解决|外部厂商解决
631 |(% rowspan="2" %)5.|(% rowspan="2" %)未解决|上升到其他流程|提交到问题、变更管理流程进一步处理
632 |未解决|未解决
633 |6.|(% colspan="2" %)自动恢复|系统自动恢复,事件无法再现
634 |7.|(% colspan="2" %)误报|属于误报事件
635 |8.|(% colspan="2" %)拒绝|事件被拒绝
636
637 (% class="wikigeneratedid" %)
638 == ==
639
640 == 6.9 事件来源 ==
641
642 |**编号**|**代码**|**备注**
643 |1.|电话|服务台通过客户电话创建的
644 |2.|监控系统|监控系统通过接口自动创建的
645 |3.|巡检自发现|日常检查过程中由工程师自发现
646 |4.|EMAIL|服务台根据客户EMAIL创建的
647 |5|短信|短信报警
648 |6|Web自助提交|通过web自助方式提交
649
650 (% class="wikigeneratedid" %)
651 == ==
652
653 == 6.10 事件支持满意度 ==
654
655 |**编号**|**代码**|**备注**
656 |1|非常好|用户非常满意
657 |2|正常|用户接受处理结果
658 |3|需要提高|用户认为对处理过程或结果不满意
659
660
661
662 = 7. 事件管理流程概要设计 =
663
664 (% style="text-align:center" %)
665 [[image:1730085197614-585.png]]
666
667
668 事件管理概要设计流程说明:
669
670 |**序号**|**步骤名称**|**责任人**|**说明**
671 |100.1|事件记录和分类|服务台|(((
672 * 服务台对来自用户和系统自动产生的事件进行详细记录
673 * 服务台负责在接收到事件后进行分类转发,对于初步判断为重大和特大的事件马上转102走紧急事件处理流程
674 * 对于非支撑维护职责范围的事件转给其它相关责任部门
675 )))
676 |100.2|初始事件支持|服务台|(((
677 * 属于服务台技能范围内可以处理的事件,服务台应尝试解决,如果无法解决需及时升级到一/二线支持
678 * 不属于服务台职责范围的事件,立即分派到相应的一/二线支持
679 )))
680 |(((
681 100.3
682
683 100.4
684 )))|一线/二线尝试解决|一线支持/二线支持|(((
685 * 一线/二线支持人员在接受到由服务台派发的事件后,进行调查诊断,尝试解决
686 * 在必要时根据服务协议联系厂商帮助解决并负责核查
687 * 对于需要通过变更解决的事件提出变更申请,通过变更流程实施解决方案
688 * 事件解决后,在事件管理平台记录事件解决方案并更新事件状态
689 * 不能解决的事件,转100.5三线尝试解决
690 * 指定时限内不能解决的事件,通告事件经理,由事件经理负责协调资源
691 )))
692 |100.5|三线尝试解决|三线支持|(((
693 * 三线支持人员接受事件,进行调查诊断,提出解决方案
694 )))
695 |100.6|记录解决方案细节|(((
696 服务台
697
698 一线支持
699
700 二线支持
701 )))|(((
702 * 在事件得到解决后,各线支持人员负责详细记录事件解决过程及方案并更新事件信息
703 )))
704 |100.7|关闭事件|服务台|(((
705 * 服务台与申报用户确认事件是否已得到解决,如果解决,事件以成功解决而关闭;否则,事件以不成功关闭,重新开事件记录,分派到原处理人员继续处理
706 * 处理过程对后续工作有指导或参考的,录入知识库
707 )))
708 |100.8|事件处理的监控|(((
709 服务台
710
711 事件经理
712 )))|(((
713 * 负责监控所有未关闭的事件的处理状况,对接收到的超时告警应及时关注
714 * 事件经理负责协调资源,保证事件的最终解决
715 )))
716 |102|紧急事件处理流程|事件经理|(((
717 * 事件经理负责协调紧急事件的处理,具体过程根据所内规定处理,参见《大连商品交易所信息系统应急处置报告流程》,处理完成后,由处理人负责补录事件信息
718 )))
719
720
721
722 = 8. 事件管理流程详细设计 =
723
724 == 8.1 (100.1)事件记录和分类 ==
725
726
727 (% style="text-align:center" %)
728 [[image:图片4.jpg]]
729
730
731
732 流程描述如下:
733
734 |**序号**|**步骤名称**|**责任人**|**输入**|**输出**|**说明**
735 |100.1.1|新建事件|一或二线支持|自行发现|完整的事件单|(((
736 由一二线内部新建事件单,填写的详细内容如下:
737
738 1. 事件标题和描述
739 1. 必要的附件
740 1. 事件来源和事件性质
741 1. 进行事件分类
742 )))
743 |100.1.2|从非监控事件队列中接受事件|服务台|事件队列|需要处理的事件|(((
744 事件任务队列的来源:非监控系统自动发送的事件
745
746 服务台负责检查事件任务队列中的新事件单,开始处理
747 )))
748 |100.1.3|新建事件|服务台|电话、邮件|新建的事件记录|(((
749 属于职责范围,服务台负责创建新的事件单,填写详细情况描述,不属于职责范围处理的,直接电话回复。
750
751 事件单填写的详细内容如下:
752
753 1. 报告人姓名、联系电话、邮件、部门
754 1. 事件描述
755 1. 必要的附件
756 1. 事件来源和事件性质
757 1. 进行事件分类
758 )))
759 |100.1.4|跟踪监控事件队列中的事件|服务台|事件队列|事件队列|(((
760 事件任务队列的来源:监控系统自动发送的告警
761
762 服务台负责检查、跟踪事件任务队列中的新事件单
763 )))
764 |100.1.5|标记重复事件|服务台|重复事件| |设置重复事件标识
765 |100.1.6|事件信息项区分、确认|服务台|事件记录|确定了信息项的事件|根据上报的事件描述,审核信息项填写的规范性和准确性,判断对业务的影响程度,并对照优先级代码表,确定事件的优先级等相关属性。
766 | |事件级别为重大、特大吗?|服务台|事件级别|相应的处理流程|(((
767 服务台根据业务的影响程度和事件优先级判定的条件,初步判断优先级别:
768
769 1. 事件级别为重大、特大,转102紧急事件流程;
770 1. 其它优先级否,转100.2初始支持
771 )))
772
773 (% class="wikigeneratedid" %)
774 == ==
775
776 == 8.2 (100.2)初始事件支持 ==
777
778 (% style="text-align:center" %)
779 [[image:1730085324548-652.png]]
780
781 流程描述如下:
782
783 (% style="text-align:center" %)
784 [[image:1730085467371-585.png]]
785
786
787
788 == 8.3** **(100.3)(100.4) 一、二线尝试解决 ==
789
790 (% style="text-align:center" %)
791 [[image:图片5.jpg]]
792
793 流程描述如下:
794
795
796 (% style="text-align:center" %)
797 [[image:1730085584472-457.png]]
798
799 (% style="text-align:center" %)
800 [[image:1730085602257-876.png]]
801
802
803
804 == 8.4 (100.3.5) 子任务分派 ==
805
806 === 8.4.1 (100.3.5.1)分派任务子单 ===
807
808 (% style="text-align:center" %)
809 [[image:1730085640233-794.png]]
810
811
812 具体描述如下:
813
814 |**序号**|**步骤名称**|**责任人**|**物理流程描述**
815 |100.3.5.1.1|创建子任务单|一或二线支持|根据事件的信息描述,判断需要拆分成几个任务子单。
816 |100.3.5.1.2|填写子单信息|一或二线支持|创建任务子单,补充或者填写子单信息,设置分派组和分派人信息。
817 |100.3.5.1.3|保存子单|一或二线支持|保存子单信息。
818 | |继续创建子任务?|一或二线支持|(((
819 判断该是否需要继续添加子单,
820
821 如果是转100.3.5.1.1继续创建任务子单;
822
823 否则转100.3.5.1.4;
824 )))
825 |100.3.5.1.4|保存主单|一或二线支持|保存主单信息。
826
827
828 === 8.4.2** **(100.3.5.2)任务处理 ===
829
830 (% style="text-align:center" %)
831 [[image:1730085687648-477.png]]
832
833
834 具体描述如下:
835
836 |**序号**|**步骤名称**|**责任人**|**物理流程描述**
837 |100.3.5.2.1|尝试找出解决方案|一或二线支持|根据事件的信息描述,分析事件的原因,并尝试找出解决方案,并做相关处理
838 |100.3.5.2.2|记录解决方案|一或二线支持|将成功的解决方案和结束代码记录在系统中,并更改任务单状态为“已解决”。
839
840
841 === 8.4.3 (100.3.5.3)关闭任务单 ===
842
843 (% style="text-align:center" %)
844 [[image:1730085716434-195.png]]
845
846
847 具体描述如下:
848
849 |**序号**|**步骤名称**|**责任人**|**物理流程描述**
850 |100.3.5.3.1|更新任务单|一或二线支持|更新任务单,包括解决方案,确认情况,用户反馈等。确保信息的完整性。
851 |100.3.5.3.2|选择结束代码|一或二线支持|根据具体情况选择相应任务结束代码(同事件结束代码)
852 |100.3.5.3.3|关闭子任务|一或二线支持|任务单关闭后,系统自动发送通知给主单处理人,告知任务单处理情况。
853 | |所有任务单都完成?|一或二线支持|(((
854 如果事件主单的分单人是自己,查看所有的子单是否都已经完成,并对任务完成情况进行填写。
855
856 1. 如果是,则转到100.6,记录事件解决方案
857 1. 如果否,则转到100.3.5.3.4等待其他任务完成
858 )))
859 |100.3.5.3.4|等待其他任务|一或二线支持|等待其他主单相同的子任务单完成
860
861
862 == 8.5 (100.5)三线尝试解决 ==
863
864 (% style="text-align:center" %)
865 [[image:1730085754013-340.png]]
866
867
868 流程描述如下:
869
870 (% style="text-align:center" %)
871 [[image:1730085820301-323.png]]
872
873 == ==
874
875 == 8.6 (100.6)记录解决方案细节 ==
876
877 (% style="text-align:center" %)
878 [[image:1730085868612-445.png]]
879
880
881
882 流程描述如下:
883
884 (% style="text-align:center" %)
885 [[image:1730089877241-496.png]]
886
887
888
889 == 8.7 (100.7)关闭事件 ==
890
891 (% style="text-align:center" %)
892 [[image:1730089903777-351.png]]
893
894
895 流程描述如下:
896
897 |**序号**|**步骤名称**|(% style="width:89px" %)**责任人**|(% style="width:93px" %)**输入**|**输出**|**说明**
898 | |监控系统自动告警?|(% style="width:89px" %)服务台|(% style="width:93px" %)事件记录|事件记录|(((
899 服务台判断是否是监控系统自动产生的告警;
900
901 1. 是,转100.7.1更新事件状态
902 1. 否,转100.7.2与用户处确认事件解决
903 )))
904 |100.7.1|更新事件状态及结束代码,关闭事件|(% style="width:89px" %)服务台|(% style="width:93px" %)已解决的事件记录|关闭的事件|更新事件记录,状态为“关闭”,结束代码根据实际处理结果或用户反馈确定;如果是由监控生成的事件,由系统自动关闭。
905 |100.7.2|确认事件解决|(% style="width:89px" %)服务台|(% style="width:93px" %)用户反馈|反馈结果|从事件请求人处确认所提供的解决方案是否有效
906 | |是否解决?|(% style="width:89px" %)服务台|(% style="width:93px" %) | |(((
907 判断是否解决方案是否有效?
908
909 1. 是,转100.7.1
910 1. 否,转100.7.3重开单处理
911 )))
912 |100.7.3|重开单处理|(% style="width:89px" %)服务台|(% style="width:93px" %)未解决的事件记录|新的事件记录|(((
913 服务台将该事件单的结束代码置为“未解决”,关闭保存;
914
915 对事件进行重开单操作,分配到原处理人员处理,新事件单状态“已分派”
916
917 注:服务台应该和原处理人员沟通事件的确认结果和后续的处理方式
918 )))
919
920
921 == 8.8 (100.8)事件处理监控 ==
922
923 (% style="text-align:center" %)
924 [[image:1730089946753-338.png]]
925
926 流程描述如下:
927
928 |**序号**|**步骤名称**|(% style="width:86px" %)**责任人**|(% style="width:146px" %)**输入**|(% style="width:93px" %)**输出**|(% style="width:824px" %)**说明**
929 |100.8.1|事件队列的监控|(% style="width:86px" %)事件经理|(% style="width:146px" %)(((
930 当前打开的事件单
931
932 服务管理平台的超时告警
933 )))|(% style="width:93px" %) |(% style="width:824px" %)(((
934 事件经理可以从以下途径获取事件处理的信息
935
936 1. 服务台系统自动发送的告警通知
937 1. 查询服务台系统的当前处理中的事件列表
938 )))
939 | |需要介入吗?|(% style="width:86px" %)事件经理|(% style="width:146px" %) |(% style="width:93px" %) |(% style="width:824px" %)(((
940 事件经理根据处理时限和该事件对业务的影响程度,判断是否需要及时介入,帮助协调资源解决
941
942 1. 需要介入,转100.8.2
943 1. 不需要,则继续监控
944 )))
945 |100.8.2|召集资源协商解决|(% style="width:86px" %)事件经理|(% style="width:146px" %)(((
946 告警事件
947
948 支持人员的电话通知
949 )))|(% style="width:93px" %)解决方案|(% style="width:824px" %)由于处理不及时而可能导致用户满意度下降的事件或疑难事件,事件经理负责召集相应二线专家,共同商讨并制定解决方案,并实施解决方案
950 | |可以解决吗?|(% style="width:86px" %)事件经理|(% style="width:146px" %) |(% style="width:93px" %) |(% style="width:824px" %)(((
951 1. 如果解决,转100.7关闭事件
952 1. 无法解决,转100.8.3升级到管理层解决
953 )))
954 |100.8.3|升级到管理层解决|(% style="width:86px" %)事件经理|(% style="width:146px" %)升级的事件记录|(% style="width:93px" %)解决方案|(% style="width:824px" %)事件经理负责将升级事件通报到管理层,通过高层寻求更多的资源介入,共同商讨和制定解决方案
955
956
957
958 = 9. 事件管理流程关键指标 =
959
960 为了控制流程的质量,必须为流程设置衡量指标。通过对指标的分析,可以有效地对流程的运行情况进行监控和改进。
961
962
963 |**序号**|**衡量指标**|**作用**
964 |1|服务台受理事件总数|考察统计周期内服务台受理的事件总量,用来衡量总工作量
965 |2|事件成功关闭的数量/比率|考察统计周期内事件成功结束数量,衡量事件质量,如果比率过高需要事件经理重点关注
966 |3|超时的事件数量/百分比|考察统计周期内事件超时结束数量,衡量事件质量,如果比率过高需要事件经理重点关注
967 |4|平均解决时间|考察统计周期内事件平均解决时间,衡量事件质量,如果平均时间过高需要事件经理重点关注
968 |5|服务台解决率|考察统计周期内服务台解决率,衡量事件质量,应当提高服务台解决率
969 |6|重复事件数量|考察统计周期内重复事件数量,应当降低重复事件数量
970 |7|超时未解决的事件数量|统计周期内超过预定解决时间未解决的事件数量,应当降低超时未解决事件数量
971 |8|个人事件总数|考察周期内具体工程师处理事件的数量
972 |9|个人超时未解决的事件数量|统计周期内具体工程师超过预定解决时间未解决的事件数量
973 |10|具体类别事件发生总数|统计周期内具体类别事件的发生总数
974
975
976
977 = 10. 流程持续改进机制 =
978
979 (% style="text-align:center" %)
980 [[image:1730090015278-258.png]]
981
982
983 运维流程必须经过持续地调整和优化,才能满足不断变化的业务及服务要求。流程的持续改进的具体方法,可以参考上述流程持续改进模型。
984
985 * **评估及改进研讨**
986 ** 根据设定的ITSM基准线对流程的原则与目标、流程责任与授权、管理目标达成情况、与其他流程的关联及相关流程工具等方面进行评估;
987 ** 根据评估结果,通过研讨,发现已在或潜在的差距和风险,并针对这些差距和风险提出改进建议。根据改进建议的实施成本、风险和耗时等因素,对改进建议进行优先级别排序;
988 ** 改进原因还可能来自于日常服务管理工作中发现的不足;
989 ** 生成评估结果及改进建议方案。
990 * **制定流程改进计划**
991 ** 分析改进建议的相关性,并进行有效合理的分类和组合;
992 ** 针对不同的改进建议组制定具体的改进计划,将具体的改进计划分解成更详细的改进任务和动作,定义改进时间点、责任人、改进成功条件等;
993 * **实施具体的改进活动**
994 ** 根据改进计划的要求,实施具体的流程改进活动;
995 ** 跟踪改进活动,及时更新改进计划,并上报改进活动进展及成果;
996 * **根据业务及服务变化,进行定期评估**
997 ** 根据业务及服务的变化,对事件管理流程进行相关性评估,以满足业务和服务需求;
998 ** 除业务及服务变化可触发流程评估外,流程负责人还应定期组织对管理流程的评估和改进;
999 ** 定期生成流程改进报告(如季度或半年度)。
1000
1001
深圳市艾拓先锋企业管理咨询有限公司