1. 文档介绍

1.1 编写目的

本文档编写的目的是有效地解决XX铁道总公司运营总部通号中心IT运维服务部(以下简称“IT运维服务部”)在IT环境下的突发事件,提高IT系统运行的稳定性和服务的质量,为业务的快速发展提供更优质的IT服务,并且可以有效地帮助实施其他相关服务管理流程,如问题管理、变更管理等流程。

通过本文档的定义,将建立一个完整的事件管理系统,从而实现:

  1. 快速恢复服务
  2. 确保每个事件和服务请求都得到完满的处理
  3. 减小突发事件对业务的影响
  4. 最优化支持资源,提高工作效率
  5. 根据业务轻重缓急解决事件,保障有效IT运营
  6. 加强有效监控和及时反馈
  7. 提升用户满意度
  8. 提供管理信息

1.2 适用范围

本流程适用于IT运维服务部的IT运维团队。本文档所规定的IT服务是指IT运维服务部的IT运维团队所提供的运维服务。

管理范围指的是IT运维服务部的IT运维团队的所辖范围内的运维,受理范围为辖内的客服上报的事件请求与主动监控事件。具体说明如下:

  1. IT人员监测或检查到事件(如:值班人员主动监控发现的故障)
  2. 客服报告的事件(如:用户上报给客服的事件,再由客服转为IT运维团队的事件)

2. 术语、定义和缩略语

术 语缩略词定 义
事件Incident任何不符合标准操作且引起或可能引起服务中断和服务质量下降的事件。
事件管理

IM

(Incident Management)

事件管理流程的目的是尽快解决事件与恢复服务。事件记录的信息决定了其它许多流程的效率。
重大事件 影响等级为一级的事件为重大事件。
影响等级 表明事件对服务所产生的业务影响,它是事件的处理优先级的一个重要影响因素。
临时措施Workarounds临时措施是解决事件的临时修复方法或技术,目的是使用替代措施暂时消除客户对服务的依赖和减少事件对客户的影响,该事件的永久解决措施有赖于对该事件潜在问题的最终解决。通过临时措施,客户能够在没有中断的情况下继续使用服务。临时措施通常会使用户的工作方式发生变化,比如从使用另一台PC、使用早期版本的软件、或临时提供更多的磁盘空间。

3. 内容

3.1 流程介绍

3.1.1 流程解释

事件管理流程设立的主要功能是尽快解决IT环境下的生产/运行中出现的事件,确保IT环境的稳定性。通过对事件进行登记、分类、分级、状态跟踪、关闭确认等手段建立一个事件管理流程的闭环,从而对事件的处理过程进行监控和优化,在成本允许的范围内尽快恢复服务,提高客户满意度。

事件管理流程还提供一个日常接口,提供关于服务状态的信息更新,定期对事件信息进行统计和分析,了解事件的分布和发展趋势,努力降低事件响应时间和解决时间,提供优质无间断的IT服务。

3.1.2 业务价值

  1. 用户业务尽快恢复
  2. 内部团队协作加强
  3. 服务质量控制和改进
  4. 减少与避免故障对业务所造成的影响
  5. 提高响应、团队、沟通和资源管理效率
  6. 加强对供应商的管理
  7. 集中精力管理关键业务信息

3.1.3 流程机制

  1. 在IT运维服务部的实际生产与运行环境中,所有发生的事件都会通过事件管理流程来进行处理,将通过流程中定义的标准、原则和机制进行管理。
  2. 所有报告事件的部门/用户将会参与统一的事件管理管理流程,不应该有任何例外。
  3. 所有支持人员对优先级1和2的事件所采取的恢复服务的行动,相比其他任务具有优先权。
  4. 应该定期(每月)产生和回顾事件管理报表。对没有解决的问题,应该举行定期的问题管理会议,对这些问题进行评估。
  5. 应该定期(每半年)对流程进行回顾,以改进事件管理流程。

3.1.3.1  责任人机制

对事件进行有效管理的一个重要因素是定义责任人机制,以确保每个事件在任何时段都有适当的人员负责。

  1. 当一个事件被创建后,事件记录员负责记录与跟踪此事件单。
  2. 事件单被分派/转派后,事件受理员 (2/3线)负责接收此事件单,但是分派方(做出分派的事件记录员或是做出转派的事件受理员)有责任通知被分派的事件受理员并要求他接受或是拒绝此事件单。
  3. 事件单被分派/转派后,事件受理员(2/3线)接收此事件单后,即成为此事件单的当前责任人,但事件记录员仍是此事件的整体负责人,有义务对事件的处理状态进行跟踪和推动,并及时向用户反馈事件处理进展。
  4. 采用首问负责制,由事件的首要受理人或者创建人负责客户可能的查询。

3.1.3.2  分派机制

事件分派原则是确保事件在服务目标时段内处理和解决的重要因素。

  1. 服务台一线支持人员在规定的一线处理时限内,可按情况选择转给其他在值服务台一线支持人员进行处理。
  2. 服务台一线支持人员在规定的一线处理时限内不能解决事件时,原则上根据事件分类分派到相应二线支持人员。
  3. 支持人员如判断事件需要第三方支持,原则上不在系统中进行事件单的分派,事件单仍保持在相应的一线或二线支持人员处。第三方处理完毕后,由相应一线或二线支持人员负责更新事件单状态、解决方案等相关信息。

3.1.3.3 再分派机制

再分派又称转派,指第一次分派后被分派对象,将事件单分派给其他部门或个人。

再分派机制是另一项关键的原则,它确保事件单不被过于频繁的相互转派,以至于无法在规定时间内得到解决。

  1. 同组的事件单再分派不被监控;
  2. 任何跨组的事件单再分派将会报告给事件经理;
  3. 事件再分派超过2次,事件单将升级给事件经理;

3.1.3.4  优先级划分

事件的优先级表明了该事件或问题对运维对象(游戏产品)的业务影响。它是评定事件处理优先等级的一个重要指标。所有事件都将分配到三个优先级中的一个。优先级从 1 (优先级最高) 到 3 (优先级最低) 。优先级的划分一般情况下,是由事件的“影响度”和“紧急度”共同决定。

影响度是指受影响业务系统的关键程度,通常根据受影响的客户数量,可能造成的业务损失程度,或是业务系统的重要程度来决定。紧急度是指解决事件所需要的速度。需要指出的是:一个高影响度的事件并不一定非常紧急,反之亦然。

除此之外,还可以参考下列因素中的一个或几个可以用来定义优先级:

  1. 服务中断的时间和范围
  2. 受影响的服务
  3. 发生的次数
  4. 问题没有解决的时间的长短

优先级在事件的生命周期中是可以改变的。关于更改事件单优先级的原因和行为应该在事件单中记录。根据IT运维服务部的业务实际情况,综合考虑影响度、紧急度等多方面因素,得出事件的优先级定义如下表所示:

说明:优先级为1的事件为重大事件。 优先级1、2、3分别对应重度、中度与轻度的故障等级定义;

优先级定 义
1会使在线业务系统立即停止服务的故障,或影响在线业务系统的服务,但不会使服务直接停止的故障
2会使后台支持系统立即停止服务的故障
3会影响后台支持系统的服务,但不会使服务直接停止的故障

3.1.3.5  目标解决时间机制

为了更好的控制事件的解决,整个流程被分解成几个组成部分。每个流程的阶段都设定了目标时间。事件管理的目标时间如下表所示:

事件目标时间

一线响应时间

[创建-分派](含初步支持)

事件被分派并得到接受

[分派-分派被接收]

事件得到解决时间

[接受分派-解决]

优先级15--10分钟10--15分钟30分钟
优先级210--15分钟30分钟1小时
优先级315分钟30分钟2小时

所有超出目标时间的事件单将体现在每周、每月的统计报表中。同时,事件经理将得到通知。

详细的事件目标解决时间可参考附件《4.3事件分类表》

3.1.3.6  升级机制

升级机制的目的是,对于不同优先级的事件,确保分配到合适的资源来解决。为了达到这个目的,定义了升级机制的时间框架。当达到下列时间时,如果事件还未解决,将触发升级机制。

从事件单被创建之后所经过的时间作为触发事件升级的标准。

事件升级机制

项目经理

/开发项目负责人

维护工程师

/开发工程师

维护经理 
优先级110分钟15分钟30分钟
优先级25分钟 10分钟 30分钟
优先级310分钟 15分钟 1小时

3.1.3.7  通知机制

通知机制的目的是将影响到服务可用性的事件的有关信息及时通知给关键的IT人员和用户。通知将告知相关的IT员工和IT管理者,通知相关信息如下:

通知方式:

  • 事件发生时,告知事件导致了服务的中断(描述受影响的服务以及预计恢复时间)
  • 受影响服务恢复时,告知服务已恢复,回到可用状态
  • 优先级1的将通过电话+email方式通知;
  • 优先级2和3的将通过email方式通知

标准通知内容:

  • 事件的简要描述
  • 受到影响的服务
  • 预计恢复服务的时间(尽可能准确)
  • 联系服务台咨询以获取更多信息的方法

具体的事件通知机制如下:

事件通知机制项目经理维护经理产品经理副总监
优先级15-10分钟15-20分钟20-30分钟30-60分钟
优先级210分钟15分钟30分钟60分钟
优先级315分钟30分钟60分钟90分钟

具体的事件通知矩阵如下:

状态 用户事件记录员

事件受理员

(二线)

事件受理员

(三/N线)

事件经理事件负责人
待处理√  √     
已分派                    √  √   
受理中  * (职能升级)  *(结构升级)  
挂起 √     
已解决    
关闭              

注:“*”表示选择性通知

3.1.3.8  重复机制

重复事件是指在一个较短时间段(通常30分钟内至1小时),由监控系统上报的同一个配置项上现象相同的事件或一人/多人申告的同一来源(系统、应用)现象相同的事件。当被报告的事件与某个已经创建且尚未解决的事件单相同时,则该事件被认为是重复的。

由于此时已创建的事件尚未解决,还没有采取修正措施来恢复服务,因此,应创建新的事件单,复制原有事件单内容,并标识为“重复”的事件,原始事件将被标注为“主事件”。在原有事件单得到解决时,所有的重复事件单也同时获得解决。

3.1.3.9  复发机制

如果报告的事件与已经关闭的事件相同,该事件被认为是“复发”的事件单。这意味着为了解决事件而采取的解决措施失败了。此时应当创建一个新的事件单,复制原始事件单的内容,并说明这是复发的事件。

3.1.3.10 事件关闭机制

事件被解决后,需要对此事件进行关闭操作。事件单的关闭应当符合以下原则:

  1. 事件单的关闭必须由一线支持(值班组工程师)负责完成,但是事件经理可以超越此规则(即事件经理可以干预事件处理并关闭事件单)。其他人无权关闭事件单。
  2. 事件关闭后,需由值班组组长负责对此事件的记录内容进行核实。
  3. 事件单的用户可以要求关闭此事件单,例如:误报、错报事件。但具体关闭动作应由对应的一线支持人员负责。

3.1.3.11 流程关联机制

1730191078944-131.png

和问题管理的关联

  • 一线支持在解决事件的过程中,可以通过问题记录查找相应的解决方案
  • 通过分析事件记录,形成问题,并使该问题与相关事件建立关联
  • 通过事件单和问题单的关联,服务台人员对问题的解决状况进行跟踪并和用户保持沟通
  • 对重大事件或者“成功但有问题”关闭的事件,由问题管理流程生成问题进行进一步分析,直到确定根本原因,得到根本解决。事件单和问题应建立关联。

和变更发布管理的关联

  • 事件处理过程中,如果需要变更,必须按照变更管理的定义,提交变更请求(变更单必须和事件单建立关联),变更完成后,继续事件的处理。

和配置管理的关联

  • 事件处理过程中,可以通过配置管理查询相关的配置项信息(尤其是关系信息)以及该配置项历史上发生的事件、问题或变更,来帮助故障的定位
  • 事件处理过程中,如果可以将故障定位到某个配置项,则必须将事件单与该配置项关联

和服务级别管理的关联

  • 事件处理过程中,依照用户签订的SLA及相应服务级别对事件进行诊断和恢复。
  • 事件记录为服务级别管理中各项服务是否违背SLA中相关定义提供数据支持。

3.1.4 事件单代码设计

3.1.4.1  事件单信息项

事件单必须包含如下信息项,可以在此基础上扩充:

序号信息项说明
1事件ID系统为此事件生成的唯一 ID。
2状态

显示突发事件的状态。

建议以下预置状态:

• 打开 — 此突发事件已经打开,但目前没有得到处理。

• 关闭 — 此突发事件已得到解决,并且得到了客户的同意。

• 已解决 — 有一个解决方案,但未经客户验证。

• 正在处理 — 正在处理此突发事件。

•  待定变更 — 已打开一个相关紧急变更,正在等待关闭该变更。

• 暂停 — 客户同意将此突发事件暂停一段时间;记录单将不会在该时段出现在待办队列中。

3联系人联系人不一定是服务接收人。此字段可以确保合适的人员将会得到有关交互更新的通知。
4代理人指定处理此突发事件的人员的姓名。此人是所分配的支持组的成员。代理人可以属于一个或多个分配组。
5分配组指定处理此突发事件的支持组
6受影响的服务该服务受此突发事件影响。此字段由交互记录中的数据填充。
7受影响的配置项对服务产生负面影响的配置项 (CI)。此字段由交互记录中的数据填充。
8配置项可操作(服务不会中断)如果已选择(设置为 true) ,则表示配置项当前正在操作中,而且服务不会中断。默认情况下,打开一个针对配置项的突发事件时,该配置项标记为出现故障。如果该配置项仍然正常工作,则应该标记此字段。
9事件来源参见“事件来源”定义
10服务中断开始时间

服务中断开始的日期和时间。服务中断的开始和结束时间用于衡量“服务级别协议” (SLA) 的可用性。如果配置项标记为出现故障,则可用性 SLA 将不再支持该配置项。可用性值默认为打开和关闭突发事件的时间,但打开或关闭突发事件之前可能会经历几分钟或几小时,因此,需要变更该值,以报告实际的服务中断开始和结束的时间。例如,设备可能在夜间出现了故障,而且必有人报告该问题

之后,突发事件才会打开。在此情况下,默认的打开时间不能准确反映服务中断时间。

11服务中断结束时间服务中断结束的日期和时间。服务中断的开始和结束时间用于衡量 SLA 的可用性。如果配置项标记为出现故障,则可用性 SLA 将不再支持该配置项。可用性值默认为打开和关闭突发事件的时间,但需要变更该值以报告实际的服务中断结束时间。例如,重新启动配置项之后,可以对其进行操作,但可能要花数分钟或数小时,才能更新记录,以报告突发事件已关闭。在此情况下,默认的关闭时间不能准确反映实际的服务中断时间。
12位置报告突发事件的位置。此字段由已升级交互中的数据预先填充。此字段仅供参考。
13标题

概述突发事件的简短描述。此字段由已升级交互中的数据预先填充。

此为必填字段。

14描述

突发事件的详细描述。此字段由已升级交互中的数据预先填充。

此为必填字段。

15类别描述突发事件类型,由已升级交互中的数据预先填充。
16区域此字段由已升级交互中的数据预先填充。对此区域的选择取决于类别。
17子区域第三级交互分类,主要用于进行报告。此字段由已升级交互中的数据预先填充。
18影响度

此字段由已升级交互中的数据预先填充。它指明了突发事件对业务产生的影响。

影响和紧急程度用于计算优先级。

19紧急度

此字段由已升级交互中的数据预先填充。紧急程度表示此突发事件对于组织的紧

迫程度。紧急程度和影响用于计算优先级。

20优先级此突发事件相对其他突发事件的排列顺序。优先级值是根据初始影响和紧急程度来计算的。只有从交互更新或升级突发事件时,此字段才显示。
21SLA目标日期下一个“服务级别目标”(SLO) 到期的日期和时间。此字段基于与突发事件信息相匹配的 SLO 进行填充,所用日期是违反协议之前即将到期的 SLO。
22解决代码

指定一个预定义的解决代码,用于说明如何解决突发事件。此字段的预置选项基于客户的参考数据。

建议以下预置解决代码:

• 不可重现

• 超出范围

• 请求被拒

• 通过变更/ 服务请求解决

• 通过用户说明解决

• 通过应对措施解决

• 无法解决

• 被用户撤销

23关闭代码此项是在服务台质控员在回访时,同用户确定的最终结果
24解决方案提供对突发事件解决方案的说明。

3.1.4.2事件分级

给事件分级是事件管理的一个关键要素,事件的分级决定处理这个事件的顺序及所提供的资源。

编号事件级别描述响应时间解决时限
1VIP服务 <10分钟<8小时
2重大事件重大事件指的是严重影响到业务连续性并且涉及多个用户(用户>100)。 例如:病毒爆发、核心网络中断。<10分钟<24小时
3一般故障一般故障指的是影响到业务连续性并且造成中断的故障且故障仅涉及少数用户(用户<100), 例如: 蓝屏、死机、病毒感染、关键业务软件无法启动等等。<30分钟<48小时
4微小故障微小故障指的是不会影响业务连续性的故障,例如键盘鼠标损坏,无法连接INTERNET等故障。<40分钟<72小时

3.1.4.3 事件影响度

影响度编码影响范围描述
1-非常重要领导对领导造成影响
2-严重多数用户对公司多数用户造成影响
3-一般多个用户对多个用户造成影响
4-轻微少数用户对单个或几个用户造成影响

3.1.4.4 事件紧急度

紧急度编码紧急时间标准描述
1-非常紧急8小时服务需8小时内提供(恢复)
2-紧急24小时服务需24小时内提供(恢复)
3-一般48小时服务需48小时内提供(恢复)
4-略微紧急72小时服务需72小时内提供(恢复)

3.1.4.5 事件优先级

优先级影响度
1-非常重要2-严重3-一般4-轻微
紧急度1-非常紧急1-最高223
2-紧急22-高33
3-一般233-中4
4-略微紧急3344-低

3.1.4.6 事件来源

给事件分级是事件管理的一个关键要素,事件的分级决定处理这个事件的顺序及所提供的资源。

编号来源描述
1用户报告用户通过电话或WEB报告的事件,帮助台人员手工创建事件单
2监控告警监控工具发现的告警事件
3日常运维发现信息部日常运维检查产生事件

3.1.4.7 事件性质

类别信息项说明
突发事件访问授权错误
突发事件访问登录失败
突发事件数据数据或文件损坏
突发事件数据数据或文件不正确
突发事件数据数据或文件丢失
突发事件数据超过存储限制
突发事件失败错误消息
突发事件失败不正常工作
突发事件失败作业失败
突发事件失败系统故障
突发事件硬件硬件故障
突发事件硬件丢失或被盗
突发事件性能性能降低
突发事件性能系统或应用程序挂起
突发事件安全违反安全性
突发事件安全安全事件/ 消息
突发事件安全病毒警报

3.1.4.8 事件分类

类别子类一级模块
应用系统外部网站(含子公司网站)招贤纳才
招标投标
乘客服务
企业概况
企业商务
新闻中心
企业内部门户UUV用户管理
SSO应用系统管理
财务管理系统总帐管理
应付管理
应收管理
固定资产管理
项目会计管理
预转资管理
资金管理系统 
合同管理系统范本管理
合同计划
合同招标
合同台账
合同管理
合同支付
系统管理
运营设备维修系统 
运营施工调度管理系统 
运营物流管理系统需求管理
 计划管理
 采购寻源管理
 采购订单管理
 物资库存管理
票务管理系统 
GIS系统 
数字认证平台部门管理
用户管理
系统日志查询
验证选项
证书管理
印章制作
证书审计查询
SPS平台 
IT运维系统 
办公自动化系统(新) 
办公自动化系统(旧) 
合同管理系统(新) 
档案管理系统(新) 
P3E 
档案管理系统(旧) 
统一通讯平台 
视频会议系统 
基建物流管理系统 
人力资源管理系统 
财务管理系统 
原OA系统 
立项管理系统(原OA) 
企业内部门户 
工程设计管理系统 
内部专家评标系统 
内部网站(含信息专区) 
交流园地 
WCM 
内部网站后台 
外部网站后台 
外部网站招聘管理 
外部网站招投标管理 
资产标识码系统 
企业统计报表系统 
运营日报 
MAXIMO系统 
施工调度管理系统 
工作证管理系统 
车站收益系统 
系统开发服务 
系统培训服务 
桌面终端  
服务器  
存储和备份系统  
网络  
其他  

3.1.4.9 事件关闭代码

编号代码描述
1已完成设备、业务系统等故障已得到修复;
2未完成

故障没有被修复,需要再次进行处理;

对于该类事件,需要重新开单,并分配给原来处理该事件的人员进行处理。

3.1.4.1 角色及职责

3.1.5 角色介绍

事件管理流程角色主要职责IT运维服务部对应的流程角色人员
事件管理流程负责人

事件管理解决方案的责任人

对整个事件管理解决方案的结果承担责任,并有相应的权限

廖清
事件经理

协调事件管理步骤的日常操作

确保事件受理员(1/2/3/n线)在其各自领域中正常工作;

廖清

事件记录员

(1线)

服务台与客服/用户之间的主要接口

作为“首问负责人”,全程跟踪确保事件得到解决

负责事件的初步支持

重分派事件

与用户确认关闭事件

服务台

事件受理员

(2/3线)

是其所负责处理的服务领域的专业人员,通常,他们被认为是二线支持专家

负责分析事件,尽快恢复服务

支持工程师

 

用户

事件管理流程的服务对象

提交事件,查询提交的事件,协助Case处理,回复满意度调查

广州地铁所有用户 

3.1.6 事件流程负责人

事件管理流程负责人从宏观上监控流程,确保事件流程在IT运维服务部的IT运维团队范围内被正确的执行。随着业务需求和IT环境的改变,流程负责人必须定期或不定期进行流程分析、找出缺陷、进行改进,从而实现服务能力的可持续提升。

职责定义:

  1. 确定管理流程的衡量指标
  2. 确保事件流程能够取得管理层的参与和支持
  3. 确保事件流程符合业务实际状况和业务发展战略
  4. 总体上管理和监控流程,建立事件流程运行机制
  5. 确保事件流程实用、有效、正确地执行
  6. 保持与其他流程负责人的定期沟通

专业技能:

  1. 理解内部和外部业务环境
  2. 理解业务规划及发展战略
  3. 理解用户需求
  4. 充分理解业务相关IT政策、操作过程和标准
  5. 流程的评估和设计能力
  6. 良好的分析和规划能力
  7. 理解事件管理流程
  8. 理解服务水平承诺

处事技能:

  1. 良好的矛盾管理技巧
  2. 确定问题以及趋势发现的能力
  3. 良好的口头和书面表达能力
  4. 工作主动性和领导能力
  5. 决策能力

3.1.7 事件经理

事件经理负责具体事件解决过程中的协调和监控,对事件升级进行判断,以及在升级过程中的具体执行或协调。

职责定义:

  1. 监控事件流程的运行状况
  2. 负责对事件解决过程中的资源进行协调,保证故障的最终排除
  3. 当事件超时升级时或重大事件升级时,负责或参与资源协调,解决事件
  4. 确保和问题管理流程之间的有效合作
  5. 基于事件处理状况,发现IT或业务的相关问题
  6. 专业技能
  7. 充分理解业务相关IT政策、操作过程和标准
  8. 基本了解业务系统环境
  9. 具有流程的知识
  10. 了解用户需求
  11. 有分析能力
  12. 理解服务水平承诺
  13. 用户关系技能

处事技能:

  1. 良好的口头和书面表达能力
  2. 矛盾管理技巧
  3. 监控和管理流程的能力
  4. 谈判技巧
  5. 确定问题和趋势发现的能力
  6. 管理经验
  7. 良好的团队工作能力

3.1.8 事件记录员

事件记录员是同用户间的主要联系人,通常由一线工程师担任,即日勤和值班工程师。他们是用户组织和服务团队之间的纽带。作为事件的整体负责人,他们的职责是负责创建事件单,充当一线支持角色。并跟踪、协调事件的解决过程,以及最终关闭事件单。

职责定义:

  1. 按监控流程和规范进行主动监控工作,并对告警信息进行筛选和识别
  2. 响应所有用户事件,包括通过电话、邮件等渠道
  3. 完整记录所有接收的事件信息,包括:IT用户信息、事件描述、发生时间和地点等
  4. 负责处理事先确定的服务请求
  5. 对事件进行适当的分类、为事件分配优先级等属性
  6. 使用知识库等手段对事件进行初步诊断和分析,尝试解决问题
  7. 必要时联系供应商和现场服务人员,参与事件处理
  8. 如果不能解决事件,应当将事件分配给合适的二线支持
  9. 检查事件记录的处理进度,保持与用户的联系,适时通知事件处理状况
  10. 与用户确认事件解决方案,关闭事件

专业技能:

  1. 了解用户和供应商信息
  2. 基本理解业务相关IT政策、操作过程和标准
  3. 用户关系技巧
  4. 优秀的服务意识
  5. 服务的基本知识和技能
  6. 沟通技巧
  7. 分析诊断能力
  8. 电话响应技能

处事技能:

  1. 出色的口头和书面沟通能力(必要时多语种支持)
  2. 客户至上的理念
  3. 责任心
  4. 承受压力的能力

3.1.9 事件受理员(2/3/n线)

事件受理员(2/3/n线)具有某个领域的技术技能,负责对服务台无法解决的事件进行进一步快速有效的分析,提出解决方案以尽快恢复服务。

职责定义:

  1. 验证事件的描述和处理状况,进一步收集相关信息
  2. 根据专业技能和知识库等,确定并实施有效解决方案或临时变通方法
  3. 必要时联系供应商和现场服务人员参与事件处理
  4. 更新事件记录和解决方案,确保事件状态代码真实反映事件状态
  5. 必要时与其他事件受理员(2/3/n线)合作,确定解决方案或临时变通方法
  6. 将已解决的事件转回事件记录员,由其进行用户确认并关闭事件

专业技能:

  1. 基本理解同业务相关的IT政策、操作过程和标准
  2. 理解相关的操作过程和工作指导
  3. IT基础架构和操作环境中某一方面的较高的技术知识
  4. 用户关系技能
  5. 分析技能

处事技能:

  1. 良好的口头和书面沟通能力
  2. 基本的决策能力
  3. 客户至上的理念
  4. 承受压力的能力

3.2 流程输入及输出

3.2.1 流程触发条件

  1. 客户上报的事件
  2. 巡检发现事件
  3. 监控系统上报告警事件

3.2.2 输入

  1. 来自于客服的事件请求
  2. 通过巡检发现的事件
  3. 监控系统上报的告警事件
  4. 配置项(CI)的信息
  5. 来自于知识库的解决方案/变通方法

3.2.3 输出

  1. 已关闭的事件单
  2. 知识库的候选解决方案

3.2.4 流程关闭条件

  • 所有事件均通过解决方案或变通方法恢复

3.3 流程描述

3.3.1 流程综述

事件管理流程在执行过程中需要遵循以下要求:

  1. 所有接收的事件要保证完整、准确、详细的记录
  2. 事件需进行优先级划分和分类
  3. 应有一线解决方案和事件转交说明
  4. 事件需进行追踪和生命周期管理
  5. 事件需验证和关闭
  6. 事件需存在升级机制
  7. 所有的事件均应可以追溯和分析相关信息
  8. 应同事件影响对象及时沟通事件解决的过程,要在事件记录中记录所采取的全部措施
  9. 应为处理人员提供更新的知识库
  10. 只有事件确认已经解决并且服务得到恢复的情况下,事件才能被认为可以关闭

3.3.2 作业流程图

图片6.jpg

3.3.3 流程活动说明

1)主要活动说明

1730191350962-215.png

2)分活动说明

编 码活 动责任人说 明
IM 1.1识别和验证客户基本信息事件记录员(1线)

 

  • 接受来自客服与系统监控上报的事件请求(包括故障与服务请求)
  • 根据唯一的客户识别号识别客户
  • 检查该客户是否属于服务对象的范围
IM 1.2事件记录事件记录员(1线)

 

  • 如果是用户通过电话报告的事件,事件记录员需要了解用户信息是否准确并与客户沟通事件信息,了解必要的故障请求情况并作初步的受理和支持。
  • 如果是用户通过邮件或其他方式提交事件单,一线支持人员首先需要检查用户提交的事件请求单是否完整、正确;如果不正确,与用户进行沟通,对用户信息不一致的情况进行调查,并修改相应记录;并关联相关CI、对用户提交的事件单中的类别、紧急度和影响度进行设置。
IM 2.1初步支持事件记录员(1线)

 

  • 事件记录员调用知识库对用户的事件进行初步的支持与解决
  • 如知识库无法匹配解决办法,事件记录员(1线)负责查找其他资源,包括根据资深知识经验和自己查找信息,或咨询资深人员看能否找到其他解决办法。
  • 如果找到相应的解决办法,则进行相应的处理和实施工作;
  • 如果找不到,则转入下一步
IM 2.2判断是否能解决

事件记录员(1线)

 

 

  • 事件记录员作为一线支持人员,判断该事件是否被解决。
  • 如果解决,转入任务IM4.3“接受关闭请求?”,与用户进行沟通,是否可以关闭事件。
  • 如果没有解决,转入任务IM2.3“派单”。
IM 2.3派单事件记录员(1线)

 

  • 将事件单首先分派给2线接口人(项目经理),再由项目经理将事件分派给合适的事件受理员(2/3/n线),具体按分派机制或事件处理流程操作规定来执行;
  • 如果派单两次仍未成功,则升级给事件经理派单
IM 2.4确定是否接受派单事件受理员(2/3/n线)

 

  • 事件受理员(2/3/n线)查看事件记录描述,决定是否接受派单。如果接受,转入任务IM3.1 “调查和诊断”。否则,转入任务IM2.5 “注明拒绝原因”
IM 2.5注明拒绝原因事件受理员(2/3/n线)

 

  • 事件受理员(2/3/n线)如不接受事件单,应在事件单上注明原因(比如事件分类不正确或自身任务排的很满),并提供下次分派的建议,将事件记录退回一线支持人员进行重新分派,进入任务2.3“重派单”
IM 3.1调查和诊断事件受理员(2/3/n线)

 

  • 事件受理员(2/3/n线)对事件进行分析诊断,可借助知识管理信息进行辅助
  • 事件受理员(2/3/n线)在必要时对事件信息作进一步的收集,比如向用户询问或者现场了解事件信息。
  • 事件受理员(2/3/n线)诊断事件,并寻求解决方案或变通方法
IM3.2找到解决方案/变通方法?事件受理员(2/3/n线)

 

  • 事件受理员(2/3/n线)判断是否找到了解决方案或者变通方法
  • 如果找到,则转入IM3.5“记录解决方案/变通方法”,在事件单上记录解决方案或变通方法
  • 如果未找到,事件受理员(2/3/n线)判断是否需要寻求进一步的支持,则转入IM3.4“升级到更高层”
IM3.3需要更多支持?事件受理员(2/3/n线)

 

  • 当事件受理员无法解决事件时,转向IM3.4“升级到更高层”,将事件升级.
IM3.4升级到更高层事件受理员(2/3/n线)

 

  • 如果事件受理员(2/3/n线)在规定时限内仍找不到解决方案,应将事件的处理提交给更高层专家来处理。
IM3.5记录解决方案和/变通方法事件受理员(2/3/n线)

 

  • 事件受理员(2/3/n线)找到解决方案或变通方法后,在事件单上应详细记录解决方案或变通方法信息。
IM4.1是否需要变更事件受理员(2/3/n线)

 

  • 事件受理员(2/3/n线)对解决方案进行判断,如果需要变更,则提交变更请求,进入变更管理流程。变更管理流程进行实施后评审并通过之后,将实施结果返回到事件管理流程,进入IM4.3 “记录处理结果”
  • 如果不需要变更,则直接实施,转入IM4.2 “实施解决方案/变通方法”
IM4.2实施解决方案/变通方法事件受理员(2/3/n线)

 

  • 事件受理员(2/3/n线)根据事件的解决方案或变通方法进行实施,并确保实施成功和解决故障、满足客户请求或达到客户期望。
  • 必要时可授权事件记录员(1线)来实施解决方案/变通方法
IM4.3记录处理结果事件受理员(2/3/n线)

 

  • 事件受理员(2/3/n线)在实施解决方案或变通方法后,在事件单上应详细记录解决方案或变通方法实施结果信息。
  • 实施和记录实施结果之后,联系用户以请求关闭事件。
IM5.1与用户确认是否可以关闭事件记录员(1线)

 

  • 一线或事件受理员解决事件后,需要通过事件记录员与用户进行联系,确认相关处理方案是否成功,是否达到用户需求,然后将事件单关闭。
IM5.2是否接受关闭请求

用户

 

 

  • 用户检查自己提出的请求或者报障是否得到完全解决,根据实施结果和满足程度判断是否接受关闭请求
  • 如果接受关闭请求,则通知服务台可以关闭事件单,转入任务IM5.3 “是否需要更新到知识库”
  • 如果不接受,则需要重新调查和诊断,转入任务
IM5.3是否需要更新到知识库事件记录员或事件受理员

 

  • 事件受理工程师判断该解决方案或变通方法是否需要更新到知识库中,对于一些有价值的方案信息可以提交候选知识库解决方案,进入知识管理流程;
  • 不需要的话,则直接进入IM5.5“关闭事件”
  • 转入IM5.4“创建候选知识条目”,将该事件的解决信息更新到知识库
IM5.4创建候选知识条目事件受理员(1/2/3/n)

 

  • 事件受理员在事件关闭后,将事件的根本原因和解决方案写入知识条目,转入IM5.5“关闭事件”。
IM5.5关闭事件事件记录员或事件受理员

 

  • 一线支持人员(一线值班经理)负责填写结束代码后关闭事件

3.4 流程衡量指标及报表

为了控制流程的质量,提高用户服务体验,建议为事件流程设置衡量指标。通过对指标的分析,可以有效地对流程的运行情况进行监控和改进。基于对IT运维服务部的IT服务认识和了解,事件管理流程KPI指标设置如下:

序号衡量指标指标计算说明
1事件总数

数量:在事件单中根据以下条件过滤

  1. 【重复事件标记】为空
  2. 【事件发生时间】在统计周期内
2事件关闭的数量/比率

数量:在事件总数中过滤【事件状态】=‘关闭’

比率:数量 / 事件总数  × 100 %

3事件成功关闭的数量/比率

数量:在事件总数中过滤【事件结束代码】=‘成功’

比率:数量 / 事件总数  × 100 %

4升级到问题的数量/比例

数量:在事件总数中过滤【事件结束代码】=‘成功但有问题’

比率:数量 / 事件总数  × 100 %

5规定时间内解决的事件数量/比率

数量:在事件总数中过滤【事件解决是否超时】=‘未超时’and 【事件结束代码】=‘成功’

比率:数量/事件总数 × 100 %

6规定时间内响应的事件数量/比率

数量:在事件总数中过滤【事件响应是否超时】=‘未超时’

比率:数量/事件总数 × 100 %

7平均响应时间平均响应时间:累计响应事件的时间(【事件登记时间】 - 【事件发生时间】)/ 事件总数
8平均解决时间

完成的事件数量:在事件总数中过滤所有【事件状态】=‘已解决’or ‘关闭’,同时【事件解决人角色】=‘一线’or‘二线’的事件

平均解决时间:累加完成事件的(【事件解决时间】-【事件登记时间】)/ 完成的事件数量

9第三方平均解决时间

完成的事件:在事件总数中过滤所有【事件状态】=‘已解决’or ‘关闭’,同时【事件解决人角色】=‘3/n’的事件

平均解决时间:累加完成事件的(【事件解决时间】-【转至第三方时间】)/ 完成的事件数量

10一线解决率

数量:在事件总数中过滤所有【事件解决人】=‘一线’

比率:数量 / 事件总数 × 100 %

11二线解决率

数量:在事件总数中过滤所有【事件解决人】=‘二线’

比率:数量 / 事件总数 × 100 %

12重大事件数量/比率

数量 :在事件总数中过滤【事件优先级】=‘1’或‘2’

比率:数量 / 事件总数  × 100 %

13员工月度发起事件数量数量:每月事件总数按【事件登记人】=%员工名称% 进行分类统计
14员工月度处理事件数量数量:每月事件总数按【事件工作日志】包含%员工名称% 进行分类统计
      15知识库利用率

数量:解决问题,获取知识库的数量;

比率:数量/时间总数×100%

16员工月度发起事件比率

数量:每月事件总数按【事件登记人】=%员工名称% 进行分类统计

比率:数量/服务组事件总量×100%

17员工月度解决事件比率

数量:在事件总数中过滤所有【事件解决人角色】=%员工名称%

比率:数量/服务组事件总量×100%

事件流程管理相关报表建议如下,IT运维服务部运维服务团队可在此基础上自行补充:

序号报表名称报表类型包含指标
1事件数量按用户及优先级统计月报/季报事件总数
2事件数量按用户及设备统计月报/季报事件总数
3事件数量按用户及事件分类统计月报/季报事件总数
4超时响应事件数量按用户及优先级统计月报/季报超时响应数量
5超时解决事件数量按用户及优先级统计月报/季报超时解决数量
6平均响应/解决时间按优先级统计月报/季报

平均响应时间

平均解决时间

7一线/二线解决率按事件分类统计月报/季报

一线解决率

二线解决率

8事件登记/解决数量按服务支持人员统计月报/季报事件总数

4. 参考

4.1 相关流程

  1. 问题管理
  2. 变更与发布管理
  3. 服务级别管理
  4. 业务关系管理
  5. 供应商管理

4.2 相关表单

  1. 事件单/事件记录
  2. 运维事件月报/周报
  3. 经验手册/FAQ
标签:
由 superadmin 在 2024/10/29, 16:37 创建
     
深圳市艾拓先锋企业管理咨询有限公司