31 某通讯集团南方基地适应性运维服务(AO)ITIL事件管理流程
1. 文档目的
事件管理流程的目标是及时响应IT服务的意外事件,并按照服务级别要求恢复。 事件管理流程也用于对服务请求实施的管理。
本文定义了南方基地提供适应性运维管理服务过程中所遵循的事件处理流程,用于指导运维服务团队进行日常的突发事件和服务请求的管理,包括突发事件和服务请求的报告、记录、评估分类、解决、确认以及关闭活动,本文也定义了事件管理的相关代码、与客户的相关接口以及职责角色分工。
2. 流程范围
本文档定义的事件管理流程适用于南方基地与XX所签署的《运维管理服务协议》范围内的系统架构的突发事件和服务请求的管理。
3. 流程相关定义
3.1事件性质
编号 | 代码 | 描述 |
1 | 故障 | 指与系统故障(包括主机和存储)有关的引发业务系统部分或全部功能不能正常使用的报障; 监控管理平台上报的影响系统正常使用的告警 |
2 | 告警 | 监控平台自动产生的没有影响到系统正常使用的告警,以及备份或监控系统异常无法进行正常的操作 |
3 | 服务请求 | 指客户发起的例行维护需求,例如文件系统的调整等 |
4 | 咨询 | 对产品或操作使用进行咨询 |
注:接受来自SSB用户发送的服务请求,不属于IT基础设施方面的故障。如果被请求的服务将改变IT基础设施状态,则应该提交变更请求(RFC),进入变更管理流程。
3.2 事件来源
事件来源代码用来标明事件的提出方式,事件来源可以包括以下几种:
编号 | 代码 | 描述 |
1 | 用户报告 | 客户维护人员通过电话/邮件/系统报告的事件,由HP运维工程师手工创建事件单 |
2 | 内部开单 | HP运维工程师在监控和维护过程中自行发现的事件 |
3 | 监控告警 | 自动报警系统产生的事件 |
3.3 事件分类
类别 | 子类 |
系统硬件 | HP 9000服务器 |
磁盘阵列 | |
存储光纤交换机 | |
磁带库 | |
系统软件 | 数据库 |
操作系统 | |
集群软件 | |
备份软件 | |
监控脚本 | |
业务系统 | 业务系统 |
网站系统 | |
市民查询系统 |
3.4 事件影响、优先级和响应时限
响应时限指的是事件状态从“已登记”到“运维工程师(OE)处理中”经过的时间。
编号 | 优先级代码 | 描述 | 响应时限 | ||
影响面 | 业务是否中断 | 是否有临时解决方案 | |||
1 | 紧急 | 大(整个业务,某个部门,某个生产系统) | 是 | 否 | 40分钟 |
2 | 高 | 大(整个业务,某个部门,某个生产系统,重要用户) | 是 | 是 | 1.5小时 |
3 | 中 | 一般(内部系统,非生产系统) | 是/否 | 是/否 | 4小时 |
4 | 普通 | 小(普通个人,不影响前台业务) | 否 | 是/否 | 第二天 |
3.5 事件状态
事件状态代码表明事件所处的处理状态,事件状态如下:
编号 | 代码 | 描述 |
1 | 已登记 | 已由客户或运维工程师登记 |
2 | OE处理中 | 根据工作手册中的描述处理相关事件 |
3 | 升级 | 运维工程师向后线支持之间升级事件时 |
4 | 800 处理中 | 接受系统软硬件故障并进行处理 |
5 | 技术支持处理中 | 后线技专家(ITSM 、OVO或备份专家)接受事件并处理 |
6 | 返回 | 后线支持返回处理结果给运维工程师 |
7 | 已解决 | 与客户确认事件已经解决 |
8 | 关闭 | 根据解决方案不同关闭事件 |
3.6 事件结束代码
事件结束代码说明了事件是在何种情况下关闭的,结束代码如下:
编号 | 代码 | 描述 |
1 | 成功解决 | 事件获得成功解决 |
2 | 变通方法解决 | 事件已通过变通方法或者临时措施获得解决,但是需要进行更进一步的根源分析 |
3 | 第三方问题 | 已确认的第三方问题,例如数据库、应用程序等 |
3.7 事件信息项
建议事件单包含如下事件信息项:
序号 | 信息项 | 说明 |
1 | 事件ID | 事件单流水号(自动产生) |
2 | 请求人信息 | 事件申报人的信息,包括:姓名、部门、电子邮件、办公电话(手工填写) |
3 | 登记时间 | 生成事件记录的时间(手工填写) |
4 | 地点 | 事件发生的地点 (手工填写) |
5 | 事件发生时间 | 针对故障:指的是业务中断的实际时间 (可能早于登记时间,需要手工填写) |
6 | 业务恢复时间 | 针对故障的业务恢复实际时间(手工填写) |
7 | 事件性质 | 参见“事件性质”定义(选择) |
8 | 事件来源 | 参见“事件来源”定义(选择) |
9 | 事件分类 | 参见“事件分类”定义(选择) |
10 | 配置项 | 关联的配置项(手工填写) |
11 | 事件优先级 | 参见“事件影响、优先级和响应时限”定义(选择) |
12 | 事件影响 | 参见“事件影响、优先级和响应时限”定义(选择) |
13 | 事件标题 | 事件的简要描述(手工填写) |
14 | 事件描述 | 对于整个事件内容的详细描述(手工填写) |
15 | 事件解决人 | 事件的最终解决人(手工填写) |
16 | 事件状态 | 参见“事件状态”定义(选择) |
17 | 解决方案 | 事件解决方案的描述(手工填写) |
18 | 事件结束代码 | 参见“事件结束代码”定义(选择) |
19 | 关联的变更单号 | 记录由事件引发变更时,关联的变更单号(手工填写) |
20 | 关联WFM单号 | 记录生成事件的来源系统工单号 |
3.8 与SSB事件管理流程接口
- 南方基地事件来源:SSB运维专家发现并交由HP工程师处理;OE或MCE发现并处理;监控平台告警。
- XX运维工程师(OE)接到客户上报事件后,根据实际情况,按照AO事件管理流程处理事件。
- 对于紧急事件,南方基地可以通过紧急事件处理流程第一时间联系ASM或MCE,同时确保周知OE。
HP接口人员联系信息如下:
编号 | 惠普接口人员 | 联系方式 |
1 | HP运维工程师(OE) 朱XX | / |
2 | MCE 宋XX | / |
3 | 客户服务经理(ASM) 廖XX | / |
4. 流程图
4.1AO事件管理流程图
事件管理流程图如下:
事件管理流程说明如下:
序号 | 步骤名称 | 责任人 | 说明 |
100.1 | 事件记录和分类 | HP运维工程师 |
|
判断是否为服务请求 | HP 运维工程师 |
| |
判断是否为紧急事件 | HP 运维工程师 |
| |
判读是否能独立解决 | HP 运维工程师 |
| |
100.2 | 初始诊断和支持 | HP 运维工程师 |
|
100.3 | 通知800响应中心 | HP 运维工程师 |
|
100.4 | CCR记录转发 | 800 CCR |
|
100.5 | RC尝试解决 | 800 RC |
|
100.6
| 通知客户服务经理协调处理 | HP 运维工程师 |
|
100.7 |
组织运维专家
| 客户服务经理 |
|
100.8 | 实施解决方案 | 运维专家 |
|
与客户确认是否解决? | HP 运维工程师 |
| |
100.9 | 记录解决方案细节 | HP 运维工程师 |
|
100.10 | 关闭事件 | HP 运维工程师 |
|
100.11 | 可行性分析 | 客户服务经理 |
|
100.12 | 回复运维工程师 | 客户服务经理 |
|
100.13 | 紧急事件再确认 | 客户服务经理 |
|
101 | 紧急事件处理流程 | 客户服务经理 |
|
注:
- 由运维工程师对事件解决过程进行全程跟踪,并更新《AO事件管理工作表》中的“事件追踪”页面
4.2 AO紧急事件处理子流程图
4.2.1 流程原则
- 制定各系统应急处理预案
为了确保系统发生重大故障时,能够尽快恢复业务,并充分调动技术力量,在最短时间内排除故障,各系统应该建立相应的应急处理预案,建议预案中的内容至少应涵盖以下方面:
- 应急预案启动条件
- 应急处理小组负责人和成员联系名单和联系方式
- 应急处理步骤
- 应急信息通报
- 应急善后处理
- 应急保障措施(人员、培训、演习、场地等)
4.2.2 AO紧急事件处理子流程
紧急事件处理流程说明如下:
序号 | 步骤名称 | 说明 |
101.1 | 召集应急小组,协调应急会议 | 客户服务经理主持应急会议,协调各方资源,分析紧急事件处理方案,并将紧急事件情况通报客户 和CHP管理层 |
101.2 | 判断是否属于应急预案中的事件? | 客户和CHP应急小组根据紧急事件现象和影响程度,判断是否需要启动相应系统的应急预案?
|
101.3 | 按照应急预案处理 | 根据各系统制定的应急预案中的实施步骤,处理紧急事件 |
101.4 | 组织运维专家分析,制定处理方案并实施 | 事件经理负责组织相关CHP内部资源共同分析紧急事件,制定相应的处理方案 处理方案在实施前应得到应急小组和相关领导的认可; 事件处理过程中如果需要中断业务或对系统的IT组件产生变更,则需要按照紧急变更管理流程的定义和要求,提出紧急变更请求 |
101.5 | 紧急事件解除确认? | 在紧急事件处理方案实施后,应急小组和相关部门对紧急事件是否解除进行确认
|
101.6 | 善后处理和通报 |
|
5. 关键角色和职责定义
流程的实现是通过不同的流程角色以及其被赋予的职责来实现的,因此流程的每一个角色可以被定义为一系列职责的集合,在实际的管理操作中,不同的人员将被赋予不同的职责,也可能一个人被赋予多个职责,同时也可以将其职责授权给其管理结构之下的人员,因此,以下所提及的管理流程和角色的目的是为了在充分满足流程所需角色的基础上,为具体的实现提供足够的灵活性。
事件管理流程主要分为以下几个职责/角色,分别简述如下:
5.1 IT运维咨询顾问
即事件管理流程负责人,从宏观上监控流程,确保事件管理流程在IT部门范围内被正确的执行。当流程不能够适应系统维护部门的情况时,流程负责人必须及时的对此进行分析、找出缺陷、进行改进,从而实现可持续提高。
职责:
- 确定事件管理流程的衡量指标
- 确保事件管理流程能够取得管理层的参与和支持
- 确保事件管理流程符合本单位实际状况和 IT发展战略
- 总体上管理和监控流程,建立事件管理流程实施、评估和持续优化机制
- 确保事件管理流程有效、正确地执行,当流程不能够适应公司的情况时,必须及时进行分析、找出缺陷、进行改进,从而实现可持续提高
- 保持与其他流程负责人的定期沟通
5.2 客户服务经理
客户服务经理负责事件解决过程中的协调和监控,以及事件升级的判断以及具体执行。
职责:
- 确保有效协调资源(swat, RC, ITO),促进升级事件的尽快解决;
- 确保完整收集和分析事件数据,定期向客户提供事件分析报告,为客户提供系统改善建议;
- 定期或不定期地对事件流程进行回顾,找出事件管理流程的不足;
5.3 HP运维工程师
职责:
- 负责事件的接收、记录、分类和优先级排序
- 在规定的时间内解决事件(突发事件,监控系统自动发现的故障等)
- 把事件的影响降到最小,并确保快速恢复到正常服务水平
- 当事件不能解决时应及时将事件升级给800 或客户服务经理
- 跟踪事件的处理过程以确保在规定的时间内解决事件
- 将事件的解决步骤文档化,并将解决方案记录系统中或事件控制表
- 及时与客户沟通确认事件的解决状态, 事件解决后, 取得客户的确认
- 对第三方的故障,联系第三方的支持人员,并通知客户IT人员跟进监控
5.4 HP运维专家
运维专家负责对运维工程师无法解决的事件进行快速有效的分析,提出解决方案以尽快恢复服务,并在必要时提供现场支持。
运维专家既是相关问题领域的专家。负责提供对运维工程师无法解决的问题进一步进行调研,找出解决方案并尽快恢复服务。
职责:
- 后端支持专家(SWAT/GSC/HPCE/ITO)
- 及时响应和处理现场运维工程师升级来的事件
- 必要时提供现场支持服务
5.5 SSB 运维专家
SSB运维专家负责对发现和升级的的事件进行快速有效的分析,判断是否需要XX支持,以便将事件及时向XX做横向升级,并在必要时提供现场支持。
职责:
- 及时响应和处理发现和升级来的事件
- 对事件进行快速有效分析,判断是否需要XX支持
- 将需要升级至XX的事件及时升级至厂商运维维护人员
- 必要时提供现场支持服务
5.6 流程角色和人员对应表
角色 | 成员 |
IT运维咨询顾问BCC | 罗XX |
客户服务经理ASM | 廖XX |
运维工程师MCE | 宋XX |
运维专家OE | |
SSB运维专家 |
6. 关键流程衡量指标
为了控制流程的质量,必须为流程设置衡量指标。通过对指标的分析,可以有效地对流程的运行情况进行监控和改进。
序号 | 衡量指标 |
1 | 按月显示事件总数 |
2 | 按照事件分类统计事件数量/比率 |
3 | 运维工程师完成的事件比例 |
4 | 事件关闭的数量 |
5 | 事件成功关闭的数量/比率 |
6 | 平均解决时间 |
7 | 事件升级的数量/比率 |
8 | 超时未解决的事件数量 |
7. 专业词汇解释
CE:客户支持专家
OE:硬件支持专家
RC:远程支持专家
MCE:客户支持专家
SWAT:快速反应部队
GSC:全球服务中心
ITO:HP合作伙伴