1. 文档目的

 事件管理流程的目标是及时响应IT服务的意外事件,并按照服务级别要求恢复。 事件管理流程也用于对服务请求实施的管理。

 本文定义了南方基地提供适应性运维管理服务过程中所遵循的事件处理流程,用于指导运维服务团队进行日常的突发事件和服务请求的管理,包括突发事件和服务请求的报告、记录、评估分类、解决、确认以及关闭活动,本文也定义了事件管理的相关代码、与客户的相关接口以及职责角色分工。

2. 流程范围

本文档定义的事件管理流程适用于南方基地与XX所签署的《运维管理服务协议》范围内的系统架构的突发事件和服务请求的管理。

3. 流程相关定义

3.1事件性质

编号代码描述
1故障

指与系统故障(包括主机和存储)有关的引发业务系统部分或全部功能不能正常使用的报障;

监控管理平台上报的影响系统正常使用的告警

2告警监控平台自动产生的没有影响到系统正常使用的告警,以及备份或监控系统异常无法进行正常的操作
3服务请求指客户发起的例行维护需求,例如文件系统的调整等
4咨询对产品或操作使用进行咨询

注:接受来自SSB用户发送的服务请求,不属于IT基础设施方面的故障。如果被请求的服务将改变IT基础设施状态,则应该提交变更请求(RFC),进入变更管理流程。

3.2 事件来源

事件来源代码用来标明事件的提出方式,事件来源可以包括以下几种:

编号代码描述
1用户报告客户维护人员通过电话/邮件/系统报告的事件,由HP运维工程师手工创建事件单
2内部开单HP运维工程师在监控和维护过程中自行发现的事件
3监控告警自动报警系统产生的事件

3.3 事件分类

类别子类
系统硬件HP 9000服务器
磁盘阵列
存储光纤交换机
磁带库
系统软件数据库
操作系统
集群软件
备份软件
监控脚本
业务系统业务系统
网站系统
市民查询系统

3.4 事件影响、优先级和响应时限

响应时限指的是事件状态从“已登记”到“运维工程师(OE)处理中”经过的时间。

编号优先级代码描述响应时限
影响面业务是否中断是否有临时解决方案
1紧急(整个业务,某个部门,某个生产系统)40分钟
2(整个业务,某个部门,某个生产系统,重要用户)1.5小时
3一般(内部系统,非生产系统)是/否是/否4小时
4普通(普通个人,不影响前台业务)是/否第二天

3.5 事件状态

事件状态代码表明事件所处的处理状态,事件状态如下:

编号代码描述
1已登记已由客户或运维工程师登记
2OE处理中根据工作手册中的描述处理相关事件
3升级运维工程师向后线支持之间升级事件时
4800 处理中接受系统软硬件故障并进行处理
5技术支持处理中后线技专家(ITSM 、OVO或备份专家)接受事件并处理
6返回后线支持返回处理结果给运维工程师
7已解决与客户确认事件已经解决
8关闭根据解决方案不同关闭事件

3.6 事件结束代码

事件结束代码说明了事件是在何种情况下关闭的,结束代码如下:

编号代码描述
1成功解决事件获得成功解决
2变通方法解决事件已通过变通方法或者临时措施获得解决,但是需要进行更进一步的根源分析
3第三方问题已确认的第三方问题,例如数据库、应用程序等

3.7 事件信息项

建议事件单包含如下事件信息项:

序号信息项说明
1事件ID事件单流水号(自动产生)
2请求人信息事件申报人的信息,包括:姓名、部门、电子邮件、办公电话(手工填写)
3登记时间生成事件记录的时间(手工填写)
4地点事件发生的地点 (手工填写)
5事件发生时间针对故障:指的是业务中断的实际时间 (可能早于登记时间,需要手工填写)
6业务恢复时间针对故障的业务恢复实际时间(手工填写)
7事件性质参见“事件性质”定义(选择)
8事件来源 参见“事件来源”定义(选择)
9事件分类参见“事件分类”定义(选择)
10配置项关联的配置项(手工填写)
11事件优先级参见“事件影响、优先级和响应时限”定义(选择)
12事件影响参见“事件影响、优先级和响应时限”定义(选择)
13事件标题事件的简要描述(手工填写)
14事件描述对于整个事件内容的详细描述(手工填写)
15事件解决人事件的最终解决人(手工填写)
16事件状态参见“事件状态”定义(选择)
17解决方案事件解决方案的描述(手工填写)
18事件结束代码参见“事件结束代码”定义(选择)
  19关联的变更单号记录由事件引发变更时,关联的变更单号(手工填写)
20关联WFM单号记录生成事件的来源系统工单号

3.8 与SSB事件管理流程接口

  1. 南方基地事件来源:SSB运维专家发现并交由HP工程师处理;OE或MCE发现并处理;监控平台告警。
  2. XX运维工程师(OE)接到客户上报事件后,根据实际情况,按照AO事件管理流程处理事件。
  3. 对于紧急事件,南方基地可以通过紧急事件处理流程第一时间联系ASM或MCE,同时确保周知OE。

HP接口人员联系信息如下:

编号惠普接口人员联系方式
1

HP运维工程师(OE)

朱XX

/
2

MCE

宋XX

/
3

客户服务经理(ASM)

廖XX

/

4. 流程图

4.1AO事件管理流程图

事件管理流程图如下:

图片1.jpg

事件管理流程说明如下:

序号步骤名称责任人说明
100.1事件记录和分类HP运维工程师
  • HP运维工程师对来自用户/监控系统/自己发现的事件进行详细记录,具体参见《AO事件管理工作表》中的“事件登记”页面
  • HP 运维工程师负责在接收到事件后进行分类转发,对服务请求转发给客户服务经理 协调处理
 判断是否为服务请求HP 运维工程师
  • 如果是服务请求,是否在运维合同的范围内,如果是,转100.2;否则转100.11
 判断是否为紧急事件HP 运维工程师
  • 如果该事件属于紧急事件,立即转100.13,由客户服务经理决定是否启动紧急事件流程
 判读是否能独立解决HP 运维工程师
  • 如果该事件可以独立解决,转 100.2初始诊断和支持
  • 如果该事件无法独立解决,进一步判断。如果该事件属于系统故障,则转100.3,通知800 响应中心;如果属于操作故障,转100.6,通知客户服务经理协调处理
100.2初始诊断和支持HP 运维工程师
  • 对于来自用户和系统的事件,HP 运维工程师根据操作手册指导或相关经验进行初始化诊断和支持
100.3通知800响应中心HP 运维工程师
  • 提供客户贵宾号、主机序列号、地点等给CCR
  • 打开Modem电源,并登录到响应故障系统
  • 记录Case ID
100.4CCR记录转发800 CCR
  • 记录HP 运维工程师报障信息,开出Case ID, 转发给RC
100.5RC尝试解决800 RC
  • RC工程师接受事件,登录客户故障系统,进行远程诊断支持,尝试解决方案;如果远程无法解决,派单给本地工程师进行现场维修
  • 对于需要通过变更解决的事件提出变更申请,通过变更流程实施解决方案
  • 事件解决后,在HP内部平台中记录事件解决方案
  • 回复HP 运维工程师 处理过程和方案

100.6

 

通知客户服务经理协调处理HP 运维工程师
  • 对于非运维工程师职责范围内事件,通知客户服务经理进行协调处理
100.7

 

组织运维专家

 

客户服务经理
  • 协调HP内部备份或监控方面资源,制定解决方案,以修复客户操作方面故障
100.8实施解决方案运维专家
  • 解决方案实施前要得到客户和客户服务经理的认可,如果涉及系统变更,需要提交变更申请,遵循变更管理流程
 与客户确认是否解决?HP 运维工程师
  • HP运维工程师根据《AO事件管理工作表》中的“单项事件报告模板”页面,提交事件报告,由客户签字确认故障现象得到解决
  • 如果没有解决,通知客户服务经理协调处理
100.9记录解决方案细节HP 运维工程师
  • 在事件得到解决后,HP 运维工程师负责详细记录事件解决过程及方案,并更新《AO事件管理工作表》中的“事件追踪”页面中事件解决方案等信息
100.10关闭事件 HP 运维工程师
  • 事件解决后,需要在《AO事件管理工作表》中的“事件追踪”页面中选择事件结束代码
  • 关闭事件的同时必须确认事件单记录的业务恢复时间是否准确,同时,检查解决方案记录是否完整详尽
100.11可行性分析客户服务经理
  • 客户服务经理根据实际情况判断是否可以实施该服务请求
100.12回复运维工程师客户服务经理
  • 客户服务经理将决定通知运维工程师
100.13紧急事件再确认客户服务经理
  • 客户服务经理接受到来自HP运维工程师 的”紧急”事件后,根据事件优先级别标准再次确认事件是否为”紧急”事件
  • 如果优先级确实紧急,则通知相应的管理层,转101紧急事件处理子流程
  • 如不是,转正常事件解决流程
101紧急事件处理流程客户服务经理
  • 负责协调紧急事件的处理,具体过程见紧急事件处理子流程

注:

  • 由运维工程师对事件解决过程进行全程跟踪,并更新《AO事件管理工作表》中的“事件追踪”页面

4.2 AO紧急事件处理子流程图

4.2.1 流程原则

  1. 制定各系统应急处理预案

为了确保系统发生重大故障时,能够尽快恢复业务,并充分调动技术力量,在最短时间内排除故障,各系统应该建立相应的应急处理预案,建议预案中的内容至少应涵盖以下方面:

  • 应急预案启动条件
  • 应急处理小组负责人和成员联系名单和联系方式
  • 应急处理步骤
  • 应急信息通报
  • 应急善后处理
  • 应急保障措施(人员、培训、演习、场地等)

4.2.2 AO紧急事件处理子流程

1730523425708-314.png

紧急事件处理流程说明如下:

序号步骤名称说明
101.1召集应急小组,协调应急会议客户服务经理主持应急会议,协调各方资源,分析紧急事件处理方案,并将紧急事件情况通报客户 和CHP管理层
101.2判断是否属于应急预案中的事件?

客户和CHP应急小组根据紧急事件现象和影响程度,判断是否需要启动相应系统的应急预案?

  1. 如果没有应急预案,则进入101.4组织运维专家共同分析紧急事件,制定处理方案并处理;
  2. 如果有应急预案,则进入101.3按照应急预案处理
101.3按照应急预案处理根据各系统制定的应急预案中的实施步骤,处理紧急事件
101.4组织运维专家分析,制定处理方案并实施

事件经理负责组织相关CHP内部资源共同分析紧急事件,制定相应的处理方案

处理方案在实施前应得到应急小组和相关领导的认可;

事件处理过程中如果需要中断业务或对系统的IT组件产生变更,则需要按照紧急变更管理流程的定义和要求,提出紧急变更请求

101.5紧急事件解除确认?

在紧急事件处理方案实施后,应急小组和相关部门对紧急事件是否解除进行确认

  1. 紧急事件如果没有解除,则重新进入101.4组织相关资源共同分析紧急事件,制定处理方案并处理;
  2. 如果解除,则进入101.6紧急事件善后处理和总结分析
101.6善后处理和通报
  1. 紧急事件解除后,应急小组向申告方、公司相关领导简要报告紧急事件处理过程,解决方法,业务恢复时间,业务恢复情况等
  2. 紧急事件解除后,客户服务经理组织运维专家对事件的根本原因进行分析,消除导致事件再次发生的潜在故障因素
  3. 三天内向用户提交紧急事件分析报告
  4. 如果没有在《AO事件管理工作表》中登记和记录,补登记“事件登记”、“事件追踪”页面中的信息

5. 关键角色和职责定义

流程的实现是通过不同的流程角色以及其被赋予的职责来实现的,因此流程的每一个角色可以被定义为一系列职责的集合,在实际的管理操作中,不同的人员将被赋予不同的职责,也可能一个人被赋予多个职责,同时也可以将其职责授权给其管理结构之下的人员,因此,以下所提及的管理流程和角色的目的是为了在充分满足流程所需角色的基础上,为具体的实现提供足够的灵活性。

事件管理流程主要分为以下几个职责/角色,分别简述如下:

5.1 IT运维咨询顾问

即事件管理流程负责人,从宏观上监控流程,确保事件管理流程在IT部门范围内被正确的执行。当流程不能够适应系统维护部门的情况时,流程负责人必须及时的对此进行分析、找出缺陷、进行改进,从而实现可持续提高。

职责:

  1. 确定事件管理流程的衡量指标
  2. 确保事件管理流程能够取得管理层的参与和支持
  3. 确保事件管理流程符合本单位实际状况和 IT发展战略
  4. 总体上管理和监控流程,建立事件管理流程实施、评估和持续优化机制
  5. 确保事件管理流程有效、正确地执行,当流程不能够适应公司的情况时,必须及时进行分析、找出缺陷、进行改进,从而实现可持续提高
  6. 保持与其他流程负责人的定期沟通

5.2 客户服务经理

客户服务经理负责事件解决过程中的协调和监控,以及事件升级的判断以及具体执行。

职责:

  1. 确保有效协调资源(swat, RC, ITO),促进升级事件的尽快解决;
  2. 确保完整收集和分析事件数据,定期向客户提供事件分析报告,为客户提供系统改善建议;
  3. 定期或不定期地对事件流程进行回顾,找出事件管理流程的不足; 

5.3 HP运维工程师

职责:

  1. 负责事件的接收、记录、分类和优先级排序
  2. 在规定的时间内解决事件(突发事件,监控系统自动发现的故障等)
  3. 把事件的影响降到最小,并确保快速恢复到正常服务水平
  4. 当事件不能解决时应及时将事件升级给800 或客户服务经理  
  5. 跟踪事件的处理过程以确保在规定的时间内解决事件
  6. 将事件的解决步骤文档化,并将解决方案记录系统中或事件控制表
  7. 及时与客户沟通确认事件的解决状态, 事件解决后, 取得客户的确认
  8. 对第三方的故障,联系第三方的支持人员,并通知客户IT人员跟进监控

5.4 HP运维专家

运维专家负责对运维工程师无法解决的事件进行快速有效的分析,提出解决方案以尽快恢复服务,并在必要时提供现场支持。

运维专家既是相关问题领域的专家。负责提供对运维工程师无法解决的问题进一步进行调研,找出解决方案并尽快恢复服务。

职责:

  1.  后端支持专家(SWAT/GSC/HPCE/ITO)
  2. 及时响应和处理现场运维工程师升级来的事件
  3. 必要时提供现场支持服务 

5.5 SSB 运维专家

SSB运维专家负责对发现和升级的的事件进行快速有效的分析,判断是否需要XX支持,以便将事件及时向XX做横向升级,并在必要时提供现场支持。

职责:

  1. 及时响应和处理发现和升级来的事件
  2. 对事件进行快速有效分析,判断是否需要XX支持
  3. 将需要升级至XX的事件及时升级至厂商运维维护人员
  4. 必要时提供现场支持服务

5.6 流程角色和人员对应表

角色成员
IT运维咨询顾问BCC罗XX
客户服务经理ASM廖XX
运维工程师MCE宋XX
运维专家OE 
SSB运维专家 

6. 关键流程衡量指标

为了控制流程的质量,必须为流程设置衡量指标。通过对指标的分析,可以有效地对流程的运行情况进行监控和改进。

序号衡量指标
1按月显示事件总数
2按照事件分类统计事件数量/比率
3运维工程师完成的事件比例
4事件关闭的数量
5事件成功关闭的数量/比率
6平均解决时间
7事件升级的数量/比率
8超时未解决的事件数量

7. 专业词汇解释

CE:客户支持专家

OE:硬件支持专家

RC:远程支持专家

MCE:客户支持专家

SWAT:快速反应部队

GSC:全球服务中心

ITO:HP合作伙伴

标签:
由 superadmin 在 2024/11/02, 12:55 创建
     
深圳市艾拓先锋企业管理咨询有限公司