28 某省移动网管中心IT集中运维咨询项目ITIL事件管理流程设计报告
1. 综述
1.1文档目的
本文档是结合XX移动网管中心IT集中运维管理的特点,制定的事件管理流程设计报告。本文档的目的是分析XX移动网管中心事件管理流程的现状和存在的问题;针对XX移动网管中心IT集中运维管理发展需要和日常维护需求,设计事件管理流程。
本文档是依据目前XX移动网管中心的IT集中运维管理发展需要和日常维护需求而制定的,以后进一步的更新和优化将由浙江移动网管中心IT维护室负责。
1.2 相关术语
- 事件
指包括任何使服务中断或可能使服务中断的事件; IT 服务的意外中断或 IT 服务质量的下降。尚未影响服务的配置项失效也是事件,如镜像组中一块磁盘的失效。
- 告警工单
指通过告警管理平台标准化处理过以后的告警信息,并由此产生的事件工单。
- 紧急事件
指由于影响范围和紧急程度都非常高的事件,此类事件可以通过紧急事件处理流程进行解决,待解决后再进行补填工作单。
2. 目标和范围
2.1 目标
- 尽快解决事件,提升IT技术支持的效率,减小对业务的影响。
- 客观准确记录工作,辅助IT维护室领导了解IT运维状况,促进IT运维的持续改进。
- 对事件处理进行全过程跟踪,进行有效控制。
2.2 范围
- 业务范围:IT维护室纳管设备所属业务系统相关的IT事件。
- 专业范围:IT维护室各专业组所负责的领域,包括:服务器、刀片、Oracle、Informix及其他数据库、网络、存储六个专业方面的故障处理。
3. 事件管理流程
3.1 流程概要设计
事件管理概要流程图如下:
事件管理概要设计流程说明
序号 | 步骤名称 | 角色 | 说明 |
100.1 | 事件受理 | 事件受理人 |
|
100.2 | 事件单分派 | 事件受理人 |
|
100.3 | 事件解决过程跟踪 | 事件受理人 |
|
100.4 | 事件处理 | 事件处理人 |
|
100.5 | 事件监控 | 事件经理 |
|
100.6 | 事件关闭 | 事件处理人 事件受理人 |
|
100.7 | 紧急事件处理 | 事件受理人 事件经理 事件处理人 |
|
100.8 | 监控告警事件处理 | 监控管理人员 事件受理人 事件处理人 |
|
3.2 流程详细设计
3.2.1 事件受理子流程
流程描述如下:
序号 | 活动名称 | 角色 | 说明 |
100.1.1 | 抄送工单至事件受理人 | 事件受理人 |
|
100.1.2 | 填写事件申请单 | 事件申请人 |
|
100.1.3 | 事件信息收集 | 事件受理人 |
|
100.1.4 | 新建工单 | 事件受理人 |
|
100.1.5 | 尝试解决 | 事件受理人 |
|
100.1.6 | 驳回事件申请 | 事件受理人 |
|
100.2 | 事件单分派 | 事件受理人 |
|
100.6 | 事件关闭 | 事件受理人 |
|
100.7 | 紧急事件处理流程 | 事件经理 |
|
3.2.2 事件处理子流程
流程描述如下:
序号 | 活动名称 | 角色 | 说明 |
100.4.1 | 接受事件工单 | 事件处理人 |
|
100.4.2 | 收集详细信息 | 事件处理人 |
|
100.4.3 | 制定处理方案 | 事件处理人 |
|
100.4.4 | 填写协办工单 | 事件处理人 |
|
100.4.5 | 将协办工单发送至相关处理人或第三方厂商,并加入处理方案 | 事件处理人 |
|
100.4.6 | 启动处理方案 | 事件处理人 |
|
100.4.7 | 解决事件 | 事件处理人 |
|
100.4.8 | 分派工单至第三方厂商 | 事件处理人 |
|
100.4.9 | 接受事件工单 | 第三方厂商 |
|
100.4.10 | 制定处理方案 | 第三方厂商 |
|
100.4.11 | 执行处理方案 | 第三方厂商 |
|
100.6 | 事件关闭 | 事件处理人 第三方厂商 |
|
100.8 | 监控告警事件处理子流程 | 事件受理人 监控管理人员 |
|
3.2.3 事件关闭子流程
流程描述如下:
序号 | 活动名称 | 角色 | 说明 |
100.6.1 | 提交事件处理结果 | 事件处理人 |
|
100.6.2 | 验证事件处理结果 | 事件受理人 |
|
100.6.3 | 与实践提交人沟通 | 事件受理人 |
|
100.6.4 | 事件关闭 | 事件受理人 |
|
100.4 | 事件处理 | 事件处理人 第三方厂商 |
|
3.2.4 监控告警事件子流程
流程描述如下:
序号 | 活动名称 | 角色 | 说明 |
100.8.1 | 监控告警事件工单派发 | 监控管理人员 事件受理人 |
|
100.8.2 | 接受工单 | 事件处理人 |
|
100.4 | 事件处理 | 事件处理人 |
|
100.8.3 | 申请报结 | 事件处理人 |
|
100.8.4 | 事件单报结并关闭 | 监控管理人员 |
|
3.2.5 紧急事件子流程
流程描述如下:
序号 | 活动名称 | 角色 | 说明 |
100.1 | 事件受理 | 事件受理人 事件经理 |
|
100.7.1 | 召开紧急事件处理会议 | 事件经理 |
|
100.7.2 | 上报紧急事件 | 事件经理 |
|
100.7.3 | 协调资源 | 事件经理 |
|
100.7.4 | 组织相关厂商分析并制定处理方案 | 事件经理 |
|
100.7.5 | 启用应急处理预案 | 事件处理人 |
|
100.7.6 | 处理紧急事件 | 事件处理人 |
|
100.7.7 | 紧急事件解除确认 | 事件处理人 |
|
100.7.8 | 善后处理 | 事件处理人 事件经理 |
|
100.7.9 | 汇报处理结果 | 事件经理 |
|
3.3 角色与职责
3.3.1 事件管理流程负责人
主要职责:
- 确定事件管理流程的衡量指标;
- 确保事件管理流程符合IT维护室实际状况和发展战略;
- 在总体上管理和监控流程,建立事件管理流程实施、评估和持续优化机制;
- 确保事件管理流程实用、有效、正确地执行;
- 保持与其他流程负责人的定期沟通。
技能要求:
- 拥有多年IT运维经验;
- 精通ITIL最佳实践;
- 全面了解IT维护室的业务情况和组织架构;
- 了解事件管理的相关规则和制度;
- 具有良好的管理和协调能力。
3.3.2 事件经理
主要职责:
- 确保事件流程能够取得管理层的参与和支持;
- 对事件的挂起协办等请求进行审批;
- 负责对事件的解决协调资源,保证故障的最终排除;
- 当事件优先级为紧急或者超过规定的时限,负责对事件处理进行督办,并协调资源,督促快速恢复正常服务;
- 确保和问题经理的有效合作;
- 正确和广泛地收集和分析事件数据,发现IT和业务相关的问题。
技能要求:
- 拥有多年IT运维经验;
- 精通ITIL最佳实践;
- 全面了解IT维护室的业务情况和组织架构;
- 了解事件管理的相关规则和制度;
- 具有良好的沟通能力和准确表达能力;
- 具有良好的管理和协调能力;
3.3.3 事件受理人
主要职责:
- 创建新的事件单,完整记录所接收的事件信息,包括:记录事件报告人的详细联系方式、事件表现、描述、发生时间等;
- 帮助事件提交人创建事件单;
- 查询解决方案,尝试解决事件;
- 将紧急事件提交至事件经理;
- 将事件工单分配至合适的处理人员;
- 跟踪、监督、督促事件的解决过程;
- 将超时事件升级至事件经理;
- 根据事件单处理结果关闭事件。
技能要求:
- 具备相关的IT专业技能;
- 熟悉ITIL最佳实践;
- 具有良好的沟通能力和准确表达能力;
- 全面了解IT维护室业务情况和组织架构。
3.3.4 事件处理人
主要职责:
- 响应事件的分派;
- 验证事件的描述和信息,与用户直接进行沟通,补充相关信息;
- 对于事件进行处理,包括分派、等待、接单、解决等操作;
- 为第三方厂商提供未解决事件的解决过程和测试结果记录;
- 提交事件/告警解决方案;
- 为无法找到根本原因的事件创建问题单,并提交问题单;
技能要求:
- 具备专业IT运维能力;
- 拥有多年IT运维经验;
- 熟悉ITIL最佳实践;
- 全面了解IT维护室的业务情况和组织架构;
- 了解事件管理的相关规则和制度;
- 具备强大的专业运维技能;
- 具有良好的沟通能力和准确表达能力;
3.3.5 第三方厂商
主要职责:
- 验证事件的描述和信息,进一步收集相关信息;
- 根据经验和专业技能,决定需要采取何种措施恢复服务并实施有效的行动;
- 提供有效的解决方案;
- 执行解决方案,并关闭事件单;
- 更新事件解决过程信息。
技能要求:
- 具有专业的IT技能和问题处理能力。
3.4 角色人员映射列表
角色 | 成员 | |
流程负责人 | 潘宇虹 | |
事件经理 | 潘宇虹 | |
事件受理人 | 黄俊、朱颖艾、王文栋 | |
事件处理人 | 主机组 | 冯王可、杨浩春、张小核、陈禹文、郑利雄、陆沈波 |
刀片组 | 裴达兵、周雷震、徐海鹏、杨军、陈金波、苏亚南 | |
存储组 | 付家乐、周鹏、刑彪、杨晓敏 | |
Oracle组 | 康祖令、孙峰、刘华兵、陈偲、张涛、郑琛华、夏斌 | |
Informix组 | 廖晋清、邱级谋、刘健、韦昌来 | |
网络组 | 陈牧也、刘翌江、杜飞、方清 | |
第三方厂商 | 第三方厂商相关人员 |
4. 流程执行原则
4.1.1 常规原则
- 所有IT维护室业务范围内发生的故障,都应该记录在事件管理流程平台中,记录的信息应足够详细,包括故障处理交互过程,详细的解决方案和相应的附件。
- 每月将事件管理相关指标生成报表,并对所发生的故障及处理过程进行总结和评估。
- 每半年对事件管理流程进行评估和改进。
4.1.2 受理原则
- 受理时,事件受理人判断是否属于IT维护室管理范围,如果不属于,则退回。
- 受理时,判断是否需要人为处理,如果不需要则直接退回,如果需要,录入事件单。
- 判断事件级别,如是紧急事件,则进入紧急事件子流程;
- 监控告警工单的事件受理工作,由监控告警管理人员执行。
4.1.3 预处理原则
- 事件受理人在接到机房值班、巡检、和业务反馈的事件工单时,需要首先参考现有处理方案或经验,进行预处理。
- 如果预处理后故障未恢复或者无法处理,则进行首次分派。
- 如果预处理后,故障消失或者相关告警解除,则进行工单关闭。
4.1.4 分派原则
- 事件受理人可以将工单分派给事件处理人。
- 同一专业组内的事件处理人可以将工单再分派一次,不同专业组之间转派工单,需要先转回事件受理人,再由事件受理人分派至其他专业组事件处理人。
- 事件工单默认发送给专业组内所有人员,同时指定第一处理人和第二处理人,原则上第一处理人优先负责处理,在第一处理人无效情况下由第二处理人负责处理
- 在试运行阶段,工单派给事件的第一处理人时,如果处理人无法处理,可以将工单继续分派给其他事件处理人,并且对分派不做限制。
- 监控告警自动生成工单需按照告警中的业务或者专业方面的负责人信息,准确进行派发。
- 节假日的所有告警生成事件单派发至负责人时,需增加短信息提醒,对于优先级为高和极高的事件工单,进行电话通知。
4.1.5 所有权原则
- 所有用户都可以提交事件申请。
- 事件工单的责任人是事件受理人,负责跟踪事件处理的全过程。
4.1.6 重复事件原则
- 同一故障由于多次上报,而导致的多个事件单,需要标识,并合并处理与关闭。
- 同一故障(相同症状)的多次发生(三次以上),必须生成问题,并提交问题单。
- 属于重复事件的多个事件单,当其中任一事件单关闭时,其余重复关联的事件单同时关闭。
4.1.7 升级原则
- 如果确认事件为紧急事件,则立即升级到事件经理,并由事件经理通知相应的管理层,由事件经理启动紧急事件处理流程。
- 如果事件单超出了解决时限,通报事件经理,由事件经理协调资源并督促事件解决。
- 如果事件处理过程中,由于客观原因(例如等待备件等)需要申请将事件单挂起。
- 事件升级需要事件经理的确认,否则不允许进行升级。
- 事件受理人负责提醒和督办超时或已超时的工单,当工单处理时限还剩1小时,通过邮件和短信息的形式对事件处理人进行提醒,并监督剩余处理进程;当到达工单处理时限时,通过邮件、短信息和电话通知事件处理人,并由事件经理督办。
- 可以通过督办解决的事件单,不允许挂起。
4.1.8 关联原则
- 事件解决过程如果需要变更操作,则关联变更管理流程,进行变更处理。
- 标识为重复事件和紧急事件的事件单,应创建或关联问题单,并关联到问题管理流程。
- 事件单转入变更流程时,需要得到事件经理的确认。
- 事件处理过程中,所有涉及风险的操作,全部通过变更管理流程执行。
- 当事件处理结束,但业务尚未恢复时,由事件经理决定是否允许将工单转入问题管理流程。
- 当事件工单转入其他流程进行处理时,工单自动挂起。
- 通过变通方式解决和未解决的事件单,应创建或关联问题单,并关联到问题管理流程。
- 属于同一故障源的事件工单应进行关联,并标记为重复事件。
- 由于现阶段系统平台限制,暂不对关联工单进行自动化处理。
4.1.9 关闭原则
- 事件单的关闭前,需要得到事件提交人的确认。
- 事件单的关闭代码若为成功解决,必须有具体的处理措施。
- 事件单由事件受理人负责关闭。
- 处理结果包含完整填写的处理工单各个字段以及必要的解决方案或者处理报告附件。
- 如果事件单未解决并关闭,需要由事件经理进行确认。
- 来自告警自动派单的事件单,由事件处理人报结,由监控管理人员确认关闭。
4.1.10 典型事件原则
- 首次发生,且没有完善的标准处理方法。
- 与业务或者其他类型设备有较强的关联性。
- 有较重大或重大的潜在风险。
- 符合以上条件的事件单均需要提交事件处理报告,请参考模板。
4.1.11 持续改进原则
- 流程负责人负责每半年对事件管理流程的执行情况进行评审,提出改进建议和方案。
- 每周召开例会,对事件管流程的KPI报表进行讨论,提出改进建议。
- 每月召开例会,与其他各流程经理讨论并调整影响服务效率和质量的因素。
- 事件经理在例会中组织针对典型事件进行讨论,并制定标准解决方案。
4.1.12 紧急事件判定原则
- 已经产生重大经济损失的事件。
- 对于已经严重影响生产系统的事件。
- 事件的紧急程度极高,必须在7X24小时范围内立即进行处理。
- 满足以上条件的事件为紧急事件,必须进入紧急事件流程进行处理。
4.1.13 紧急事件处理原则
- 来自监控管理人员电话通知的紧急事件,需要告知事件经理,同时按照紧急事件处理流程进行线下处理。
- 所有紧急事件可以进行线下处理,处理完毕后,由事件受理人根据处理情况进行补充记录。
- 紧急事件执行首问责任制,即首先接到事件的人负责整个事件的处理过程。
5. 基础数据定义
5.1.1 事件来源
编号 | 代码 | 描述 |
1 | 监控告警 | 接受来自监控告警平台的事件单,通过平台接口自动进行转发,并抄送事件受理人,由监控管理人员进行预处理和关闭动作。 |
2 | 远程巡检 | 在日常巡检过程中主动发现的事件。 |
3 | 业务反馈 | 业务人员遇到IT事件时,填写事件申请单,并提交给事件受理人。 |
4 | 日常维护 | 在执行日常作业计划任务过程中,发现的事件。 |
5 | 机房巡检 | 机房值班人员巡检发现告警灯产生的故障告警。 |
5.1.2 事件分类
一级专业分类 | 二级事件分类 | 三级事件分类 | |
服务器 | 硬件 | 电源、风扇、主板、内存、CPU、硬盘、网卡 | |
软件 | 操作系统、应用程序、配置 | ||
安全 | 账号、权限、病毒、黑客 | ||
性能 | CPU、内存、硬盘 | ||
其他 | 自定义 | ||
刀片 | 硬件 | 电源、风扇、主板、内存、CPU、硬盘、网卡 | |
软件 | 操作系统、应用程序、配置 | ||
安全 | 账号、权限、病毒、黑客 | ||
性能 | CPU、内存、硬盘 | ||
其他 | 自定义 | ||
网络 | 硬件 | 电源、风扇、模块 | |
路由器 | 配置 | 策略、路由、用户、权限 | |
交换机 | 安全 | DDOS、广播风暴、访问控制 | |
防火墙 | 性能 | 带宽、CPU、内存、连接数 | |
其他 | 自定义 | ||
存储 | 硬件 | 电源、风扇、主板、内存、CPU、硬盘、网卡 | |
配置 | 操作系统、应用程序、配置 | ||
安全 | 账号、权限、病毒、黑客 | ||
性能 | CPU、内存、硬盘 | ||
其他 | 自定义 | ||
Oracle | 配置 | 用户、权限、表空间 | |
性能 | 语句、连接、CPU、内存、表空间 | ||
安全 | 系统bug、网络连接 | ||
其他 | 自定义 | ||
Informix | 配置 | 用户、权限、表空间 | |
性能 | 语句、连接、CPU、内存、表空间 | ||
安全 | 系统bug、网络连接 | ||
其他 | 自定义 |
业务系统分类:
业务系统 | 业务模块 |
IP认证计费系统 | 校园portal区域 |
校园WLAN接口服务区 | |
Raduis认证区域 | |
校园WLAN接口服务区 | |
校园WLAN OBS应用 | |
校园WLAN OBS数据库 | |
SCG综合网关系统 | GGSN |
UIDB | |
iParser | |
iProxy | |
WAPGW | |
CA | |
BP | |
SCG综合网关系统 | RPT |
SMPA服务器 | |
I2000 | |
OAMagent | |
SUR | |
防火墙日志 | |
OMC | |
DMC | |
远程跳板机 | |
统一增值平台 | 来电助手 |
V网彩信 | |
彩信超市 | |
校讯通 | |
统一增值平台 | 天气预报 |
手机签名 | |
短彩信文化俱乐部 | |
数码相框 | |
CA公共认证 | |
交通秘书 | |
TD-FI试点认证 | |
...... | |
…... |
5.1.3 事件影响度
事件影响度用于衡量事件所影响业务的严重程度。严重程度通常通过事件所影响的人数、关键系统数以及故障所造成的损失来设定。
定义事件影响度等级的因素有:
- 是否影响了关键/核心业务;
- 所影响的用户范围;
- 服务失效的影响范围。
编号 | 代码 | 描述 | 设备星级 |
1 | 极高 | 设备关联核心业务,并影响了大部分用户。 | 5 |
2 | 高 | 设备关联核心业务,影响了一部分用户。 | 4 |
3 | 中 | 设备关联一般业务,影响了部分用户。 | 3 |
4 | 低 | 未对业务用户产生影响。 | 2 |
5.1.4 事件紧急度
编号 | 代码 | 描述 | 告警级别 |
1 | 高 | 告警级别为一级,或者即将产生重大影响;或者支撑系统完全不可用,无备份手段的单点故障。 | 1 |
2 | 中 | 告警级别为二级,或者可能产生影响;或者系统可用性受到影响,导致业务品质下降。 | 2 |
3 | 低 | 告警级别为三级,或者未必产生影响;或者系统可用,对业务无影响,但是可用性受到威胁。 | 3 |
5.1.5 事件优先级
事件优先级定义了事件优先获得资源并得到处理的优先顺序。事件优先级是与事件影响度和紧急度是相互对应的,其决定了事件的最终处理期限。
事件优先级 | |||
紧急度 影响度 | 高 | 中 | 低 |
极高 | 极高 | 高 | 中 |
高 | 高 | 中 | 中 |
中 | 中 | 中 | 低 |
低 | 中 | 低 | 低 |
5.1.6 事件状态
状态代码 | 描述 |
新建 | 事件单被记录或创建 。 |
已分派 | 事件单已派发至事件处理人 。 |
处理中 | 从事件处理人响应工单开始至处理结束。 |
挂起 | 由于某些客观原因导致无法继续处理事件。 |
等待再分派 | 事件单由第一次分派处理人转回受理人,等待再分派给其他事件处理人 。 |
申请报结 | 为一个事件找到解决方案或变通方法,服务得到恢复,向事件受理人申请报结。 |
已关闭 | 事件单已经关闭。 |
5.1.7 事件挂起
挂起原因 | 描述 |
等待变更 | 事件处理过程需要等待变更的实施解决。 |
等待备件 | 事件处理过程中需要等待备件。 |
等待问题解决 | 事件处理需要等待问题的解决。 |
等待资源 | 事件处理需要更多的资源进行协助。 |
5.1.8 事件单响应和解决时限
优先级 | 响应时限 | 处理时限 |
极高 | 15分钟 | 4小时 |
高 | 30分钟 | 8小时 |
中 | 1小时 | 36小时 |
低 | 2小时 | 72小时 |
5.1.9 关闭代码
关闭代码 | 描述 |
成功解决 | 找到事件的根本原因,故障成功解决。 |
变通解决 | 故障已通过变通方法或者临时措施获得解决,但是需要进行更进一步的根源分析。 |
不成功 | 故障没有获得解决(事件提交人没有认可解决时使用)。 |
自动恢复 | 故障自行消失。 |
误报 | IT维护室纳管范围外的故障或故障信息有误。 |
6. 表单设计
字段 | 赋值条件 |
公共信息部分 | |
事件工单ID | 编码规则:IM+4位年+2位月+2位日+4位流水号,由系统自动产生 |
事件标题 | 根据固定格式填写的事件标题 |
事件状态 | 事件处理过程中的状态 |
登记时间 | 事件单生成的时间 |
解决时限 | 根据优先级自动生成 |
解决时间 | 在事件单解决时系统自动生成 |
响应时限 | 根据优先级自动生成 |
响应时间 | 处理人响应事件单时系统自动生成 |
关闭时间 | 事件单关闭时系统自动生成 |
申请信息部分 | |
事件申请提交人 | 选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息。其中部门范围为:支撑室、传输室、数据室、IT维护室、增值业务室、动力室、工程室、交换室、监控室 |
事件申请单标题 | 手工填写 |
现象描述 | 手工填写 |
发生时间 | 手工填写 |
事件紧急度 | 选项:高、中、低 |
事件影响度 | 选项:极高、高、中、低 |
事件优先级 | 选项:极高、高、中、低;参看《优先级判定表》 |
事件来源 | 选项:监控告警、远程巡检、业务反馈、日常维护、机房巡检 |
业务系统 | 参看《业务系统表》 |
业务模块 | 参看《业务模块表》 |
事件一级分类 | 参看《事件分类表》 |
事件二级分类 | 参看《事件分类表》 |
事件三级分类 | 参看《事件分类表》 |
关联配置项ID | 故障对象的标识,通过这个标识关联具体的配置信息。 |
设备名 | 发生故障的设备的名称。 |
设备类型 | 根据IT维护室维护设备的所有类型选择。 |
设备位置 | 故障设备所在具体为止 |
设备型号 | 故障设备的具体型号 |
设备序列号 | 故障设备的序列号 |
IP地址 | 故障设备的IP地址 |
生产厂商 | 故障设备的生产厂商 |
事件受理分派信息部分 | |
事件受理人 | 选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息,其中部门范围为IT维护室 |
事件处理人 | 选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息,其中部门范围为IT维护室 |
事件申请提交人 | 选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息 |
现象描述 | 对故障现象的全面描述,为事件处理提供参考。 |
发生时间 | 故障实际发生的时间 |
事件紧急度 | 选项:高、中、低。参考紧急度列表。 |
事件影响度 | 选项:极高、高、中、低。参考影响度列表。 |
事件优先级 | 选项:极高、高、中、低。参考优先级判定表 |
事件来源 | 选项:监控告警、远程巡检、业务反馈、日常维护、机房巡检 |
业务系统 | 参看《业务系统表》 |
业务模块 | 参看《业务模块表》 |
事件一级分类 | 参看《事件分类表》 |
事件二级分类 | 参看《事件分类表》 |
事件三级分类 | 参看《事件分类表》 |
关联配置项ID | 故障对象的标识,通过这个标识关联具体的配置信息。 |
设备名 | 发生故障的设备的名称。 |
设备类型 | 根据IT维护室维护设备的所有类型选择。 |
设备位置 | 故障设备所在具体为止 |
设备型号 | 故障设备的具体型号 |
设备序列号 | 故障设备的序列号 |
IP地址 | 故障设备的IP地址 |
生产厂商 | 故障设备的生产厂商 |
是否再分派 | 选项:是、否(默认为“否”,如果从处理人驳回的事件单,则为“是”) |
受理人处理方案 | 如果故障被受理人处理,受理人在此填写处理方案。 |
事件处理信息部分(IT维护室处理) | |
事件处理人 | 根据上一阶段,系统自动生成 |
转派其他事件处理人 | 选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息,其中部门范围为IT维护室 |
协办人 | 选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息,其中部门范围为IT维护室(可选多个)(沿用EMOS) |
协办任务标题 | 手工填写(沿用EMOS) |
协办任务描述 | 手工填写(沿用EMOS) |
协办任务要求完成时间 | 手工填写(沿用EMOS) |
处理人处理方案 | 事件处理人填写处理方案 |
关联标准解决方案 | 手工填写标准解决方案标题 |
处理过程记录 | 故障处理的过程记录。 |
挂起原因 | 参看《挂起原因》 |
附件 | 上传事件相关的文档、图片等形式的附件 |
是否重复事件 | 选项:是,否。报告的事件与某个已经创建且尚未解决的事件单相同 |
关联的事件单号 | 与该事件工单相关联的其他事件的ID |
关联的问题单号 | 与该事件工单相关联的问题工单的ID |
关联的变更单号 | 与该事件工单相关联的变更工单的ID |
第三方厂商(或人员) | 对事件单进行处理的厂商名称 |
事件处理信息部分(第三方厂商处理) | |
第三方厂商(或人员) | 根据上一阶段,系统自动生成 |
厂商解决方案 | 厂商对事件单的解决方案 |
附件 | 上传事件相关的文档、图片等形式的附件 |
挂起原因 | 参看《挂起原因》 |
是否重复事件 | 选项:是,否。报告的事件与某个已经创建且尚未解决的事件单相同 |
关联的事件单号 | 与该事件工单相关联的其他事件的ID |
关联的问题单号 | 与该事件工单相关联的问题工单的ID |
关联的变更单号 | 与该事件工单相关联的变更工单的ID |
事件结束信息部分 | |
事件结束代码 | 选项:成功解决、变通解决、未解决、自动恢复、误报 |
满意度 | 选项:0、0.5、1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5、5.0 |
是否需要提交知识 | 选项:是、否 |
7. 关键流程衡量指标
为了控制流程的质量,必须为流程设置衡量指标。通过对指标的分析,可以有效地对流程的运行情况进行监控和改进。
序号 | 衡量指标 | 说明 |
1 | 事件单总数 | 规定时间内产生事件单的总数。 |
2 | 事件单关闭的数量 | 规定时间内事件单关闭的总数。 |
3 | 事件成功解决的数量/比率 | 规定时间内成功解决事件单数量,以及占事件单总数的比率。 |
4 | 解决的事件数量/比率 | 规定时间内成功解决与变通解决事件单数量,以及占事件单总数的比率。 |
5 | 平均解决时间 | 规定时间内所有已解决事件单所耗处理时间的平均值。 |
6 | 超时未解决的事件单数量 | 规定时间内超时且未解决事件单的数量。 |
7 | 重复事件数量/比率 | 重复事件单的总数,以及占事件单总量的比率。 |
8 | 生成问题的数量/比率 | 生成问题单的事件单总数,以及占事件单总量的比率。 |
9 | 报结退回率 | 规定时间内,一次申请报结成功的事件单数量占所有事件单总数的比率。 |
10 | 一线解决率 | 由事件受理人处理并解决的事件工单数量,站事件单总数的比率。 |
8. 附录:高紧急度事件参考表
8.1.1 刀片服务器类
序号 | 事件类别 | 事件名称 | 事件描述 | 解除标准 | 设备星级 |
1 | 硬件类 | 内存报错 | 内存报uncorrectable error | 更换内存,无报错 | 五级 |
2 | 硬件类 | 设备宕机 | 主板问题,设备无法访问 | 更换硬件,系统恢复 | 五级 |
3 | 系统类 | 设备宕机 | 操作系统异常,设备无法访问 | 系统恢复 | 五级 |
4 | 网络类 | 通信丢失 | 机框通信丢失或单板通信丢失 | 通信恢复 | 五级 |
5 | 系统类 | 文件读写异常 | 文件读写报错 | 读写正常 | 五级 |
8.1.2 网络类
序号 | 事件类别 | 事件名称 | 事件描述 | 解除标准 | 设备星级 |
1 | 安全事件 | DDOS攻击导致网络设备拥塞 | 因部署业务时服务器密码设置过于简单,导致服务器被非法植入木马程序,不停往外网发送数据包,造成网络交换机和防火墙负载增加 | 网络恢复正常,业务正常访问 | 五级 |
8.1.3 存储类
序号 | 事件类别 | 事件名称 | 事件描述 | 解除标准 | 设备星级 |
1 | 存储硬件故障 | 存储控制器宕机 | 由于存储控制器硬件异常导致存储宕机,故障切换未能生效,部分或者全部存储功能无法正常运行 | 存储备件完成更换或者应用切换至其他存储设备 | 五级 |
2 | 存储硬件故障 | 存储磁盘柜宕机 | 由于存储磁盘柜硬件异常导致部分或全部存储服务异常,部分或者全部存储功能无法正常运行 | 存储备件完成更换或者应用切换至其他存储设备 | 五级 |
3 | 存储硬件故障 | 存储内联故障 | 由于存储内联的FC/SAS/以太网/Infiniband等线缆或接口异常,导致部分或者全部存储功能无法正常运行 | 存储备件完成更换或者应用切换至其他存储设备 | 五级 |
4 | 存储硬件故障 | 存储硬盘故障,阵列失败状态 | 由于存储短时间内发生多个硬盘故障,热备盘正常提供保护,导致部分或全部阵列失败 | 存储备件完成更换或者应用切换至其他存储设备 | 五级 |
5 | 存储硬件故障 | 存储硬盘故障,阵列临界状态 | 由于存储短时间内发生1个或者多个硬盘故障,且无热备盘使用,处于部分或全部阵列失败的临界状态,业务正常 | 存储备件完成更换或者应用切换至其他存储设备 | 五级 |
6 | 存储硬件故障 | 存储缓存电池故障 | 由于存储缓存电池或其他缓存保护机制失败,导致存储缓存失效,部分或者全部业务性能大幅度下降,无法满足业务需求 | 存储备件完成更换或者应用切换至其他存储设备 | 五级 |
7 | 存储硬件故障 | 存储温度过高宕机 | 由于风扇或者环境温度过高导致存储自动停机,全部存储功能无法正常运行 | 存储备件完成更换或者应用切换至其他存储设备 | 五级 |
8 | 存储硬件故障 | 存储电源故障宕机 | 由于存储电源模块或者供电故障导致存储停机,全部存储功能无法正常运行 | 存储备件完成更换或者应用切换至其他存储设备 | 五级 |
9 | 存储软件故障 | 存储故障切换失败 | 由于存储控制器发生故障切换,且故障切换未能正常生效,导致部分或者全部存储功能无法正常运行 | 存储软件功能正常或者应用切换至其他存储 | 五级 |
10 | 存储软件故障 | 存储软件异常hung死 | 由于存储控制器的存储软件异常,导致存储控制器hung死,无法触发故障切换,导致部分或者全部存储功能无法正常运行 | 存储软件功能正常或者应用切换至其他存储 | 五级 |
存储软件故障 | 存储软件异常RAID失败 | 由于存储控制器的存储软件异常,导致存储控制器RAID失败,无法触发故障切换,导致部分或者全部存储功能无法正常运行 | 存储软件功能正常或者应用切换至其他存储 | 五级 | |
11 | 存储软件故障 | 存储配置误操作 | 由于存储配置被误操作或人为操作破坏,导致部分或者全部存储功能无法正常运行 | 存储软件功能正常或者应用切换至其他存储 | 五级 |
12 | 存储软件故障 | 存储微码版本升级失败 | 由于存储设备微码版本升级失效导致存储无法正常运行 | 存储软件功能正常或者应用切换至其他存储 | 五级 |
13 | 存储软件故障 | 存储微码版本bug | 由于存储设备微码版本存在bug,导致存储系统无法正常运行 | 存储软件功能正常或者应用切换至其他存储 | 五级 |
14 | 存储软件故障 | 存储内部保护配置生效进入保护模式或halt | 由于存储设备软件自身的内部保护配置被触发,导致存储系统进入保护模式或halt,无法满足业务需求 | 存储软件功能正常或者应用切换至其他存储 | 五级 |
15 | 存储软件故障 | NAS设备文件系统异常 | 由于NAS NFS/CIFS文件系统受损导致业务异常 | 存储软件功能正常或者应用切换至其他存储 | 五级 |
16 | 存储软件故障 | NAS文件系统利用率98% | 由于NAS文件系统整体使用率超过98%,导致NAS设备无法正常运行 | 存储软件功能正常或者应用切换至其他存储 | 五级 |
17 | 存储软件故障 | NAS时间同步异常 | 由于NAS文件系统的时间同步异常,导致文件系统上文件与业务服务器上的文件的时间有冲突,无法满足业务需求 | 存储软件功能正常或者应用切换至其他存储 | 五级 |
18 | 存储软件故障 | 存储LICENSE异常 | 由于存储侧功能或者容量license异常导致功能无法正常使用,无法满足业务需求 | 存储软件功能正常或者应用切换至其他存储 | 五级 |
19 | 存储外接链路故障 | 存储FC链路故障 | 由于存储外接FC链路异常,且多链路未能正常生效导致存储功能无法正常使用或无法满足业务需求 | 存储链路正常或者应用切换至其他存储 | 五级 |
20 | 存储外接链路故障 | 存储以太网链路故障 | 由于存储外接NAS或者iscsi使用以太网链路异常,且链路聚合未能正常生效导致存储功能无法正常使用或无法满足业务需求 | 存储链路正常或者应用切换至其他存储 | 五级 |
21 | 存储容量需求超标 | 存储容量使用超标 | 由于存储需求过大,导致存储空间使用超过90%,影响业务扩容需求,需要紧急扩容或预警 | 存储紧急扩容或者部分应用切换到其他存储 | 五级 |
22 | 存储性能需求超标 | 存储性能需求超标 | 由于业务侧原因,存储侧长期出现IO压力过大严重超过存储性能预警指标,无法满足业务IO需求 | 存储紧急性能优化/扩容或者部分应用切换到其他存储 | 五级 |
23 | FC交换机硬件故障 | FC交换机硬件故障 | 由于FC交换机主板/模块/其他组件发生异常,导致部分或者全部存储功能无法正常运行 | FC交换机备件完成更换或者应用单链路恢复 | 五级 |
24 | FC交换机软件故障 | FC交换机软件故障 | 由于FC交换机软件配置发生异常,导致部分或者全部存储功能无法正常运行 | FC交换机软件功能正常或者应用单链路恢复 | 五级 |
8.1.4 Oracle数据库类
序号 | 事件类别 | 事件名称 | 事件描述 | 解除标准 | 设备星级 |
1 | 数据库实例宕机 | 数据库实例宕机 | 由于后台错误或者人为故障导致数据库实例crash | 数据库实例启动正常,业务恢复 | |
2 | 数据库hung | 数据库hung | 数据库hung,响应异常缓慢 | 数据库恢复正常,业务恢复 | |
3 | 数据库连接失败 | 数据库连接失败 | 由于连接数满或者网络原因导致数据库连接失败 | 数据库连接恢复正常,业务恢复 | |
4 | 数据库归档目录使用率超过阈值 | 数据库归档目录使用率超过阈值 | 数据库归档目录使用率超过阈值 | 数据库归档目录使用率恢复正常 | 五级 |
5 | 数据库无法归档 | 数据库无法归档 | 由于归档目录满,导致数据库无法归档,业务挂起 | 数据库归档恢复正常,业务恢复 | |
6 | 数据库表空间使用率超过阈值 | 数据库表空间使用率超过阈值 | 数据库表空间使用率超过阈值 | 数据库表空间使用率恢复正常 | 五级 |
7 | 数据库表空间无法扩展 | 数据库表空间无法扩展 | 数据库表空间无法扩展,业务受到影响 | 数据库归档恢复正常,业务恢复 | |
8 | 数据库异常等待 | 数据库异常等待 | 数据库异常等待较高,业务受到影响 | 数据库异常等待消失,业务恢复 | 五级 |
9 | 数据库alert日志批量告警 | 数据库alert日志批量告警 | alert日志批量告警,显示数据库存在一定异常 | alert日志批量告警消失 | 五级 |
10 | 数据库主机cpu使用率超过阈值 | 数据库主机cpu使用率超过阈值 | 数据库主机cpu使用率超过阈值,业务可能存在异常 | 数据库主机cpu使用率恢复正常 | 五级 |
11 | 业务反馈业务响应缓慢,业务超时 | 业务反馈业务响应缓慢,业务超时 | 业务反馈业务响应缓慢,业务超时,要求共同排查原因 | 业务恢复 | 五级 |
8.1.5 Informix数据库类
序号 | 事件类别 | 事件名称 | 事件描述 | 解除标准 | 设备星级 |
1 | 数据库 | 数据库主机挂死 | 数据库主机挂死,无法连接,集群无法切换。 处理方法:若有容灾,业务切换至容灾;若无容灾,直接恢复数据库、集群。再按正常流程恢复数据库。 | 业务恢复运行 | 五级 |
2 | 数据库 | 数据库主机挂死 | 数据库主机挂死,无法连接,集群可切换。 处理方法:数据库切换至备机,业务切换至备机。再按正常流程恢复数据库。 | 业务恢复运行 | 五级 |
3 | 数据库 | 数据库备机挂死 | 数据库备机挂死,并影响主机运行。 处理方法:备机数据库关闭,保证业务正常运行。再按正常流程恢复数据库。 | 业务恢复运行 | 五级 |
4 | 数据库 | 数据库主机宕机 | 数据库主机宕机,集群无法切换。 处理方法:若有容灾,业务切换至容灾;若无容灾,直接恢复数据库、集群。再按正常流程恢复数据库。 | 业务恢复运行 | 五级 |
5 | 数据库 | 数据库主机宕机 | 数据库主机宕机,集群可切换。 处理方法:数据库切换至备机,业务切换至备机。再按正常流程恢复数据库。 | 业务恢复运行 | 五级 |
6 | 数据库 | 数据库挂死 | 单机数据库挂死,可切换至容灾。 处理方法:切换业务至容灾,恢复业务运行。再按正常流程恢复数据库。 | 业务恢复运行 | 五级 |
7 | 数据库 | 数据库挂死 | 单机数据库挂死,无容灾。 处理方法:直接恢复数据库,恢复业务运行。 | 业务恢复运行 | 五级 |
8 | 数据库 | 数据库宕机 | 单机数据库宕机,可切换至容灾。 处理方法:切换业务至容灾,恢复业务运行。再按正常流程恢复数据库。 | 业务恢复运行 | 五级 |
9 | 数据库 | 数据库宕机 | 单机数据库宕机,无容灾。 处理方法:直接恢复数据库,恢复业务运行。 | 业务恢复运行 | 五级 |
8.1.6 主机类
序号 | 事件类别 | 事件名称 | 事件描述 | 解除标准 | 设备星级 |
1 | 主机宕机 | 主机宕机 | 系统无法登录,也无法正常使用 | 系统能够正常使用,业务能够正常使用 | 五级 |
2 | 主板故障 | 主板故障 | 主板故障导致主机不能正常使用 | 系统能够正常使用,业务能够正常使用 | 五级 |
3 | CPU故障 | CPU故障 | CPU故障导致主机偶断性重启及挂死 | 系统能够正常使用,业务能够正常使用 | 五级 |
4 | 硬盘故障 | 硬盘故障 | 镜像硬盘故障导致系统宕机 | 系统能够正常使用,业务能够正常使用 | 五级 |
5 | 电源故障 | 电源故障 | 电源故障导致系统宕机 | 系统能够正常使用,业务能够正常使用 | 五级 |
6 | 内存故障 | 内存故障 | 内存故障导致系统宕机 | 系统能够正常使用,业务能够正常使用 | 五级 |
7 | 光纤卡故障 | 光纤卡故障 | 光纤卡故障引起链路失败或者切换瞬断 | 系统能够正常使用,业务能够正常使用 | 五级 |
8 | 操作系统BUG | 系统BUG | 操作系统BUG引起主机HUANG机 | 系统能够正常使用,业务能够正常使用 | 五级 |
9 | 操作系统配置文件修改 | 操作系统配置文件修改 | 操作系统配置文件修改造成系统问题 | 系统能够正常使用,业务能够正常使用 | 五级 |
10 | 操作系统内核错误 | 操作系统内核错误 | 操作系统内核错误,造成系统问题 | 系统能够正常使用,业务能够正常使用 | 五级 |
11 | 文件系统使用率100% | 文件系统使用率100% | 文件系统使用率100%,造成数据无法写入 | 系统能够正常使用,业务能够正常使用 | 五级 |
12 | 磁盘繁忙率100% | 磁盘繁忙率100% | IO读写过高,造成磁盘读写性能严重影响 | 系统能够正常使用,业务能够正常使用 | 五级 |
13 | CPU使用率100% | CPU使用率100% | CPU使用率100%,造成业务受阻 | 系统能够正常使用,业务能够正常使用 | 五级 |
14 | 内存使用率100% | 内存使用率100% | 内存使用率100%,造成业务受阻 | 系统能够正常使用,业务能够正常使用 | 五级 |
15 | 交换空间使用率100% | 交换空间使用率100% | 交换空间使用率100%,造成业务受阻 | 系统能够正常使用,业务能够正常使用 | 五级 |