1. 综述

1.1文档目的

本文档是结合XX移动网管中心IT集中运维管理的特点,制定的事件管理流程设计报告。本文档的目的是分析XX移动网管中心事件管理流程的现状和存在的问题;针对XX移动网管中心IT集中运维管理发展需要和日常维护需求,设计事件管理流程。

本文档是依据目前XX移动网管中心的IT集中运维管理发展需要和日常维护需求而制定的,以后进一步的更新和优化将由浙江移动网管中心IT维护室负责。

1.2 相关术语

  • 事件

指包括任何使服务中断或可能使服务中断的事件; IT 服务的意外中断或 IT 服务质量的下降。尚未影响服务的配置项失效也是事件,如镜像组中一块磁盘的失效。

  • 告警工单

指通过告警管理平台标准化处理过以后的告警信息,并由此产生的事件工单。 

  • 紧急事件

指由于影响范围和紧急程度都非常高的事件,此类事件可以通过紧急事件处理流程进行解决,待解决后再进行补填工作单。

2. 目标和范围

2.1 目标

  1. 尽快解决事件,提升IT技术支持的效率,减小对业务的影响。
  2. 客观准确记录工作,辅助IT维护室领导了解IT运维状况,促进IT运维的持续改进。
  3. 对事件处理进行全过程跟踪,进行有效控制。

2.2 范围

  1. 业务范围:IT维护室纳管设备所属业务系统相关的IT事件。
  2. 专业范围:IT维护室各专业组所负责的领域,包括:服务器、刀片、Oracle、Informix及其他数据库、网络、存储六个专业方面的故障处理。

3. 事件管理流程

3.1 流程概要设计

事件管理概要流程图如下:

图片3.jpg

事件管理概要设计流程说明

序号步骤名称角色说明
100.1事件受理事件受理人
  1. 事件受理人对事件申请人提交的事件单进行受理;
  2. 参考事件受理子流程。
100.2事件单分派事件受理人
  1. 根据事件的业务和专业分类,确定合适的事件处理人;
  2. 将事件单发送给合适的处理人。
100.3事件解决过程跟踪事件受理人
  1. 事件受理人负责监控所有事件单的解决过程;
  2. 在事件单即将超时的时候,提醒和督办事件单的解决;
  3. 在事件单超时的时候,督办事件单解决并通知事件经理。
100.4事件处理事件处理人
  1. 事件处理人对接受的事件工单进行处理;
  2. 参考事件处理子流程。
100.5事件监控事件经理
  1. 事件经理负责监控所有事件解决的总体情况;
  2. 对于超时事件进行协调和督办;
  3. 负责协调个别事件的协办;
  4. 对事件单与其他流程的关联进行审批和把控。
100.6事件关闭

事件处理人

事件受理人

  1. 事件受理人对事件单进行关闭;
  2. 参考事件关闭子流程。
100.7紧急事件处理

事件受理人

事件经理

事件处理人

  1. 对紧急事件进行处理的特殊流程;
  2. 参考紧急事件处理流程。
100.8监控告警事件处理

监控管理人员

事件受理人

事件处理人

  1. 针对监控平台产生的工单进行处理;
  2. 参考监控事件处理子流程。

3.2 流程详细设计

3.2.1 事件受理子流程

图片4.jpg

流程描述如下:

序号活动名称角色说明
100.1.1抄送工单至事件受理人事件受理人
  1. 来自监控告警的工作单,在发送给处理人的同时,抄送至事件受理人,用于IT维护室内部的跟踪和监控。
100.1.2填写事件申请单事件申请人
  1. 事件申请人根据事件相关信息,填写事件申请单相关字段;
  2. 将事件申请单发送至事件受理人。
100.1.3事件信息收集事件受理人
  1. 事件受理人根据事件申请单的信息,将事件处理所需信息收集完成;
  2. 可以通过查询CMDB的方式进行信息收集;
  3. 必要时与事件申请人和其他相关人员进行沟通。
100.1.4新建工单事件受理人
  1. 如果事件申请单符合建单要求,事件受理人负责将事件工单所有字段填写完整。
100.1.5尝试解决事件受理人
  1. 事件受理人根据工单信息和已有预处理方案,判断是否可以对事件进行处理;
  2. 如果可以处理,则由事件受理人对事件进行处理并解决;
  3. 如果不能处理,则分派给相应的事件处理人。
100.1.6驳回事件申请事件受理人
  1. 如果事件申请单信息不规范,则通知申请人重新填写;
  2. 如果事件申请单信息内容不完整或者范围超出IT维护室业务范围,则将事件申请取消,并通知事件申请人。
100.2事件单分派事件受理人
  1. 事件受理人根据业务和专业分类,将事件工单准确分派至相应事件处理人。
100.6事件关闭事件受理人
  1. 如果事件有事件受理人解决,则直接转入入事件关闭活动;
  2. 参考事件关闭活动。
100.7紧急事件处理流程事件经理
  1. 如果事件单经过事件受理人和事件经理确认为紧急事件,则进入紧急事件处理流程;
  2. 参考紧急事件处理流程。

3.2.2 事件处理子流程

图片5.jpg

流程描述如下:

序号活动名称角色说明
100.4.1接受事件工单事件处理人
  1. 根据自身条件,接受由事件受理人分派的事件工单;
  2. 如果事件处理人无法处理或者分派错误,则将工单直接转发至其他事件受理人。
100.4.2收集详细信息事件处理人
  1. 事件处理人依据事件工单内容,为处理事件收集更多信息,包括配置项信息。
100.4.3制定处理方案事件处理人
  1. 事件处理人依据事件信息和参考资料以及个人经验,针对事件处理,制定详细的处理方案。
100.4.4填写协办工单事件处理人
  1. 如果事件处理需要其他工程师的协助,需要填写协办工单,工单内容包括任务内容、时间等信息;
  2. 将协办工单发送至事件经理,由事件经理审批。
100.4.5将协办工单发送至相关处理人或第三方厂商,并加入处理方案事件处理人
  1. 如果协办工单得到事件经理批准,将协办工单发送到相关处理人;
  2. 将协办内容加入至处理方案。
100.4.6启动处理方案事件处理人
  1. 启动处理方案,按照既定处理方案,对事件进行处理;
  2. 如果需要变更,则提交RFC至变更管理。
100.4.7解决事件事件处理人
  1. 验证和整理事件处理结果;
  2. 进入事件关闭活动。
100.4.8分派工单至第三方厂商事件处理人
  1. 如果事件处理人无法处理事件,需要第三方厂商处理,则由事件处理人直接将事件单分派给相应的厂商。
100.4.9接受事件工单第三方厂商
  1. 第三方厂商接受来自事件处理人的工单。
100.4.10制定处理方案第三方厂商
  1. 第三方厂商根据事件单内容,制定处理方案;
  2. 如果需要变更,则提交变更申请。
100.4.11执行处理方案第三方厂商
  1. 如果不需要变更,第三方厂商根据已制定的处理方案,处理事件。
100.6事件关闭

事件处理人

第三方厂商

  1. 事件处理完毕后进入事件关闭环节;
  2. 参考事件关闭活动。
100.8监控告警事件处理子流程

事件受理人

监控管理人员

  1. 如果是监控告警事件,则根据监控告警事件关闭活动要求进行关闭;
  2. 参考监控告警事件处理子流程。

3.2.3 事件关闭子流程

图片6.jpg

流程描述如下:

序号活动名称角色说明
100.6.1提交事件处理结果事件处理人
  1. 事件处理人将事件处理结果提交至事件受理人;
100.6.2验证事件处理结果事件受理人
  1. 事件受理人根据事件关闭要求,验证事件处理结果是否符合要求。
100.6.3与实践提交人沟通事件受理人
  1. 事件受理人与事件提交人沟通时间处理结果,判断是否可以关闭。
100.6.4事件关闭事件受理人
  1. 如果事件处理结果符合关闭要求,则将事件单关闭;
  2. 根据处理结果选择关闭代码:成功解决、变通解决、不成功、自动恢复、误报。
100.4事件处理

事件处理人

第三方厂商

  1. 如果事件处理结果不符合关闭要求,则重新进入事件处理活动;
  2. 参考事件处理子活动。

3.2.4 监控告警事件子流程

图片7.jpg

流程描述如下:

序号活动名称角色说明
100.8.1监控告警事件工单派发

监控管理人员

事件受理人

  1. 监控告警工单由监控平台自动派发或者监控管理人员进行人工派发;
  2. 监控告警工单事件受理人为监控管理人员;
  3. 监控告警平台将标准化处理过的告警转换为事件工单,并自动发送给相应的事件处理人;
  4. 监控告警人员可以对告警工单进行人工干预,包括取消派发、手工派发等;
  5. 告警工单派发给事件处理人的同时,抄送一份给IT维护室事件受理人。
100.8.2接受工单事件处理人
  1. 事件处理人接受来自监控告警的事件工单;
  2. 收集相关信息,准备处理工单。
100.4事件处理事件处理人
  1. 按照事件处理活动要求进行对事件工单进行处理;
  2. 参考事件处理活动。
100.8.3申请报结事件处理人
  1. 事件处理结束后,将处理结果发送给监控管理人员,申请报结。
100.8.4事件单报结并关闭监控管理人员
  1. 监控人员根据告警处理结果标准,判断工单是否符合关闭标准;
  2. 如果不符合关闭标准,则返回事件处理过程重新处理;
  3. 如果符合关闭标准,即关闭工单。

3.2.5 紧急事件子流程

图片8.jpg

流程描述如下:

序号活动名称角色说明
100.1事件受理

事件受理人

事件经理

  • 经过事件经理确认为紧急事件后,进入紧急事件处理流程。
100.7.1召开紧急事件处理会议事件经理
  • 事件经理召集相关领导和工程师,针对紧急事件的解决,进行讨论。
100.7.2上报紧急事件事件经理
  • 事件经理将紧急事件的相关情况上报给上级领导。
100.7.3协调资源事件经理
  • 事件经理根据解决紧急事件的需求,协调组织相关资源。
100.7.4组织相关厂商分析并制定处理方案事件经理
  • 如果没有处理预案,事件经理组织相关厂商对事件进行分析;
  • 针对紧急事件制定处理方案。
100.7.5启用应急处理预案事件处理人
  • 如果已有处理预案,事件处理人启用处理预案。
100.7.6处理紧急事件事件处理人
  • 事件处理人根据处理预案,处理紧急事件。
100.7.7紧急事件解除确认事件处理人
  • 事件处理人根据紧急事件处理结果判断是否可以解除;
  • 如果可以解除,进入善后处理;
  • 如果未解除,需要组织厂商再次进行处理,并更新处理方案。
100.7.8善后处理

事件处理人

事件经理

  • 事件处理人根据紧急事件处理过程信息,补填事件处理工单;
  • 生成或更新紧急事件处理预案;
  • 提交紧急事件处理报告。
100.7.9汇报处理结果事件经理
  • 事件经理根据事件处理报告,向上级领导汇报紧急事件处理过程和结果。

3.3 角色与职责

3.3.1 事件管理流程负责人

主要职责:

  1. 确定事件管理流程的衡量指标;
  2. 确保事件管理流程符合IT维护室实际状况和发展战略;
  3. 在总体上管理和监控流程,建立事件管理流程实施、评估和持续优化机制;
  4. 确保事件管理流程实用、有效、正确地执行;
  5. 保持与其他流程负责人的定期沟通。

技能要求:

  1. 拥有多年IT运维经验; 
  2. 精通ITIL最佳实践; 
  3. 全面了解IT维护室的业务情况和组织架构; 
  4. 了解事件管理的相关规则和制度; 
  5. 具有良好的管理和协调能力。

3.3.2 事件经理

主要职责:

  1. 确保事件流程能够取得管理层的参与和支持;
  2. 对事件的挂起协办等请求进行审批; 
  3. 负责对事件的解决协调资源,保证故障的最终排除;
  4. 当事件优先级为紧急或者超过规定的时限,负责对事件处理进行督办,并协调资源,督促快速恢复正常服务;
  5. 确保和问题经理的有效合作;
  6. 正确和广泛地收集和分析事件数据,发现IT和业务相关的问题。

技能要求:

  1. 拥有多年IT运维经验; 
  2. 精通ITIL最佳实践; 
  3. 全面了解IT维护室的业务情况和组织架构; 
  4. 了解事件管理的相关规则和制度; 
  5. 具有良好的沟通能力和准确表达能力; 
  6. 具有良好的管理和协调能力;

3.3.3 事件受理人

主要职责:

  1. 创建新的事件单,完整记录所接收的事件信息,包括:记录事件报告人的详细联系方式、事件表现、描述、发生时间等; 
  2. 帮助事件提交人创建事件单; 
  3. 查询解决方案,尝试解决事件; 
  4. 将紧急事件提交至事件经理; 
  5. 将事件工单分配至合适的处理人员; 
  6. 跟踪、监督、督促事件的解决过程; 
  7. 将超时事件升级至事件经理; 
  8. 根据事件单处理结果关闭事件。

技能要求:

  1. 具备相关的IT专业技能; 
  2. 熟悉ITIL最佳实践; 
  3. 具有良好的沟通能力和准确表达能力; 
  4. 全面了解IT维护室业务情况和组织架构。

3.3.4 事件处理人

主要职责:

  1. 响应事件的分派;
  2. 验证事件的描述和信息,与用户直接进行沟通,补充相关信息; 
  3. 对于事件进行处理,包括分派、等待、接单、解决等操作; 
  4. 为第三方厂商提供未解决事件的解决过程和测试结果记录; 
  5. 提交事件/告警解决方案; 
  6. 为无法找到根本原因的事件创建问题单,并提交问题单;

技能要求:

  1. 具备专业IT运维能力; 
  2. 拥有多年IT运维经验; 
  3. 熟悉ITIL最佳实践; 
  4. 全面了解IT维护室的业务情况和组织架构; 
  5. 了解事件管理的相关规则和制度; 
  6. 具备强大的专业运维技能; 
  7. 具有良好的沟通能力和准确表达能力;

3.3.5 第三方厂商

主要职责:

  • 验证事件的描述和信息,进一步收集相关信息; 
  • 根据经验和专业技能,决定需要采取何种措施恢复服务并实施有效的行动; 
  • 提供有效的解决方案; 
  • 执行解决方案,并关闭事件单;
  • 更新事件解决过程信息。

技能要求:

  • 具有专业的IT技能和问题处理能力。

3.4 角色人员映射列表 

角色成员
流程负责人 潘宇虹 
事件经理 潘宇虹 
事件受理人 黄俊、朱颖艾、王文栋 
事件处理人 主机组 冯王可、杨浩春、张小核、陈禹文、郑利雄、陆沈波 
刀片组 裴达兵、周雷震、徐海鹏、杨军、陈金波、苏亚南 
存储组 付家乐、周鹏、刑彪、杨晓敏 
Oracle组 康祖令、孙峰、刘华兵、陈偲、张涛、郑琛华、夏斌 
Informix组 廖晋清、邱级谋、刘健、韦昌来 
网络组 陈牧也、刘翌江、杜飞、方清 
   
第三方厂商第三方厂商相关人员

4. 流程执行原则

4.1.1 常规原则

  1. 所有IT维护室业务范围内发生的故障,都应该记录在事件管理流程平台中,记录的信息应足够详细,包括故障处理交互过程,详细的解决方案和相应的附件。
  2. 每月将事件管理相关指标生成报表,并对所发生的故障及处理过程进行总结和评估。
  3. 每半年对事件管理流程进行评估和改进。

4.1.2 受理原则

  1. 受理时,事件受理人判断是否属于IT维护室管理范围,如果不属于,则退回。
  2. 受理时,判断是否需要人为处理,如果不需要则直接退回,如果需要,录入事件单。
  3. 判断事件级别,如是紧急事件,则进入紧急事件子流程;
  4. 监控告警工单的事件受理工作,由监控告警管理人员执行。

4.1.3 预处理原则 

  1. 事件受理人在接到机房值班、巡检、和业务反馈的事件工单时,需要首先参考现有处理方案或经验,进行预处理。
  2. 如果预处理后故障未恢复或者无法处理,则进行首次分派。
  3. 如果预处理后,故障消失或者相关告警解除,则进行工单关闭。

4.1.4 分派原则 

  1. 事件受理人可以将工单分派给事件处理人。
  2. 同一专业组内的事件处理人可以将工单再分派一次,不同专业组之间转派工单,需要先转回事件受理人,再由事件受理人分派至其他专业组事件处理人。
  3. 事件工单默认发送给专业组内所有人员,同时指定第一处理人和第二处理人,原则上第一处理人优先负责处理,在第一处理人无效情况下由第二处理人负责处理
  4. 在试运行阶段,工单派给事件的第一处理人时,如果处理人无法处理,可以将工单继续分派给其他事件处理人,并且对分派不做限制。
  5. 监控告警自动生成工单需按照告警中的业务或者专业方面的负责人信息,准确进行派发。
  6. 节假日的所有告警生成事件单派发至负责人时,需增加短信息提醒,对于优先级为高和极高的事件工单,进行电话通知。

4.1.5 所有权原则 

  1. 所有用户都可以提交事件申请。
  2. 事件工单的责任人是事件受理人,负责跟踪事件处理的全过程。

4.1.6 重复事件原则 

  1. 同一故障由于多次上报,而导致的多个事件单,需要标识,并合并处理与关闭。
  2. 同一故障(相同症状)的多次发生(三次以上),必须生成问题,并提交问题单。
  3. 属于重复事件的多个事件单,当其中任一事件单关闭时,其余重复关联的事件单同时关闭。

4.1.7 升级原则 

  1. 如果确认事件为紧急事件,则立即升级到事件经理,并由事件经理通知相应的管理层,由事件经理启动紧急事件处理流程。
  2. 如果事件单超出了解决时限,通报事件经理,由事件经理协调资源并督促事件解决。
  3. 如果事件处理过程中,由于客观原因(例如等待备件等)需要申请将事件单挂起。
  4. 事件升级需要事件经理的确认,否则不允许进行升级。
  5. 事件受理人负责提醒和督办超时或已超时的工单,当工单处理时限还剩1小时,通过邮件和短信息的形式对事件处理人进行提醒,并监督剩余处理进程;当到达工单处理时限时,通过邮件、短信息和电话通知事件处理人,并由事件经理督办。
  6. 可以通过督办解决的事件单,不允许挂起。

4.1.8 关联原则 

  1. 事件解决过程如果需要变更操作,则关联变更管理流程,进行变更处理。
  2. 标识为重复事件和紧急事件的事件单,应创建或关联问题单,并关联到问题管理流程。
  3. 事件单转入变更流程时,需要得到事件经理的确认。
  4. 事件处理过程中,所有涉及风险的操作,全部通过变更管理流程执行。
  5. 当事件处理结束,但业务尚未恢复时,由事件经理决定是否允许将工单转入问题管理流程。
  6. 当事件工单转入其他流程进行处理时,工单自动挂起。
  7. 通过变通方式解决和未解决的事件单,应创建或关联问题单,并关联到问题管理流程。
  8. 属于同一故障源的事件工单应进行关联,并标记为重复事件。 
  9. 由于现阶段系统平台限制,暂不对关联工单进行自动化处理。

4.1.9 关闭原则 

  1. 事件单的关闭前,需要得到事件提交人的确认。
  2. 事件单的关闭代码若为成功解决,必须有具体的处理措施。
  3. 事件单由事件受理人负责关闭。
  4. 处理结果包含完整填写的处理工单各个字段以及必要的解决方案或者处理报告附件。
  5. 如果事件单未解决并关闭,需要由事件经理进行确认。
  6. 来自告警自动派单的事件单,由事件处理人报结,由监控管理人员确认关闭。

4.1.10 典型事件原则

  1. 首次发生,且没有完善的标准处理方法。
  2. 与业务或者其他类型设备有较强的关联性。
  3. 有较重大或重大的潜在风险。
  4. 符合以上条件的事件单均需要提交事件处理报告,请参考模板。

4.1.11 持续改进原则 

  1. 流程负责人负责每半年对事件管理流程的执行情况进行评审,提出改进建议和方案。
  2. 每周召开例会,对事件管流程的KPI报表进行讨论,提出改进建议。
  3. 每月召开例会,与其他各流程经理讨论并调整影响服务效率和质量的因素。
  4. 事件经理在例会中组织针对典型事件进行讨论,并制定标准解决方案。

4.1.12 紧急事件判定原则

  1. 已经产生重大经济损失的事件。
  2. 对于已经严重影响生产系统的事件。
  3. 事件的紧急程度极高,必须在7X24小时范围内立即进行处理。
  4. 满足以上条件的事件为紧急事件,必须进入紧急事件流程进行处理。

4.1.13 紧急事件处理原则 

  1. 来自监控管理人员电话通知的紧急事件,需要告知事件经理,同时按照紧急事件处理流程进行线下处理。
  2. 所有紧急事件可以进行线下处理,处理完毕后,由事件受理人根据处理情况进行补充记录。
  3. 紧急事件执行首问责任制,即首先接到事件的人负责整个事件的处理过程。

5. 基础数据定义

5.1.1 事件来源

编号代码描述
1监控告警接受来自监控告警平台的事件单,通过平台接口自动进行转发,并抄送事件受理人,由监控管理人员进行预处理和关闭动作。
2远程巡检在日常巡检过程中主动发现的事件。
3业务反馈业务人员遇到IT事件时,填写事件申请单,并提交给事件受理人。
4日常维护在执行日常作业计划任务过程中,发现的事件。 
5机房巡检机房值班人员巡检发现告警灯产生的故障告警。 

5.1.2 事件分类

一级专业分类二级事件分类三级事件分类
服务器 硬件电源、风扇、主板、内存、CPU、硬盘、网卡
软件操作系统、应用程序、配置
安全账号、权限、病毒、黑客
性能CPU、内存、硬盘
其他自定义
刀片 硬件电源、风扇、主板、内存、CPU、硬盘、网卡
软件操作系统、应用程序、配置
安全账号、权限、病毒、黑客
性能CPU、内存、硬盘
其他自定义
网络  硬件电源、风扇、模块
路由器配置策略、路由、用户、权限
交换机安全DDOS、广播风暴、访问控制
防火墙性能带宽、CPU、内存、连接数
 其他自定义
存储 硬件电源、风扇、主板、内存、CPU、硬盘、网卡
配置操作系统、应用程序、配置
安全账号、权限、病毒、黑客
性能CPU、内存、硬盘
其他自定义
Oracle配置用户、权限、表空间
性能语句、连接、CPU、内存、表空间
安全系统bug、网络连接
其他自定义
Informix配置用户、权限、表空间
性能语句、连接、CPU、内存、表空间
安全系统bug、网络连接
其他自定义

业务系统分类:

业务系统 业务模块 
IP认证计费系统 校园portal区域 
校园WLAN接口服务区 
Raduis认证区域 
校园WLAN接口服务区 
校园WLAN OBS应用 
校园WLAN OBS数据库 
SCG综合网关系统 GGSN
UIDB
iParser
iProxy
WAPGW
CA
BP
SCG综合网关系统 RPT
SMPA服务器
I2000
OAMagent
SUR
防火墙日志
OMC
DMC
远程跳板机
统一增值平台 来电助手 
V网彩信 
彩信超市 
校讯通 
统一增值平台 天气预报 
手机签名
短彩信文化俱乐部 
数码相框 
CA公共认证 
交通秘书
TD-FI试点认证 
......
…...

5.1.3 事件影响度

事件影响度用于衡量事件所影响业务的严重程度。严重程度通常通过事件所影响的人数、关键系统数以及故障所造成的损失来设定。

定义事件影响度等级的因素有:

  1. 是否影响了关键/核心业务;
  2. 所影响的用户范围;
  3. 服务失效的影响范围。
编号代码描述设备星级
1极高设备关联核心业务,并影响了大部分用户。5
2设备关联核心业务,影响了一部分用户。4
3设备关联一般业务,影响了部分用户。3
4未对业务用户产生影响。2

5.1.4 事件紧急度

编号代码描述告警级别
1告警级别为一级,或者即将产生重大影响;或者支撑系统完全不可用,无备份手段的单点故障。1
2告警级别为二级,或者可能产生影响;或者系统可用性受到影响,导致业务品质下降。2
3告警级别为三级,或者未必产生影响;或者系统可用,对业务无影响,但是可用性受到威胁。3

5.1.5 事件优先级

事件优先级定义了事件优先获得资源并得到处理的优先顺序。事件优先级是与事件影响度和紧急度是相互对应的,其决定了事件的最终处理期限。

事件优先级

              紧急度

影响度

极高极高

5.1.6 事件状态

状态代码描述
新建 事件单被记录或创建 。
已分派 事件单已派发至事件处理人 。
处理中 从事件处理人响应工单开始至处理结束。
挂起 由于某些客观原因导致无法继续处理事件。 
等待再分派 事件单由第一次分派处理人转回受理人,等待再分派给其他事件处理人 。
申请报结为一个事件找到解决方案或变通方法,服务得到恢复,向事件受理人申请报结。
已关闭事件单已经关闭。

5.1.7 事件挂起

挂起原因描述
等待变更事件处理过程需要等待变更的实施解决。
等待备件 事件处理过程中需要等待备件。 
等待问题解决 事件处理需要等待问题的解决。 
等待资源 事件处理需要更多的资源进行协助。

5.1.8 事件单响应和解决时限

优先级响应时限处理时限
极高15分钟4小时
30分钟8小时
1小时36小时
2小时72小时

5.1.9 关闭代码

关闭代码描述
成功解决找到事件的根本原因,故障成功解决。
变通解决故障已通过变通方法或者临时措施获得解决,但是需要进行更进一步的根源分析。
不成功故障没有获得解决(事件提交人没有认可解决时使用)。
自动恢复故障自行消失。
误报IT维护室纳管范围外的故障或故障信息有误。

6. 表单设计

字段赋值条件
公共信息部分
事件工单ID编码规则:IM+4位年+2位月+2位日+4位流水号,由系统自动产生
事件标题根据固定格式填写的事件标题
事件状态事件处理过程中的状态
登记时间事件单生成的时间
解决时限根据优先级自动生成
解决时间在事件单解决时系统自动生成
响应时限根据优先级自动生成
响应时间处理人响应事件单时系统自动生成
关闭时间事件单关闭时系统自动生成
申请信息部分
事件申请提交人选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息。其中部门范围为:支撑室、传输室、数据室、IT维护室、增值业务室、动力室、工程室、交换室、监控室
事件申请单标题手工填写
现象描述手工填写
发生时间手工填写
事件紧急度选项:高、中、低
事件影响度选项:极高、高、中、低
事件优先级选项:极高、高、中、低;参看《优先级判定表》
事件来源选项:监控告警、远程巡检、业务反馈、日常维护、机房巡检
业务系统参看《业务系统表》
业务模块参看《业务模块表》
事件一级分类参看《事件分类表》
事件二级分类参看《事件分类表》
事件三级分类参看《事件分类表》
关联配置项ID故障对象的标识,通过这个标识关联具体的配置信息。
设备名发生故障的设备的名称。
设备类型根据IT维护室维护设备的所有类型选择。
设备位置故障设备所在具体为止
设备型号故障设备的具体型号
设备序列号故障设备的序列号
IP地址故障设备的IP地址
生产厂商故障设备的生产厂商
事件受理分派信息部分
事件受理人选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息,其中部门范围为IT维护室
事件处理人选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息,其中部门范围为IT维护室
事件申请提交人选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息
现象描述对故障现象的全面描述,为事件处理提供参考。
发生时间故障实际发生的时间
事件紧急度选项:高、中、低。参考紧急度列表。
事件影响度选项:极高、高、中、低。参考影响度列表。
事件优先级选项:极高、高、中、低。参考优先级判定表
事件来源选项:监控告警、远程巡检、业务反馈、日常维护、机房巡检
业务系统参看《业务系统表》
业务模块参看《业务模块表》
事件一级分类参看《事件分类表》
事件二级分类参看《事件分类表》
事件三级分类参看《事件分类表》
关联配置项ID故障对象的标识,通过这个标识关联具体的配置信息。
设备名发生故障的设备的名称。
设备类型根据IT维护室维护设备的所有类型选择。
设备位置故障设备所在具体为止
设备型号故障设备的具体型号
设备序列号故障设备的序列号
IP地址故障设备的IP地址
生产厂商故障设备的生产厂商
是否再分派选项:是、否(默认为“否”,如果从处理人驳回的事件单,则为“是”)
受理人处理方案如果故障被受理人处理,受理人在此填写处理方案。
事件处理信息部分(IT维护室处理)
事件处理人根据上一阶段,系统自动生成
转派其他事件处理人选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息,其中部门范围为IT维护室
协办人选项:调用基础数据中的人名、部门、电话、手机、地区、邮箱等个人信息,其中部门范围为IT维护室(可选多个)(沿用EMOS)
协办任务标题手工填写(沿用EMOS)
协办任务描述手工填写(沿用EMOS)
协办任务要求完成时间手工填写(沿用EMOS)
处理人处理方案事件处理人填写处理方案
关联标准解决方案手工填写标准解决方案标题
处理过程记录故障处理的过程记录。
挂起原因参看《挂起原因》
附件上传事件相关的文档、图片等形式的附件
是否重复事件选项:是,否。报告的事件与某个已经创建且尚未解决的事件单相同
关联的事件单号与该事件工单相关联的其他事件的ID
关联的问题单号与该事件工单相关联的问题工单的ID
关联的变更单号与该事件工单相关联的变更工单的ID
第三方厂商(或人员)对事件单进行处理的厂商名称
事件处理信息部分(第三方厂商处理)
第三方厂商(或人员)根据上一阶段,系统自动生成
厂商解决方案厂商对事件单的解决方案
附件上传事件相关的文档、图片等形式的附件
挂起原因参看《挂起原因》
是否重复事件选项:是,否。报告的事件与某个已经创建且尚未解决的事件单相同
关联的事件单号与该事件工单相关联的其他事件的ID
关联的问题单号与该事件工单相关联的问题工单的ID
关联的变更单号与该事件工单相关联的变更工单的ID
事件结束信息部分
事件结束代码选项:成功解决、变通解决、未解决、自动恢复、误报
满意度选项:0、0.5、1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5、5.0
是否需要提交知识选项:是、否

7. 关键流程衡量指标

为了控制流程的质量,必须为流程设置衡量指标。通过对指标的分析,可以有效地对流程的运行情况进行监控和改进。

序号衡量指标说明
1事件单总数 规定时间内产生事件单的总数。
2事件单关闭的数量 规定时间内事件单关闭的总数。
3事件成功解决的数量/比率 规定时间内成功解决事件单数量,以及占事件单总数的比率。
4解决的事件数量/比率 规定时间内成功解决与变通解决事件单数量,以及占事件单总数的比率。
5平均解决时间 规定时间内所有已解决事件单所耗处理时间的平均值。
6超时未解决的事件单数量 规定时间内超时且未解决事件单的数量。
7重复事件数量/比率 重复事件单的总数,以及占事件单总量的比率。
8生成问题的数量/比率 生成问题单的事件单总数,以及占事件单总量的比率。
9报结退回率 规定时间内,一次申请报结成功的事件单数量占所有事件单总数的比率。
10一线解决率 由事件受理人处理并解决的事件工单数量,站事件单总数的比率。

8. 附录:高紧急度事件参考表

8.1.1 刀片服务器类

序号事件类别事件名称事件描述解除标准设备星级
1硬件类内存报错内存报uncorrectable error更换内存,无报错五级
2硬件类设备宕机主板问题,设备无法访问更换硬件,系统恢复五级
3系统类设备宕机操作系统异常,设备无法访问系统恢复五级
4网络类通信丢失机框通信丢失或单板通信丢失通信恢复五级
5系统类文件读写异常文件读写报错读写正常五级

8.1.2 网络类

序号事件类别事件名称事件描述解除标准设备星级
1安全事件DDOS攻击导致网络设备拥塞因部署业务时服务器密码设置过于简单,导致服务器被非法植入木马程序,不停往外网发送数据包,造成网络交换机和防火墙负载增加网络恢复正常,业务正常访问五级

8.1.3 存储类

序号事件类别事件名称事件描述解除标准设备星级
1存储硬件故障存储控制器宕机由于存储控制器硬件异常导致存储宕机,故障切换未能生效,部分或者全部存储功能无法正常运行存储备件完成更换或者应用切换至其他存储设备五级
2存储硬件故障存储磁盘柜宕机由于存储磁盘柜硬件异常导致部分或全部存储服务异常,部分或者全部存储功能无法正常运行存储备件完成更换或者应用切换至其他存储设备五级
3存储硬件故障存储内联故障由于存储内联的FC/SAS/以太网/Infiniband等线缆或接口异常,导致部分或者全部存储功能无法正常运行存储备件完成更换或者应用切换至其他存储设备五级
4存储硬件故障存储硬盘故障,阵列失败状态由于存储短时间内发生多个硬盘故障,热备盘正常提供保护,导致部分或全部阵列失败存储备件完成更换或者应用切换至其他存储设备五级
5存储硬件故障存储硬盘故障,阵列临界状态由于存储短时间内发生1个或者多个硬盘故障,且无热备盘使用,处于部分或全部阵列失败的临界状态,业务正常存储备件完成更换或者应用切换至其他存储设备五级
6存储硬件故障存储缓存电池故障由于存储缓存电池或其他缓存保护机制失败,导致存储缓存失效,部分或者全部业务性能大幅度下降,无法满足业务需求存储备件完成更换或者应用切换至其他存储设备五级
7存储硬件故障存储温度过高宕机由于风扇或者环境温度过高导致存储自动停机,全部存储功能无法正常运行存储备件完成更换或者应用切换至其他存储设备五级
8存储硬件故障存储电源故障宕机由于存储电源模块或者供电故障导致存储停机,全部存储功能无法正常运行存储备件完成更换或者应用切换至其他存储设备五级
9存储软件故障存储故障切换失败由于存储控制器发生故障切换,且故障切换未能正常生效,导致部分或者全部存储功能无法正常运行存储软件功能正常或者应用切换至其他存储五级
10存储软件故障存储软件异常hung死由于存储控制器的存储软件异常,导致存储控制器hung死,无法触发故障切换,导致部分或者全部存储功能无法正常运行存储软件功能正常或者应用切换至其他存储五级
 存储软件故障存储软件异常RAID失败由于存储控制器的存储软件异常,导致存储控制器RAID失败,无法触发故障切换,导致部分或者全部存储功能无法正常运行存储软件功能正常或者应用切换至其他存储五级
11存储软件故障存储配置误操作由于存储配置被误操作或人为操作破坏,导致部分或者全部存储功能无法正常运行存储软件功能正常或者应用切换至其他存储五级
12存储软件故障存储微码版本升级失败由于存储设备微码版本升级失效导致存储无法正常运行存储软件功能正常或者应用切换至其他存储五级
13存储软件故障存储微码版本bug由于存储设备微码版本存在bug,导致存储系统无法正常运行存储软件功能正常或者应用切换至其他存储五级
14存储软件故障存储内部保护配置生效进入保护模式或halt由于存储设备软件自身的内部保护配置被触发,导致存储系统进入保护模式或halt,无法满足业务需求存储软件功能正常或者应用切换至其他存储五级
15存储软件故障NAS设备文件系统异常由于NAS NFS/CIFS文件系统受损导致业务异常存储软件功能正常或者应用切换至其他存储五级
16存储软件故障NAS文件系统利用率98%由于NAS文件系统整体使用率超过98%,导致NAS设备无法正常运行存储软件功能正常或者应用切换至其他存储五级
17存储软件故障NAS时间同步异常由于NAS文件系统的时间同步异常,导致文件系统上文件与业务服务器上的文件的时间有冲突,无法满足业务需求存储软件功能正常或者应用切换至其他存储五级
18存储软件故障存储LICENSE异常由于存储侧功能或者容量license异常导致功能无法正常使用,无法满足业务需求存储软件功能正常或者应用切换至其他存储五级
19存储外接链路故障存储FC链路故障由于存储外接FC链路异常,且多链路未能正常生效导致存储功能无法正常使用或无法满足业务需求存储链路正常或者应用切换至其他存储五级
20存储外接链路故障存储以太网链路故障由于存储外接NAS或者iscsi使用以太网链路异常,且链路聚合未能正常生效导致存储功能无法正常使用或无法满足业务需求存储链路正常或者应用切换至其他存储五级
21存储容量需求超标存储容量使用超标由于存储需求过大,导致存储空间使用超过90%,影响业务扩容需求,需要紧急扩容或预警存储紧急扩容或者部分应用切换到其他存储五级
22存储性能需求超标存储性能需求超标由于业务侧原因,存储侧长期出现IO压力过大严重超过存储性能预警指标,无法满足业务IO需求存储紧急性能优化/扩容或者部分应用切换到其他存储五级
23FC交换机硬件故障FC交换机硬件故障由于FC交换机主板/模块/其他组件发生异常,导致部分或者全部存储功能无法正常运行FC交换机备件完成更换或者应用单链路恢复五级
24FC交换机软件故障FC交换机软件故障由于FC交换机软件配置发生异常,导致部分或者全部存储功能无法正常运行FC交换机软件功能正常或者应用单链路恢复五级

8.1.4 Oracle数据库类

序号事件类别事件名称事件描述解除标准设备星级
1数据库实例宕机数据库实例宕机由于后台错误或者人为故障导致数据库实例crash数据库实例启动正常,业务恢复 
2数据库hung数据库hung数据库hung,响应异常缓慢数据库恢复正常,业务恢复 
3数据库连接失败数据库连接失败由于连接数满或者网络原因导致数据库连接失败数据库连接恢复正常,业务恢复 
4数据库归档目录使用率超过阈值数据库归档目录使用率超过阈值数据库归档目录使用率超过阈值数据库归档目录使用率恢复正常五级
5数据库无法归档数据库无法归档由于归档目录满,导致数据库无法归档,业务挂起数据库归档恢复正常,业务恢复 
6数据库表空间使用率超过阈值数据库表空间使用率超过阈值数据库表空间使用率超过阈值数据库表空间使用率恢复正常五级
7数据库表空间无法扩展数据库表空间无法扩展数据库表空间无法扩展,业务受到影响数据库归档恢复正常,业务恢复 
8数据库异常等待数据库异常等待数据库异常等待较高,业务受到影响数据库异常等待消失,业务恢复五级
9数据库alert日志批量告警数据库alert日志批量告警alert日志批量告警,显示数据库存在一定异常alert日志批量告警消失五级
10数据库主机cpu使用率超过阈值数据库主机cpu使用率超过阈值数据库主机cpu使用率超过阈值,业务可能存在异常数据库主机cpu使用率恢复正常五级
11业务反馈业务响应缓慢,业务超时业务反馈业务响应缓慢,业务超时业务反馈业务响应缓慢,业务超时,要求共同排查原因业务恢复五级

8.1.5 Informix数据库类

序号事件类别事件名称事件描述解除标准设备星级
1数据库数据库主机挂死数据库主机挂死,无法连接,集群无法切换。
处理方法:若有容灾,业务切换至容灾;若无容灾,直接恢复数据库、集群。再按正常流程恢复数据库。
业务恢复运行五级
2数据库数据库主机挂死数据库主机挂死,无法连接,集群可切换。
处理方法:数据库切换至备机,业务切换至备机。再按正常流程恢复数据库。
业务恢复运行五级
3数据库数据库备机挂死数据库备机挂死,并影响主机运行。
处理方法:备机数据库关闭,保证业务正常运行。再按正常流程恢复数据库。
业务恢复运行五级
4数据库数据库主机宕机数据库主机宕机,集群无法切换。
处理方法:若有容灾,业务切换至容灾;若无容灾,直接恢复数据库、集群。再按正常流程恢复数据库。
业务恢复运行五级
5数据库数据库主机宕机数据库主机宕机,集群可切换。
处理方法:数据库切换至备机,业务切换至备机。再按正常流程恢复数据库。
业务恢复运行五级
6数据库数据库挂死单机数据库挂死,可切换至容灾。
处理方法:切换业务至容灾,恢复业务运行。再按正常流程恢复数据库。
业务恢复运行五级
7数据库数据库挂死单机数据库挂死,无容灾。
处理方法:直接恢复数据库,恢复业务运行。
业务恢复运行五级
8数据库数据库宕机单机数据库宕机,可切换至容灾。
处理方法:切换业务至容灾,恢复业务运行。再按正常流程恢复数据库。
业务恢复运行五级
9数据库数据库宕机单机数据库宕机,无容灾。
处理方法:直接恢复数据库,恢复业务运行。
业务恢复运行五级

8.1.6 主机类

序号事件类别事件名称事件描述解除标准设备星级
1主机宕机主机宕机系统无法登录,也无法正常使用系统能够正常使用,业务能够正常使用五级
2主板故障主板故障主板故障导致主机不能正常使用系统能够正常使用,业务能够正常使用五级
3CPU故障CPU故障CPU故障导致主机偶断性重启及挂死系统能够正常使用,业务能够正常使用五级
4硬盘故障硬盘故障镜像硬盘故障导致系统宕机系统能够正常使用,业务能够正常使用五级
5电源故障电源故障电源故障导致系统宕机系统能够正常使用,业务能够正常使用五级
6内存故障内存故障内存故障导致系统宕机系统能够正常使用,业务能够正常使用五级
7光纤卡故障光纤卡故障光纤卡故障引起链路失败或者切换瞬断系统能够正常使用,业务能够正常使用五级
8操作系统BUG系统BUG操作系统BUG引起主机HUANG机系统能够正常使用,业务能够正常使用五级
9操作系统配置文件修改操作系统配置文件修改操作系统配置文件修改造成系统问题系统能够正常使用,业务能够正常使用五级
10操作系统内核错误操作系统内核错误操作系统内核错误,造成系统问题系统能够正常使用,业务能够正常使用五级
11文件系统使用率100%文件系统使用率100%文件系统使用率100%,造成数据无法写入系统能够正常使用,业务能够正常使用五级
12磁盘繁忙率100%磁盘繁忙率100%IO读写过高,造成磁盘读写性能严重影响系统能够正常使用,业务能够正常使用五级
13CPU使用率100%CPU使用率100%CPU使用率100%,造成业务受阻系统能够正常使用,业务能够正常使用五级
14内存使用率100%内存使用率100%内存使用率100%,造成业务受阻系统能够正常使用,业务能够正常使用五级
15交换空间使用率100%交换空间使用率100%交换空间使用率100%,造成业务受阻系统能够正常使用,业务能够正常使用五级

 

标签:
由 superadmin 在 2024/11/01, 21:28 创建
     
深圳市艾拓先锋企业管理咨询有限公司