31 某系统集成公司ITIL信息技术服务管理体系运行管理办法—突发事件管理分册
某系统集成公司ITIL信息技术服务管理体系运行管理办法—突发事件管理分册
1突发事件管理目标
突发事件管理的主要目标是争取在最短的时间内解决、恢复,尽量避免或减少突发事件对用户造成影响,最终实现整个电子口岸系统平台统一的突发事件管理的流程、突发事件管理的升级、突发事件管理的定级标准。实现全年系统可用性达到99.99%的目标。
突发事件的管理是为了在现场以最少的时间恢复故障,使对用户的不利影响降到最低。为了追求这一目标,可以暂时不寻找突发事件产生的根本原因,在问题管理中,再对突发事件产生的根本原因进行调查和解决。
2术语
突发事件:在电子口岸运维系统中和用户使用中出现的导致和可能导致的系统运行服务质量下降或中断事件。
故障:经判断,确实导致了系统运行服务质量下降或中断的突发事件;
预警:经判断,暂时没有导致系统运行服务质量下降或中断,可能是故障的隐患;
问题:已经得到暂时处理,但仍未找到根本原因的突发事件。
3 突发事件管理角色和职责
3.1 突发事件一线支持人员
突发事件一线支持人员包括热线人员、系统监控人员和机房巡检人员。
3.1.1机房巡检人员
由增值服务公司人员组成。机房巡检工作是在巡检预案的基础上,通过定期的、有重点的对网络、系统、应用资产等的运行状态和周边环境进行检查、记录、分析,达到发现突发时间的目的,对突发事件进行上报,并将状态异常的资产情况及时通报安全运行控制中心值班经理,由值班经理对突发事件进行统一调派和处理,起到对突发事件的防范作用。
3.1.2系统监控人员
由增值服务公司人员组成。系统监控工作是指监控人员在监控预案的基础上,采用人工和技术工具相结合的方式,按照设定监控点的技术指标和阀值,对信息系统相关的网络、系统、应用的运行状态进行全方位、全过程、实时的监控,能够及时发现系统的异常情况。系统监控人员可以将突发事件进行上报,并状态异常的情况及时通报安全运行控制中心值班经理从而寻求解决。
3.1.3热线服务人员
热线人员接受企业及海关的热线服务请求,利用热线查询系统解决用户问题。
热线服务人员由增值服务公司人员担任,将系统用户提出的突发事件和疑似突发事件直接提交到安全运行控制中心,寻求二线技术支持。
3.2安全运行控制中心
安全控制中心是公司对外突发事件处理的唯一接口,对内负责公司各个部门突发事件处理协调工作。安全运行控制中心是一个跨部门的虚拟组织,由一名值班经理和若干技术支持人员组成。在突发事件的处理中,安全运行控制中心相当于二线技术支持的角色。
3.2.1值班经理
接收日常机房巡检岗位、实时监控岗位、热线岗位、技术支持岗位提交的突发事件或隐患;
对突发事件进行登记、按照《电子口岸应急预案管理办法》确定突发事件的响应级别,协调资源、进行突发事件处理的任务派发、上报和升级,跟踪解决情况和突发事件反馈;
将值班期间的突发事件汇总报送到运行管理部突发事件统计人员处,如果有重大故障,需要将“故障处理分析报告”报送到运行管理部。
3.2.2技术支持组
接收当班值班经理指派的突发事件处理任务单;
第一时间响应突发事件,进行突发事件处理;
如果需要三线或更广泛的技术支持,技术支持组要会同进行突发事件的解决;
发现突发事件隐患并进行处理;
将突发事件处理过程和状态及时上报到值班经理。
3.3突发事件三线技术支持
三线支持人员是指公司各部门的全部工程师,还包括总公司等其他相关技术人员。对应安全运行控制中心支持人员无法在现场恢复的突发事件,进行深入的研究,提出突发事件处理预案并给以解决。
三线支持人员还可以召集为公司提供各硬件设备、配套系统软件等供应商,当三线支持人员确定突发事件解决需要硬件设备更换或软件技术支持时,可召集各设备供应商人员提供相关工作配合。
三线支持人员要做到:
-
- 第一时间接受和处理升级后的突发事件。
- 向安全运行管理中心上报突发事件进展情况。
- 确定突发事件处理预案。
- 负责知识库的更新维护。
- 协助设备供应商进行突发事件的处理。
3.4运行管理部
运行管理部负责安全运行控制中心的管理,具体包括对值班经理进行培训、考核;对值班工作进行统一管理和调度;对安全运行控制中心的工作给以汇总和考核。
运行管理部人员要将安全运行管理中心值班经理报送的突发事件汇总表做进一步的汇总和统计工作。在一定的时间周期内(月度、季度和年度),对安全运行控制中心工作和突发事件进行统计分析,形成安全运行控制中心工作评估报告和突发事件分析汇总报告。
4突发事件的主要来源
4.1机房巡检
机房巡检主要负责对机房内的网络设备、系统设备、机房环境等巡检工作;其根据系统人员提供地巡检方法和流程,定期定时在机房内进行巡检,巡检中发现的突发事件,及时上报给安全运行控制中心进行突发事件的登记处理,并配合相应技术人员进行诊断和处理。
4.2实时监控
实时监控负责利用自动的监控软件,对相关网络、系统、数据库、应用等进行的实时监控,实时监控中发现的预警信息,及时上报,并进行登记处理,协助相应技术人员进行诊断和处理。
4.3热线服务
接受企业及海关的热线服务请求,利用热线查询系统解决用户问题,如果出现个人能力无法解决问题或普遍频繁出现同一问题时,将问题转发给安全运行控制中心登记处理。
4.4日常系统维护
网络、数据库、系统、应用等专业人员对系统进行日常的分析和维护中发现的系统的潜在突发事件。
5突发事件管理流程
突发事件管理流程中包括突发事件发现、突发事件辨别、突发事件定级、突发事件上报、突发事件调度和突发事件处理等重要环节。流程图如下:
在突发事件的管理流程中,主要分为突发事件上报和突发事件处理两条主线。
突发事件上报由一线支持人员根据事件的现象定级,并上报各级领导。具体报告突发事件发现、突发事件定级和突发事件上报工作环节。
突发时间处理由安全运行控制中心确定响应级别,然后展开事件处理工作。具体包括突发事件响应级别确定、突发事件调度、突发事件升级、突发事件处理、突发事件反馈和关闭等工作环节。
5.1突发事件发现
在一线技术支持的系统监控、机房巡检或热线支持的过程中,工作人员如发现异常情况且无法立即在现场处理更正,需将事件情况整理,进入突发事件管理流程。
5.2突发事件定级
一线支持人员对突发事件进行定级,具体定级的方法参见《突发事件应急管理办法》。最终,突发事件将定位一级、二级、三级或非等级突发事件。
5.3突发事件受理
一线支持人员对突发事件定级后,需在异常情况在5分钟内汇报到安全运行控制中心。安全运行控制中心值班经理在接收到突发事件后,需要进行辨别:是故障还是预警。
如果认定为故障,则需要按照流程规定进行上报、定级和处理等工作;如果认定为预警,则根据预警的具体情况,由安全运行控制中心值班经理酌情处理。
5.4突发事件上报
一线支持人员对突发事件定级并汇报到值班经理处后,根据突发事件级别以电话形式向公司领导报告。报告的时间范围从突发事件发现开始计算,原则上不超过10分钟。突发事件的级别不同,需要上报的领导范围也不同,具体上报范围规则见下表:
上报范围 | 一级突发事件 | 二级突发事件 | 三级突发事件 |
数据中心应急领导小组 | ■ | ||
数据中心有关部门负责人 | ■ | ■ | |
公司领导 | ■ | ■ | |
公司相关部门负责人 | ■ | ■ | ■ |
非等级突发事件不必上报。
5.5突发事件响应级别确定
值班经理在接到一线支持人员的突发事件汇报后,根据事件现象初步判断事件发生的物理场所和逻辑范围,然后确定对此突发时间的响应级别。响应级别的判断也依据《突发事件应急管理办法》。最终,确定该事件为一级、二级、三级或非等级响应。
确定了事件的响应级别后,进入突发事件处理环节,同时值班经理将对事件的处理过程进行记录。根据不同的突发事件等级,值班经理要上报处理进度。
5.6突发事件调度
安全运行控制中心负责所有类型突发事件的统一调度。突发事件调度工作包括突发事件登记、确定突发事件处理方案、组织实施突发事件处理工作、任务派发、突发事件处理过程跟踪记录和突发事件升级等具体工作内容。
在明确突发事件并上报后,安全控制中心需要填写《突发事件登记单》,对突发事件进行登记。登记时首先要对突发事件进行编号。
值班经理要与技术支持人员一起讨论突发事件处理方案并立即实施突发事件恢复工作,必要是对突发事件进行升级,并扩大技术支持的范围,寻求三线技术支持。
在突发事件处理的过程中,安全控制中心值班经理要不断的跟踪突发事件,填写《突发事件登记单》,将突发事件的处理情况和升级情况记录到《突发事件登记单》中。
对于一、二级突发事件,为了保障电子口岸数据中心领导和公司领导及时获得处理的实时进展情况,在调度过程中,安全运行控制中心值班经理可召开电话会议,以便于更好的沟通交流。
5.7突发事件响应级别升级
如果在规定的时间内对于无法解决的突发事件,安全运行控制中心需要升级突发事件的响应级别,让更大范围的支持人员介入。突发事件在规定的时限内不能够解决,按照下表的规定进行响应级别升级。
突发事件 | 响应级别 | 一级 | 二级 | 三级 | 非等级 |
处理时限 | ≦2小时 | ≦4小时 | ≦8小时 | ≦24小时 |
因此,当突发事件发生后,在特定的时间内没有完成突发事件排除工作,则需要进行响应升级。
原本非等级响应突发事件,如果在16个小时内未完成有效处理,突发事件响应则立即升为三级响应;
原本三级响应突发事件,如果在4个小时内未完成有效处理,突发事件响应则立即升为二级响应;
原本二级响应突发事件,如果在2个小时内未完成有效处理,突发事件响应则立即升为一级响应。
5.8突发事件处理
安全运行控制中心在突发事件处理时,严格把握在最短时限内快速恢复业务的原则,按照突发事件处理预案处理突发事件。没有突发事件处理预案时,负责拟定突发事件处理临时预案。临时预案的内容要及时向运行管理部汇报,在得到确认后方可实施。需要通过变更预案排除突发事件时,启动相关的变更流程。
在突发事件处理完毕后,值班经理需要将启动的临时预案和变更等工作记录,提交到运行管理部。
5.9突发事件反馈
突发事件处理完毕后可通过客服部门或用户测试确认,需要向用户反馈的突发事件要通过客服部门进行反馈。突发事件处理结束后,可以由安全运行控制中心根据突发事件的不同级别,以电话或短信方式向有关领导和相关人员反馈突发事件处理结果。
5.10突发事件关闭
在得到可以突发事件恢复的确认后,安全运行控制中心要关闭突发事件。突发事件关闭后,将突发事件入库管理。同时,安全运行控制中心要进行突发事件原因个案分析,找出根本原因或其他相关隐患。如果不能找到根本原因或者无法根本解决突发事件,则需要将突发事件提升为问题,进入问题处理流程。突发事件分析的内容可以作为问题流程的数据。
最后,安全运行控制中心需要将《突发事件登记单》填写完整。
5.11突发事件汇总报送
值班经理在完成当天的值班任务后,需要填写《突发事件汇总表》,并将《突发事件汇总表》在值班时间内记录的若干份《突发事件登记单》报送到运行管理部。
6突发事件处理策略
在系统运行过程中,会发生一些重大突发事件(一级突发事件和二级突发事件),对于此类突发事件,突发事件处理程序基本按照突发事件管理流程进行。但是由于此类突发事件影响范围大,因此运行部根据突发事件的具体情况,按照数据中心《突发事件应急预案》通报相关部门,待应急领导小组核批后,启动业务应急处理预案。安全运行控制中心按照快速通报制度,发布快速通报,通报的内容包括,突发事件等级、突发事件原因、预计恢复时间、突发事件处理情况等。突发事件应急处理过程中,各级业务、技术管理部门应加强联系、紧密配合、随时通报处理情况。突发事件应急处理过程中,数据中心安全运行处、客服处、技术处、业务处和公司运行管理部门通过电话、邮件、短信等方式加强联系、紧密配合、随时通报处理情况。
对于常见的突发事件,可以总结形成知识,归纳到知识库中。知识库的建设是运行管理体系中的一项重要的工作。知识库中的知识都有相关的问题描述及解决方案。技术支持人员可以根据知识库中的相关知识解决一些常见的突发事件,加快了突发事件的解决速度,提高了在线解决率。知识库建设的最终目标是整理形成一个对技术人员开放的系统知识库。
7绩效考核指标
突发事件处理协调组评估指标为评估突发事件处理协调工作的具体指标,对评估工作质量,规范工作流程,明确工作方向起着指导性作用。这些指标均在一个固定的统计周期内(如日、周、月)给予评价。具体指标如下:
评估指标 | 指标简介 | 评估目的 |
突发事件处理的 响应时间 | 统计突发事件从发生到突发事件定级后正式处理所耗的平均时间 | 反映突发事件处理的响应速度 |
系统突发事件总数 | 统计系统突发事件总数 | 反映突发事件处理 工作量 |
突发事件上报率 | 及时上报的突发事件数/总突发事件数 | 反映突发事件上报的情况 |
一线恢复突发事件率 | 技术支持一次性解决突发事件次数/系统突发事件总数 | 反映知识库完善程度 |
突发事件解决率 | 解决突发事件次数/系统突发事件总数 | 反映突发事件处理水平 |
突发事件在承诺的响应时间内得到解决的比例 | 统计突发事件在与用户承诺的响应时间内得到解决的突发事件数量/系统突发事件总数的比例 | 反映突发事件处理的质量 |
系统中止服务时间 | 运行服务的总体水平 |
8相关文档
1、《突发事件应急预案》
2、《运行管理办法-问题管理分册》
3、《运行管理办法-变更管理分册》
4、《运行管理办法-安全运行控制中心部分》
5、附件:《××(时间段)突发事件汇总表》、《突发事件登记单》
系统事件上报登记单
事件基本情况(发现事件用户填写,全部为必填项) | ||||||||||||||||
事件编号 | SJ+日期8位+流水号3位 | 事件来源 | □热线 □监控 □ | 建议处理 方式 | □故障 □预警(非故障) | |||||||||||
事件发生时间 | 年 月 日 时 分 | 发生频次 | 次 | 事件等级 | □一级 □二级 □三级 □非等级 | |||||||||||
现象详细描述 |
| 影响业务范围 |
| |||||||||||||
待回复基本资料 | 用户姓名、电话、单位、电子邮件、传真等信息 | 事件汇报人(签字): | ||||||||||||||
事件处理回执(安全运行控制中心值班经理填写) | ||||||||||||||||
接到汇报时间 | 年 月 日 时 分 | 实际处理 方式 | □故障 □预警(非故障) | 值班经理 | 值班经理签字 | |||||||||||
现象详细描述 (补充填写) |
| 影响业务范围 (补充填写) | ||||||||||||||
事件原因 |
| |||||||||||||||
值班经理审核意见 | 事件恢复时间 | 年 月 日 时 分 | ||||||||||||||
事件最终状态 | □关闭 □暂停 □其他 |
系统事件处理记录单
事件基本情况(监控、热线等发现事件方填写) | |||||||||||||||||||||||||||||||||||
事件编号 | SJ+日期8位+流水号3位 | 事件来源 | □热线 □监控 □ | 汇报人 | |||||||||||||||||||||||||||||||
事件发生时间 | 年 月 日 时 分 | 发生频次 | 次 | 事件等级 | □一级 □二级 □三级 □非等级 | ||||||||||||||||||||||||||||||
现象详细描述
|
| 影响业务范围 (必须填写) | |||||||||||||||||||||||||||||||||
待回复用户基本资料 | 用户姓名、电话、单位、电子邮件等信息 | ||||||||||||||||||||||||||||||||||
事件受理(值班经理填写) | |||||||||||||||||||||||||||||||||||
接到汇报时间 | 年 月 日 时 分 | 处理方式 | □故障 □预警(非故障) | 值班经理 | 值班经理签字 | ||||||||||||||||||||||||||||||
事件类别 | □内部 □外部 □其它 | □外联 □海关系统 □运营商 □物理环境 □硬件 □软件 □人为 □ | |||||||||||||||||||||||||||||||||
事件响应级别 | □一级 □二级 □三级 □非等级 | 事件详细分类 | 列出三级以下的分类,如DB、MQ等 | ||||||||||||||||||||||||||||||||
影响资产(软、硬件) | 优先级 | ||||||||||||||||||||||||||||||||||
上报 过程 | 上报时间 | 上报范围 | 事件状态 | ||||||||||||||||||||||||||||||||
事件原因 |
| ||||||||||||||||||||||||||||||||||
升级 记录 | 升级时间 | 升级人 | 其他参 与人员 | ||||||||||||||||||||||||||||||||
值班经理审核意见 | 事件恢复时间 | 年 月 日 时 分 | |||||||||||||||||||||||||||||||||
事件最终状态 | □关闭 □暂停 □其他 | ||||||||||||||||||||||||||||||||||
事件处理(事件处理的技术支持人员填写) | |||||||||||||||||||||||||||||||||||
处理开始时间 | 处理结束时间 | 处理方法与结果 | 处理人 | 备注 | |||||||||||||||||||||||||||||||
问 题 调 查(值班经理需要探究事件根本原因时填写) | |||||||||||||||||||||||||||||||||||
问题 单号 | WT+日期8位+流水号3位 | 问题 负责人 | 问题 处理时间 | 年 月 日 至 年 月 日 | |||||||||||||||||||||||||||||||
问题 描述 |
值班经理: 年 月 日 |
值班经理工作交接班表
日期 | 值班经理 | 系统状态 | 设备状态 | 交接值班经理 |