返回本章节索引    阅读下一篇

某电子口岸ITIL信息技术服务管理体系运行管理办法—事件管理分册

1引言

事件管理是为了减少或消除导致和可能导致系统运行服务质量下降或中断的事件带来的影响,以确保可以尽快恢复服务。因此,我们要将事件记录下来并进行分类,再分配给适当的专业人员去处理;我们也要监控事件的发展,并在事件得到解决之后将其关闭。

2事件管理目标

事件管理的主要目标是争取在最短的时间内解决、恢复,尽量避免或减少事件对用户造成影响。事件管理需要保留事件的有效记录,给其他的服务管理流程提供相关的信息,以及正确报告进展情况。

3适用范围

    事件管理流程适用于中国电子口岸处理与电子口岸业务相关的事件

4术语

事件:在电子口岸运维系统中和用户使用中出现的导致和可能导致的系统运行服务质量下降或中断的事件。

故障:经判断,确实导致了系统运行服务质量下降或中断的事件;

预警:经判断,暂时没有导致系统运行服务质量下降或中断,可能是故障的隐患;

服务请求:归类为事件,包括状态查询、请求运行批处理活动等信息请求或标准变更。

问题:已经得到暂时处理,但仍未找到根本原因的事件。

5事件管理角色和职责

5.1 领导小组

领导小组由中心主任、副主任,总工程师等中心领导组成,负责对重大事件实施应急处理的决策和应急资源统一指挥调配,及时向海关总署应急指挥部汇报情况,执行上级领导的命令。

5.2事件一线支持人员

事件一线支持人员包括热线人员、系统监控人员和机房巡检人员。

5.2.1机房巡检人员

机房巡检工作是在巡检预案的基础上,通过定期的、有重点的对网络、系统、应用资产等的运行状态和周边环境进行检查、记录、分析,达到发现事件的目的,对事件进行上报,并将状态异常的资产情况及时通报安全运行控制中心值班经理,由值班经理对事件进行统一调派和处理,起到对事件的防范作用。

5.2.2系统监控人员

系统监控工作是指监控人员在监控预案的基础上,采用人工和技术工具相结合的方式,按照设定监控点的技术指标和阀值,对信息系统相关的网络、系统、应用的运行状态进行全方位、全过程、实时的监控,能够及时发现系统的异常情况。系统监控人员可以将事件进行上报,并将状态异常的情况及时通报安全运行控制中心值班经理从而寻求解决。

5.2.3热线服务人员

热线人员接受企业及海关的热线呼叫请求,利用热线查询系统解决用户问题。如果呼叫是关于服务请求的,则启动处理服务请求的流程,如果不是,热线服务人员将系统用户提出的事件和疑似事件直接提交到安全运行控制中心,寻求二线技术支持。

5.3事件二线支持人员

二线支持人员由一名值班经理和若干技术支持人员组成。。

5.3.1值班经理

接收日常机房巡检岗位、实时监控岗位、热线岗位、技术支持岗位提交的事件;

对事件进行登记、确定事件的响应级别,协调资源、进行事件处理的任务派发、上报和升级,跟踪解决情况和事件反馈;

将值班期间的事件汇总报送到运行处运行管理组事件统计人员处,如果有重大故障,需要将“故障处理分析报告”报送到运行处运行管理组。

5.3.2技术支持组

接收当班值班经理指派的事件处理任务单;

第一时间响应事件,进行事件处理;

如果需要三线或更广泛的技术支持,技术支持组要会同进行事件的解决;

发现事件隐患并进行处理;

将事件处理过程和状态及时上报到值班经理。

5.4事件三线技术支持

三线支持人员是指中心各处的全部工程师,还包括外包公司等其他相关技术人员。对安全运行控制中心支持人员无法在现场恢复的事件,进行深入的研究,提出事件处理预案并给以解决。

三线支持人员还可以召集为中心提供各硬件设备、配套系统软件等供应商,当三线支持人员确定事件解决需要硬件设备更换或软件技术支持时,可召集各设备供应商人员提供相关工作配合。

三线支持人员要做到:

    • 第一时间接受和处理升级后的事件。
    • 向安全运行控制中心上报事件进展情况。
    • 确定事件处理预案。
    • 负责知识库的更新维护。
    • 协助设备供应商进行事件的处理。
5.5运行处运行管理组

运行处运行管理组负责安全运行控制中心的管理,具体包括对值班经理进行培训、考核;对值班工作进行统一管理和调度;对安全运行控制中心的工作给以汇总和考核。

运行处运行管理组人员要将安全运行管理中心值班经理报送的事件汇总表做进一步的汇总和统计工作。在一定的时间周期内(月度、季度和年度),对安全运行控制中心工作和突发事件进行统计分析,形成安全运行控制中心工作评估报告和事件分析汇总报告。

5.6应急保障组

由办公室、设备处、财务处等处室组成,由领导小组统一协调,在重大事件应急处理过程中充分做好人员保障、设备保障、经费保障和事件处理人员的饮食、交通、通信联络、安全保卫等后勤保障。

6事件的主要来源

6.1机房巡检

机房巡检主要负责对机房内的网络设备、系统设备、机房环境等巡检工作;根据系统人员提供的巡检方法和流程,定期定时在机房内进行巡检,巡检中发现的事件,及时上报给安全运行控制中心进行事件的处理,并配合相应技术人员进行诊断和处理。

6.2实时监控

实时监控负责利用自动的监控软件,对相关网络、系统、数据库、应用等进行的实时监控,实时监控中发现的预警信息和事件,及时上报,并进行登记,协助相应技术人员进行诊断和处理。

6.3热线服务

接受企业及海关的热线呼叫请求,利用热线查询系统解决用户问题,如果呼叫是关于服务请求的,则启动处理服务请求的流程,如果不是,热线服务人员将系统用户提出的事件和疑似事件直接提交到安全运行控制中心,寻求二线技术支持。

6.4日常系统维护

网络、数据库、系统、应用等专业人员对系统进行日常的分析和维护中发现的系统的潜在事件,及时登记并上报安全运行控制中心进行处理。

7服务请求的主要来源

服务请求主要来自热线呼叫中心,包括状态查询、请求运行批处理活动等信息请求或标准变更等。

8事件管理流程

事件管理流程中包括事件发现、事件辨别、事件定级、事件上报、事件调度和事件处理等重要环节。流程图如下:

file:///C:\Users\Admmini\AppData\Local\Temp\ksohtml2176\wps1.png

在事件的管理流程中,主要分为事件上报和事件处理两条主线。

事件上报由值班经理根据事件的现象定级,并上报各级领导。具体包括事件发现、事件定级和事件上报工作环节。

事件处理由安全运行控制中心确定响应级别,然后展开事件处理工作。具体包括事件响应级别确定、事件调度、事件升级、事件处理、事件反馈和关闭等工作环节。

8.1事件发现

在一线技术支持的系统监控、机房巡检或热线支持的工作过程中,工作人员如发现异常情况且无法立即在现场处理更正,需填写remedy事件单,进入事件管理流程。

8.2事件受理

一线支持人员需将异常情况在5分钟内汇报到安全运行控制中心。安全运行控制中心值班经理在接收到事件后,需要进行辨别:是故障还是预警。

如果认定为故障,则需要按照流程规定进行上报、定级和处理等工作;如果认定为预警,则根据预警的具体情况,由安全运行控制中心值班经理酌情处理。

8.3事件定级

值班经理在接到一线支持人员的事件汇报后,根据事件现象初步判断事件的响应级别,确定该事件为一级、二级、三级或非等级响应。

确定了事件的响应级别后,进入事件处理环节,同时值班经理将对事件的处理过程进行记录。根据不同的事件等级,值班经理要上报处理进度。

8.4事件上报

一线支持人员将事件报到值班经理处后,值班经理根据事件级别以短信形式向各级领导报告。报告的时间范围从事件发现开始计算,原则上不超过10分钟。事件的级别不同,需要上报的领导范围也不同,具体上报范围规则见下表:

上报范围一级事件二级事件三级事件
数据中心应急领导小组  
数据中心有关处室负责人 
运行处领导
运行处相关部门负责人
事件处理人员

非等级事件不必上报。

8.5事件调度

安全运行控制中心负责事件的统一调度。事件调度工作包括确定事件处理方案、组织实施事件处理工作、任务派发、事件处理过程跟踪记录和事件升级等具体工作内容。

在明确事件等级并上报后,值班经理要与技术支持人员一起讨论事件处理方案并立即实施事件恢复工作,必要时对事件进行升级,并扩大技术支持的范围,寻求三线技术支持。

在事件处理的过程中,安全控制中心值班经理要不断的跟踪事件,填写remedy事件单,将事件的处理情况和升级情况记录到事件单中。

对于一、二级事件,为了保障电子口岸数据中心领导及时获得处理的实时进展情况,在调度过程中,安全运行控制中心值班经理可召开电话会议,以便于更好的沟通交流。

8.6事件升级

如果在规定的时间内对于无法解决的事件,安全运行控制中心需要升级事件的响应级别,让更大范围的支持人员介入。事件在规定的时限内不能够解决,按照下表的规定进行响应级别升级。

事件响应级别一级二级三级非等级
处理时限≦2小时≦4小时≦8小时≦24小时

因此,当事件发生后,在特定的时间内没有完成事件排除工作,则需要进行响应升级。

原本非等级响应事件,如果在16个小时内未完成有效处理,事件响应则立即升为三级响应;

原本三级响应事件,如果在4个小时内未完成有效处理,事件响应则立即升为二级响应;

原本二级响应事件,如果在2个小时内未完成有效处理,事件响应则立即升为一级响应。

8.7事件处理

安全运行控制中心在事件处理时,严格把握在最短时限内快速恢复业务的原则,按照事件处理预案处理事件。没有事件处理预案时,负责拟定事件处理临时预案。临时预案的内容要及时向运行处领导汇报,在得到确认后方可实施。需要通过变更预案排除事件时,启动相关的变更流程。

在事件处理完毕后,值班经理需要将启动的临时预案和变更等工作记录,提交到运行处运行管理组。

8.8事件反馈

事件处理完毕后可通过客服部门或用户测试确认。事件处理结束后,可以由安全运行控制中心根据事件的不同级别,以电话或短信方式向有关领导和相关人员反馈事件处理结果。 

8.9事件关闭

在得到可以事件恢复的确认后,安全运行控制中心要关闭事件。事件关闭后,将事件单填写详细后置“已解决”状态,由监控人员检查事件关闭情况,确认后将事件单关闭。同时,安全运行控制中心要进行事件原因个案分析,找出根本原因或其他相关隐患。如果不能找到根本原因或者无法根本解决事件,则需要将事件提升为问题,进入问题处理流程。事件分析的内容可以作为问题流程的数据。

8.10事件汇总报送

值班经理在完成当天的值班任务后,需要填写《事件汇总表》,并将《事件汇总表》在值班时间内记录的故障信息报送到运行处运行管理组。

9服务请求处理流程

服务请求处理流程包括服务请求的接收和记录、服务请求受理、服务请求升服务请求反馈和服务请求关闭等主要过程。

file:///C:\Users\Admmini\AppData\Local\Temp\ksohtml2176\wps2.png

9.1服务请求接收和记录

在热线接到呼叫中心电话后,判断此呼叫是服务请求还是事件,如果是事件,则启动事件管理流程,如果是服务请求,由热线人员填写服务请求单,启动服务请求处理流程。

9.2服务请求受理

热线接到服务请求时,如果通过查找已有的解决方案和自身的经验能够处理请求,则自行解决该服务请求。如果不能自行解决的,将服务请求单提交给客服处技术支持人员受理。

9.3服务请求升级

客服处技术支持人员接到服务请求时,如果通过查找已有的解决方案和自身的经验能够处理请求,则自行解决该服务请求。如果不能解决的,需填写remedy工单,并提交给运行处应用支持人员处理。

运行处应用支持人员接到工单时,如果通过查找已有的解决方案和自身的经验能够处理工单,则自行解决该工单。如果不能解决的,需将工单转派给项目应用处相关人员处理。

9.4服务请求反馈

服务请求或工单处理完后,需将结果反馈给热线提交人员,由热线提交人员与用户确认。

9.5服务请求关闭

服务请求确认已解决时,热线需要将服务请求关闭。

10事件处理策略

在系统运行过程中,会发生一些重大事件(一级事件和二级事件),对于此类事件,事件处理程序基本按照事件管理流程进行。但是由于此类事件影响范围大,因此运行处根据事件的具体情况,通报数据中心相关领导,待应急领导小组核批后,启动业务应急处理预案。安全运行控制中心按照快速通报制度,发布快速通报,通报的内容包括,事件等级、事件原因、预计恢复时间、事件处理情况等。事件应急处理过程中,各级处室应通过电话、邮件、短信等方式加强联系、紧密配合、随时通报处理情况。

对于常见的事件,可以总结形成知识,归纳到知识库中。知识库的建设是运行管理体系中的一项重要的工作。知识库中的知识都有相关的问题描述及解决方案。技术支持人员可以根据知识库中的相关知识解决一些常见的事件,加快事件的解决速度,提高事件解决率。

11相关文档

1、《事件分级管理办法》

2、《运行管理办法-问题管理分册》

3、《运行管理办法-变更管理分册》

4、《运行管理办法-安全运行控制中心部分》

返回本章节索引    阅读下一篇

标签:
由 superadmin 在 2024/06/24, 13:00 创建
     
深圳市艾拓先锋企业管理咨询有限公司