Show last authors
1 = **1. 突发事件管理目标** =
2
3 突发事件管理的主要目标是争取在最短的时间内解决、恢复,尽量避免或减少突发事件对用户造成影响,最终实现整个电子口岸系统平台统一的突发事件管理的流程、突发事件管理的升级、突发事件管理的定级标准。实现全年系统可用性达到99.99%的目标。
4
5 突发事件的管理是为了在现场以最少的时间恢复故障,使对用户的不利影响降到最低。为了追求这一目标,可以暂时不寻找突发事件产生的根本原因,在问题管理中,再对突发事件产生的根本原因进行调查和解决。
6
7 = =
8
9 = =
10
11 = **2. 术语** =
12
13 **突发事件**:在电子口岸运维系统中和用户使用中出现的导致和可能导致的系统运行服务质量下降或中断事件。
14
15 **故障**:经判断,确实导致了系统运行服务质量下降或中断的突发事件;
16
17 **预警**:经判断,暂时没有导致系统运行服务质量下降或中断,可能是故障的隐患;
18
19 **问题**:已经得到暂时处理,但仍未找到根本原因的突发事件。
20
21 = =
22
23 = =
24
25 = **3. 突发事件管理角色和职责** =
26
27 == **3.1 突发事件一线支持人员** ==
28
29 突发事件一线支持人员包括热线人员、系统监控人员和机房巡检人员。
30
31 === ===
32
33 === **3.1.1 机房巡检人员** ===
34
35 由增值服务公司人员组成。机房巡检工作是在巡检预案的基础上,通过定期的、有重点的对网络、系统、应用资产等的运行状态和周边环境进行检查、记录、分析,达到发现突发时间的目的,对突发事件进行上报,并将状态异常的资产情况及时通报安全运行控制中心值班经理,由值班经理对突发事件进行统一调派和处理,起到对突发事件的防范作用。
36
37 === ===
38
39 === **3.1.2 系统监控人员** ===
40
41 由增值服务公司人员组成。系统监控工作是指监控人员在监控预案的基础上,采用人工和技术工具相结合的方式,按照设定监控点的技术指标和阀值,对信息系统相关的网络、系统、应用的运行状态进行全方位、全过程、实时的监控,能够及时发现系统的异常情况。系统监控人员可以将突发事件进行上报,并状态异常的情况及时通报安全运行控制中心值班经理从而寻求解决。
42
43 === ===
44
45 === **3.1.3 热线服务人员** ===
46
47 热线人员接受企业及海关的热线服务请求,利用热线查询系统解决用户问题。
48
49 热线服务人员由增值服务公司人员担任,将系统用户提出的突发事件和疑似突发事件直接提交到安全运行控制中心,寻求二线技术支持。
50
51 == ==
52
53 == **3.2 安全运行控制中心** ==
54
55 安全控制中心是公司对外突发事件处理的唯一接口,对内负责公司各个部门突发事件处理协调工作。安全运行控制中心是一个跨部门的虚拟组织,由一名值班经理和若干技术支持人员组成。在突发事件的处理中,安全运行控制中心相当于二线技术支持的角色。
56
57 === ===
58
59 === **3.2.1 值班经理** ===
60
61 接收日常机房巡检岗位、实时监控岗位、热线岗位、技术支持岗位提交的突发事件或隐患;
62
63 对突发事件进行登记、按照《电子口岸应急预案管理办法》确定突发事件的响应级别,协调资源、进行突发事件处理的任务派发、上报和升级,跟踪解决情况和突发事件反馈;
64
65 将值班期间的突发事件汇总报送到运行管理部突发事件统计人员处,如果有重大故障,需要将“故障处理分析报告”报送到运行管理部。
66
67 === ===
68
69 === **3.2.2 技术支持组** ===
70
71 接收当班值班经理指派的突发事件处理任务单;
72
73 第一时间响应突发事件,进行突发事件处理;
74
75 如果需要三线或更广泛的技术支持,技术支持组要会同进行突发事件的解决;
76
77 发现突发事件隐患并进行处理;
78
79 将突发事件处理过程和状态及时上报到值班经理。
80
81
82 == **3.3 突发事件三线技术支持** ==
83
84 三线支持人员是指公司各部门的全部工程师,还包括总公司等其他相关技术人员。对应安全运行控制中心支持人员无法在现场恢复的突发事件,进行深入的研究,提出突发事件处理预案并给以解决。
85
86 三线支持人员还可以召集为公司提供各硬件设备、配套系统软件等供应商,当三线支持人员确定突发事件解决需要硬件设备更换或软件技术支持时,可召集各设备供应商人员提供相关工作配合。
87
88 三线支持人员要做到:
89
90 * 第一时间接受和处理升级后的突发事件。
91 * 向安全运行管理中心上报突发事件进展情况。
92 * 确定突发事件处理预案。
93 * 负责知识库的更新维护。
94 * 协助设备供应商进行突发事件的处理。
95
96 == ==
97
98 == **3.4 运行管理部** ==
99
100 运行管理部负责安全运行控制中心的管理,具体包括对值班经理进行培训、考核;对值班工作进行统一管理和调度;对安全运行控制中心的工作给以汇总和考核。
101
102 运行管理部人员要将安全运行管理中心值班经理报送的突发事件汇总表做进一步的汇总和统计工作。在一定的时间周期内(月度、季度和年度),对安全运行控制中心工作和突发事件进行统计分析,形成安全运行控制中心工作评估报告和突发事件分析汇总报告。
103
104 = =
105
106 = =
107
108 = **4. 突发事件的主要来源** =
109
110 == **4.1 机房巡检** ==
111
112 机房巡检主要负责对机房内的网络设备、系统设备、机房环境等巡检工作;其根据系统人员提供地巡检方法和流程,定期定时在机房内进行巡检,巡检中发现的突发事件,及时上报给安全运行控制中心进行突发事件的登记处理,并配合相应技术人员进行诊断和处理。
113
114 == ==
115
116 == **4.2 实时监控** ==
117
118 实时监控负责利用自动的监控软件,对相关网络、系统、数据库、应用等进行的实时监控,实时监控中发现的预警信息,及时上报,并进行登记处理,协助相应技术人员进行诊断和处理。
119
120 == ==
121
122 == **4.3 热线服务** ==
123
124 接受企业及海关的热线服务请求,利用热线查询系统解决用户问题,如果出现个人能力无法解决问题或普遍频繁出现同一问题时,将问题转发给安全运行控制中心登记处理。
125
126 == ==
127
128 == **4.4 日常系统维护** ==
129
130 网络、数据库、系统、应用等专业人员对系统进行日常的分析和维护中发现的系统的潜在突发事件。
131
132 = =
133
134 = =
135
136 = **5. 突发事件管理流程** =
137
138 突发事件管理流程中包括突发事件发现、突发事件辨别、突发事件定级、突发事件上报、突发事件调度和突发事件处理等重要环节。流程图如下:
139
140 (% style="text-align:center" %)
141 [[image:图片5.jpg]]
142
143
144
145 在突发事件的管理流程中,主要分为突发事件上报和突发事件处理两条主线。
146
147 突发事件上报由一线支持人员根据事件的现象定级,并上报各级领导。具体报告突发事件发现、突发事件定级和突发事件上报工作环节。
148
149 突发时间处理由安全运行控制中心确定响应级别,然后展开事件处理工作。具体包括突发事件响应级别确定、突发事件调度、突发事件升级、突发事件处理、突发事件反馈和关闭等工作环节。
150
151 == ==
152
153 == **5.1 突发事件发现** ==
154
155 在一线技术支持的系统监控、机房巡检或热线支持的过程中,工作人员如发现异常情况且无法立即在现场处理更正,需将事件情况整理,进入突发事件管理流程。
156
157 == ==
158
159 == **5.2 突发事件定级** ==
160
161 一线支持人员对突发事件进行定级,具体定级的方法参见《突发事件应急管理办法》。最终,突发事件将定位一级、二级、三级或非等级突发事件。
162
163 == ==
164
165 == **5.3 突发事件受理** ==
166
167 一线支持人员对突发事件定级后,需在异常情况在5分钟内汇报到安全运行控制中心。安全运行控制中心值班经理在接收到突发事件后,需要进行辨别:是故障还是预警。
168
169 如果认定为故障,则需要按照流程规定进行上报、定级和处理等工作;如果认定为预警,则根据预警的具体情况,由安全运行控制中心值班经理酌情处理。
170
171 == ==
172
173 == **5.4 突发事件上报** ==
174
175 一线支持人员对突发事件定级并汇报到值班经理处后,根据突发事件级别以电话形式向公司领导报告。报告的时间范围从突发事件发现开始计算,原则上不超过10分钟。突发事件的级别不同,需要上报的领导范围也不同,具体上报范围规则见下表:
176
177 |上报范围|一级突发事件|二级突发事件|三级突发事件
178 |数据中心应急领导小组|■| |
179 |数据中心有关部门负责人|■|■|
180 |公司领导|■|■|
181 |公司相关部门负责人|■|■|■
182
183 非等级突发事件不必上报。
184
185 == ==
186
187 == **5.5 突发事件响应级别确定** ==
188
189 值班经理在接到一线支持人员的突发事件汇报后,根据事件现象初步判断事件发生的物理场所和逻辑范围,然后确定对此突发时间的响应级别。响应级别的判断也依据《突发事件应急管理办法》。最终,确定该事件为一级、二级、三级或非等级响应。
190
191 确定了事件的响应级别后,进入突发事件处理环节,同时值班经理将对事件的处理过程进行记录。根据不同的突发事件等级,值班经理要上报处理进度。
192
193 == ==
194
195 == **5.6 突发事件调度** ==
196
197 安全运行控制中心负责所有类型突发事件的统一调度。突发事件调度工作包括突发事件登记、确定突发事件处理方案、组织实施突发事件处理工作、任务派发、突发事件处理过程跟踪记录和突发事件升级等具体工作内容。
198
199 在明确突发事件并上报后,安全控制中心需要填写《突发事件登记单》,对突发事件进行登记。登记时首先要对突发事件进行编号。
200
201 值班经理要与技术支持人员一起讨论突发事件处理方案并立即实施突发事件恢复工作,必要是对突发事件进行升级,并扩大技术支持的范围,寻求三线技术支持。
202
203 在突发事件处理的过程中,安全控制中心值班经理要不断的跟踪突发事件,填写《突发事件登记单》,将突发事件的处理情况和升级情况记录到《突发事件登记单》中。
204
205 对于一、二级突发事件,为了保障电子口岸数据中心领导和公司领导及时获得处理的实时进展情况,在调度过程中,安全运行控制中心值班经理可召开电话会议,以便于更好的沟通交流。
206
207 == ==
208
209 == **5.7 突发事件响应级别升级** ==
210
211 如果在规定的时间内对于无法解决的突发事件,安全运行控制中心需要升级突发事件的响应级别,让更大范围的支持人员介入。突发事件在规定的时限内不能够解决,按照下表的规定进行响应级别升级。
212
213 |(% rowspan="2" %)突发事件|响应级别|一级|二级|三级|非等级
214 |处理时限|≦2小时|≦4小时|≦8小时|≦24小时
215
216
217 因此,当突发事件发生后,在特定的时间内没有完成突发事件排除工作,则需要进行响应升级。
218
219 原本非等级响应突发事件,如果在16个小时内未完成有效处理,突发事件响应则立即升为三级响应;
220
221 原本三级响应突发事件,如果在4个小时内未完成有效处理,突发事件响应则立即升为二级响应;
222
223 原本二级响应突发事件,如果在2个小时内未完成有效处理,突发事件响应则立即升为一级响应。
224
225 == ==
226
227 == **5.8 突发事件处理** ==
228
229 安全运行控制中心在突发事件处理时,严格把握在最短时限内快速恢复业务的原则,按照突发事件处理预案处理突发事件。没有突发事件处理预案时,负责拟定突发事件处理临时预案。临时预案的内容要及时向运行管理部汇报,在得到确认后方可实施。需要通过变更预案排除突发事件时,启动相关的变更流程。
230
231 在突发事件处理完毕后,值班经理需要将启动的临时预案和变更等工作记录,提交到运行管理部。
232
233 == ==
234
235 == **5.9 突发事件反馈** ==
236
237 突发事件处理完毕后可通过客服部门或用户测试确认,需要向用户反馈的突发事件要通过客服部门进行反馈。突发事件处理结束后,可以由安全运行控制中心根据突发事件的不同级别,以电话或短信方式向有关领导和相关人员反馈突发事件处理结果。
238
239 == ==
240
241 == **5.10 突发事件关闭** ==
242
243 在得到可以突发事件恢复的确认后,安全运行控制中心要关闭突发事件。突发事件关闭后,将突发事件入库管理。同时,安全运行控制中心要进行突发事件原因个案分析,找出根本原因或其他相关隐患。如果不能找到根本原因或者无法根本解决突发事件,则需要将突发事件提升为问题,进入问题处理流程。突发事件分析的内容可以作为问题流程的数据。
244
245 最后,安全运行控制中心需要将《突发事件登记单》填写完整。
246
247 == ==
248
249 == **5.11 突发事件汇总报送** ==
250
251 值班经理在完成当天的值班任务后,需要填写《突发事件汇总表》,并将《突发事件汇总表》在值班时间内记录的若干份《突发事件登记单》报送到运行管理部。
252
253 = =
254
255 = =
256
257 = **6. 突发事件处理策略** =
258
259 在系统运行过程中,会发生一些重大突发事件(一级突发事件和二级突发事件),对于此类突发事件,突发事件处理程序基本按照突发事件管理流程进行。但是由于此类突发事件影响范围大,因此运行部根据突发事件的具体情况,按照数据中心《突发事件应急预案》通报相关部门,待应急领导小组核批后,启动业务应急处理预案。安全运行控制中心按照快速通报制度,发布快速通报,通报的内容包括,突发事件等级、突发事件原因、预计恢复时间、突发事件处理情况等。突发事件应急处理过程中,各级业务、技术管理部门应加强联系、紧密配合、随时通报处理情况。突发事件应急处理过程中,数据中心安全运行处、客服处、技术处、业务处和公司运行管理部门通过电话、邮件、短信等方式加强联系、紧密配合、随时通报处理情况。
260
261 对于常见的突发事件,可以总结形成知识,归纳到知识库中。知识库的建设是运行管理体系中的一项重要的工作。知识库中的知识都有相关的问题描述及解决方案。技术支持人员可以根据知识库中的相关知识解决一些常见的突发事件,加快了突发事件的解决速度,提高了在线解决率。知识库建设的最终目标是整理形成一个对技术人员开放的系统知识库。
262
263 = =
264
265 = =
266
267 = **7. 绩效考核指标** =
268
269 突发事件处理协调组评估指标为评估突发事件处理协调工作的具体指标,对评估工作质量,规范工作流程,明确工作方向起着指导性作用。这些指标均在一个固定的统计周期内(如日、周、月)给予评价。具体指标如下:
270
271
272 |评估指标|指标简介|评估目的
273 |(((
274 突发事件处理的
275
276 响应时间
277 )))|统计突发事件从发生到突发事件定级后正式处理所耗的平均时间|反映突发事件处理的响应速度
278 |系统突发事件总数|统计系统突发事件总数|(((
279 反映突发事件处理
280
281 工作量
282 )))
283 |突发事件上报率|及时上报的突发事件数/总突发事件数|反映突发事件上报的情况
284 |一线恢复突发事件率|技术支持一次性解决突发事件次数/系统突发事件总数|反映知识库完善程度
285 |突发事件解决率|解决突发事件次数/系统突发事件总数|反映突发事件处理水平
286 |突发事件在承诺的响应时间内得到解决的比例|统计突发事件在与用户承诺的响应时间内得到解决的突发事件数量/系统突发事件总数的比例|反映突发事件处理的质量
287 |系统中止服务时间| |运行服务的总体水平
288
289
290
291 = **8. 相关文档** =
292
293 1、《突发事件应急预案》
294
295 2、《运行管理办法-问题管理分册》
296
297 3、《运行管理办法-变更管理分册》
298
299 4、《运行管理办法-安全运行控制中心部分》
300
301 5、附件:《××(时间段)突发事件汇总表》、《突发事件登记单》
302
303
304
305 **系统事件上报登记单**
306
307 |(% colspan="17" %)**事件基本情况(发现事件用户填写,全部为必填项)**
308 |**事件编号**|(% colspan="3" %)SJ+日期8位+流水号3位|(% colspan="2" %)**事件来源**|(% colspan="6" %)**□热线 □监控 □      **|(% colspan="3" %)(((
309 **建议处理**
310
311 **方式**
312 )))|(% colspan="2" %)(((
313 **□故障 **
314
315 **□预警(非故障)**
316 )))
317 |**事件发生时间**|(% colspan="3" %)年 月 日 时 分|(% colspan="2" %)**发生频次**|(% colspan="3" %)**次**|(% colspan="3" %)**事件等级**|(% colspan="5" %)(((
318 **□一级 □二级 **
319
320 **□三级 □非等级**
321 )))
322 |**现象详细描述**|(% colspan="8" %)(((
323
324
325
326 )))|(% colspan="3" %)**影响业务范围**|(% colspan="5" %)(((
327
328
329
330
331 )))
332 |**待回复基本资料**|(% colspan="9" %)//用户姓名、电话、单位、电子邮件、传真等信息//|(% colspan="7" %)**事件汇报人(签字):**
333 |(% colspan="17" %)**事件处理回执(安全运行控制中心值班经理填写)**
334 |(% colspan="2" %)**接到汇报时间**|(% colspan="3" %) 年 月 日 时 分|(% colspan="2" %)(((
335 **实际处理**
336
337 **方式**
338 )))|(% colspan="6" %)(((
339 **□故障 **
340
341 **□预警(非故障)**
342 )))|(% colspan="3" %)**值班经理**|// 值班经理签字//
343 |(% colspan="2" %)(((
344 **现象详细描述**
345
346 **(补充填写)**
347 )))|(% colspan="4" %)(((
348
349
350
351
352 )))|(% colspan="5" %)(((
353 **影响业务范围**
354
355 **(补充填写)**
356 )))|(% colspan="6" %)
357 |(% colspan="2" %)**事件原因**|(% colspan="15" %)(((
358
359
360
361
362 )))
363 |(% colspan="3" %)**值班经理审核意见**|(% colspan="5" %) |(% colspan="6" %)**事件恢复时间**|(% colspan="3" %) 年 月 日 时 分
364 |(% colspan="3" %)**事件最终状态**|(% colspan="14" %)**□关闭  □暂停  □其他                          **
365
366
367
368 **系统事件处理记录单**
369
370 |(% colspan="36" %)**事件基本情况(监控、热线等发现事件方填写)**
371 |(% colspan="3" %)**事件编号**|(% colspan="7" %)SJ+日期8位+流水号3位|(% colspan="7" %)**事件来源**|(% colspan="10" %)**□热线 □监控 □      **|(% colspan="6" %)**汇报人**|(% colspan="3" %)
372 |(% colspan="3" %)**事件发生时间**|(% colspan="7" %) 年 月 日 时 分|(% colspan="7" %)**发生频次**|(% colspan="5" %)** 次**|(% colspan="5" %)**事件等级**|(% colspan="9" %)**□一级 □二级 □三级 □非等级**
373 |(% colspan="3" %)(((
374 **现象详细描述**
375
376
377 )))|(% colspan="19" %)(((
378
379
380
381 )))|(% colspan="5" %)(((
382 **影响业务范围**
383
384 **(必须填写)**
385 )))|(% colspan="9" %)
386 |(% colspan="7" %)**待回复用户基本资料**|(% colspan="29" %)//用户姓名、电话、单位、电子邮件等信息//
387 |(% colspan="36" %)**事件受理(值班经理填写)**
388 |(% colspan="5" %)**接到汇报时间**|(% colspan="8" %) 年 月 日 时 分|(% colspan="6" %)**处理方式**|(% colspan="10" %)**□故障 □预警(非故障)**|(% colspan="5" %)**值班经理**|(% colspan="2" %)// 值班经理签字//
389 |(% colspan="5" %)**事件类别**|(% colspan="7" %)**□内部 □外部 □其它**|(% colspan="24" %)**□外联 □海关系统 □运营商 □物理环境 □硬件 □软件 □人为 □     **
390 |(% colspan="5" %)**事件响应级别**|(% colspan="11" %)**□一级 □二级 □三级 □非等级**|(% colspan="9" %)**事件详细分类**|(% colspan="11" %)列出三级以下的分类,如DB、MQ等
391 |(% colspan="6" %)**影响资产(软、硬件) **|(% colspan="12" %) |(% colspan="4" %)**优先级**|(% colspan="14" %)
392 |(% rowspan="4" %)(((
393 **上报**
394
395 **过程**
396 )))|(% colspan="10" %)**上报时间**|(% colspan="15" %)**上报范围**|(% colspan="10" %)**事件状态**
397 |(% colspan="10" %) |(% colspan="15" %) |(% colspan="10" %)
398 |(% colspan="10" %) |(% colspan="15" %) |(% colspan="10" %)
399 |(% colspan="10" %) |(% colspan="15" %) |(% colspan="10" %)
400 |(% colspan="3" %)**事件原因**|(% colspan="33" %)(((
401
402
403
404 )))
405 |(% colspan="3" rowspan="2" %)(((
406 **升级**
407
408 **记录**
409 )))|(% colspan="11" %)**升级时间**|(% colspan="9" %)**升级人**|(% colspan="9" rowspan="2" %)(((
410 **其他参**
411
412 **与人员**
413 )))|(% colspan="4" rowspan="2" %)
414 |(% colspan="11" %) |(% colspan="9" %)
415 |(% colspan="8" %)**值班经理审核意见**|(% colspan="12" %) |(% colspan="10" %)**事件恢复时间**|(% colspan="6" %) 年 月 日 时 分
416 |(% colspan="8" %)**事件最终状态**|(% colspan="28" %)**□关闭  □暂停  □其他                          **
417 |(% colspan="36" %)**事件处理(事件处理的技术支持人员填写)**
418 |(% colspan="4" %)**处理开始时间**|(% colspan="5" %)**处理结束时间**|(% colspan="22" %)**处理方法与结果**|(% colspan="4" %)**处理人**|**备注**
419 |(% colspan="4" %) |(% colspan="5" %) |(% colspan="22" %) |(% colspan="4" %) |
420 |(% colspan="4" %) |(% colspan="5" %) |(% colspan="22" %) |(% colspan="4" %) |
421 |(% colspan="4" %) |(% colspan="5" %) |(% colspan="22" %) |(% colspan="4" %) |
422 |(% colspan="4" %) |(% colspan="5" %) |(% colspan="22" %) |(% colspan="4" %) |
423 |(% colspan="4" %) |(% colspan="5" %) |(% colspan="22" %) |(% colspan="4" %) |
424 |(% colspan="36" %)**问 题 调 查(值班经理需要探究事件根本原因时填写)**
425 |(% colspan="2" %)(((
426 **问题**
427
428 **单号**
429 )))|(% colspan="13" %)WT+日期8位+流水号3位|(% colspan="6" %)(((
430 **问题**
431
432 **负责人**
433 )))|(% colspan="3" %) |(% colspan="4" %)(((
434 **问题**
435
436 **处理时间**
437 )))|(% colspan="8" %)(((
438 年 月 日
439
440 至 年 月 日
441 )))
442 |(% colspan="2" %)(((
443 **问题**
444
445 **描述**
446 )))|(% colspan="34" %)(((
447
448
449
450                         值班经理:           年  月  日
451 )))
452
453
454 **值班经理工作交接班表**
455
456 |日期|值班经理|系统状态|设备状态|交接值班经理
457 | | | | |
458 | | | | |
459 | | | | |
深圳市艾拓先锋企业管理咨询有限公司