14 服务连续性管理实践

author	version	line-number	content
1	{{box cssClass="floatinginfobox" title="Contents"}}
2	{{toc/}}
3	{{/box}}
4
5	(((
6
7	)))
8
9	需要下载 ITIL 4 服务连续性管理实践【中文】pdf版全文，请关注微信公众号itilxf ，并回复“服务连续性”即可。
10
11	[[image:微信截图_20210206234644.png]]
12
13	申明：
14
15	本系列ITIL 4实践中文版本由ITIL先锋论坛专家委员会组织翻译，国内众多从事ITIL理论推广及落地实践的专家们参与，需要下载最新翻译版本请关注微信公众号：ITILXF，也可访问ITIL4中文知识库网站：itil4hub.cn。
16
17
18	请注意，ITIL先锋论坛专家团队仅仅只是进行了这些著作的语种转换工作，我们并不拥有包括原著以及中文发行文件的任何版权，所有版权均为Axoles持有，读者在使用这些文件（含本中文翻译版本）时需完全遵守Axoles 和 TSO所申明的所有版权要求。
19
20
21	翻译：李天池审校：张宏伟审核：谢帅
22
23
24
25	----
26
27	= 1 关于本文档 =
28
29	本文档提供服务连续性实践实用指南，分为五个主要部分，涵盖：
30
31	* 本实践的一般信息
32	* 本实践相关的流程和活动及其在服务价值链中的作用
33	* 参与本实践的组织和人员
34	* 支持本实践的信息和技术
35	* 对本实践的合作伙伴和供应商的考虑
36
37	== 1.1 ITIL 4资格认证计划 ==
38
39	本文档中的部分内容可作为以下教学大纲的一部分以供检查：
40
41	* ITIL专家创建、交付和支持
42	* ITIL专家交付利益干系人价值
43
44	详情请参考各部分教学大纲。
45
46
47
48	----
49
50	= 2 一般信息 =
51
52
53	== 2.1 目的和描述 ==
54
55	* 关键信息
56
57	服务连续性管理实践的目的是确保灾难发生时，服务的可用性和性能能够保持在足够的水平。本实践提供了一个框架机制，利用产生有效响应的能力来构建组织的弹性，以保障关键利益相关者的利益，还有组织的声誉、品牌和创造价值的活动。
58
59	* 定义：灾难
60
61	一个突发的意外事态，会对组织造成巨大损坏或严重损失。要被归类为灾难，这一事态必须与组织预定义的特定业务影响准则相匹配。服务连续性管理实践有助于确保服务提供者做好应对高影响事件的准备，这些事件会破坏组织的核心活动和/或信誉。在数字化转型的背景下，服务连续性管理实践变得越来越重要，因为在各个行业，数字化服务的作用越来越大。对于在过去专注于非技术灾难的组织而言，重大服务中断可能产生灾难性的影响。
62
63	云解决方案的广泛使用，以及与合作伙伴和服务消费者的数字化服务的广泛整合，正在产生更加难以控制的新的关键依赖关系。合作伙伴和服务消费者通常会投资于高可用性和高连续性解决方案上，但是组织之间缺乏整合和一致性会产生新的脆弱性，这一点需要被了解并解决。
64
65	服务连续性管理实践与其他实践（包括可用性管理、容量和性能管理、信息安全管理、风险管理、服务设计、关系管理、架构管理和供应商管理实践）相结合，可以确保组织的服务具有弹性并为灾难性事件做好准备。
66
67	风险的概念是服务连续性管理实践的核心。该实践通常可以减轻无法被完全避免的高影响、低概率风险（因为某些风险因素不在组织的控制之下，例如自然灾害）。
68
69	简单来说，此实践与事件管理实践非常相似，不同之处在于其潜在的损害要大得多，并且它可能威胁到服务提供者创造价值的能力。
70
71	服务连续性管理实践与服务价值系统（SVS）中的可用性管理实践密切相关，并且在某些情况下可以合二为一。它也与公司背景下的业务连续性管理实践紧密相关，并可以纳入其中。
72
73	服务经济时代，每个组织的业务都是由服务驱动和数字化的。由于这样的紧密联系，业务连续性管理实践可能会与数字化服务连续性与服务管理进行全面整合。如果数字化转型导致消除了“ IT 管理”和“业务管理”之间的界限，则这种整合可能是可行且有用的（有关该主题的更多信息，请参见ITIL4：高速IT）。
74
75
76	== 2.2 术语和概念 ==
77
78	* 定义：服务连续性
79
80	在灾难事态或破坏性事件发生后，服务提供者以可接受的预定义级别继续服务运营的能力。
81
82	对于内部服务提供商，服务连续性管理实践的主要目的是通过管理可能影响IT服务的风险来确保服务提供者能够始终提供相关的议定服务级别，从而支持整个业务连续性管理实践。
83
84	对于外部服务提供商，服务连续性管理等同于业务连续性管理。
85
86	业务连续性专业人员也有兴趣处理业务危机，如负面媒体关注或破坏性市场事件。但是，在本实践指南中，服务连续性管理实践的范围仅限于运营风险。
87
88
89	=== 2.2.1 灾难（或破坏性事件或危机） ===
90
91	ISO将灾难定义为“一种具有高度不确定性的情况，这种情况会破坏核心业务和/或组织的信誉，并需要紧急行动”
92
93	明确定义被认为是灾难的事态列表通常是一个好主意。这样做有助于制定一套适当的服务连续性计划，从而确保组织做好应对破坏性事件的准备。灾难清单通常包括：
94
95	* 网络攻击
96	* 停电
97	* 战略合作伙伴的失败
98	* 火灾
99	* 洪水
100	* 关键人员不可用
101	* 大规模IT基础设施故障（例如数据中心故障）
102	* 自然灾害
103	* 界定那些不是灾难的事态同样重要。通常，服务连续性管理实践不涵盖：
104	* 轻度故障故障被视为轻度或重度取决于其对业务的影响程度。重要的是要考虑诸如受影响的服务行动，故障的规模，故障的时间等因素。
105	* 战略，政治，市场或行业事件
106
107	为了从灾难中成功恢复，服务提供者应该定义服务的连续性要求。服务的连续性要求包括：
108
109	* 恢复时间目标(RTO)
110	* 恢复点目标(RPO)
111
112	最低服务连续性级别（请参阅图2.1）
113
114	(% style="text-align:center" %)
115	[[image:1613802480933-588.png]]
116
117	图2.1 服务的连续性要求：RTO，RPO，最低目标服务级别
118
119
120	=== 2.2.2 恢复时间目标 ===
121
122	\|(((
123	定义：恢复时间目标
124
125	由于业务功能缺失导致对组织产生严重影响之前，服务中断持续的最长时间。这就意味着在这个最大约定时间内必须重新开始生产或业务活动，或者必须恢复资源。
126	)))
127
128	估算RTO时应考虑的主要因素是：
129
130	* 服务提供者提供服务的能力下降以及与此下降相关的成本
131	* 服务级别协议罚款和监管判决
132	* 与竞争优势和声誉减弱相关的损失
133
134	业务连续性专业人员还使用术语“最大容忍中断时间/最大可接受中断（MAO）”，并将其与RTO区分开。
135
136	ISO 22301：2012提供以下定义：
137
138	* MAO因没有提供生产/服务或执行活动而产生的，为不良影响所花费的变得不可接受的时长
139	* RTO 事件之后的时间段，在此期间生产或业务活动必须重新开始，或者资源必须恢复
140
141	按照此逻辑，RTO应当比MAO在数量上少一些，这足以说明组织的风险偏好.MAO应该在业务影响分析中确定。RTO应该在服务连续性计划的开发中定义。
142
143
144	=== 2.2.3 恢复点目标 ===
145
146	\|(((
147	定义：恢复点目标
148
149	活动所使用的必须恢复的信息所指向的点，以使活动在重新开始后能够有效运行。
150	)))
151
152	RPO定义了可容许的数据损失的时间段。如果RPO为30分钟，则在破坏性事态之前30分钟应至少有一个备份，在服务恢复后的服务交付重新开始时，距离破坏性事态之前30分钟或更短时间内的数据是可用的。
153
154	估算RPO时应考虑的主要因素是：
155
156	* 使用数据的服务的重要性
157	* 数据的重要性
158	* 数据的生产率。
159
160	例如，一家网上商店每小时接收100个订单。高管们说，丢失200个订单将是不可接受的。因此，RPO为2小时。
161
162	RPO定义了备份频率的要求。在灾难发生时，备份管理必须确保最近的备份副本的可用性。
163
164
165	=== 2.2.4 最低目标服务级别 ===
166
167	\|定义：最低目标服务级别服务提供者可接受的服务级别，可以在中断期间实现其目标。
168
169	灾难恢复期间，服务提供者通常应以最低目标服务级别提供服务。即使客户没有特殊要求，但达到最低服务级别也有助于尽量减小损失。
170
171	最低目标服务级别通常根据以下方面进行定义：
172
173	* 中断期间用户可以使用的特定服务操作和功能点的列表
174	* 中断期间应能够访问服务的有限的用户数量或特定用户组
175	* 中断期间用户应能够处理的单位时间段内有限的交易数量。
176
177	=== 2.2.5 业务影响分析 ===
178
179	\|(((
180	定义：业务影响分析
181
182	服务连续性管理实践中的关键活动，用于标识重要的业务功能（VBF）及其依赖关系。这些依赖关系可能包括供应商，人员，其他业务流程和IT服务。业务影响分析定义了IT服务的恢复要求。这些要求包括RTO，RPO和每个IT服务的最低目标服务级别。
183	)))
184
185	业务影响分析（BIA）是一个流程，用于分析活动以及中断可能对其产生的影响
186
187	根据ISO 22301，业务影响分析应包括：
188
189	* 识别支持产品和服务提供的活动
190	* 评估不执行这些活动，随着时间流逝而造成的影响
191	* 设置优先级时间范围以在明确规定的最低可接受水平上恢复这些活动，考虑到在这时间内不恢复它们，带来的影响将变得不可接受
192	* 确定这些活动的依赖关系和支持资源，包括供应商，外包合作伙伴，以及其他相关利益方。
193
194	=== 2.2.6 服务连续性/ 灾难恢复计划 ===
195
196	\|(((
197	定义：服务连续性
198
199	一套明确定义的考虑到服务管理四维模型的计划，有关组织如何从灾难恢复并返回到灾难之前的状态。
200	)))
201
202	服务连续性计划用于指导服务提供者在中断后响应，恢复服务并将其还原到正常水平。
203
204	服务连续性计划通常包括：
205
206	* 响应计划明确了服务提供者最初如何对破坏性的事态做出反应，以防止损坏，例如火灾或网络攻击。
207	* 恢复计划明确了服务提供者如何恢复服务以实现RTO和RPO。
208	* 计划恢复正常操作明确了服务提供者在恢复之后如何重新开始正常。例如，如果已使用备用数据中心，则此阶段将使主数据中心重新投入运行，并修复再次调用IT服务连续性计划的能力。
209
210	在许多情况下也会有制定业务连续性计划的需求。业务连续性计划可能包括：
211
212	* 紧急响应对接所有紧急服务和活动
213	* 疏散计划以确保人员安全
214	* 危机管理和公众关系计划为不同危机的指挥和控制，以及媒体和公众关系的管理做出计划
215	* 安全计划展示了所有主站点和恢复站点上的安全的各个方面是如何被管理的
216	* 沟通计划展示了在重大事件期间，与所有相关领域和当事人沟通的各个方面是如何处理和管理的。
217
218	这些计划通常在制定时被当做业务连续性管理实践的一部分。
219
220
221	== 2.3 范围 ==
222
223	服务连续性管理实践包括以下领域：
224
225	* 执行BIA来量化服务不可用带给服务提供者和服务消费者的影响
226	* 开发服务连续性策略（并将它们整合到相关的业务连续性管理策略中）。这应该包括的要素有风险缓解措施，以及适当的、全面的恢复选项的选择
227	* 制定和管理服务连续性计划（并为相关的业务连续性计划提供清晰的接口）
228	* 进行练习，并测试如果发生灾难情况下，服务连续性计划的启用
229	* 有一些活动和责任领域尽管仍与服务连续性管理密切相关，但不包含在服务连续性管理实践中。表2.1中列出了这些内容，以及涉及到的包含这些内容的实践。重要的是要记住，ITIL实践只是在价值流的背景中使用的工具的集合；它们应当根据情况在必要时组合在一起。
230
231	\|活动\|实践指南
232	\|与客户沟通以使客户的业务连续性策略和计划与服务提供者的服务连续性策略和计划保持一致\|关系管理
233	\|协商并与客户服务连续性要求达成一致\|服务级别管理
234	\|将服务连续性解决方案设计为服务模型的一部分\|服务设计
235	\|使服务连续性解决方案与业务架构保持一致\|架构管理
236	\|识别与服务连续性相关的风险\|风险管理
237	\|与供应商和合作伙伴建立和管理合同\|供应商管理
238	\|监控服务的可用性\|监控和事态管理
239	\|证明新的服务连续性解决方案\|组合管理
240	\|实施风险缓解措施并更改IT基础设施，以确保弹性\|项目管理, 变更控制
241	\|管理并实施持续改进\|持续改进
242
243	=== 2.3.1 可用性与连续性之间的界线 ===
244
245	服务的连续性和可用性管理的实践之间的界限是不明显的。两种做法都涉及风险的概念，并致力于识别和准备应对可能威胁并导致服务不能运转的事件。对于这两种实践，都需要了解VBF和风险评估或服务故障的BIA。最终，两种做法都确保了组织的抗故障能力。
246
247	一些组织不希望将可用性的管理和连续性分开。但是，表2.2中概述了这两种做法之间的一些差异，在设计服务管理系统时应考虑这些差异。
248
249	\|可用性管理\|服务连续性管理
250	\|专注于高概率的风险\|专注于高影响风险（紧急情况，灾难）
251	\|更主动\|更被动
252	\|减少意外的可能性\|减少意外的影响
253	\|关注技术解决方案\|关注组织措施
254	\|优化\|创建冗余
255	\|不属于公司职能\|通常是公司职能的一部分
256	\|日常业务\|特殊情况下
257	\|MTRS, MTBF, MTBSI\|RTO, RPO
258
259	表2.2 可用性管理和服务连续性管理之间的区别
260
261
262	服务连续性管理实践不包含那些不会严重影响组织的轻度或短期故障。它关注与重大损害相关的风险，无论它们发生的可能性或不可能性有多大。通常，这些是紧急情况：火灾，洪水，断电，数据中心故障等。虽然可用性管理实践并未忽略故障对服务提供者和消费者造成的负面影响，但是单个组件的轻度中断也在流程中有所考虑。
263
264	这些实践的目标之间存在对立。可用性管理实践处理统计数据并分析趋势；连续性管理关心如何应对破坏性事件。
265
266	可用性规划致力于满足当前和将来的商定要求，并避免出现偏差。可用性管理实践发现并消除单点失效；所采取的对策通常是积极主动的，以减少意外事态发生的可能性。服务连续性管理实践专注于规划，以管理破坏性事件的严重后果。备份站点，服务提供的替代方案的过渡，还有恢复程序，都可以减少损坏，但是通常不影响事件发生的可能性。
267
268
269	=== 2.3.2 事件管理 ===
270
271	事件管理实践的活动与服务连续性管理实践的非常相似。但是，事件管理实践专注于不会威胁组织的弹性的故障，而服务连续性管理实践专注于可能会阻碍组织恢复服务交付的高影响故障。
272
273	同样，这两个实践之间的界线是不明显的，应根据对务提供者和服务使用者的影响来明确定义。同时，在某些情况下（通常在小的，单站点服务提供者中），服务连续性活动可作为重大事件管理的一部分来执行。
274
275	当服务连续性计划到位并与事件管理活动分开管理时，应该有一个清晰的标准来触发服务连续性程序。在评估事件的业务影响时，支持专家应确定重大事件是否可能导致灾难，并通知危机管理组，以便他们能够做出有关启用的决定。
276
277	\|(((
278	定义：启用
279
280	服务提供者必须承诺服务连续性计划，以便继续服务的交付。
281	)))
282
283	=== 2.3.3 服务连续性实践在管理风险时的角色 ===
284
285	风险的概念是服务连续性管理实践的核心。该实践通常关注于减轻无法完全防止的高影响，低概率风险。
286
287	为了降低风险，此实践致力于使预期损失减小到最低程度，以便在灾难发生时不会造成重大损失。
288
289	为确保准备好应对破坏性事件，服务连续性管理实践需要有关风险的信息，这些信息可以通过风险管理实践获得。
290
291	有效的服务连续性管理实践可以为组织的风险管理做出显著贡献。大量风险缓解措施在某种程度上与服务连续性选项相关。
292
293
294	== 2.4 实践成功因素 ==
295
296	\|(((
297	定义：实践成功因素
298
299	实践的一个复杂的功能性的组件，是实践实现其目的所必需的。
300	)))
301
302	实践的成功因素（PSF）不仅仅是一项任务或活动，因为它包括全部服务管理四维模型的组件。活动的性质和实践中PSF的资源可能有所不同，但它们共同确保实践有效。
303
304	服务连续性管理实践包括以下PSF：
305
306	* 制定和管理服务连续性计划
307	* 降低服务的连续性风险
308	* 确保认知和准备就绪
309	* 制定和管理服务连续性计划
310
311	为了有效地应对灾难并从中恢复，服务提供者需要服务连续性计划，该计划应反映所选的服务连续性策略。应该根据在BIA期间确定的服务连续性要求选择服务连续性策略。
312
313	因此，为了制定和管理服务连续性计划，服务提供者应该首先完成BIA，然后选择适当的一组服务连续性要求，进而定义服务连续性策略。
314
315	业务连续性研究所（BCI）定义了以下连续性策略:
316
317	* 多样化
318	* 复制
319	* 备用
320	* 事件之后的采集
321	* 什么都不作
322	* 分包
323
324	只要服务的连续性要求和服务提供者的背景有所变化，它们就不是一次性的活动。例如，当服务提供者开始将其服务交付给新的消费者时。该事态是重新执行BIA和更新服务连续性策略的触发器。如果长期没有明显变化，则通常每年进行一次或两次BIA，并与风险评估周期同步。有关BIA的更多详细信息，请参见[[3.2.2>>path:#_bookmark10]].
325
326
327	=== 2.4.1 连续性计划 ===
328
329	BCI在响应和恢复规划结构中引入了三个层次：战略层、战术层和操作层，如表2.3所示。
330
331	表2.3响应和恢复规划结构中的层次
332
333	\|层次\|描述
334	\|战略层\|高管如何做出有关恢复流程的决策，如何与外部各方（包括相关媒体）进行沟通以及处理服务连续性计划中未涉及的任何情况
335	\|战术层\|管理层如何协调恢复流程，以确保根据优先级（当前业务优先级，季节性变化等）适当分配资源并管理规划团队和恢复团队之间的冲突
336	\|操作层\|团队如何执行恢复活动，包括响应破坏性事件，恢复到服务的预定义级别，和/或提供替代设施以继续运行
337
338	根据组织的规模以及服务提供者是内部的还是外部的，可能会有不同的解决方案来构建计划。责任主体也可能有所不同。
339
340	服务连续性计划根据服务提供者的类型和组织的规模，其结构的复杂度可能会或多或少。表2.4 概述了一些常见的结构。
341
342	\|(% style="width:122px" %) \|(% style="width:290px" %)小型组织\|大型组织
343	\|(% style="width:122px" %)内部服务提供商\|(% style="width:290px" %)(((
344	在小型组织的IT部门中，可能没有任何服务连续性计划。所有连续性安排都可以作为业务连续性管理的一部分进行管理。
345
346	特定的IT服务连续性活动可以作为事件管理实践的一部分执行。
347	)))\|(((
348	战略层：由高管执行的危机管理计划。它通常是业务连续性计划的一部分。
349
350	战术层：大量计划，每个计划都涵盖一个产品，服务，业务单元，站点或位置，每个计划都拥有自己的恢复团队。战术的IT部门活动可以包含在业务连续性计划中，但通常将它们设计为单独的相关计划。
351
352	操作层：大量的用于特定恢复活动的详细步骤（例如，从备份中恢复应用程序数据）。其他部门可能会有自己的特定操作说明，作为连续性计划的一部分。
353	)))
354	\|(% style="width:122px" %)外部服务提供商\|(% style="width:290px" %)所有层次（战略，战术，运行的）都可以作为一个计划实施，而一个团队则负责响应和恢复的各个方面。\|连续性计划级别的描述与上面类似，但是服务提供者对所有级别负责。
355
356	表2.4 连续性计划的结构选项
357
358
359	服务连续性计划应涵盖表2.5中概述的灾难发生之后的各个阶段。
360
361	\|(% style="width:79px" %)阶段\|(% style="width:503px" %)响应\|恢复\|复原
362	\|(% style="width:79px" %)计划\|(% style="width:503px" %)响应计划\|恢复计划\|恢复正常运行计划
363	\|(% style="width:79px" %)内容\|(% style="width:503px" %)(((
364	应触发服务连续性计划的事件和场景
365
366	危机管理组联系人
367
368	初始响应并最小化潜在损失的规程。通常会有针对特定场景的程序（例如火灾或停电）
369
370	用于挑选恢复选项的文档化准则（如果有）
371
372	沟通程序，包括与客户，合作伙伴和员工的沟通
373
374	用于启用的文件化的触发器
375	)))\|(((
376	恢复团队成员联系方式
377
378	恢复团队的协调指南
379
380	恢复程序的详细说明
381
382	整个组织的监控和共享信息的指南
383
384	升级程序
385	)))\|(((
386	恢复正常运行的文件化准则
387
388	恢复正常运行程序的详细说明
389
390	复原恢复站点的说明（如果有）
391	)))
392
393	表2.5 响应阶段和恢复阶段
394
395
396	计划应清晰，简洁且以行动为导向。通常，计划中应排除掉那些对于使用计划的恢复团队不直接应用的信息。程序应基于时间，并应包含可能的延迟以及计划与团队之间的交互信息。
397
398	有关响应和恢复的组织结构的详细信息，请参见[[4.2>>path:#_bookmark14]].
399
400
401	=== 2.4.2 减轻服务连续性风险 ===
402
403	服务连续性管理实践包括管理各种风险的控制项的定义和管理。为此，它与风险管理实践和其他以风险为中心的实践（例如容量和性能管理，可用性管理和信息安全管理实践）结合使用。商定的可用性控件应通过服务设计，软件开发和管理，以及基础设施和平台管理实践来实施。
404
405	表2.6 中概述的服务连续性选项可以作为总体风险缓解计划的一部分来设计和实现。
406
407	\|(% style="width:174px" %)服务管理维度\|(% style="width:842px" %)服务连续性措施
408	\|(% style="width:174px" %)组织和人员\|(% style="width:842px" %)(((
409	* 在灾难期间的人员管理
410	* 使用替代站点和设施
411	)))
412	\|(% style="width:174px" %)信息和技术\|(% style="width:842px" %)(((
413	* 物理安全
414	* 弹性电信网络
415	* 运维中的数据保护：使用RAID阵列，SAN等来确保数据的可用性
416	* 数据备份
417	* 容错应用程序
418	* 监控以提供及时告警
419	)))
420	\|(% style="width:174px" %)合作伙伴和供应商\|(% style="width:842px" %)(((
421	* 互惠协议
422	* 将服务外包给多个提供商
423	* 作为服务的火灾探测系统或灭火系统
424	)))
425	\|(% style="width:174px" %)流程和价值流\|(% style="width:842px" %)(((
426	* 服务交付的手动操作和替代方法
427	* 响应和恢复的计划与程序（服务连续性计划）
428	)))
429
430	表2.6 服务连续性管理实践的四个维度
431
432
433	如果服务的BIA表明了有更早和更高的影响发生，则需要采取更多的预防措施。如果初始影响较低且发展缓慢，则投资于连续性和恢复对策是更经济有效的方法。
434
435	选择服务连续性措施时，每个选项的效果和效率应得到评估。同样重要的是持续控制并验证其持续效果和效率。
436
437	* 效果根据风险管理原则，应评估服务连续性措施的效果，并将其与破坏性事态的预期损失进行比较。
438	* 效率服务连续性度量的成本应该进行评估，并与收益进行比较。通过估算实施该措施后破坏性事态发生概率的降低，并乘以发生事态会对服务提供者和客户造成的预期的影响，可以计算出收益。就成本而言，应将此价值与该措施实施的成本进行比较。这里可以使用成本效益分析。
439
440
441	=== 2.4.3 确保认知和就绪状态 ===
442
443	未经测试的恢复计划通常根本无法按预期工作。因此，测试是服务连续性管理的关键组成部分，并且是确保所选策略，已实施措施和计划切实可行的唯一方法。
444
445	测试服务连续性计划是检查和提高准备状态的一种手段。通过定期修改计划和程序，恢复团队发现缺陷和低效率，然后更新服务连续性计划以反映他们的发现。
446
447	BCI定义以下演练类型:
448
449	* 走查
450	* 桌上演练
451	* 指挥所演练
452	* 现场
453	* 测试。
454
455	根据BCI良好实践指南，每种类型的关键特征和目的。
456
457	表2.7 概述了2013年。
458
459	\|(% style="width:92px" %)演练类型\|(% style="width:426px" %)关键特征\|目的
460	\|(% style="width:92px" %)走查\|(% style="width:426px" %)(((
461	* 基于讨论的演练
462	* 未加压的环境
463	* 通常专注于某一特定区域进行改进
464	)))\|(((
465	用于恢复团队成员首次见面
466
467	利用改进机会
468	)))
469	\|(% style="width:92px" %)桌上演练\|(% style="width:426px" %)(((
470	* 基于一个给定场景的讨论
471	* 通常实时运行，但可以包含“时间跳跃”以使得场景的不同阶段都受到演练
472	)))\|提高对计划的了解
473	\|(% style="width:92px" %)指挥所演练\|(% style="width:426px" %)(((
474	* 以模拟真实事件的方式为恢复团队成员提供信息，并邀请他们做出回应
475	)))\|测试沟通，决策和协调
476	\|(% style="width:92px" %)现场\|(% style="width:426px" %)(((
477	* 测试计划的最逼真的方法
478	* 范围可以从一个组件的恢复的小型排练，到整个服务或组织的恢复的全面排练
479	* 通常包括参与的利益相关方
480	)))\|测试在发生破坏性事态时，达到RTO，RPO和最低目标服务水平的能力
481	\|(% style="width:92px" %)测试\|(% style="width:426px" %)(((
482	* 它通常应用于特定的硬件或软件，例如从备份恢复应用程序数据。
483	* 依照ISO 22301，测试是一种独特类型的演练，它包含了一个期望，就是：演练的（一个或多个）目标的成功或失败要素正在计划中
484	)))\|当故障的风险较高时，测试服务组件的恢复
485
486	表2.7 锻炼类型
487
488
489	演练应该按计划的时间间隔，以及发生可能影响恢复的显著变更时实施。服务中断的可能造成的影响程度越高，演练的频率就应该越高。
490
491	演练不仅是确保准备就绪的一种方法，而且是一个改进机会。因此，通常的好主意是，分析测试期间的发现以及整个恢复团队表现，然后生成包括发现和正式建议的演练报告。
492
493
494	== 2.5 关键指标 ==
495
496	每个实践所做的贡献应该在价值流的背景下评估ITIL实践的效果和绩效。与任何工具的性能/绩效一样，只能在应用程序的背景下评估实践的绩效。然而，工具在设计和质量方面会有很大差异，这些差异被定义为一种工具在根据其用途使用时的有效潜力或能力。更多的有关指标，关键绩效指标（KPIs），和有助于此目的的其他工具的进一步指导，能够在度量和报告实践指南中找到。
497
498	服务连续性管理实践的关键指标已映射到其PSF。它们可以用作价值流的背景中的KPI，以评估实践对这些价值流的效果和效率的贡献。表2.8给出了一些关键指标的示例。
499
500	\|实践成功因素\|指标示例

(((

6

7

)))

8

9

需要下载 **ITIL 4 服务连续性管理实践【中文】**pdf版全文，请关注微信公众号itilxf ，并回复“服务连续性”即可。

10

11

[[image:微信截图_20210206234644.png]]

**申明：**

本系列ITIL 4实践中文版本由ITIL先锋论坛专家委员会组织翻译，国内众多从事ITIL理论推广及落地实践的专家们参与，需要下载最新翻译版本请关注微信公众号：ITILXF，也可访问ITIL4中文知识库网站：itil4hub.cn。

16

17

18

请注意，ITIL先锋论坛专家团队仅仅只是进行了这些著作的语种转换工作，我们并不拥有包括原著以及中文发行文件的任何版权，所有版权均为Axoles持有，读者在使用这些文件（含本中文翻译版本）时需完全遵守Axoles 和 TSO所申明的所有版权要求。

翻译：李天池审校：张宏伟审核：谢帅

----

= **1 关于本文档** =

本文档提供服务连续性实践实用指南，分为五个主要部分，涵盖：

30

31

* 本实践的一般信息

32

* 本实践相关的流程和活动及其在服务价值链中的作用

* 参与本实践的组织和人员

* 支持本实践的信息和技术

* 对本实践的合作伙伴和供应商的考虑

== **1.1 ITIL 4资格认证计划** ==

38

39

本文档中的部分内容可作为以下教学大纲的一部分以供检查：

* ITIL专家创建、交付和支持

* ITIL专家交付利益干系人价值

详情请参考各部分教学大纲。

----

= **2 一般信息** =

== **2.1 目的和描述** ==

* **关键信息**

服务连续性管理实践的目的是确保灾难发生时，服务的可用性和性能能够保持在足够的水平。本实践提供了一个框架机制，利用产生有效响应的能力来构建组织的弹性，以保障关键利益相关者的利益，还有组织的声誉、品牌和创造价值的活动。

* **定义：灾难**

一个突发的意外事态，会对组织造成巨大损坏或严重损失。要被归类为灾难，这一事态必须与组织预定义的特定业务影响准则相匹配。服务连续性管理实践有助于确保服务提供者做好应对高影响事件的准备，这些事件会破坏组织的核心活动和/或信誉。在数字化转型的背景下，服务连续性管理实践变得越来越重要，因为在各个行业，数字化服务的作用越来越大。对于在过去专注于非技术灾难的组织而言，重大服务中断可能产生灾难性的影响。

62

63

云解决方案的广泛使用，以及与合作伙伴和服务消费者的数字化服务的广泛整合，正在产生更加难以控制的新的关键依赖关系。合作伙伴和服务消费者通常会投资于高可用性和高连续性解决方案上，但是组织之间缺乏整合和一致性会产生新的脆弱性，这一点需要被了解并解决。

64

65

服务连续性管理实践与其他实践（包括可用性管理、容量和性能管理、信息安全管理、风险管理、服务设计、关系管理、架构管理和供应商管理实践）相结合，可以确保组织的服务具有弹性并为灾难性事件做好准备。

66

67

风险的概念是服务连续性管理实践的核心。该实践通常可以减轻无法被完全避免的高影响、低概率风险（因为某些风险因素不在组织的控制之下，例如自然灾害）。

68

69

简单来说，此实践与事件管理实践非常相似，不同之处在于其潜在的损害要大得多，并且它可能威胁到服务提供者创造价值的能力。

70

71

服务连续性管理实践与服务价值系统（SVS）中的可用性管理实践密切相关，并且在某些情况下可以合二为一。它也与公司背景下的业务连续性管理实践紧密相关，并可以纳入其中。

72

73

服务经济时代，每个组织的业务都是由服务驱动和数字化的。由于这样的紧密联系，业务连续性管理实践可能会与数字化服务连续性与服务管理进行全面整合。如果数字化转型导致消除了“ IT 管理”和“业务管理”之间的界限，则这种整合可能是可行且有用的（有关该主题的更多信息，请参见ITIL4：高速IT）。

== **2.2 术语和概念** ==

* **定义：服务连续性**

在灾难事态或破坏性事件发生后，服务提供者以可接受的预定义级别继续服务运营的能力。

81

82

对于内部服务提供商，服务连续性管理实践的主要目的是通过管理可能影响IT服务的风险来确保服务提供者能够始终提供相关的议定服务级别，从而支持整个业务连续性管理实践。

83

84

对于外部服务提供商，服务连续性管理等同于业务连续性管理。

85

86

业务连续性专业人员也有兴趣处理业务危机，如负面媒体关注或破坏性市场事件。但是，在本实践指南中，服务连续性管理实践的范围仅限于运营风险。

87

88

89

=== **2.2.1 灾难（或破坏性事件或危机）** ===

90

91

ISO将灾难定义为“一种具有高度不确定性的情况，这种情况会破坏核心业务和/或组织的信誉，并需要紧急行动”

92

93

明确定义被认为是灾难的事态列表通常是一个好主意。这样做有助于制定一套适当的服务连续性计划，从而确保组织做好应对破坏性事件的准备。灾难清单通常包括：

* 网络攻击

* 停电

* 战略合作伙伴的失败

* 火灾

* 洪水

* 关键人员不可用

* 大规模IT基础设施故障（例如数据中心故障）

102

* 自然灾害

103

* 界定那些不是灾难的事态同样重要。通常，服务连续性管理实践不涵盖：

104

* 轻度故障故障被视为轻度或重度取决于其对业务的影响程度。重要的是要考虑诸如受影响的服务行动，故障的规模，故障的时间等因素。

105

* 战略，政治，市场或行业事件

106

107

为了从灾难中成功恢复，服务提供者应该定义服务的连续性要求。服务的连续性要求包括：

* 恢复时间目标(RTO)

* 恢复点目标(RPO)

最低服务连续性级别（请参阅图2.1）

(% style="text-align:center" %)

115

[[image:1613802480933-588.png]]

116

117

图2.1 服务的连续性要求：RTO，RPO，最低目标服务级别

118

119

120

=== **2.2.2 恢复时间目标** ===

|(((

**定义：恢复时间目标**

由于业务功能缺失导致对组织产生严重影响之前，服务中断持续的最长时间。这就意味着在这个最大约定时间内必须重新开始生产或业务活动，或者必须恢复资源。

)))

估算RTO时应考虑的主要因素是：

* 服务提供者提供服务的能力下降以及与此下降相关的成本

* 服务级别协议罚款和监管判决

* 与竞争优势和声誉减弱相关的损失

业务连续性专业人员还使用术语“最大容忍中断时间/最大可接受中断（MAO）”，并将其与RTO区分开。

135

136

ISO 22301：2012提供以下定义：

137

138

* MAO因没有提供生产/服务或执行活动而产生的，为不良影响所花费的变得不可接受的时长

139

* RTO 事件之后的时间段，在此期间生产或业务活动必须重新开始，或者资源必须恢复

140

141

按照此逻辑，RTO应当比MAO在数量上少一些，这足以说明组织的风险偏好.MAO应该在业务影响分析中确定。RTO应该在服务连续性计划的开发中定义。

142

143

144

=== **2.2.3 恢复点目标** ===

|(((

**定义：恢复点目标**

活动所使用的必须恢复的信息所指向的点，以使活动在重新开始后能够有效运行。

150

)))

151

152

RPO定义了可容许的数据损失的时间段。如果RPO为30分钟，则在破坏性事态之前30分钟应至少有一个备份，在服务恢复后的服务交付重新开始时，距离破坏性事态之前30分钟或更短时间内的数据是可用的。

估算RPO时应考虑的主要因素是：

* 使用数据的服务的重要性

* 数据的重要性

* 数据的生产率。

例如，一家网上商店每小时接收100个订单。高管们说，丢失200个订单将是不可接受的。因此，RPO为2小时。

161

162

RPO定义了备份频率的要求。在灾难发生时，备份管理必须确保最近的备份副本的可用性。

163

164

165

=== **2.2.4 最低目标服务级别** ===

166

167

|**定义：最低目标服务级别**服务提供者可接受的服务级别，可以在中断期间实现其目标。

168

169

灾难恢复期间，服务提供者通常应以最低目标服务级别提供服务。即使客户没有特殊要求，但达到最低服务级别也有助于尽量减小损失。

170

171

最低目标服务级别通常根据以下方面进行定义：

172

173

* 中断期间用户可以使用的特定服务操作和功能点的列表

174

* 中断期间应能够访问服务的有限的用户数量或特定用户组

175

* 中断期间用户应能够处理的单位时间段内有限的交易数量。

176

177

=== **2.2.5 业务影响分析** ===

|(((

**定义：业务影响分析**

服务连续性管理实践中的关键活动，用于标识重要的业务功能（VBF）及其依赖关系。这些依赖关系可能包括供应商，人员，其他业务流程和IT服务。业务影响分析定义了IT服务的恢复要求。这些要求包括RTO，RPO和每个IT服务的最低目标服务级别。

183

)))

184

185

业务影响分析（BIA）是一个流程，用于分析活动以及中断可能对其产生的影响

186

187

根据ISO 22301，业务影响分析应包括：

188

189

* 识别支持产品和服务提供的活动

190

* 评估不执行这些活动，随着时间流逝而造成的影响

191

* 设置优先级时间范围以在明确规定的最低可接受水平上恢复这些活动，考虑到在这时间内不恢复它们，带来的影响将变得不可接受

192

* 确定这些活动的依赖关系和支持资源，包括供应商，外包合作伙伴，以及其他相关利益方。

193

194

=== **2.2.6 服务连续性/ 灾难恢复计划** ===

|(((

**定义：服务连续性**

一套明确定义的考虑到服务管理四维模型的计划，有关组织如何从灾难恢复并返回到灾难之前的状态。

200

)))

201

202

服务连续性计划用于指导服务提供者在中断后响应，恢复服务并将其还原到正常水平。

服务连续性计划通常包括：

* 响应计划明确了服务提供者最初如何对破坏性的事态做出反应，以防止损坏，例如火灾或网络攻击。

207

* 恢复计划明确了服务提供者如何恢复服务以实现RTO和RPO。

208

* 计划恢复正常操作明确了服务提供者在恢复之后如何重新开始正常。例如，如果已使用备用数据中心，则此阶段将使主数据中心重新投入运行，并修复再次调用IT服务连续性计划的能力。

209

210

在许多情况下也会有制定业务连续性计划的需求。业务连续性计划可能包括：

* 紧急响应对接所有紧急服务和活动

* 疏散计划以确保人员安全

* 危机管理和公众关系计划为不同危机的指挥和控制，以及媒体和公众关系的管理做出计划

215

* 安全计划展示了所有主站点和恢复站点上的安全的各个方面是如何被管理的

216

* 沟通计划展示了在重大事件期间，与所有相关领域和当事人沟通的各个方面是如何处理和管理的。

217

218

这些计划通常在制定时被当做业务连续性管理实践的一部分。

== **2.3 范围** ==

服务连续性管理实践包括以下领域：

* 执行BIA来量化服务不可用带给服务提供者和服务消费者的影响

226

* 开发服务连续性策略（并将它们整合到相关的业务连续性管理策略中）。这应该包括的要素有风险缓解措施，以及适当的、全面的恢复选项的选择

227

* 制定和管理服务连续性计划（并为相关的业务连续性计划提供清晰的接口）

228

* 进行练习，并测试如果发生灾难情况下，服务连续性计划的启用

229

* 有一些活动和责任领域尽管仍与服务连续性管理密切相关，但不包含在服务连续性管理实践中。表2.1中列出了这些内容，以及涉及到的包含这些内容的实践。重要的是要记住，ITIL实践只是在价值流的背景中使用的工具的集合；它们应当根据情况在必要时组合在一起。

230

231

|活动|实践指南

232

|与客户沟通以使客户的业务连续性策略和计划与服务提供者的服务连续性策略和计划保持一致|关系管理

233

|协商并与客户服务连续性要求达成一致|服务级别管理

234

|将服务连续性解决方案设计为服务模型的一部分|服务设计

235

|使服务连续性解决方案与业务架构保持一致|架构管理

236

|识别与服务连续性相关的风险|风险管理

237

|与供应商和合作伙伴建立和管理合同|供应商管理

238

|监控服务的可用性|监控和事态管理

239

|证明新的服务连续性解决方案|组合管理

240

|实施风险缓解措施并更改IT基础设施，以确保弹性|项目管理, 变更控制

241

|管理并实施持续改进|持续改进

242

243

=== **2.3.1 可用性与连续性之间的界线** ===

244

245

服务的连续性和可用性管理的实践之间的界限是不明显的。两种做法都涉及风险的概念，并致力于识别和准备应对可能威胁并导致服务不能运转的事件。对于这两种实践，都需要了解VBF和风险评估或服务故障的BIA。最终，两种做法都确保了组织的抗故障能力。

246

247

一些组织不希望将可用性的管理和连续性分开。但是，表2.2中概述了这两种做法之间的一些差异，在设计服务管理系统时应考虑这些差异。

248

249

|可用性管理|服务连续性管理

250

|专注于高概率的风险|专注于高影响风险（紧急情况，灾难）

|更主动|更被动

|减少意外的可能性|减少意外的影响

|关注技术解决方案|关注组织措施

|优化|创建冗余

|不属于公司职能|通常是公司职能的一部分

|日常业务|特殊情况下

|MTRS, MTBF, MTBSI|RTO, RPO

258

259

表2.2 可用性管理和服务连续性管理之间的区别

260

261

262

服务连续性管理实践不包含那些不会严重影响组织的轻度或短期故障。它关注与重大损害相关的风险，无论它们发生的可能性或不可能性有多大。通常，这些是紧急情况：火灾，洪水，断电，数据中心故障等。虽然可用性管理实践并未忽略故障对服务提供者和消费者造成的负面影响，但是单个组件的轻度中断也在流程中有所考虑。

263

264

这些实践的目标之间存在对立。可用性管理实践处理统计数据并分析趋势；连续性管理关心如何应对破坏性事件。

265

266

可用性规划致力于满足当前和将来的商定要求，并避免出现偏差。可用性管理实践发现并消除单点失效；所采取的对策通常是积极主动的，以减少意外事态发生的可能性。服务连续性管理实践专注于规划，以管理破坏性事件的严重后果。备份站点，服务提供的替代方案的过渡，还有恢复程序，都可以减少损坏，但是通常不影响事件发生的可能性。

267

268

269

=== **2.3.2 事件管理** ===

270

271

事件管理实践的活动与服务连续性管理实践的非常相似。但是，事件管理实践专注于不会威胁组织的弹性的故障，而服务连续性管理实践专注于可能会阻碍组织恢复服务交付的高影响故障。

272

273

同样，这两个实践之间的界线是不明显的，应根据对务提供者和服务使用者的影响来明确定义。同时，在某些情况下（通常在小的，单站点服务提供者中），服务连续性活动可作为重大事件管理的一部分来执行。

274

275

当服务连续性计划到位并与事件管理活动分开管理时，应该有一个清晰的标准来触发服务连续性程序。在评估事件的业务影响时，支持专家应确定重大事件是否可能导致灾难，并通知危机管理组，以便他们能够做出有关启用的决定。

|(((

**定义：启用**

服务提供者必须承诺服务连续性计划，以便继续服务的交付。

281

)))

282

283

=== **2.3.3 服务连续性实践在管理风险时的角色** ===

284

285

风险的概念是服务连续性管理实践的核心。该实践通常关注于减轻无法完全防止的高影响，低概率风险。

286

287

为了降低风险，此实践致力于使预期损失减小到最低程度，以便在灾难发生时不会造成重大损失。

288

289

为确保准备好应对破坏性事件，服务连续性管理实践需要有关风险的信息，这些信息可以通过风险管理实践获得。

290

291

有效的服务连续性管理实践可以为组织的风险管理做出显著贡献。大量风险缓解措施在某种程度上与服务连续性选项相关。

== **2.4 实践成功因素** ==

|(((

**定义：实践成功因素**

实践的一个复杂的功能性的组件，是实践实现其目的所必需的。

300

)))

301

302

实践的成功因素（PSF）不仅仅是一项任务或活动，因为它包括全部服务管理四维模型的组件。活动的性质和实践中PSF的资源可能有所不同，但它们共同确保实践有效。

服务连续性管理实践包括以下PSF：

* 制定和管理服务连续性计划

* 降低服务的连续性风险

* 确保认知和准备就绪

* 制定和管理服务连续性计划

为了有效地应对灾难并从中恢复，服务提供者需要服务连续性计划，该计划应反映所选的服务连续性策略。应该根据在BIA期间确定的服务连续性要求选择服务连续性策略。

312

313

因此，为了制定和管理服务连续性计划，服务提供者应该首先完成BIA，然后选择适当的一组服务连续性要求，进而定义服务连续性策略。

314

315

业务连续性研究所（BCI）定义了以下连续性策略:

* 多样化

* 复制

* 备用

* 事件之后的采集

* 什么都不作

* 分包

只要服务的连续性要求和服务提供者的背景有所变化，它们就不是一次性的活动。例如，当服务提供者开始将其服务交付给新的消费者时。该事态是重新执行BIA和更新服务连续性策略的触发器。如果长期没有明显变化，则通常每年进行一次或两次BIA，并与风险评估周期同步。有关BIA的更多详细信息，请参见[[3.2.2>>path:#_bookmark10]].

325

326

327

=== **2.4.1 连续性计划** ===

328

329

BCI在响应和恢复规划结构中引入了三个层次：战略层、战术层和操作层，如表2.3所示。

表2.3响应和恢复规划结构中的层次

|层次|描述

|战略层|高管如何做出有关恢复流程的决策，如何与外部各方（包括相关媒体）进行沟通以及处理服务连续性计划中未涉及的任何情况

335

|战术层|管理层如何协调恢复流程，以确保根据优先级（当前业务优先级，季节性变化等）适当分配资源并管理规划团队和恢复团队之间的冲突

336

|操作层|团队如何执行恢复活动，包括响应破坏性事件，恢复到服务的预定义级别，和/或提供替代设施以继续运行

337

338

根据组织的规模以及服务提供者是内部的还是外部的，可能会有不同的解决方案来构建计划。责任主体也可能有所不同。

339

340

服务连续性计划根据服务提供者的类型和组织的规模，其结构的复杂度可能会或多或少。表2.4 概述了一些常见的结构。

341

342

|(% style="width:122px" %) |(% style="width:290px" %)小型组织|大型组织

343

|(% style="width:122px" %)内部服务提供商|(% style="width:290px" %)(((

344

在小型组织的IT部门中，可能没有任何服务连续性计划。所有连续性安排都可以作为业务连续性管理的一部分进行管理。

345

346

特定的IT服务连续性活动可以作为事件管理实践的一部分执行。

347

)))|(((

348

战略层：由高管执行的危机管理计划。它通常是业务连续性计划的一部分。

349

350

战术层：大量计划，每个计划都涵盖一个产品，服务，业务单元，站点或位置，每个计划都拥有自己的恢复团队。战术的IT部门活动可以包含在业务连续性计划中，但通常将它们设计为单独的相关计划。

351

352

操作层：大量的用于特定恢复活动的详细步骤（例如，从备份中恢复应用程序数据）。其他部门可能会有自己的特定操作说明，作为连续性计划的一部分。

353

)))

354

|(% style="width:122px" %)外部服务提供商|(% style="width:290px" %)所有层次（战略，战术，运行的）都可以作为一个计划实施，而一个团队则负责响应和恢复的各个方面。|连续性计划级别的描述与上面类似，但是服务提供者对所有级别负责。

表2.4 连续性计划的结构选项

服务连续性计划应涵盖表2.5中概述的灾难发生之后的各个阶段。

360

361

|(% style="width:79px" %)阶段|(% style="width:503px" %)响应|恢复|复原

362

|(% style="width:79px" %)计划|(% style="width:503px" %)响应计划|恢复计划|恢复正常运行计划

363

|(% style="width:79px" %)内容|(% style="width:503px" %)(((

应触发服务连续性计划的事件和场景

危机管理组联系人

初始响应并最小化潜在损失的规程。通常会有针对特定场景的程序（例如火灾或停电）

用于挑选恢复选项的文档化准则（如果有）

沟通程序，包括与客户，合作伙伴和员工的沟通

用于启用的文件化的触发器

)))|(((

恢复团队成员联系方式

恢复团队的协调指南

恢复程序的详细说明

整个组织的监控和共享信息的指南

升级程序

)))|(((

恢复正常运行的文件化准则

恢复正常运行程序的详细说明

复原恢复站点的说明（如果有）

)))

表2.5 响应阶段和恢复阶段

计划应清晰，简洁且以行动为导向。通常，计划中应排除掉那些对于使用计划的恢复团队不直接应用的信息。程序应基于时间，并应包含可能的延迟以及计划与团队之间的交互信息。

397

398

有关响应和恢复的组织结构的详细信息，请参见[[4.2>>path:#_bookmark14]].

399

400

401

=== **2.4.2 减轻服务连续性风险** ===

402

403

服务连续性管理实践包括管理各种风险的控制项的定义和管理。为此，它与风险管理实践和其他以风险为中心的实践（例如容量和性能管理，可用性管理和信息安全管理实践）结合使用。商定的可用性控件应通过服务设计，软件开发和管理，以及基础设施和平台管理实践来实施。

404

405

表2.6 中概述的服务连续性选项可以作为总体风险缓解计划的一部分来设计和实现。

406

407

|(% style="width:174px" %)服务管理维度|(% style="width:842px" %)服务连续性措施

408

|(% style="width:174px" %)组织和人员|(% style="width:842px" %)(((

* 在灾难期间的人员管理

* 使用替代站点和设施

)))

|(% style="width:174px" %)信息和技术|(% style="width:842px" %)(((

413

* 物理安全

414

* 弹性电信网络

415

* 运维中的数据保护：使用RAID阵列，SAN等来确保数据的可用性

* 数据备份

* 容错应用程序

* 监控以提供及时告警

)))

|(% style="width:174px" %)合作伙伴和供应商|(% style="width:842px" %)(((

* 互惠协议

* 将服务外包给多个提供商

* 作为服务的火灾探测系统或灭火系统

)))

|(% style="width:174px" %)流程和价值流|(% style="width:842px" %)(((

426

* 服务交付的手动操作和替代方法

427

* 响应和恢复的计划与程序（服务连续性计划）

)))

表2.6 服务连续性管理实践的四个维度

如果服务的BIA表明了有更早和更高的影响发生，则需要采取更多的预防措施。如果初始影响较低且发展缓慢，则投资于连续性和恢复对策是更经济有效的方法。

434

435

选择服务连续性措施时，每个选项的效果和效率应得到评估。同样重要的是持续控制并验证其持续效果和效率。

436

437

* 效果根据风险管理原则，应评估服务连续性措施的效果，并将其与破坏性事态的预期损失进行比较。

438

* 效率服务连续性度量的成本应该进行评估，并与收益进行比较。通过估算实施该措施后破坏性事态发生概率的降低，并乘以发生事态会对服务提供者和客户造成的预期的影响，可以计算出收益。就成本而言，应将此价值与该措施实施的成本进行比较。这里可以使用成本效益分析。

439

440

441

=== **2.4.3 确保认知和就绪状态** ===

442

443

未经测试的恢复计划通常根本无法按预期工作。因此，测试是服务连续性管理的关键组成部分，并且是确保所选策略，已实施措施和计划切实可行的唯一方法。

444

445

测试服务连续性计划是检查和提高准备状态的一种手段。通过定期修改计划和程序，恢复团队发现缺陷和低效率，然后更新服务连续性计划以反映他们的发现。

BCI定义以下演练类型:

* 走查

* 桌上演练

* 指挥所演练

* 现场

* 测试。

根据BCI良好实践指南，每种类型的关键特征和目的。

表2.7 概述了2013年。

|(% style="width:92px" %)演练类型|(% style="width:426px" %)关键特征|目的

460

|(% style="width:92px" %)走查|(% style="width:426px" %)(((

* 基于讨论的演练

* 未加压的环境

* 通常专注于某一特定区域进行改进

)))|(((

用于恢复团队成员首次见面

利用改进机会

)))

|(% style="width:92px" %)桌上演练|(% style="width:426px" %)(((

470

* 基于一个给定场景的讨论

471

* 通常实时运行，但可以包含“时间跳跃”以使得场景的不同阶段都受到演练

472

)))|提高对计划的了解

473

|(% style="width:92px" %)指挥所演练|(% style="width:426px" %)(((

474

* 以模拟真实事件的方式为恢复团队成员提供信息，并邀请他们做出回应

475

)))|测试沟通，决策和协调

476

|(% style="width:92px" %)现场|(% style="width:426px" %)(((

477

* 测试计划的最逼真的方法

478

* 范围可以从一个组件的恢复的小型排练，到整个服务或组织的恢复的全面排练

479

* 通常包括参与的利益相关方

480

)))|测试在发生破坏性事态时，达到RTO，RPO和最低目标服务水平的能力

481

|(% style="width:92px" %)测试|(% style="width:426px" %)(((

482

* 它通常应用于特定的硬件或软件，例如从备份恢复应用程序数据。

483

* 依照ISO 22301，测试是一种独特类型的演练，它包含了一个期望，就是：演练的（一个或多个）目标的成功或失败要素正在计划中

484

)))|当故障的风险较高时，测试服务组件的恢复

表2.7 锻炼类型

演练应该按计划的时间间隔，以及发生可能影响恢复的显著变更时实施。服务中断的可能造成的影响程度越高，演练的频率就应该越高。

490

491

演练不仅是确保准备就绪的一种方法，而且是一个改进机会。因此，通常的好主意是，分析测试期间的发现以及整个恢复团队表现，然后生成包括发现和正式建议的演练报告。

== **2.5 关键指标** ==

每个实践所做的贡献应该在价值流的背景下评估ITIL实践的效果和绩效。与任何工具的性能/绩效一样，只能在应用程序的背景下评估实践的绩效。然而，工具在设计和质量方面会有很大差异，这些差异被定义为一种工具在根据其用途使用时的有效潜力或能力。更多的有关指标，关键绩效指标（KPIs），和有助于此目的的其他工具的进一步指导，能够在度量和报告实践指南中找到。

497

498

服务连续性管理实践的关键指标已映射到其PSF。它们可以用作价值流的背景中的KPI，以评估实践对这些价值流的效果和效率的贡献。表2.8给出了一些关键指标的示例。

|实践成功因素|指标示例

|制定和管理服务连续性计划|(((

* 具有清晰地文件化连续性要求的产品和服务的百分比

503

* 文件化的服务连续性计划中（关键）产品和服务的百分比

* 及时更新服务连续性计划

)))

|降低服务的连续性风险|(((

* RTO达成情况（实际灾难和演练）

* RPO达成情况（实际灾难和演练）

* 有效连续性措施的百分比

* 实际损失与预期损失之比

)))

|确保认知和就绪状态|(((

* 按计划进行的演练和认知活动的百分比

* 在给定时间段内（通常为过去6个月）对其连续性计划进行测试的服务所占的百分比

)))

表2.8 实践成功因素的指标示例

将指标正确汇总到复杂指标中，将使数据更易于用于价值流的日常管理，以及用于服务连续性管理实践的定期评估和持续改进。没有单一的最佳解决方案。指标将基于总体的服务战略和组织的优先级，以及实践有助于的价值流目标。

----

= **3 价值流和流程** =

== **3.1 价值流贡献** ==

像任何其他ITIL 管理实践一样，服务连续性管理也有助于多个价值流。重要的是要记住，价值流永远不会由单个实践形成。服务连续性管理实践与其他实践相结合，可以为消费者提供高质量服务。实践贡献的主要价值链活动是：

* 交付和支持

* 设计和转换

* 改进

* 获取或构建

* 计划

服务连续性管理实践对服务价值链的贡献如图3.1 所示。

540

541

(% style="text-align:center" %)

542

[[image:1613802652783-527.png]]

543

544

图3.1 服务连续性管理实践对价值链活动贡献的热力图

== **3.2 流程** ==

每个实践可能包含一个或多个流程和活动，它们对于实现该实践的目的可能是必需的。

|(((

**定义：流程**

一组相互关联或交互的活动，可将输入转换为输出。流程接受一个或多个定义的输入，并将其转换为定义的输出。流程定义活动的顺序及它们的依赖关系。

)))

服务连续性管理活动形成五个流程：

* 服务连续性管理的治理

* 业务影响分析

* 制定和维护服务连续性计划

* 测试服务连续性计划

* 响应和恢复

=== **3.2.1 服务连续性管理的治理** ===

567

568

该流程包括表3.1中列出的活动，并将输入转换为输出。

|关键输入|活动|关键输出

|(((

1. 业务影响分析报告

1. 风险登记册

1. 客户要求

1. 法规要求

1. 风险偏好

1. 标准

)))|(((

1. 范围的定义

1. 策略设置

1. 认知和演练方案制定

)))|(((

1. 服务连续性策略

1. 文件化的角色和职责

1. 认知和演练方案

)))

表3.1 服务连续性管理的治理的输入，活动和输出

图3.2显示了流程的工作流程图。

(% style="text-align:center" %)

594

[[image:1613802681329-660.png]]

图3.2 服务连续性管理的治理的工作流程

这些活动可能由组织中的许多人以不同程度的正式方式来执行。表3.2进一步描述了这些活动。

600

601

|(% style="width:106px" %)活动|(% style="width:662px" %)描述

602

|(% style="width:106px" %)范围的定义|(% style="width:662px" %)(((

603

定义服务连续性管理实践的范围，确保它所涵盖的组织的环境和地域清晰。

604

605

组织范围可能受到产品和服务，站点和位置，客户等的限制。那些已停产的或即将终止的产品和服务通常被排除在范围之外，非关键和低利润的产品和服务也一样。

606

607

实施服务连续性管理实践的成本可能很高。因此，如果服务提供者启动服务连续性管理方案，则某些服务，产品或站点最初可能会作为分阶段实施的一部分而被排除在外。

608

609

许多不同的技术被用来定义实践的范围，包括成本效益分析，SWOT分析，PESTLE分析等。

定义范围时，组织应考虑：

* 以前的业务影响分析报告

* 现有风险登记册

* 客户要求

* 监管要求

根据灾难定义实践的范围也很重要。

)))

|(% style="width:106px" %)策略设置|(% style="width:662px" %)(((

策略的设置包括：

* 记录范围。

* 分配角色和职责。如果服务提供者仅启动服务连续性方案，则将没有组织结构来支持任何服务连续性计划。在其他情况下，响应和恢复团队的组织结构通常是服务连续性策略的一部分。

625

* 定义服务连续性管理的一般方法。服务连续性策略应阐明在BIA期间应考虑的可用资源和限制。

626

* 应尽快建立并传达政策，以便所有参与服务连续性管理实践或受其影响的利益相关者都知道范围，限制及其职责。

627

* 范围和政策应定期修订（通常每年一次）。修订被触发，可能是由于破坏性事态（尤其是计划未涵盖的），一个新的服务，一个新的客户或者是与合作伙伴的一个新关系。

628

)))

629

|(% style="width:106px" %)认知和演练方案制定|(% style="width:662px" %)(((

630

测试是整个服务连续性管理实践的关键部分：这是确保所选策略，措施和计划有效的唯一方法。

631

632

应该制定教育，认知培训和演练计划，以确保实践的所有部分（站点，团队成员，服务或CI）每年至少进行一次测试。

633

634

演练方案应确保测试整个的服务管理四维模型：

* 组织和人员

* 具有适当技能的适当人员

* 恢复团队成员的知识和经验

* 工作人员了解服务连续性计划

* 信息和技术:

* 所需的设备正常工作

* 所需的数据可用

* 合作伙伴和供应商:

* 参与响应和恢复的第三方准备就绪，以满足服务连续性要求

* 流程和价值流：

* 程序是正确的，一致的，可管理的

)))

表3.2 服务连续性管理的活动

=== **3.2.2 业务影响分析** ===

659

660

该流程包括表3.3中列出的活动，并将输入转换为输出。

|关键输入|活动|关键输出

|(((

* 服务文档

* 风险评估报告

* VBF损失的财务数据

* 重大事件报告

* 服务模型

* 风险管理策略

* 风险偏好

* 监管要求

)))|(((

* VBF识别

* 中断后果分析

* VBF相互依赖关系识别

* 服务连续性要求的确定

)))|(((

* VBF的优先级列表

* 文件化的VBF损失产生的影响

* 文件化的VBF相互依赖关系

* 业务影响分析报告

)))

表3.3 业务影响分析流程的输入、活动和输出

图3.3 业务影响分析流程的工作流程

(% style="text-align:center" %)

690

[[image:1613802733108-253.png]]

图3.3 显示了流程的工作流程图

这些活动可以由组织中的许多人以不同程度的正式方式来执行。表3.4进一步概述了这些活动。

696

697

|(% style="width:110px" %)活动|(% style="width:657px" %)描述

698

|(% style="width:110px" %)VBF识别|(% style="width:657px" %)(((

699

VBF涉及到服务中对于服务提供者和/或客户的成功至关重要的一部分。识别和文件化这些VBF，以提供适当的焦点和资源分配非常重要。

700

701

可以使用许多不同的技术来识别风险，包括头脑风暴，与利益相关者（包括客户和用户）的访谈，对服务文档的分析等等。

702

703

如果服务提供者具有已建立的风险管理实践，则有关风险评估的信息可能有助于理解最关键的区域。

704

)))

705

|(% style="width:110px" %)中断后果分析|(% style="width:657px" %)(((

706

当确定了VBF时，应确定中断的影响。该影响可能是可以准确识别的“硬” 影响，例如财务损失，也可以是“软” 影响，例如声誉受损或失去竞争优势。

可以考虑FAIR提出的以下形式的损失：

* 生产效率：服务提供者提供服务的能力下降

711

* 响应：与管理损失事态有关的费用

712

* 替换：资产的固有价值，与替换丢失或损坏的资产相关的费用（例如，购买替换服务器）

713

* SLA罚款和监管判决：针对服务提供者的法律或监管行动

714

* 竞争优势：与竞争优势减弱相关的损失。

715

* 声誉：与外部对服务提供者的看法的相关损耗

716

717

影响可能会随时间推移产生变化。服务提供者和客户也许可以在短时间内不使用特定的服务或VBF而正常工作，但是随着时间的流逝，影响可能会增加，直到服务提供者或客户不能再操作。

718

719

BIA演练的主要输出之一是一项IT服务或特定VBF随时间推移的预期损失图。使用此图以驱动服务连续性策略和计划。

720

721

服务中断造成的损失通常会随着时间呈指数增长。除了与组织产生其主要价值主张的能力下降的有关损失之外，还存在罚款，判决和声誉受损的威胁。

722

)))

723

|(% style="width:110px" %)(((

VBF

相互依赖关系识别

)))|(% style="width:657px" %)(((

728

VBF和服务组件以及关键的内部和外部资源之间的相互依赖关系应予以识别和文件化。

729

730

为此，如果已安装配置管理数据库，则服务提供者可以使用服务和配置模型。组件故障影响分析（CFIA）也可能是有用的技术。CFIA可用于识别失效的单个点，现有的冗余等。

731

)))

732

|(% style="width:110px" %)服务连续性要求的确定|(% style="width:657px" %)(((

733

基于对中断后果和识别的相互依赖关系的分析，服务提供者应为服务连续性管理范围中的每个服务或VBF确定服务连续性要求，包括：

* 恢复时间目标

* 恢复点目标

* 最低目标服务级别

)))

表3.4 业务影响分析流程的活动

=== **3.2.3 制定和维护服务连续性计划** ===

744

745

该流程包括表3.5 中列出的活动，并将输入转换为输出。

|关键输入|活动|关键输出

|(((

* 业务影响分析报告

* 现有控件

* 有关可用资源的信息

* 消费者的连续性计划

* 服务连续性策略

)))|(((

* 服务连续性策略制定

* 服务连续性计划制定

* 服务连续性计划的初始测试

)))|(((

* 新的和更新的控件

* 服务连续性策略

* 服务连续性计划

)))

表3.5 制定和维护服务连续性计划流程的输入，活动和输出

图3.4 显示了该流程的工作流程图。

(% style="text-align:center" %)

770

[[image:1613803200091-580.png]]

771

772

图3.4 制定和维护服务连续性计划流程的工作流程

773

774

775

这些活动可以由组织中的许多人以不同程度的正式方式来执行。

表3.6 进一步概述了这些活动。

|(% style="width:147px" %)活动|(% style="width:621px" %)描述

780

|(% style="width:147px" %)服务连续性策略制定|(% style="width:621px" %)(((

781

基于BIA 报告，服务提供者应该确定一套适当的且具有成本效益的服务连续性策略集。

782

783

对于影响更早，影响更大的流程和服务，应采取更多的预防措施。对于影响较低且需要较长时间开发的流程和服务，应更加重视恢复措施。

784

)))

785

|(% style="width:147px" %)服务连续性计划制定|(% style="width:621px" %)(((

786

基于服务连续性政策和策略，服务提供者应该制定和维护服务连续性计划。

787

788

如果服务或恢复团队成员发生变化，则必须更新计划。计划也可以在演练或实际恢复之后更新。

789

)))

790

|(% style="width:147px" %)服务连续性计划的初始测试|(% style="width:621px" %)发布之前，应测试服务连续性计划。初始测试的方法类似于正在进行的演练。

791

792

表3.6 制定和维护服务连续性计划流程的活动

793

794

795

=== **3.2.4 测试服务连续性计划** ===

796

797

该流程包括表3.7 中列出的活动，并将输入转换为输出。

|关键输入|活动|关键输出

|(((

* 认知和演练方案

* 服务连续性计划

)))|(((

* 进行演练

* 服务连续性审计

)))|(((

* 演练报告

* 新的和更新的控件的要求

* 策略或计划的变更请求

* 审计报告

)))

表3.7 测试服务连续性计划流程的输入、活动和输出

图3.5 显示了该流程的工作流程图。

(% style="text-align:center" %)

819

[[image:1613803224419-995.png]]

820

821

图3.5 测试服务连续性计划流程的工作流程

822

823

824

这些活动可能由组织中的许多人以不同程度的正式方式来执行。表3.8进一步概述了这些活动。

825

826

|(% style="width:131px" %)活动|(% style="width:636px" %)描述

827

|(% style="width:131px" %)进行演练|(% style="width:636px" %)(((

828

演练应按计划的时间间隔，和当出现可能影响恢复的显著变化时进行。服务中断的可能影响越高，演练的频率就应该越高。

829

830

演练和测试不仅是确保准备就绪的方法；它们也是改进机会。这通常是一个好主意，用来分析测试结果以及整个恢复团队绩效，然后生成包括结果和建议的演练报告。

831

832

练习报告可能包括对新的或更新的现存的要求，或对服务连续性计划变更的请求。

833

834

如果演练失败，则会更新后续演练时间表以便尽快重新执行失败的演练。

835

)))

836

|(% style="width:131px" %)服务连续性审计|(% style="width:636px" %)(((

837

服务连续性审计可确保在环境更改时，BIA，服务连续性策略和计划保持适当和相关。审计通常是按计划进行的，但是可能由于演练失败或恢复失败而触发。

838

839

审核可以在内部进行，也可以由第三方进行。审计的输出可能会确定一个实施新的或更新的控件的需求，也可以是调整服务连续性策略或计划的需求。

)))

表3.8测试服务连续性计划流程的活动

=== **3.2.5 响应和恢复** ===

846

847

该流程包括表3.9 中所述的活动，并将输入转换为输出。

|关键输入|活动|关键输出

|(((

* 服务连续性计划

* 事件记录

)))|(((

* 调用

* 执行服务连续性计划

)))|(((

* 恢复报告

* 新的和更新的控件的要求

* 变更计划的请求

)))

表3.9 响应和恢复流程的输入、活动和输出

图3.6 显示了该流程的工作流程图。

(% style="text-align:center" %)

868

[[image:1613803263520-830.png]]

图3.6 响应的工作流程和恢复流程

这些活动可以由组织中的许多人以不同程度的正式方式来执行。

表3.10 进一步概述了这些活动。

|(% style="width:152px" %)实现价值|(% style="width:615px" %)描述

878

|(% style="width:152px" %)启动|(% style="width:615px" %)(((

879

启动是一项声明行为，组织的连续性安排需要实施，以便继续提供关键产品和服务[[12>>path:#_bookmark12]].

880

881

启动的决定通常是由“ 危机管理”团队（在组织结构的战略层面上）做出的。[[13>>path:#_bookmark13]]），用于核算：

* 服务中断的潜在影响

* 服务中断的可能持续时间

* 每天/每月/每年的时间

)))

|(% colspan="2" %)(((

888

|(% style="width:143px" %)启动|(% style="width:607px" %)(((

889

如果风险较低，则危机管理团队可以决定不调用服务连续性计划。

如果启动，危机管理团队还应该：

* 确定服务提供者要使用的哪些恢复选项（如果有几个选项可用）

894

* 定义启动的范围（服务，产品，站点，位置等）

895

896

启动是服务连续性计划的最终测试。如果准备工作已经完成并且计划已经制定和经过测试，那么启动应该很简单。如果计划未经测试，则可能会失败。

897

)))

898

|(% style="width:143px" %)执行服务连续性计划|(% style="width:607px" %)(((

899

一旦发生启动，所有参与的恢复团队都应执行服务连续性程序。恢复可能是一段时间的高级活动，需要许多人花费长时间。在战术层面上，恢复团队调度员必须对此进行识别和管理。

900

901

任何时候都可能发生中断，因此对于办公室内外的关键人员而言，容易获得启动流程的指南是非常必要的。

恢复流程通常包括以下阶段：

* 响应：为防止损坏对破坏性的事态做出响应，例如在火灾或网络攻击情况下。

906

* 恢复：根据RTO，RPO和最低要求目标服务级别，恢复服务的交付。

* 返回正常操作。

)))

)))

表3.10 活动的响应和恢复流程

----

= **4 组织和人员** =

== **4.1 角色，能力和责任** ==

921

922

ITIL 实践指南没有描述实践管理的角色，例如实践所有者，实践负责人或实践教练。相反，他们专注于每个实践特有的专门角色。每个角色的结构和命名都可能因组织而异，因此ITIL中定义的任何角色都不应被视为强制性的，只是推荐性的。

923

924

请记住，角色不是职位。一个人可以担任多个角色，一个角色可以分配给多个人。

925

926

角色是在流程和活动的背景中描述的。每个角色都具有基于表4.1中所示模型的一个能力简介的特征。

表4.1 能力代码和简介

|能力代码|能力类型（活动和技能）

|L|**领导者 **决策，委派，监督其他活动，提供激励和动机以及评估结果

933

|A|**管理员 **分配任务并确定优先级，保留记录，进行中的报告并启动基本改进

934

|C|**协调员/沟通者 **协调多方，维护利益相关者之间的沟通，并开展宣传活动

935

|M|**方法和技术专家 **设计和实施工作技术，记录程序，咨询流程，工作分析和持续改进

936

|T|**技术专家 **提供技术（IT）专业知识并实施基于专业知识的任务

937

938

表4.2 中列出了服务连续性管理实践涉及的角色示例，以及相关的能力简介和特定技能。

939

940

|流程活动|(% colspan="2" %)负责角色|(% colspan="2" %)能力类型|具体技能

941

|(% colspan="6" %)服务连续性管理流程的治理

942

|范围的定义|(% colspan="2" %)指导委员会|(% colspan="2" %)MC|对各种影响组织的PESTLE因素的能见度

943

|策略设置|(% colspan="2" %)指导委员会|(% colspan="2" %)MCL|(((

944

意识到组织特定的文档要求

945

946

确保管理人员的持续参与，以确保服务连续性策略的清晰性和持续实现

947

)))

948

|认知和演练方案开发|(% colspan="2" %)连续性管理员|(% colspan="2" %)ACM|(((

演练类型和恢复团队结构的知识

启用沟通渠道

)))

|(% colspan="6" %)业务影响分析流程

954

|VBF识别|(% colspan="2" %)(((

服务或产品所有者

关系经理

服务设计者

客户

)))|(% colspan="2" %)CM|(((

业务分析

很好的了解服务消费者的业务

熟悉产品，包括其架构和配置

)))

|中断后果分析|(% colspan="2" %)(((

服务或产品所有者

关系经理

客户

)))|(% colspan="2" %)MC|(((

976

能够系统地应用定性和定量风险分析工具

977

978

专业能力和对影响服务的PESTLE因素的能见度

979

)))

980

|VBF相互依赖关系识别|(% colspan="2" %)(((

服务或产品所有者

服务设计者

技术专家

架构管理专家

)))|(% colspan="2" %)MT|熟悉产品，包括其架构和配置

989

|服务连续性要求的确定|(% colspan="2" %)(((

服务或产品所有者

连续性管理员

)))|(% colspan="2" %)MTC|(((

对恢复流程的深入了解

了解服务的连续性策略

)))

|(% colspan="6" %)制定和维护服务连续性计划流程

999

|服务连续性策略开发|(% colspan="2" %)(((

连续性管理员

服务设计者

技术专家

)))|(% colspan="2" %)TM|(((

对服务连续性选项有很好的了解

认知现有控件

认知市场上可用的技术

)))

|服务连续性计划开发|(% colspan="2" %)(((

连续性管理员

技术专家

)))|(% colspan="2" %)MTA|(((

优秀的文档编制能力

优秀的逻辑能力

很好地了解服务组件的相互依赖关系

对技术有很好的了解

)))

|服务连续性计划的初始测试|(% colspan="2" %)(((

连续性管理员

响应和恢复协调员及团队成员

)))|(% colspan="2" %)CATL|(((

协调与沟通

对服务连续性计划有深入的了解

了解作为服务连续性策略组成部分的技术

)))

|(% colspan="6" %)测试服务连续性计划流程

1037

|(% colspan="2" %)进行演练|(((

连续性管理员

响应和恢复协调员及团队成员

)))|CATL|(% colspan="2" %)(((

协调与沟通

对服务连续性计划有深入的了解

了解作为服务连续性策略组成部分的技术

)))

|(% colspan="2" %)服务连续性审计|内部或外部审计师（根据授权并代表董事会）|CAMT|(% colspan="2" %)(((

审计管理技术

常见的审计实践命令

确保审核员公正性，客观性和独立性

)))

|(% colspan="6" %)响应和恢复流程

1056

|(% colspan="2" %)调用|危机管理组|LC|(% colspan="2" %)(((

对服务提供者和消费者风险有深入的了解

了解对消费者的背景

协调与沟通

)))

|(% colspan="2" %)执行服务连续性计划|(((

危机管理组

连续性管理员

响应和恢复协调员及团队成员

)))|CATL|(% colspan="2" %)(((

协调与沟通

对服务连续性计划有深入的了解

了解作为服务连续性策略组成部分的技术

)))

表4.2 负责服务连续性管理活动的角色示例

== **4.2 组织结构和团队** ==

1082

1083

灾难是影响重大的事件，因此响应必须非常快。协调响应和恢复活动需要灵活性。因此，常规业务的组织结构与灾难无关。

1084

1085

在恢复过程中，组织结构通常基于连续性计划的级别。表4.3概述了用于响应和恢复的组织结构级别。

1086

1087

|连续性计划的层次|(% style="width:77px" %)组织层次|(% style="width:602px" %)描述

1088

|战略|(% style="width:77px" %)行政级别|(% style="width:602px" %)这包括高级管理/主管人员，他们具有组织内的总体权限和控制，并负责危机管理，联络其他部门，事业部，组织，媒体，监管机构，紧急服务等。

1089

|战术|(% style="width:77px" %)协调级别|(% style="width:602px" %)通常，该级别比主管组低一级，该组负责协调组织内的整体恢复工作。

1090

|运行|(% style="width:77px" %)专家级|(% style="width:602px" %)一系列服务恢复团队，负责在各自区域内执行计划并与员工，客户和第三方保持联系。在IT内部，恢复团队应按服务和产品分组。

表4.3 用于响应和恢复的组织结构

----

= **5 信息和技术** =

== **5.1 信息交换，输入/输出** ==

1102

1103

服务连续性管理实践的效果基于所使用信息的质量。该信息可以包括：

* 消费者的业务流程

* 服务及其架构和设计

* 合作伙伴和供应商及其提供的服务信息

* 有关服务连续性的法规要求

* 与服务连续性安排有关的市场上可用的技术和服务

实践的关键输入和输出在第3节中列出。

服务连续性计划是该实践的核心。它们应该是最新的，并可供所有相关方使用。

== **5.2 自动化和工具** ==

尤其是在大型组织中，服务连续性实践应该是自动化的。在可行且有效的地方，可能涉及表5.1中概述的解决方案。

1119

1120

|(% style="width:89px" %)流程活动|(% colspan="4" style="width:293px" %)自动化手段|(% colspan="3" style="width:442px" %)关键功能|(% colspan="3" style="width:132px" %)对实践有效性的影响

1121

|(% colspan="11" %)服务连续性管理流程的治理

1122

|(% style="width:89px" %)(((

范围的定义

策略设置

)))|(% colspan="4" style="width:293px" %)知识管理工具和文档存储库|(% colspan="3" style="width:442px" %)服务提供者的员工，监管机构和外部利益相关者（例如客户代表）必须容易访问服务的连续性策略，包括方案的范围，指南，角色和职责。|(% colspan="3" style="width:132px" %)低

1127

|(% style="width:89px" %)认知和演练方案开发|(% colspan="4" style="width:293px" %)业务连续性计划工具|(% colspan="3" style="width:442px" %)服务连续性管理员，服务所有者和恢复团队成员们应有权访问演练时间表，以及他们参与的演练范围的信息。|(% colspan="3" style="width:132px" %)中

1128

|(% colspan="11" %)业务影响分析流程

1129

|(% colspan="3" style="width:105px" %)VBF识别|(% colspan="3" style="width:164px" %)服务目录，CMDB，BPM工具|(% colspan="3" style="width:470px" %)为了识别VBF，服务分析人员应有权访问有关服务组件和操作的信息。BPM工具可以提供消费者的流程以及服务支持的操作的有关信息|(% colspan="2" %)高

1130

|(% colspan="3" style="width:105px" %)中断后果分析|(% colspan="3" style="width:164px" %)(((

业务连续性计划工具

分析工具，

风险评估工具，事件管理工具

)))|(% colspan="3" style="width:470px" %)各种管理系统数据都可以支持分析，例如事件报告和有关已经意识到的风险的信息。在服务或特定的VBF中断的情况下，分析师还可以使用建模工具预测预期的损失。|(% colspan="2" %)高

1137

|(% colspan="3" style="width:105px" %)(((

VBF

相互依赖关系识别

)))|(% colspan="3" style="width:164px" %)业务连续性计划工具，CMDB，分析工具|(% colspan="3" style="width:470px" %)分析师可以使用服务和配置模型来识别关键的服务和VBF相互依赖关系。|(% colspan="2" %)高

1142

|(% colspan="3" style="width:105px" %)服务连续性要求的确定|(% colspan="3" style="width:164px" %)业务连续性计划工具，服务目录|(% colspan="3" style="width:470px" %)连续性管理员，服务所有者和恢复团队成员应有权访问服务的连续性要求。|(% colspan="2" %)低

1143

|(% colspan="11" %)开发和维护服务连续性计划流程

1144

|(% colspan="3" style="width:105px" %)服务连续性策略开发|(% colspan="3" style="width:164px" %)业务连续性计划工具，CMDB，变更初始化和控制工具|(% colspan="3" style="width:470px" %)(((

1145

确定现有控件和弹性措施

1146

1147

发起应作为服务连续性策略实现的一部分实施的变更

1148

)))|(% colspan="2" %)中

1149

|(% colspan="3" style="width:105px" %)服务连续性计划开发|(% colspan="3" style="width:164px" %)业务连续性计划工具，文档控制工具|(% colspan="3" style="width:470px" %)失效日期控制，版本控制和文档的归档|(% colspan="2" %)从低到高，取决于要管理的文档量

1150

|(% colspan="2" style="width:138px" %)服务连续性计划的初始测试|(% colspan="9" style="width:877px" %)参见“进行演练”

1151

|(% colspan="11" %)测试服务连续性计划流程

1152

|(% colspan="4" %)进行演练|(% colspan="3" %)会议工具，监控工具，技术管理和系统管理工具|(% colspan="3" %)所有相关方应该能够进行沟通和协作，持续了解当前状况并管理服务组件，以执行服务连续性计划。|高

1153

|(% colspan="4" %)服务连续性审计|(% colspan="3" %)知识管理工具和文档存储库|(% colspan="3" %)审核员应该可以访问服务连续性文档资料，包括计划，练习程序，练习报告和恢复报告。|中

1154

|(% colspan="11" %)响应和恢复流程

1155

|(% colspan="4" %)启用|(% colspan="3" %)监控工具，紧急通知，会议工具，事件管理工具|(% colspan="3" %)危机管理组必须能够获得有关事态的信息，并立即直接响应和恢复流程。|高