Show last authors
1 {{box cssClass="floatinginfobox" title="**Contents**"}}
2 {{toc/}}
3 {{/box}}
4
5 (((
6 (% class="wikigeneratedid" id="H" %)
7
8 )))
9
10 需要下载 **ITIL 4监控和事态管理实践【中文】**pdf版全文,请关注微信公众号itilxf ,并回复“监控和事态”即可。
11
12 [[image:微信截图_20210206234644.png]]
13
14
15 **申明:**
16
17 本系列ITIL 4实践中文版本由ITIL先锋论坛专家委员会组织翻译,国内众多从事ITIL理论推广及落地实践的专家们参与,需要下载最新翻译版本请关注微信公众号:ITILXF,也可访问ITIL4中文知识库网站:itil4hub.cn。
18
19
20 请注意,ITIL先锋论坛专家团队仅仅只是进行了这些著作的语种转换工作,我们并不拥有包括原著以及中文发行文件的任何版权,所有版权均为Axoles持有,读者在使用这些文件(含本中文翻译版本)时需完全遵守Axoles 和 TSO所申明的所有版权要求。
21
22
23 翻译:刘祥发  审校:冯广成  审核: 徐建中
24
25 (% class="row" %)
26 (((
27 (% class="col-xs-12 col-sm-4" %)
28 (((
29
30 )))
31 )))
32
33 = **1 关于本文件** =
34
35 本文件为监控和事态管理实践提供了实用指南。它分为五个主要部分,内容包括:
36
37 * 有关实践的一般信息
38 * 监控和事态管理的流程和活动及其在服务价值链中的角色
39 * 监控和事态管理中涉及的组织和人员
40 * 支持监控和事态管理的信息和技术
41 * 合作伙伴和供应商对监控和事态管理的思考
42
43 == **1.1** **ITIL®4 认证体系** ==
44
45 本文件所选内容可作为以下教学大纲的一部分进行考查:
46
47 * ITIL专业人员:创建、交付和支持
48 * ITIL专业人员:指导、计划和改进
49
50 有关详细信息,请参阅相应的教学大纲文件。
51
52
53
54 ----
55
56 = **2 一般信息** =
57
58 == **2.1 目的和描述** ==
59
60
61 监控和事态管理实践的目的是系统地观察服务和服务组件,将其状态变化识别为事态并进行记录和报告。该实践识别基础设施、服务、业务流程和信息安全等事态,确定其优先级,建立对这些事态的适当响应,包括对可能导致潜在故障或事件的条件作出响应。
62
63 |(((
64 **事态**
65
66 对服务或其他配置项(CI)的管理具有重要意义的任何状态变更。
67 )))
68
69 监控和事态管理用于管理整个生命周期中的事态,以了解和优化它们对组织及其服务的影响。监控和事态管理包括识别、聚类或者分析与所有级别的基础设施相关的事态、以及组织及其服务使用者之间的服务交互。监控和事态管理确保对这些事态做出适当及时的响应。
70
71 本实践的监控部分专注于服务和配置项(CIs),以探测潜在的重要情况、跟踪和记录服务和配置项(CIs)的状态,并将此信息提供给相关方。
72
73 本实践的事态管理部分着重于那些由组织定义为事态的被监控的状态变化,确定其重要性,识别并启动对它们的正确响应。有关事态的信息也会被记录、存储并提供给相关方。
74
75 监控和事态管理的数据和信息是许多实践的重要输入,包括:
76
77 * 事件管理
78 * 问题管理
79 * 信息安全管理
80 * 可用性管理
81 * 性能和容量管理
82 * 变更支持
83 * 风险管理
84 * 基础设施和平台管理
85 * 软件开发和管理
86 * 其他
87
88 有一个关键点,监控是事态管理发生所必需的,但并非所有的监控都会检测到事态。阈值和其他准则确定哪些状态更改将被视为事态。同样,另一个重要的关注点就是,并非所有事态具有相同的重要性或需要相同的响应。准则将定义发生的事态属于什么类别。按照重要性增加的顺序,典型的事态类别是信息、警告和异常。
89
90
91 == **2.2 **术语和概念 ==
92
93
94 |(((
95 **监控**
96
97 通过对系统、实践、流程、服务或其他实体的重复观察,探测事态并确保已知其当前状态。
98 )))
99
100 了解服务的状态和服务组件对于管理它们至关重要。有关服务运行状态和性能的信息使组织能够对已发生的对服务造成影响的事态做出适当的响应(响应式监控),或者根据对过去事件的模式分析采取主动行动,以防止将来面临不利事态(预防式监控)。
101
102 监控通过多种不同的方式得以实现。配置项(CIs)可以通过轮询(即响应监控工具收集特定目标数据的请求)或通过在满足某些条件时自动通知监控工具来共享有关其自身的信息。监控工具对服务组件的询问代表着主动监控,而配置项(CIs)向监控工具发送的通知代表着被动监控。
103
104 [[image:图片1.png]]
105
106
107 图2.1 监控的类型
108
109
110 注意事项:当使用主动监控来识别趋势时,它可能有助于比被动监控更早地识别趋势(监控工具在配置项自身发送信息之前先请求信息)。但是,当使用主动监控来检测事态时,它可能比被动监控迟一些:在主动监控中,信息是根据计划收集的,但是,被动监控中,配置项会在事态发生变化之后立即共享它。本注意事项的重要性取决于主动监控是连续的还是基于间隔的。需重要强调的是,从监控工具到服务和配置项的请求之间的间隔时间越长,事态与其注册之间的潜在延迟就越长。
111
112 监控利用了被观察的服务组件的本机监控功能。例如,有关操作系统(OS)的数据(例如磁盘空间,CPU负载,交换使用情况等)已经由OS公开,并指示底层物理资源的使用情况。同样,许多Web服务器,数据库服务器和其他软件都具有内置的监控功能,并将生成度量数据。所有这些数据都可以轻松发送到监控工具。
113
114 除了本机监控功能外,监控还采用了专门设计的监控系统。这些是用于监视Web和云应用程序、基础设施、网络、平台、应用程序和微服务的定制软件功能。对于某些服务组件,尤其是内部开发的应用程序,可能有必要向服务中添加自定义工具,例如,代码或接口,这些代码或接口收集并公开对于组织非常重要的度量数据。
115
116 尽管监控和事态管理传统上专注于服务的技术组件,但对了解其他服务管理资源和活动(包括流程,人员和供应商)的状态也很有用。
117
118 |(((
119 **指标**
120
121 为了管理和改进而监控或报告的度量或计算。
122 )))
123
124 指标是监控和事态管理实践的原始数据的来源。监控系统收集、汇总和分析度量指标数据。指标涵盖多个层次,包括:
125
126 * 低级基础设施指标(主机、服务器、网络和其他)
127 * 应用程序指标(响应时间、错误率、资源使用情况…)
128 * 服务级别指标,包括基于基础设施、连接性、应用程序以及基于服务动作的指标(如果适用)
129 * 第三方服务绩效指标(基于商定的服务级别)
130 * 操作、流程和价值流绩效指标
131
132 |(((
133 **阈值**
134
135 触发预定义响应的指标值。
136 )))
137
138 对阈值的响应各不相同,可能包括:
139
140 * 创建一个警报或其他通知
141 * 创建一个事件
142 * 变更先前记录的警报或通知的状态
143 * 响应各自组件或服务
144
145 阈值是一种初始过滤可通过监控工具收集的大量监控数据的方法。阈值的值应谨慎定义,以防止产生过多的响应,从而超越资源,人力和机器的响应能力。处理度量数据的其他规则通常与阈值结合,例如事态相关规则和引擎。这些可以由组件供应商规定,由组织定义,或由机器学习支持。
146
147
148 监控和事态管理中的一些阈值示例可以是:
149
150 * 一小时内出现X个以上磁盘错误
151 * CPU利用率达到或超过N%三次,任何两个连续事态之间的间隔小于Z秒
152
153 |(((
154 **警报**
155
156 通知已到达阈值、已更改某些内容或已发生故障。
157 )))
158
159 警报由监控工具创建和控制,并在监控和事态管理实践中管理。报警是监控系统的一个非常重要的方面。报警系统必须具有几个特征,包括:
160
161 * 高度可靠
162 * 灵活,并可以通过多种媒体通知操作员
163 * 能够生成详细且可行的通知消息
164
165 对于监控和事态管理,“过度报警”是潜在的危险。出现这样一种情况:即生成的警报数量超出企业的处理能力,真正重要的警报却被遗漏在“警报噪音”中。如今,通过人工智能操作(AIOps)和机器学习(ML)可以对警报进行聚合、关联和过滤,从而为这种潜在的危险提供了补救措施。
166
167 服务和服务组件的状态变更在IT 环境中连续发生。如该实践中所述,通常可以通过IT服务,CI或监控工具创建的通知来识别这些变更。为了正确处理和响应数据流,有必要对传入的信息进行过滤和分类。
168
169 根据事态的影响将事态分为三个事态组,并定义三个相应的响应:信息,警告或异常。
170
171 * 信息类事态在被识别后,不需要进行响应。信息类事态提供设备或服务的状态,或确认某个任务的状态。信息类事态的示例包括:用户登录,操作完成等。信息类事态表示正在执行常规操作,并存储在日志文件中一段时间。组织可以选择在以后分析信息事态,并且可能发现有益于服务的预防措施。信息类事态也可以在状态仪表板上发布给供服务提供者或服务消费者使用。
172 * 警告类事态可以在经历任何负面的影响之前采取行动。警告类事态表示发生了非常规但没有抛出异常的操作。警告类事态通知相应的团队或工具采取必要的措施,以防止发生异常。警告的示例包括:计划备份未运行,或者资源利用率在约定异常阈值的10%之内。
173 * 异常类事态表示已达到服务或组件指标的关键阈值。这一违反服务或组件性能既定规范的行为可能尚未对业务运营产生影响,但是,异常事态也可能表示服务或组件发生故障,性能
174
175 下降或功能丧失,而所有这些都将会影响业务运营。无论哪种情况,异常事态都需要进行响应,因为它们表示常规操作正在发生异常。异常事态的示例包括:计算机扫描显示未授权软件的安装、服务器关闭、备份失败等。这是监控和事态管理实践启用事件检测的方式。
176
177 事态分类将注意力集中在对服务的管理和交付真正重要的事态上。它确保适当地跟踪、评估和管理事态。
178
179 监控和事态管理能够检测事件,将其与信息事态及警告区分开。检测到的事件在事件管理实践中处理。监控和事态管理还通过提供有关影响服务和服务组件的趋势和事态的信息来识别问题。此外,监控和事态管理通过服务和服务组件的监控和汇报机制为已知错误进行错误控制。已识别的问题和已知错误的错误控制在问题管理实践中处理。
180
181
182 == **2.3 范围** ==
183
184 监控和事态管理实践的范围涵盖了组织内需要控制和自动化的服务管理的所有方面。这包括:
185
186 * 识别和优化监控的范围
187 * 实施和维护连续监控
188 * 建立和维护事态的识别,分类和处理规则
189 * 实施流程和自动化工具使已定义的事态管理规则产生作用
190 * 根据议定和实施的规则以及流程对事件进行持续处理
191 * 以商定的形式向利益相关者提供受监控服务和资源的当前和历史状态的信息。
192
193 尽管有些活动和责任领域仍然与监控和事态管理实践密切相关,但它们并没有被包含其中。表2.1中列出了它们以及那些包含了它们的实践的相关引用。重要的是要记住,ITIL实践只是那些在价值流环境中被使用的工具的集合,应根据情况进行必要的组合。
194
195 |活动|实践指南
196 |事件的管理|事件管理
197 |事态和趋势的原因调查|问题管理
198 |响应事态的变更管理|变更支持
199 |与用户沟通|服务台
200 |基于监控数据的决策支持|度量和报告
201 |设置服务质量和性能的目标和阈值|(((
202 服务级别管理
203
204 可用性管理
205
206 性能和容量管理
207
208 信息安全管理
209
210 连续性管理
211 )))
212 |设置基础设施和应用程序组件的阈值|(((
213 基础设施和平台管理
214
215 软件开发和管理
216 )))
217 |设定第三方服务的目标和门槛|供应商管理
218
219 表2.1其他实践指南中描述的与监控和事态管理相关的活动
220
221
222 == **2.4 实践成功因素** ==
223
224
225 实践的成功因素(PSF)不仅仅是一项任务或活动;它包括服务管理四维模型的所有组件。实践成功因素活动和资源的性质可能彼此有所不同,但它们共同确保实践有效。
226
227 监控和事态管理实践包含以下实践成功因素活动(PSF):
228
229 * 建立和维护描述各类型事态和探测它们所需的监控功能的方法/模型
230 * 确保及时,相关且足够的监控数据提供给相关的利益相关者
231 * 确保发现、解释事态,并在需要时尽快采取措施
232
233 === 2.4.1 建立和维护描述各类事态和探测它们所需的监控功能的方法/模型 ===
234
235 在大多数情况下,现代技术为度量和监控服务以及服务组件操作的各个方面提供了机会,但是从业人员应认真管理监控的范围以及度量指标的频率和数量。现代监控和事态管理实践的主要挑战不是缺少数据,而是监控必须处理的数据的规模。监控和事态管理实践的重点应该是获取有意义的信息,以支持服务的操作与改进,决策和价值的创造。建立或改进监控和事态管理实践时,应考虑以下方面:
236
237 * 识别所监控的服务和服务组件并划分优先级
238
239 实践的关键活动在于确定哪些实体需要监控并划分优先级,这有助于检测状态更改(或缺少所需的状态更改),这些更改对于CI的服务的管理最重要。确定要监视的服务,系统,CI和其他服务组件将基于组织的业务目标。它还需要对组织的服务设计架构有透彻的了解。
240
241 监控和事态管理的从业者将需要了解服务依赖映射关系:哪些顶级业务功能映射到支持那些功能的产品和服务,而哪些产品和服务映射到支持该产品和服务的底层IT基础设施。通过对交付服务所涉及的实体有一个完整的端到端的描述,,监控和事态管理的从业人员将能够正确识别需要监控的关键实体并确定其优先级。
242
243 这里,还应该评估服务组件的“可监控性”,并定义一套有效的标准。所选择的标准应该具有足够的揭示性,并为诊断和决策提供依据。
244
245 * 在监控的信息性,颗粒度和频率之间找到平衡
246
247 建立和维护对服务组件的监控可以视为对资源(监控工具,数据存储,工时等)的投资,并且捕获的数据越多,预期的回报就越少。这是因为监控的规则数量和探测频率越多,用于过滤、分类和分析数据的时间和精力就越多。虽然自动化和基于机器学习的解决方案有助于释放人工和改进数据分析的结果,但从业人员应始终致力于使监控效率最高。
248
249 * 维护数据收集,存储,过滤和关联的能力。监控和事态管理实践很大程度上依赖于服务管理的信息和技术层面。如果没有观察到服务和服务组件的本机监控功能,或没有IT 监控工具(一般广泛通用的商业工具以及定制工具),则几乎不可能检测到对CI或服务管理具有重要意义的状态变化。
250
251 服务元素通过轮询(即响应监控工具的询问来收集特定的目标数据),或者在某些条件被满足时通过自动化的通知发送给监控工具,来传达有关自身的信息。该通信取决于监控工具的可用性和传输事态数据的网络。
252
253 另外,应该特别注意执行数据分类、过滤和关联的工具,以及用于事态响应的自动化工具。
254
255 单个服务的许多服务架构通常由组织集成的第三方产品和服务组成,以向客户和用户提供端到端服务。这些第三方产品和服务的内置监控功能是监控和事态管理实践的关键部分。监控和事态管理从业人员以及服务设计实践中的同行需要能够与他们的设备和服务供应商频繁且良好地合作。这样,监控和事态管理和服务设计可以保护构成组织服务的必要产品和服务,并确保这些服务是可监视和可管理的。
256
257 为事态确定适当的控制动作取决于对检测到的状态变化的过滤和分类。信息和技术服务维度中发生的过滤和分类在很大程度上由组织的事态管理系统(EMS)自动完成,IT 监控工具将检测到的、收集的和传输的信息馈送到其中。但是,EMS用于对数据进行过滤和分类,并确定它们的重要性(确定数据代表信息,警告还是异常事态)的业务规则已建立在服务管理的组织和人员维度中。监控工具和EMS配置的阈值,警报参数,准则都是组织优先级以及那些为服务生态系统的健康运营而工作的有经验的领导者和工作人员的成果。
258
259 需要制定策略来处理不同类型的事态。对事态采取“一刀切”的做法是不合适的,而且浪费资源。不同类型的事态需要针对该事态的类型量身定制对应的响应。应该为每个事态类建立一套通用的控制操作。当适用自动响应时、当适用告警和需要升级为人为干预时、或当事件/问题/变更需要启动处理时,都可以通过制定策略来解决。例如,在某个安全违规的情境中,它可能对运营有潜在的影响,但尚未影响服务的可用性。
260
261 策略在组织和人员维度中定义,并在信息和技术维度中实施。
262
263 为事态(例如信息,警告和异常)使用适当的标准分类方案可以实现通用处理和升级流程。它还允许事态通知仅发送给负责处理与事态有关的进一步动作或决策的人员,通常是在事件,问题或变更管理实践中。避免向未直接参与事态处理的个人发送通知是对资源的有效利用。为此,事态通知将确定需要响应事态的部门,团体或个人。随着新事态的添加或人员职责变更,维护事态路由信息是一项连续不变的任务。
264
265 一个标准的事态分类方案将能够为每一类事态建立一套通用的操作。在价值流中,当对已识别的事态采取行动时,会考虑服务操作和服务级别目标。触发事件和问题通知的事态操作可以与事件和问题管理已建立的现有分类和优先级策略进行绑定。
266
267 许多IT 监控工具和EMS本身很可能由第三方供应商提供,监控和事态管理实践和供应商管理实践将保持稳定的工作关系。
268
269
270 === 2.4.2 确保将及时,相关且足够的监控数据提供给相关的利益相关者 ===
271
272 当根据原始服务设计和与客户达成的服务级别协议(SLA)进行基准校对时,监控和事态管理的报告能够使服务提供者的实际操作性能和行为基本真实。监控和事态管理提供了直接的观察结果、基于事实的经验证据,而不是预期或期望的结果。
273
274 收集监控和事态管理实践中准确及完整的数据对于使用服务时交付高质量服务和高质量客户体验的工作至关重要。服务度量(收集有关服务的数据)取决于监控和事态管理监控和报告。由于监控和事态管理专注于服务和服务组件的效果和效率,因此其对于持续改进的工作至关重要。
275
276 监控和事态管理确定了薄弱区域,因此可以采取补救行动(如果有正当的业务案例),以改进将来的服务质量。监控和事态管理还可以显示客户动作在哪里导致故障,并确定工作效率和/或培训可以在哪些地方得到改善。监控和事态管理还可以同时处理内部和外部供应商,因为他们的绩效必须得到评估和管理。
277
278
279 === 2.4.3 确保探测、解释事件,并在需要时尽快采取措施 ===
280
281 仅仅为监控和事态管理定义规则还不够,事态的实际探测和处理程序才能使这些规则有价值。事态管理的效率和范围在很大程度上取决于服务架构和服务管理自动化水平。在数字化基础设施和现代应用程序中,许多用于监控和事态管理的工具是内置的,实践的重点是事态处理规则的集成和调整。
282
283 与此相反,拥有许多不是为监控设计的遗留系统的组织必须将重点放在专用监控和事态管理工具和附加组件的实现上,或者甚至集中在手动监控和事态管理上。
284
285 技术机会和限制应告知监控和事态管理的范围、决策和日常活动。
286
287 不管组织的监控和事态管理功能有多有限,都应持续改进,以确保实践满足组织的需求。
288
289 == **2.5  关键指标** ==
290
291 ITIL实践是产品和服务管理的手段或工具。像任何工具的性能一样,只能在该工具的应用程序的环境中评估实践绩效。但是,不同工具在质量上可能有所不同。这种差异定义了工具根据其用途在使用时的能力或潜力。
292
293 这同样适用于实践:它们的绩效应在价值流的环境里评估,但其潜力由它们的设计和资源的质量来定义的。有关指标,KPI和其他可帮助解决此问题的技术的进一步指南,请参见度量和报告实践指南。
294
295 监控和事态管理实践的关键指标已映射到其实践成功因素(PSF)。它们可以用作价值流环境中的KPI,以评估监控和事态管理实践对那些价值流的效果和效率的贡献。表2.2中给出了一些关键指标的示例。
296
297 |**实践成功因素**|**指标样例**
298 |建立和维护描述各类事态的方法/模型以及检测这些事态所需要的监控能力|(((
299 * 利益相关者对监控和事态管理方法的满意度
300 * 组织对方法的坚持
301 * 未遵循或发现不切实际的方法建议/要求的百分比
302 )))
303 |确保向利益相关者提供及时、相关和充分的监控数据|(((
304 * 利益相关者对监控数据及其表述的满意度
305 * 监控数据的质量(根据商定的数据质量标准)
306 )))
307 |确保检测、解释事件,并在需要时尽快采取措施|(((
308 * 事态管理错误的影响
309 * 事态交流“噪音”的数量和影响
310 * 因为事态管理不善而无法预防或解决的事件和问题的影响
311 )))
312
313 表2.2 实践成功因素的示例指标
314
315 将指标正确汇总到复杂指标中将使它们更易用于价值流的持续管理,以及用于定期评估和持续改进监控和事态管理实践。没有单一的最佳解决方案。指标将基于组织的整体服务策略和优先级,以及实践所贡献的价值流的目标。
316
317
318
319 ----
320
321 = **3 价值流和流程** =
322
323
324 == **3.1 价值流的贡献** ==
325
326 像其他ITIL 管理实践一样,监控和事态管理实践也有助于多个价值流。请记住,没有任何价值流是由单个实践组成。监控和事态管理实践与其他实践相结合,可以为消费者提供高质量的服务。
327
328 图3.1中显示了监控和事态实践对服务价值链的贡献。
329
330 [[image:file:///C:\Users\19805\AppData\Local\Temp\ksohtml15296\wps8.png]]
331
332 图3.1 监控和事态管理实践对价值链活动的贡献的热力图。
333
334 [[image:微信截图_20210217171257.png]]
335
336
337 监控和事态管理实践贡献的主要价值链活动是:
338
339 * 交付和支持
340 * 设计和转换
341 * 改进
342
343 == **3.2 流程** ==
344
345 每个实践可包含一个或多个为实现该实践的目的而可能需要的流程和活动。
346
347 监控和事态管理实践活动形成三个流程:
348
349 * **监控规划流程 **这个流程在监控中添加元素,定义元素的优先级,选择要监控的功能,为事态分类建立指标和阈值,为事态与行动计划和负责团队建立映射关系。
350 * **事态处理流程**
351 * **监控和事态管理评审 **安排和触发该流程是为了评审主要事态事后分析、有关过滤和相关性分析的更新、服务“运行状况模型”、以及用于监控自动化和操作的改进。
352
353 === **3.2.1 监控规划** ===
354
355 |**关键输入**|**活动**|**关键输出**
356 |(((
357 服务设计的服务健康标准
358
359 服务级别协议
360
361 来自可用性、容量和性能管理实践中的服务性能阈值
362
363 知识文章
364
365 服务目录
366
367 配置项(CI) 数据
368 )))|(((
369 定义监控目标
370
371 评估可用的度量监控标准
372
373 定义监控对象的事态类型
374
375 定义不同事态类型的阈值
376
377 定义服务'运行状况模型'(端到端事态)
378
379 定义事态关联和规则集
380
381 建立行动计划与需要响应和通知的职能部门之间的映射关系
382 )))|(((
383 目标监控计划
384
385 服务健康状态模型
386
387 已定义的事态类型、事态检测标准、事态的优先级以及响应措施
388
389 事态责任矩阵
390 )))
391
392 表3.1 监控规划流程的输入、活动和输出
393
394
395 [[image:图片3.png]]
396
397 图3.2 监控规划流程的工作流程
398
399
400 表3.2监控规划流程的活
401
402 |**活动**|**描述**
403 |定义监控目标|(((
404 利用从服务设计阶段、服务验证和测试实践以及服务开发(可用性,容量和性能管理实践)和服务级别管理实践收到的信息,团队定义监控的关键目标。
405
406 该讨论应覆盖功效需求到功用需求(首先涵盖最明显的功能要求,例如,在应用程序的用户案例中)。另外,从关键服务性能到更多详细信息和组件,它的颗粒度应增加。
407
408 团队应列出一个优先级降序的监控列表。
409 )))
410 |评估可用的度量监控标准|(((
411 然后,将监控优先级列表项映射或转换为可用度量或基于可用度量的综合度量。
412
413 应该探索添加度量值。
414 )))
415 |定义监控对象的事态类型|团队对不同类型的事态进行定义和分类。类型可以是一般性的,例如信息性,警告性,异常性,也可以取决于功能,用户组及其优先级,再通过关键监控目标的组件或类型进行划分。
416 |定义不同事态类型的阈值|(((
417 团队与服务或组件开发团队一起定义不同类型事态的阈值。相同的组件指标可能是根据现有的SLA和针对服务或组件定义的可用性,容量和性能的要求,它基于服务进行了不同的处理。
418
419 另外,应该将处理吞吐量的事态纳入考量,因为尽管现代IT系统几乎可以探测到任何事态,但不是所有事态都需要进行响应。因此,从最初预防灾难到后来完善组件,通常都应将监控和事态管理进行迭代开发。
420 )))
421 |定义服务'运行状况模型'(端到端事态)|(((
422 根据参与服务设计的团队的输入,构建了一个“运行状况模型”,它反映了服务及其关联的关键事态。一个服务可能有几种模型。
423
424 这些模型使监控团队可以评估服务的用户体验。例如,可以为单个银行客户交易构建模型,并度量从移动应用程序中的请求(包括所有银行数据库系统到移动应用程序中完成交易的通知)花费的时间。
425
426 服务“运行状况模型”也可以实现为服务健康和性能的报告或仪表板,并由服务所有者,参与其他实践的团队和其他利益相关者临时使用。这样,有关这些服务的信息就被干系人“拉”走了。
427 )))
428 |定义事态关联和规则集|(((
429 与参与服务设计的团队一起,定义事态关联和相应的规则集。
430
431 某些关联可能会使用第二个事态作为对第一个事态的检查,或者进一步过滤事态的范围。同样,已定义的关联可以帮助防止事态同时发生时可能产生的负面协同效应。
432
433 规则集由多个规则组成,这些规则定义了如何处理和评估特定事态的事态消息。例如,每次磁盘日志文件到达其容量时都可能生成警告事态,但是如果已生成四个以上的警告事件,则会生成异常事态。
434
435 规则本身通常嵌入监控和事态处理技术中。它们由布尔类型的算法组成,用于关联已生成的事态,以创建需要传达的其他事态。这些算法可以编入通常称为关联引擎的事态管理软件中。
436
437 人工智能(AI)系统可用于定义用户,管理员,系统等的典型和非典型行为。这可能形成其他检查以过滤事态。
438 )))
439 |将事态与行动计划、职能部门和通知对应起来|(((
440 对于每个事态或事态组,都定义了一个行动计划以尽量减少事态的负面影响。基于行动计划,可以定义响应事态的团队或职能部门。
441
442 行动计划还可以自动执行或半自动执行,包括对某些重要操作进行人工干预。
443
444 在此阶段创建的行动计划成为事态程序和自动化的基础。
445 )))
446
447 === 3.2.2 事态规划 ===
448
449 表3.3事态处理流程的输入、活动和输出
450
451 |**关键输入**|**活动**|**关键输出**
452 |(((
453 * 来自监控对象,监控工具的通知
454 * 监控计划
455 )))|(((
456 * 事态检测
457 * 事态日志记录
458 * 事态过滤和相关性检查(可能是迭代的)
459 * 事态分类
460 * 事态响应选择
461 * 发送通知,执行响应规程
462 )))|(((
463 * 事态记录
464 * 已更新的事态统计信息
465 * 事态响应错误
466 * 已启动的重大事态事后反思
467 * 利益干系人通知
468 * 知识文章更新
469 * 记录的事件
470 * 更新的报告和仪表板
471 )))
472
473 图3.3事态处理流程的工作流程
474
475 [[image:图片4.png]]
476
477 [[image:file:///C:\Users\19805\AppData\Local\Temp\ksohtml15296\wps11.jpg]]
478
479
480 表3.4事态处理流程的活动
481
482 |**活动**|**描述**
483 |事态检测|(((
484 监控系统检测到的事态,或作为手动监控的结果。
485
486 并非所有事态都应被检测到,监控系统带宽也应纳入考量。在现有有限的资源中应仅检测到关键事件和需要采取行动的事态。
487 )))
488 |事态记录|事态应该最好自动记录在监控系统中。
489 |事态过滤和相关性检查(可能是迭代的)|(((
490 事态应该按照规则集进行处理,以过滤和查找相关性,以实现更好的分类。
491
492 该活动可能是迭代的。
493 )))
494 |事态分类|事态分为组或类型,如果需要选择适当的响应,则在组内进一步过滤特定的事态。
495 |事态响应选择|在监控规划流程中应该为每个事态制定行动计划或响应规程。根据规划中定义的规则,选择事态响应和通知的团队。
496 |发送通知,执行响应规程|响应规程执行后,将通知负责操作或监督的团队(如果响应规程是全自动的)。
497
498 |**关键输入**|**活动**|**关键输出**
499 |(((
500 * 更新的知识文章
501 * 重大事态记录
502 * 重大事件记录
503 * 改进建议
504 * 事态记录和统计
505 * 服务所有者和利益相关者的信息请求
506 )))|(((
507 * 评审重大事态和事件
508 * 评审过滤和相关性分析
509 * 评审服务“运行状态模式”
510 * 评估事态的响应程序和自动化程度
511 * 评审用于数据分析、相关性分析、人工智能(AI)和机器学习(ML)的工具
512 * 评审监控工具收集的统计信息
513 )))|(((
514 * 更新的事态响应程序
515 * 过滤和相关分析的改进建议
516 * 针对自动化的变更
517 * 更新的监控标准和阈值
518 * 更新的过滤方法
519 * 更新的被使用的工具和技术清单
520 * 更新的已提供的报告和统计信息清单
521 )))
522
523 === **3.2.3 监控和事态管理评审** ===
524
525 |活动|描述
526 |评审重大事态和事件|(((
527 事实上,重大事件发生通常可能意味着未检测到某些异常服务或组件行为并对其采取行动。因此,重大事态和事件为监控知识发现和改进提供了良好的基础。
528
529 应审查和分析重大事态的性质、相关性,并将其分解为组件甚至配置项,并应探索相应的指标,这些指标可能有助于检测导致重大事件的重大事态或异常。
530
531 应探索组件的其他或类似风险,并将已识别的事态添加到监控中。
532
533 建议对监控进行更改以在未来检测类似的事态。
534 )))
535 |(((
536 评审过滤和相关性分析的评审
537
538 评审服务的“运行状态模式”
539 )))|当监控检测到大量事态或检测不到事态时,应进行过滤和相关性分析。有时可以考虑采取临时措施,例如放宽阈值或事态分组。否则,应进行详细分析和详尽的规则定义,以及建议对监控进行更改。
540 |评估事态响应程序和自动化程度|(((
541 应评审因事态响应导致的事件和故障并提出变更建议。
542
543 同样,此评审的目标应是提高事态检测和事态响应的自动化程度。也可以建议其他的自动化。
544 )))
545 |评审用于数据分析、相关性分析、人工智能(AI)和机器学习(ML)的工具|(((
546 应审查内部和市场上可能提高监控效率的工具。应在监控预算内建议试用和试运行。
547
548 另外,此评审应该讨论监控中使用的任何新技术或最佳实践,应该进行市场基准测试的开发,并提出对监控的改进。
549 )))
550 |评审监控工具收集的统计信息|(((
551 应该审查统计信息,以提出对监控的改进,并监控服务。
552
553 服务生命周期涉及的所有团队均应评审检测到的服务趋势。
554 )))
555
556 **表3.6 监控和事态管理评审流程的活动**
557
558
559
560 ----
561
562 = 4  **组织和人员** =
563
564
565 == **4.1 角色,能力和责任** ==
566
567 **实践指南没有描述实践管理的角色,例如实践所有者,实践领导者或实践教练。实践指南着重于每个实践的专家角色。每个角色的结构和命名都可能在组织间存在差异,因此ITIL中定义的任何角色都不应被视为强制性的,甚至不被视为建议。请记住,角色不是职务头衔。一个人可以担任多个角色,同样,一个角色可以分配给多个人。**
568
569 **流程和活动中描述了角色。每个角色可以基于以下能力框架模型进行描述:**
570
571 |**能力代码**|**描述**
572 |**L**|**Leader 领导者** 与此能力相关的活动和技能包括决策、授权、监督其他活动、激励措施和动机、以及评估结果。
573 |**А**|**Administrator 管理员** 与此功能相关的活动和技能包括任务的分配和优先级,记录保存,持续报告以及基本改进计划。
574 |**C**|**Coordinator/Communicator 协调员/沟通者** 与此能力相关的活动和技能包括多方协调,利益相关方之间的沟通以及开展提高认识行动。
575 |**М**|**Methods and techniques expert 方法和技术专家** 与该能力相关的活动和技能包括设计和工作技术的实施,程序文档,有关流程的咨询,工作分析以及持续改进。
576 |**Т**|**Technical expert 技术专家** 此能力专注于技术(IT)专业知识和基于专业知识的任务。
577
578 |(% style="width:203px" %)**活动**|(% colspan="2" style="width:205px" %)**负责角色**|(% colspan="2" %)**能力框架**|**具体技能**
579 |(% colspan="6" %)**监控规划流程**
580 |(% style="width:203px" %)**定义监控目标**|(% style="width:199px" %)(((
581 **服务负责人**
582
583 **设计人**
584
585 **开发人员**
586
587 **用户**
588
589 **交付经理**
590
591 **客户经理**
592
593 **测试人员**
594
595 **服务验证专家**
596
597 **运维经理**
598 )))|(% colspan="2" %)**协调员、管理员(CA)**|(% colspan="2" %)(((
599 **理解利益相关者的服务价值和服务主张**
600
601 **服务级别和用户体验方面的专业知识**
602 )))
603 |(% style="width:203px" %)(((
604 **评估可用的度量监控标准**
605
606 **定义监控对象的事态类型**
607
608 **定义不同事态类型的阈值**
609 )))|(% style="width:199px" %)(((
610 **测试人员**
611
612 **服务验证专家**
613
614 **监控专家**
615
616 **开发人员**
617
618 **设计人员**
619
620 **架构师**
621
622 **业务经理**
623 )))|(% colspan="2" %)**技术专家、方法技术专家(T M)**|(% colspan="2" %)(((
624 **服务架构和设计的知识**
625
626 **监控工具,探头探测器和传感器方面的专业知识**
627 )))
628 |(% style="width:203px" %)(((
629 **定义服务'运行状况模型'(端到端事件)**
630
631 **定义事件关联和规则集**
632 )))|(% style="width:199px" %)(((
633 **服务负责人**
634
635 **用户**
636
637 **交付经理**
638
639 **客户经理**
640
641 **运维经理**
642
643 **测试人员**
644
645 **服务验证专家**
646
647 **监控专家**
648
649 **开发人员**
650
651 **设计人员**
652
653 **架构师**
654 )))|(% colspan="2" %)**技术专家、方法技术专家、管理员(T M A)**|(% colspan="2" %)(((
655 **用户体验的知识**
656
657 **功效需求和功用需求的知识**
658
659 **服务主题和业务流程知识**
660
661 **服务架构和设计的知识**
662
663 **监控工具、探头探测器和传感器方面的专业知识**
664 )))
665 |(% style="width:203px" %)**建立行动计划和需要响应和通知的职能部门之间的映射关系**|(% style="width:199px" %)(((
666 **服务负责人**
667
668 **用户**
669
670 **交付经理**
671
672 **客户经理**
673
674 **测试人员**
675
676 **服务验证专家**
677
678 **监控专家**
679
680 **开发人员**
681
682 **设计人员**
683
684 **架构师**
685 )))|(% colspan="2" %)**管理员、技术专家、方法技术专家(A T M)**|(% colspan="2" %)(((
686 **运维和支持基础设施以及组织的知识**
687
688 **服务架构和设计的知识**
689
690 **监控工具以及探头探测器和传感器方面的专业知识**
691 )))
692 |(% colspan="6" %)(((
693 **事态处理流程**
694
695 **应尽一切努力使此流程尽可能自动化,因此将不讨论该流程的角色。**
696 )))
697 |(% colspan="6" %)**监控和事态管理评审**
698 |(% style="width:203px" %)(((
699 **评审重大事件或事态**
700
701 **评审过滤和相关性分析**
702
703 **评审服务“运行状况模式“**
704 )))|(% style="width:199px" %)(((
705 **服务负责人**
706
707 **用户**
708
709 **交付经理**
710
711 **客服经理**
712
713 **监控专家**
714
715 **开发人员**
716
717 **设计人员**
718
719 **架构师**
720 )))|(% colspan="2" %)**技术专家、方法技术专家、管理员(T M A)**|(% colspan="2" %)(((
721 **服务架构和设计的知识**
722
723 **监控工具方面的专业知识**
724
725 **服务主题知识和业务流程知识**
726
727 **持续改进技能**
728 )))
729 |(% style="width:203px" %)**评估事态的响应程序和自动化程度**|(% style="width:199px" %)(((
730 **服务负责人**
731
732 **交付经理**
733
734 **监控专家**
735
736 **开发人员**
737
738 **设计人员**
739
740 **架构师**
741
742 **服务台经理**
743
744 **运维经理**
745 )))|(% colspan="2" %)**管理员、技术专家、方法技术专家、协调员(ATMC)**|(% colspan="2" %)(((
746 **运维和支持基础设施以及组织的知识**
747
748 **监控工具方面的专业知识**
749
750 **自动化专业知识**
751
752 **服务主题知识和业务流程知识**
753
754 **持续改进技能**
755 )))
756 |(% style="width:203px" %)**评审用于数据分析、相关性分析、人工智能(AI)和机器学习(ML)的工具**|(% style="width:199px" %)(((
757 **监控专家**
758
759 **架构师**
760
761 **业务分析员**
762
763 **技术顾问**
764 )))|(% colspan="2" %)**方法技术专家、技术专家、管理员(MTA)**|(% colspan="2" %)(((
765 **监控工具,AI,ML方面的专业知识**
766
767 **自动化专业知识**
768
769 **持续改进技能**
770 )))
771 |(% style="width:203px" %)**评审监控工具收集的统计信息**|(% style="width:199px" %)(((
772 **监控专家**
773
774 **架构师**
775
776 **业务分析员**
777 )))|(% colspan="2" %)**方法技术专家、技术专家、管理员(M T A)**|(% colspan="2" %)(((
778 **服务架构和设计的知识**
779
780 **监控工具方面的专业知识**
781
782 **服务主题知识和业务流程知识**
783
784 **持续改进技能**
785 )))
786
787 **表4.1 监控和事态管理实践活动涉及的角色**
788
789
790 == **4.2 组织结构和团队** ==
791
792
793 **组织中很少有专门的监控和事态管理团队。通常,负责服务交付和运维的人员是参与监控的人员。**
794
795 **确保在服务生命周期的设计阶段规划监控是很重要的。因此,负责监控的人员应该参与设计阶段,开发服务或组件的团队可以将服务移交给运维和建立监控。这包括架构师,软件开发团队,基础设施团队,设计人员,负责服务验证、可用性、连续性、容量和性能的团队,等等。**
796
797
798
799 ----
800
801 = **5 信息和技术** =
802
803
804 == **5.1 信息交流** ==
805
806
807 **监控和事态管理实践的效果基于所使用信息的质量。该信息包括但不限于以下信息:**
808
809 1. (((
810 **客户和用户**
811 )))
812 1. (((
813 **服务,及其架构和设计,接受标准和SLA**
814 )))
815 1. (((
816 **合作伙伴和供应商,包括有关它们提供的服务的SLA信息**
817 )))
818 1. (((
819 **规范服务提供的政策和要求**
820 )))
821 1. (((
822 **持续的服务交付,包括:**
823 )))
824
825 * **有关当前运行的服务状态的信息**
826 * **服务功效需求和功用需求**
827 * **可用的服务指标**
828 * **服务依赖的配置项**
829 * **服务组件与其性能之间的相互依赖性**
830 * **有关重大事件的信息**
831 * **与已计划的和正在进行的变更及其对服务性能的预期影响有关的信息**
832 * **可用性,容量和性能目标**
833 * **负责服务和组件的团队**
834 * **有关服务的知识文章**
835
836 **~ 6.有关服务改进状态的信息**
837
838
839 **该信息可以采用各种形式。实践的关键输入和输出在本指南的“ 价值流和流程”部分中列出。**
840
841
842 == **5.2  自动化和工具** ==
843
844
845 **在某些情况下,监控和事态管理实践的工作可以大大受益于自动化(有关何时适用的详细信息,请参见本指南的“ 价值流和流程”部分)。在这种情况下,自动化是可能且有效的,它可能涉及表5.1中概述的解决方案。**
846
847 |**流程活动**|**自动化手段**|**关键功能**|**实践的效果上的影响**
848 |(% colspan="4" %)**监控规划流程**
849 |(((
850 **定义监控目标**
851
852 **评估可用的度量监控标准**
853
854 **定义监控对象的事态类型**
855 )))|(((
856 **可视化工具(例如思维导图,服务图表,架构可视化)**
857
858 **服务目录工具**
859
860 **配置管理数据库**
861 )))|(((
862 **服务结构,依赖项,配置项等的可视化**
863
864 **提供有关服务结构的信息,以及**
865
866 **组件/ 服务的相互依赖性**
867
868 **提供有关**
869
870 **服务SLA和要求的信息**
871 )))|**中**
872 |(((
873 **定义不同事态类型的阈值**
874
875 **定义服务'运行状况模型'(端到端事件)**
876
877 **定义事态关联和规则集**
878 )))|(((
879 **监控和事态管理工具**
880
881 **ITSM工具**
882
883 **软件定义的基础设施工具**
884
885 **基础设施和平台内置的监控工具**
886
887 **服务可视化工具**
888 )))|**主动和被动性监控,事态设置,数据收集,数据分析,警报,规则设置**|**高**
889 |**建立行动计划和需要响应和通知的职能部门之间的映射关系**|(((
890 **监控和事态管理工具**
891
892 **ITSM工具**
893
894 **软件定义的基础设施工具**
895
896 **协作和通讯工具**
897
898 **集成总线**
899
900 **自动化系统**
901
902 **用于事态关联、行为监控与分析的AI和ML工具**
903 )))|(((
904 **ITSM工具集成(例如,基于事态的事件记录)**
905
906 **通知和通讯,任务创建。**
907
908 **自动化脚本运行**
909
910 **AI和ML 事态关联,正常/异常行为分析**
911 )))|**高**
912 |(% colspan="4" %)**事态处理流程**
913 |(((
914 **事态检测**
915
916 **事态日志记录**
917
918 **事态过滤和相关性检查(可能是迭代的)**
919
920 **事态分类**
921
922 **事态响应选择**
923
924 **发送通知、执行响应过程**
925 )))|(((
926 **监控和事态管理工具**
927
928 **ITSM工具**
929
930 **软件定义的基础设施工具**
931
932 **协作和**
933
934 **通讯工具**
935
936 **集成总线**
937
938 **自动化系统**
939
940 **报告和仪表板工具和门户**
941 )))|(((
942 **ITSM工具集成(例如,基于事态的事件记录)**
943
944 **通知和通讯,任务创建。**
945
946 **自动化脚本运行**
947
948 **AI和ML 事态关联,正常/异常行为分析**
949
950 **报告和仪表板发布**
951 )))|**高**
952 |(% colspan="4" %)**监控和事态管理评审**
953 |(((
954 **评审重大事件或事态**
955
956 **评审过滤和相关性分析**
957
958 **评审服务“运行状况模式“**
959
960 **评估事态的响应程序和自动化程度**
961
962 **评审用于数据分析、相关性分析、人工智能和机器学习的工具**
963
964 **评审监控工具收集的统计信息**
965 )))|(((
966 **可视化工具(例如思维导图,服务图表,架构可视化)**
967
968 **统计分析工具,数据库**
969
970 **服务目录工具**
971
972 **配置管理数据库**
973
974 **监控和事态管理工具**
975
976 **ITSM工具**
977
978 **协作和通讯工具**
979
980 **报告和仪表板工具和门户**
981
982 **业务分析工具**
983
984 **基准工具和**
985
986 **知识管理工具**
987 )))|(((
988 **服务结构,依赖项,配置项等的可视化**
989
990 **提供有关服务结构和组件/ 服务相互依赖关系的信息**
991
992 **提供有关服务SLA和要求,合规性和违规的信息**
993
994 **提供重大事件的信息**
995
996 **报告和仪表板发布**
997
998 **通知,聊天**
999
1000 **分析和评估**
1001
1002 **知识共享**
1003 )))|**中**
1004
1005 **表5.1 监控和事态管理活动的自动化解决方案**
1006
1007
1008
1009 ----
1010
1011 = **6  合作伙伴和供应商** =
1012
1013
1014 **只有很少的服务是使用自己的资源提供的。大多数(如果不是全部)依赖于其他服务,这些服务通常由组织以外的第三方提供(请参阅ITIL//®//Foundation:ITIL 4 Edition出版物中的第2.4节,了解服务关系的模型)。支持服务在供应商管理的实践指南中介绍了关系和依赖性。**
1015
1016 **通信和云服务的开发使得外部监控服务非常受欢迎。配置项像服务器,数据库实例可以安装监控代理并将信息输入云存储库。这样的解决方案使其他使用了AI和机器学习(ML)的分析变得更容易,更便宜。这种解决方案中的机器学习(ML)通过合并来自数千个监控对象的数据以及对系统和用户的正常和异常行为理解的不断修正而得到改进。**
1017
1018 **另一个重要的考量是涉及到外包服务和组件监控权限的问题,因此组织会控制与服务提供者达成共识的度量标准。**
1019
1020 **此外,必须将外部供应商开发的所有服务设计为具有监控功能,这意味着设计的服务必须能够提供有关其性能和运行状态的信息。**
1021
1022 **当组织旨在确保监控和事态管理快速有效时,他们通常会试图同意与合作伙伴和供应商的密切合作,消除沟通,协作和决策方面的正式官僚障碍。有关更多信息,请参考供应商管理实践指南。**
1023
1024
1025
1026 ----
1027
1028 = **7  重要提醒** =
1029
1030
1031 **实践指南的大部分内容都应作为组织在建立和发展自己的实践时可能考虑的领域的建议。实践指南是组织可能考虑的事情的目录,而不是答案的列表。使用ITIL 实践指南的内容时,组织应始终遵循ITIL 指导原则:**
1032
1033 1. **聚焦价值**
1034 1. **从你所处的地方开始**
1035 1. **基于反馈迭代推进**
1036 1. **协作和提升可视化程度**
1037 1. **整体性思考和工作**
1038 1. **保持简单实用**
1039 1. **优化和自动化。**
1040
1041 **有关指导原则及其应用程序的更多信息,请参见以下内容的第4.3节:**
1042
1043 **//ITIL®Foundation:ITIL 4Edition//.**
1044
1045
1046
1047 ----
1048
1049 = **8  致谢** =
1050
1051
1052 **AXELOS Ltd非常感谢为本指南的开发做出贡献的每一个人。这些实践指南融合了ITIL社区前所未有的热情和反馈。AXELOS特别要感谢以下人员。**
1053
1054
1055 == **8.1 作者** ==
1056
1057 **Dennis Cotter .**
1058
1059
1060 == **8.2 审稿人** ==
1061
1062 **Roman Jouravlev.**
深圳市艾拓先锋企业管理咨询有限公司