文档更改服务管理实践 - 02 事件
由 superadmin 于 2024/12/25, 15:38 最后修改
修改评论
该版本没有评论
Summary
Details
- Page properties
-
- 标题
-
... ... @@ -1,1 +1,1 @@ 1 - 服务管理实践- 02 事件1 +ITIL 4事件管理实践中文版 - Content
-
... ... @@ -1,9 +4,8 @@ 1 -如有[[ITIL认证>>url:http://www.itilchina.cn/achotsao/vip_doc/13354653.html]]、[[ITIL培训>>url:http://www.itilchina.cn/achotsao/vip_doc/13354653.html]]或[[ITIL考试>>url:http://www.itilchina.cn/achotsao/vip_doc/13354653.html]]需求,可点击了解详情 2 - 3 - 4 4 **申明:** 5 5 6 -本系列ITIL 4中文版本由长河领导的ITIL先锋论坛专家委员会组织翻译,国内众多从事ITIL理论推广及落地实践的专家们参与。需要下载最新翻译版本请关注微信公众号:**ITILXF**,并回复“**事件管理**”或“**事件**”即可。 3 +本系列ITIL 4实践中文版本由ITIL先锋论坛专家委员会组织翻译,国内众 4 +多从事ITIL理论推广及落地实践的专家们参与,需要下载最新翻译版本请关注微信 5 +公众号:ITILXF,也可访问ITIL4中文知识库网站:itil4hub.cn。 7 7 8 8 9 9 请注意,ITIL先锋论坛专家团队仅仅只是进行了这些著作的语种转换工作,我们并不拥有包括原著以及中文发行文件的任何版权,所有版权均为Axoles持有,读者在使用这些文件(含本中文翻译版本)时需完全遵守Axoles 和 TSO所申明的所有版权要求。 ... ... @@ -25,11 +25,9 @@ 25 25 26 26 27 27 ---- 28 - 29 29 {{box cssClass="floatinginfobox" title="**Contents**"}} 30 30 {{toc/}} 31 31 {{/box}} 32 - 33 33 = **1 关于本文件** = 34 34 35 35 本文档提供事件管理实践实用指南。分为五个主要部分,内容包括: ... ... @@ -40,8 +40,11 @@ 40 40 * 支持实践的信息和技术 41 41 * 对实践的合作伙伴和供应商的考虑。 42 42 40 + 43 43 == **1.1 ITIL®4 认证方案** == 44 44 43 + [[image:file:///C:\Users\19805\AppData\Local\Temp\ksohtml\wps87EB.tmp.png]] 44 + 45 45 本文档的部分内容可以作为以下教学大纲的一部分以供检查: 46 46 47 47 * ITIL专家:创建、交付和支持 ... ... @@ -57,7 +57,7 @@ 57 57 = **2 一般信息** = 58 58 59 59 60 -== **2.1****目的和描述** ==60 +== 2.1 **目的和描述** == 61 61 62 62 |((( 63 63 **关键信息** ... ... @@ -64,16 +64,19 @@ 64 64 ))) 65 65 |事件管理实践的目的是尽快恢复正常的服务运作,以尽量减少事件的负面影响。 66 66 67 + 67 67 规范的服务运维通常是在服务级别协议(SLA)定义,或在服务质量规范的其他形式中定义的,因为这可以是服务提供者在内部达成的协议。规范可以包含比最初与客户达成的协议更多的质量准则。因此,事件管理实践包括恢复服务和资源的正常运行,即使服务使用者看不到它们的失效或偏差。在这种情况下,日常运维操作在配置项(CI)或服务技术规范中定义。但是,如果没有日常运维的书面规范,则可以使用专家意见来评估资源和服务的状况。如果需要,可以使用事件管理实践来纠正有故障的资源或服务。 68 68 69 69 事件管理实践是服务管理的基本元素。服务的快速恢复是用户和客户满意、服务提供者的信誉,以及组织在服务关系中创建价值的关键因素。 70 70 71 71 72 -== **2.2** **术语和概念** == 73 73 74 +== 2.2 **术语和概念** == 75 + 74 74 |**事件** 75 75 |服务的计划外中断或服务质量的降低。 76 76 79 + 77 77 事件管理实践确保将计划外的服务不可用或降级的时间减至最少,从而减少对用户的负面影响。有两个主要因素可以实现这一点:早期的事件检测和快速恢复正常的运维。 78 78 79 79 借助有效、高效的流程,自动化工具和供应商关系以及技术精湛且积极进取的专家团队,可以快速检测和解决事件。服务管理四维模型的资源被整合以形成事件管理实践。 ... ... @@ -85,12 +85,12 @@ 85 85 86 86 尽管有些事件在服务运营和消费方面的影响相对较低,但其他事件却给服务消费者和服务提供者带来了严重后果,这些被称为重大事件,需要特别注意。 87 87 88 - 89 89 |((( 90 - **定义:重大事件**92 +**定义:重大事件** 91 91 ))) 92 92 |具有重要业务影响的事件,需要立即协调解决。 93 93 96 + 94 94 重要的业务影响并不是重大事件的唯一特征。例如,当有多个为高可用性设计的系统和服务时,单个故障不太可能导致严重的业务影响。故障将迅速且通常是自动检测并修复。重大事件通常与更高级别的复杂性相关。例如,如果多个看似微不足道的事件同时发生,则可能会升级并对服务使用者产生影响。诸如此类的复杂事件需要一些特殊的管理和解决方法。实施一个模型来管理所有事件将是有益的,尽管重大事件很少发生且通常具有不同的性质。重大事件的模型可能包括: 95 95 96 96 * 清晰的准则,以区分重大事件与灾难及其他事件 ... ... @@ -101,11 +101,13 @@ 101 101 * 与用户,客户,监管机构,媒体和其他利益相关者进行沟通的机制 102 102 * 达成一致的评审与后续活动的规程。 103 103 107 + 104 104 |((( 105 105 **定义:变通方案** 106 106 ))) 107 107 |当事件或者问题无法彻底解决,而采取减少或消除事件或问题影响的变通解决方案。一些变通方案还可以降低事件发生的可能性。 108 108 113 + 109 109 有时,可能找不到事件的系统性解决方案。在这些情况下,服务提供者可以应用变通方案。 110 110 111 111 变通方案可以立即将服务恢复到可接受的质量。但是,变通方案可能会增加技术债务,并可能在将来导致新的事件。问题管理实践可用于减少事件解决方法创建的技术债务。在许多情况下,了解事件的原因可以帮助找到最佳解决方案。 ... ... @@ -116,8 +116,9 @@ 116 116 ))) 117 117 |因选择变通方案而非系统性解决方案(需要花费更长时间),而累计的返工总量 118 118 119 -== **2.3 范围** == 120 120 125 +== 2.3 **范围** == 126 + 121 121 事件管理实践的范围包括: 122 122 123 123 * 发现和登记事件 ... ... @@ -132,12 +132,11 @@ 132 132 133 133 表2.1 其他实践中描述的与事件管理实践相关的活动 134 134 135 -(% style="width:364px" %) 136 -|(% style="width:204px" %)**活动**|(% style="width:157px" %)**实践指南** 137 -|(% style="width:204px" %)调查事件原因|(% style="width:157px" %)问题管理 138 -|(% style="width:204px" %)与用户沟通|(% style="width:157px" %)服务台 139 -|(% style="width:204px" %)实施产品和服务的变更|(% style="width:157px" %)变更支持 140 -|(% style="width:204px" %) |(% style="width:157px" %)((( 141 +|**活动**|**实践指南** 142 +|调查事件原因|问题管理 143 +|与用户沟通|服务台 144 +|实施产品和服务的变更|变更支持 145 +| |((( 141 141 部署管理 142 142 143 143 基础设施和平台管理 ... ... @@ -148,18 +148,20 @@ 148 148 149 149 软件开发和管理 150 150 ))) 151 -| (% style="width:204px" %)监控技术,团队和供应商绩效|(% style="width:157px" %)监控和事态管理152 -| (% style="width:204px" %)改进计划的管理|(% style="width:157px" %)持续改进153 -| (% style="width:204px" %)服务请求的管理和执行|(% style="width:157px" %)服务请求管理154 -| (% style="width:204px" %)灾难情况下,恢复正常操作|(% style="width:157px" %)服务连续性管理156 +|监控技术,团队和供应商绩效|监控和事态管理 157 +|改进计划的管理|持续改进 158 +|服务请求的管理和执行|服务请求管理 159 +|灾难情况下,恢复正常操作|服务连续性管理 155 155 156 -== **2.4** **实践成功因素** == 157 157 162 +== 2.4 **实践成功因素** == 163 + 158 158 |((( 159 159 **实践成功因素** 160 160 ))) 161 161 |相关联的一组事务的协同工作机制,是实践活动实现其目的所必需的。 162 162 169 + 163 163 实践的成功因素(PSF)不仅仅是一项任务或活动,它包括服务管理四维模型的所有功能组件。在一项实践中,PSFs活动和资源的性质可能不同,但这些资源和活动共同确保实践有效。 164 164 165 165 事件管理实践包括以下PSFs: ... ... @@ -168,6 +168,7 @@ 168 168 * 快速有效地解决事件 169 169 * 不断改进事件管理方法。 170 170 178 + 171 171 === **2.4.1 尽早发现事件** === 172 172 173 173 以前,实践通常是根据最终用户和IT专家的信息来报告大多数事件的。这种获取信息的方法仍被广泛使用,但是现在一个好的实践建议是自动发现和报告事件。可以在事件发生后和开始影响用户之前立即被发现。这种方法具有多种好处,其中包括: ... ... @@ -193,9 +193,11 @@ 193 193 * 在复杂的情况下,事件的确切性质未知,但支持团队熟悉系统和组件,并且组织可以获取专家知识,因此通常会将事件分派到一个或多个专家组进行诊断和解决。有时,这可以帮助识别模式,并产生一个模型和/或解决方案,可以应用于未来的类似事件。 194 194 * 在非常复杂的情况下,很难或不可能确定专家区域和专家组,或者已确定的专家组找不到解决方案时,采用集体方法可能会有用。此技术称为“全功能团队”。 195 195 204 + 196 196 |**全功能团队** 197 197 |解决各种复杂任务的技术方法。在全功能团队中,具有不同专业知识领域的多个人员一起完成一项任务,直到明确哪些能力最相关和最需要。 198 198 208 + 199 199 通常,全功能团队有助于降低复杂度,使其可以切换到低复杂性环境中使用的技术。但是,全功能团队通常适用于性质未知的重大事件。在这种情况下,与仍未解决的事件造成的损失相比,将大量专用资源集中在一起更具有成本效益。 200 200 201 201 全功能团队不需要举行实际会议。建立计划后,专家可能会独自工作以完成实验,设计脚本,并使用其他工具来发现正在发生的事情。为了应对这一事件,全功能团队使用正确的人员,而不是大量的人员。 ... ... @@ -212,6 +212,7 @@ 212 212 * 找到并纠正根本原因的能力 213 213 * 机器学习的可能性和质量。 214 214 225 + 215 215 ==== **2.4.2.1 事件的优先级** ==== 216 216 217 217 事件应尽快解决。但是,参与事件解决的团队的资源是有限的,并且这些团队通常同时参与其他类型的工作。应该优先处理某些事件,以最大程度地减少对用户的负面影响。 ... ... @@ -250,8 +250,9 @@ 250 250 全面描述采取行动的原因与描述行动本身同样重要。 251 251 ))) 252 252 253 -== **2.5 关键指标** == 254 254 265 +== 2.5 **关键指标** == 266 + 255 255 应该基于每个实践对价值流的贡献来评估ITIL实践的有效性和绩效。与任何工具的绩效一样,实践的绩效只能在其应用情境中评估。工具在设计和质量上可能会有很大差异,按照工具的用途使用时,这些差异定义了工具有效性的潜力或能力。关于度量标准,关键绩效指标(KPI)和其它技术的进一步指导,请参见度量和报告实践指南。 256 256 257 257 事件管理实践的关键指标已映射到其PSF。它们可以用作价值流情景下的KPIs,来评估实践对这些价值流的效能和效率的贡献。表2.2中给出了一些关键指标的例子。 ... ... @@ -261,14 +261,13 @@ 261 261 262 262 表2.2 实践成功因素的关键指标示例 263 263 264 -(% style="width:458px" %) 265 -|(% style="width:182px" %)**实践成功因素**|(% style="width:273px" %)**指标示例** 266 -|(% style="width:182px" %)尽早发现事件|(% style="width:273px" %)((( 276 +|**实践成功因素**|**指标示例** 277 +|尽早发现事件|((( 267 267 事件发生到发现之间的时间 268 268 269 269 通过监控和事态管理发现的事件百分比 270 270 ))) 271 -| (% style="width:182px" %)快速有效地解决事件|(% style="width:273px" %)(((282 +|快速有效地解决事件|((( 272 272 从事件发现到接受诊断之间的时间 273 273 274 274 派单次数 ... ... @@ -285,7 +285,7 @@ 285 285 286 286 用户报告之前已解决的事件的百分比 287 287 ))) 288 -| (% style="width:182px" %)不断改进事件管理方法|(% style="width:273px" %)(((299 +|不断改进事件管理方法|((( 289 289 使用先前确定和记录的解决方案的事件解决率 290 290 291 291 使用事件模型解决的事件的百分比 ... ... @@ -295,12 +295,14 @@ 295 295 事件解决的速度和有效性指标之间的平衡 296 296 ))) 297 297 309 + 310 + 298 298 ---- 299 299 300 300 = **3 价值流和流程** = 301 301 302 302 303 -== **3.1****价值流贡献** ==316 +== 3.1 **价值流贡献** == 304 304 305 305 像任何其他ITIL管理实践一样,事件管理实践对多条价值流有帮助。重要的是要记住,价值流不是由单一实践形成的。例如,即使当价值流专注于事件解决时,也会涉及其他实践,例如服务台、监控和事态管理、服务配置管理、变更支持、供应商管理、基础设施和平台管理以及软件开发和管理。 306 306 ... ... @@ -312,6 +312,7 @@ 312 312 * 改进 313 313 * 获取或构建。 314 314 328 + 315 315 事件管理实践对服务价值链的贡献如图3.1所示。 316 316 317 317 (% style="text-align:center" %) ... ... @@ -320,7 +320,7 @@ 320 320 图3.1 事件管理实践对价值链活动的贡献热力图 321 321 322 322 323 -== **3.2 流程** ==337 +== 3.2 **流程** == 324 324 325 325 每个实践可以包含一个或多个过程和活动,这是实现这一实践目的所必需的。 326 326 ... ... @@ -330,11 +330,13 @@ 330 330 ))) 331 331 |将输入转换为输出的一组相互关联或相互作用的活动。过程接受一个或多个已定义的输入,并将其转换为已定义的输出。过程定义操作的顺序及依赖关系。 332 332 347 + 333 333 事件管理活动分为两个流程: 334 334 335 335 * **事件的处理和解决**。该流程的重点是从发现到关闭的单个事件的处理和解决。 336 336 * **定期事件评审**。该流程确保从事件处理和解决的过程中吸取教训,并确保持续改进事件管理的方法。 337 337 353 + 338 338 === **3.2.1 事件处理和解决** === 339 339 340 340 该过程包括表3.1中列出的活动,并将输入转换为输出。 ... ... @@ -355,6 +355,7 @@ 355 355 |(% style="width:254px" %)问题记录|(% style="width:119px" %) |(% style="width:177px" %) 356 356 |(% style="width:254px" %)知识库|(% style="width:119px" %) |(% style="width:177px" %) 357 357 374 + 358 358 图3.2展示事件处理和解决的工作流程图。 359 359 360 360 ... ... @@ -371,11 +371,45 @@ 371 371 372 372 表3.2 事件处理和事件解决过程的活动 373 373 374 -[[image:1642222461983-817.png]] 391 +|**活动**|**手动处理用户发现的事件**|**自动发现和处理事件** 392 +|事件发现|用户发现服务运营中的故障,并通过约定的渠道与服务提供者的服务台联系。服务台客服对该用户问询进行初始分类,确认该问询确实属于事件。|监控系统检测到事态,并基于预定义的分类将其标识为事件。 393 +|事件登记|服务台客服执行事件登记,将有效数据添加到事件记录中。|登记事件记录并将其与发现事态的CI关联。登记预定义的技术参数。必要时,给相关技术专家发送通知。 394 +|事件分类|((( 395 +服务台客服完成事件初始分类;这有助于确定事件的影响,确定为失效CI和/或服务确定责任团队,并将事件关联到其他过去和正在处理的事态,事件和/或问题。 375 375 376 -[[image:1642222484248-277.png]] 397 +在某些情况下,分类有助于找到以前为此类事件定义的解决方案。 398 +)))|((( 399 +根据预定义的规则,将自动发现: 377 377 401 +* 事件对服务和用户的影响 402 +* 可用的解决方案 403 +* 如果自动化解决方案无效或不可用,找到负责事件解决的技术团队。 404 +))) 405 +|事件诊断|((( 406 +如果分类没有关联到已知解决方案, 378 378 408 +专家团队开展事件诊断。这可能涉及将事件升级到不同团队,或其他联合技术团队加入(如全功能团队)。 409 + 410 +如果由于配置项关联错误而导致分类错误,则应将此信息传达给负责配置管理的人员(请参阅服务配置实践指南)。 411 +)))|((( 412 +如果自动解决方案无效或不可用,则将事件上报给负责诊断的技术团队。可能涉及事件升级到不同团队,或其他技术团队加入(如全功能团队)。 413 + 414 +如果由于配置项关联错误而导致自动化解决方案失败,则应将此信息传达给负责配置管理的人员(请参阅服务配置实践指南)。 415 +))) 416 +|事件解决|找到解决方案后,相关专家团队将尝试按顺序或并行工作方式执行,这可能需要启动变更。如果解决方案不起作用,则再次诊断。|如果有可用的自动化解决方案,则实施它,并完成测试和确认。如果需要手动干预,则相关的专业团队尝试实施,这可能需要启动变更。如果解决方案不起作用,则再次诊断。 417 +|事件关闭|((( 418 +成功解决事件之后,可能需要一些正式的关闭过程: 419 + 420 +* 用户确认服务恢复 421 +* 计算解决方案成本并报告 422 +* 解决方案结算报价和发票 423 +* 问题调查启动 424 +* 事件评审 425 + 426 +完成所有必需的操作并更新了相应地事件记录后,事件正式关闭。这可以由产品负责人,服务负责人,事件经理或服务台客服完成,具体取决于商定的事件模型。 427 +)))|如果自动解决方案证明有效,则事件记录将自动更新并关闭。发送报告给负责的技术团队。如果在先前的任何步骤中已将有关事件的信息传达给其他利益相关者,则应向其传达事件关闭的信息。 428 + 429 + 379 379 === **3.2.2 定期事件评审** === 380 380 381 381 该流程的重点是持续改进事件管理实践,事件模型和事件处理程序。它可以定期执行,也可以由事件报告触发,该报告突显低效率和其他改进点机会。根据现有模型和程序的效果,每两到三个月或更短时间进行一次定期检查。 ... ... @@ -385,23 +385,24 @@ 385 385 386 386 表3.3定期事件评审的输入、输出和活动 387 387 388 -(% style="width: 406px" %)389 -|(% style="width: 139px" %)**关键输入**|(% style="width:146px" %)**活动**|(% style="width:117px" %)**关键输出**390 -|(% style="width: 139px" %)当前事件的模型和程序|(% style="width:146px" %)事件评审和事件记录分析|(% style="width:117px" %)更新的事件模型391 -|(% style="width: 139px" %)事件记录|(% style="width:146px" %)事件模型优化的启动|(% style="width:117px" %)更新的事件处理程序392 -|(% style="width: 139px" %)事件报告|(% style="width:146px" %) |(% style="width:117px" %)事件记录393 -|(% style="width: 139px" %)策略和法规要求|(% style="width:146px" %)事件模型更新的沟通|(% style="width:117px" %)更新的事件模型和过程的沟通394 -|(% style="width: 139px" %)配置信息|(% style="width:146px" %) |(% style="width:117px" %)395 -|(% style="width: 139px" %)IT资产信息|(% style="width:146px" %) |(% style="width:117px" %)变更请求396 -|(% style="width: 139px" %)与消费者和供应商/合作伙伴的SLA|(% style="width:146px" %) |(% style="width:117px" %)(((439 +(% style="width:738px" %) 440 +|(% style="width:297px" %)**关键输入**|(% style="width:233px" %)**活动**|(% style="width:207px" %)**关键输出** 441 +|(% style="width:297px" %)当前事件的模型和程序|(% style="width:233px" %)事件评审和事件记录分析|(% style="width:207px" %)更新的事件模型 442 +|(% style="width:297px" %)事件记录|(% style="width:233px" %)事件模型优化的启动|(% style="width:207px" %)更新的事件处理程序 443 +|(% style="width:297px" %)事件报告|(% style="width:233px" %) |(% style="width:207px" %)事件记录 444 +|(% style="width:297px" %)策略和法规要求|(% style="width:233px" %)事件模型更新的沟通|(% style="width:207px" %)更新的事件模型和过程的沟通 445 +|(% style="width:297px" %)配置信息|(% style="width:233px" %) |(% style="width:207px" %) 446 +|(% style="width:297px" %)IT资产信息|(% style="width:233px" %) |(% style="width:207px" %)变更请求 447 +|(% style="width:297px" %)与消费者和供应商/合作伙伴的SLA|(% style="width:233px" %) |(% style="width:207px" %)((( 397 397 改进计划 398 398 399 399 事件评审报告 400 400 ))) 401 -|(% style="width: 139px" %)容量和性能信息|(% style="width:146px" %) |(% style="width:117px" %)402 -|(% style="width: 139px" %)连续性策略和计划|(% style="width:146px" %) |(% style="width:117px" %)403 -|(% style="width: 139px" %)安全策略和计划|(% style="width:146px" %) |(% style="width:117px" %)452 +|(% style="width:297px" %)容量和性能信息|(% style="width:233px" %) |(% style="width:207px" %) 453 +|(% style="width:297px" %)连续性策略和计划|(% style="width:233px" %) |(% style="width:207px" %) 454 +|(% style="width:297px" %)安全策略和计划|(% style="width:233px" %) |(% style="width:207px" %) 404 404 456 + 405 405 图3.3 展示事件评审的工作流程图。 406 406 407 407 ... ... @@ -416,22 +416,24 @@ 416 416 417 417 表3.4 定期事件评审流程的活动 418 418 419 -(% style="width:434px" %) 420 -|(% style="width:106px" %)**活动**|(% style="width:326px" %)**示例** 421 -|(% style="width:106px" %)事件评审和事件记录分析|(% style="width:326px" %)事件经理与服务所有者和其他相关的利益相关者一起,对选定的事件(例如重大事件,未及时解决的事件或特定时期内的所有事件)实施评审,确定事件模型和事件处理程序的改进机会,包括事件处理和解决方案的自动化。 422 -|(% style="width:106px" %)事件模型优化的启动|(% style="width:326px" %)事件经理记录优化方案,它将通过持续改进实践或启动变更请求开始。(如果事件模型、程序和自动化包含在变更支持实践的范围内)。 423 -|(% style="width:106px" %)((( 471 +|**活动**|**示例** 472 +|事件评审和事件记录分析|事件经理与服务所有者和其他相关的利益相关者一起,对选定的事件(例如重大事件,未及时解决的事件或特定时期内的所有事件)实施评审,确定事件模型和事件处理程序的改进机会,包括事件处理和解决方案的自动化。 473 +|事件模型优化的启动|事件经理记录优化方案,它将通过持续改进实践或启动变更请求开始。(如果事件模型、程序和自动化包含在变更支持实践的范围内)。 474 +|((( 424 424 事件模型 425 425 426 426 变更的沟通 427 -)))| (% style="width:326px" %)如果事件模型成功地完成优化,这一事实将会传达给相关的利益相关者。这通常由事件经理和/或服务或资源所有者通过沟通过程完成。478 +)))|如果事件模型成功地完成优化,这一事实将会传达给相关的利益相关者。这通常由事件经理和/或服务或资源所有者通过沟通过程完成。 428 428 480 + 481 + 482 + 429 429 ---- 430 430 431 431 = **4 组织和人员** = 432 432 433 433 434 -== **4.1 角色,能力和责任** ==488 +== 4.1 **角色,能力和责任** == 435 435 436 436 实践指南不描述实践管理角色,如实践所有者、实践负责人或实践教练。相反,指南关注特定于每个实践的专家角色。每个角色的结构和命名可能因组织而异,因此不应强制,甚至不应推荐ITIL中定义的任何角色。记住,角色并非职位头衔。一个人可担任多个角色,一个角色也可以分配给多个人员。 437 437 ... ... @@ -447,6 +447,7 @@ 447 447 |М|**方法和技巧专家 **设计和实施技术、文件化步骤、流程咨询、工作分析和持续改进 448 448 |Т|**技术专家**提供技术(IT)专业知识并执行基于专家经验的作业 449 449 504 + 450 450 === **4.1.1 事件经理角色** === 451 451 452 452 在许多组织中,事件经理角色由专人担任,有时授予事件经理的职衔。在其他组织中,事件经理的责任由负责与事件关联的配置项,服务或产品的人员或团队承担;他可能是资源所有者,服务负责人或产品负责人。 ... ... @@ -473,11 +473,103 @@ 473 473 474 474 表4.2负责事件管理活动的角色示例 475 475 476 -[[image:1642222648578-782.png]] 531 +|**实现价值**|**负责角色**|**能力简介**|**具体技能** 532 +|(% colspan="4" %)**事件处理和解决流程** 533 +|事件发现|((( 534 +技术专家 477 477 478 -[[image:1642222669993-827.png]] 536 +用户 537 +)))|TC|理解服务设计,资源配置和业务影响,了解事态的特征 538 +|事件登记|((( 539 +事件经理 479 479 541 +服务台客服 480 480 543 +技术专家 544 +)))|AT|熟练掌握IT服务管理(ITSM)工具和程序 545 +|事件分类|((( 546 +事件经理 547 + 548 +服务台客服 549 + 550 +技术专家 551 +)))|TC|((( 552 +理解服务设计,资源配置和业务影响 553 + 554 +熟悉事件解决的要求和承诺 555 + 556 +熟悉事件模型 557 +))) 558 +|事件诊断|((( 559 +供应商 560 + 561 +技术专家 562 +)))|TC|((( 563 +理解服务设计,资源配置和业务影响 564 + 565 +具备事件模型、诊断工具、诊断方法的知识 566 + 567 +分析能力 568 +))) 569 +|事件解决|((( 570 +供应商 571 + 572 +技术专家用户 573 +)))|T|了解事件解决的方法和程序要求 574 +|事件关闭|((( 575 +事件经理 576 + 577 +服务台客服 578 + 579 +技术专家 580 +)))|ACT|((( 581 +理解服务设计,资源配置和业务影响 582 + 583 +熟悉事件解决的要求和承诺 584 +))) 585 +|(% colspan="4" %)**定期事件评审流程** 586 +|事件评审和事件记录分析|((( 587 +事件经理 588 + 589 +产品负责人 590 + 591 +服务负责人 592 + 593 +供应商 594 +)))|TCL|((( 595 +理解服务设计,资源配置和业务影响 596 + 597 +熟悉事件解决的要求和承诺 598 + 599 +具备事件模型、诊断工具,诊断方法的知识和分析能力 600 +))) 601 +|事件模型优化的启动|((( 602 +事件经理 603 + 604 +产品负责人 605 + 606 +服务负责人 607 +)))|TMC|((( 608 +理解服务设计,资源配置和业务影响 609 + 610 +熟悉事件解决的要求和承诺 611 + 612 +具备事件模型、诊断工具,诊断方法的知识 613 + 614 +熟悉组织的持续改进和变更管理实践 615 +))) 616 +|事件模型变更的沟通|((( 617 +事件经理 618 + 619 +产品负责人 620 + 621 +服务台客服 622 + 623 +服务负责人 624 +)))|CA|熟悉沟通程序和沟通工具 625 + 626 + 627 + 481 481 == **4.2** **组织结构和团队** == 482 482 483 483 事件管理实践不推荐任何特定的组织模型。但是,组织结构会影响实践的执行方式,因为它涉及具有不同领域和专业水平的专家。专家分组的典型方法包括: ... ... @@ -507,6 +507,8 @@ 507 507 * L3团队间协作,以取代多次重新分配和/或对专家和顶级人才的过度依赖。 508 508 ))) 509 509 657 + 658 + 510 510 === **4.2.2 团队动力** === 511 511 512 512 事件管理实践是团队动力的基础,它们影响着运维支持团队的职责履行。经常出现以下问题: ... ... @@ -540,7 +540,7 @@ 540 540 = **5 信息和技术** = 541 541 542 542 543 -== **5.1****信息沟通** ==692 +== 5.1 **信息沟通** == 544 544 545 545 事件管理实践的有效性取决于所用信息的质量。这包括但不限于以下信息: 546 546 ... ... @@ -578,7 +578,17 @@ 578 578 579 579 表5.1 事件记录中包含的数据 580 580 581 -[[image:1642222734298-342.png]] 730 +|**域**|**推荐内容**|**说明** 731 +|事件标题(简短说明)|观察到的降低或失效的功能或过程|带有清晰说明的解决方案搜索速度更快 732 +|用户|受影响的用户,被报告的用户| 733 +|当前影响|对用户/客户工作流程的实际影响的文字说明|创建上下文,允许排障组提供适当的变通或者解决方法 734 +|未来影响|如果事件持续下去,对客户的潜在影响的文字说明|创建上下文,允许排障组提供适当的变通或者解决方法 735 +|首次症状的时间|监控或用户体验中的日期和时间|诊断原因之前的准确时间点 736 +|最近一次正常状态的时间|验证功能正常的日期和时间|触发事态的准确时间点(此信息是人为添加还是自动记录的,可能会影响可信度) 737 +|受影响项目(功能,配置项,流程)的详细信息|资产ID号,应用程序和流程名称以及配置项索引|集中精力进行修复 738 +|未受影响的可比项目(如果有)的详细信息|未受影响的资产ID号,应用程序和流程名称以及配置项索引|缩小搜索范围 739 +|诊断详情(如果有)|诊断步骤和每步的结果|减少重复工作 740 +|分派|事件的个人或团队所有者| 582 582 583 583 584 584 == **5.2** **自动化和工具** == ... ... @@ -592,12 +592,49 @@ 592 592 593 593 表5.2 事件管理活动的自动化解决方案 594 594 595 -[[image:1642222873598-155.png]] 754 +|**过程活动**|**自动化方式**|**关键功能**|**对实践有效性的影响** 755 +|(% colspan="4" %)**事件处理和解决流程** 756 +|事件发现|监控工具和事态相关引擎|早期的检测和事件关联,初始化事件管理实践|高 757 +|事件登记|用户查询管理和工作流程工具,以及协同工具|有效记录事件|高 758 +|事件分类|((( 759 +用户查询管理和工作流程工具, 596 596 597 - [[image:1642222893312-806.png]]761 +协同工具, 598 598 763 +知识管理工具, 599 599 765 +配置管理工具 600 600 767 +和基于机器学习的分类引擎 768 +)))|快速、准确的分类和事件分派,已知解决方案的识别,重大事件的识别|非常高,尤其是在事件数量多的情况下 769 +|事件诊断|((( 770 +分析和诊断工具 771 + 772 +知识管理工具 773 + 774 +配置管理工具 775 + 776 +协同工具 777 +)))|快速、准确的定义和测试假设,多个专家/团队的有效协作|高,特别是在需要手动协作的复杂事件数量很多时 778 +|事件解决|((( 779 +远程管理工具 780 + 781 +自动化的部署系统, 782 + 783 +和协同工具 784 +)))|快速纠正失效的配置项并恢复服务|高,特别是提供远程服务时 785 +|事件关闭|用户查询和工作流管理工具,和协同工具|快速而全面的回顾事件生命周期|中 786 +|**定期事件评审流程**| | | 787 +|事件评审和事件记录分析|协同系统,分析和报告系统以及调查工具|((( 788 +远程协作,事件数据分析和用户调查数据 789 + 790 +分析和报告 791 +)))|中到高,尤其是对批量事件 792 +|事件模型优化的启动|工作流系统和待办项管理工具|优化的正式登记|低到中 793 +|事件模型更新的沟通|通信系统和协作系统|与受影响团队沟通更新|中到高,尤其当组织较大,更新较多时为高 794 + 795 + 796 + 601 601 ---- 602 602 603 603 = **6 合作伙伴和供应商** = ... ... @@ -627,6 +627,8 @@ 627 627 * 保持简单实用 628 628 * 优化和自动化。 629 629 826 + 827 + 630 630 ---- 631 631 632 632 = **8 致谢** =
- 1642222461983-817.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -117.4 KB - Content
- 1642222484248-277.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -68.3 KB - Content
- 1642222648578-782.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -62.3 KB - Content
- 1642222669993-827.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -46.5 KB - Content
- 1642222734298-342.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -84.0 KB - Content
- 1642222873598-155.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -72.6 KB - Content
- 1642222893312-806.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -29.3 KB - Content