文档更改服务管理实践 - 04 问题
由 superadmin 于 2024/12/25, 15:38 最后修改
修改评论
上传新附件1642237130977-375.png
Summary
Details
- Page properties
-
- Content
-
... ... @@ -97,6 +97,7 @@ 97 97 * 主动问题管理有助于预防事件第一次发生 98 98 * 被动问题管理有助于预防事件再次发生,并可能有助于解决进行中的事件 99 99 100 + 100 100 === **2.2.2 问题控制** === 101 101 102 102 问题识别使得问题被登记形成问题记录。可能形成一系列待分析问题列表。已记录的问题将根据其最初的分类和优先级进行分析。问题完成分析之后,问题初始分类很可能会发生改变,特别是基于事件(症状)信息登记的问题。 ... ... @@ -222,21 +222,18 @@ 222 222 223 223 表2.2 与其他实践指南中描述的问题管理实践相关的活动 224 224 225 -(% style="width:560px" %) 226 -|(% style="width:276px" %)**实现价值**|(% style="width:283px" %)**实践指南** 227 -|(% style="width:276px" %)事件解决|(% style="width:283px" %)事件管理 228 -|(% rowspan="4" style="width:276px" %)控制和实现为解决问题而启动的变更|(% style="width:283px" %)变更启动部署管理 229 -|(% style="width:283px" %)基础设施和平台管理发布管理 230 -|(% style="width:283px" %)软件开发和管理 231 -|(% style="width:283px" %) 其他做法 232 -|(% style="width:276px" %)风险评估和控制|(% style="width:283px" %)风险管理 233 -|(% rowspan="3" style="width:276px" %)检测和控制产品在部署到运行环境之前的错误|(% style="width:283px" %)部署管理服务设计 234 -|(% style="width:283px" %)服务验证和测试 235 -|(% style="width:283px" %)软件开发和管理 236 -|(% style="width:276px" %)沟通事件的解决方法给用户|(% style="width:283px" %)服务台 226 +|**实现价值**|**实践指南** 227 +|事件解决|事件管理 228 +|(% rowspan="4" %)控制和实现为解决问题而启动的变更|变更启动部署管理 229 +|基础设施和平台管理发布管理 230 +|软件开发和管理 231 +| 其他做法 232 +|风险评估和控制|风险管理 233 +|(% rowspan="3" %)检测和控制产品在部署到运行环境之前的错误|部署管理服务设计 234 +|服务验证和测试 235 +|软件开发和管理 236 +|沟通事件的解决方法给用户|服务台 237 237 238 - 239 - 240 240 == **2.4 实践成功因素** == 241 241 242 242 **定义:实践成功因素** ... ... @@ -250,7 +250,6 @@ 250 250 * 识别并了解问题及其对服务的影响 251 251 * 优化问题解决和消解措施。 252 252 253 - 254 254 === **2.4.1** **识别并理解问题及其对服务的影响** === 255 255 256 256 组织应该掌握其产品中的存在错误。因为,它们可能导致事件并影响服务质量和客户满意度。问题管理实践确保问题被识别,从而有助于持续改进的产品和服务。如果是主动执行而不是被动执行,这将更加有效。 ... ... @@ -320,13 +320,12 @@ 320 320 321 321 表3.1 主动问题标识流程的输入活动和输出 322 322 323 -(% style="width:820px" %) 324 -|(% style="width:351px" %)**关键输入**|(% style="width:205px" %)**活动**|(% style="width:263px" %)**关键输出** 325 -|(% style="width:351px" %)((( 320 +|**关键输入**|**活动**|**关键输出** 321 +|((( 326 326 来自供应商和供应商的错误信息 327 327 328 328 有关专家团队提交的潜在错误的信息 329 -)))|(% rowspan="4" style="width:205px"%)(((325 +)))|(% rowspan="4" %)((( 330 330 评审的提交信息 331 331 332 332 问题登记 ... ... @@ -334,10 +334,10 @@ 334 334 问题的初步分类和分派 335 335 336 336 337 -)))|(% rowspan="4" style="width:263px"%)问题记录反馈给问题发起者338 -| (% style="width:351px" %)外部用户和专业团体提交的有关潜在错误的信息339 -| (% style="width:351px" %)用户提交的有关潜在错误的信息监控数据340 -| (% style="width:351px" %)服务配置数据333 +)))|(% rowspan="4" %)问题记录反馈给问题发起者 334 +|外部用户和专业团体提交的有关潜在错误的信息 335 +|用户提交的有关潜在错误的信息监控数据 336 +|服务配置数据 341 341 342 342 图3.2 显示了流程的工作流程图。 343 343 ... ... @@ -382,9 +382,8 @@ 382 382 383 383 表3.4 被动问题识别过程的输入,活动和输出 384 384 385 -(% style="width:521px" %) 386 -|(% style="width:229px" %)**关键输入**|(% style="width:153px" %)**活动**|(% style="width:137px" %)**关键输出** 387 -|(% style="width:229px" %)((( 381 +|**关键输入**|**活动**|**关键输出** 382 +|((( 388 388 有关持续事件的信息 389 389 390 390 事件记录和报告监控数据 ... ... @@ -392,11 +392,11 @@ 392 392 服务配置数据 393 393 394 394 服务级别协议(SLA) 395 -)))|( % style="width:153px" %)(((390 +)))|((( 396 396 问题登记 397 397 398 398 问题初步分类与分派 399 -)))| (% style="width:137px" %)问题记录394 +)))|问题记录 400 400 401 401 被动问题识别过程的工作流程图如下图3.3所示: 402 402 ... ... @@ -412,11 +412,49 @@ 412 412 413 413 表3.5 被动问题识别过程的活动 414 414 415 -[[image:1642236652061-588.png]] 410 +|**活动**|**由进行中的事件触发**|**由事件记录分析触发** 411 +|问题登记|((( 412 +处理该事件的团队确定需要进行问题调查。在某些情况下,问题记录与一个或多个事件记录相关联,以便于跟踪调查。当多个地点的多个事件由不同的团队处理时,需要进行协同进行问题调查,或者由专门的团队进行问题调查时,这一点可能尤为重要 416 416 417 -[[image:1642236633390-520.png]] 414 +在其他情况下,处理该事件的团队可以继续调查事件的原因,并在事件解决后记录问题。这个问题可能仍然需要登记,特别是导致事件的原因在事件解决过程中没有得到消除,可能导致新的事件发生 415 +)))|((( 416 +负责系统、服务或生产的专家团队会定期检查与其职责范围相关的事件记录。如果他们经过分析发现了问题,并进行问题记录的登记。这些情况可能包括: 418 418 418 +* 类似事件频发 419 +* 在目标解析时间之后解决的事件的高百分比 420 +* 重大事件 421 +* 可用性低于目标 422 +))) 423 +|问题初步分类与分派|((( 424 +登记问题过程中,进行问题的初步分类。通常包括以下这些内容(如果已知或合理假设): 419 419 426 +* 描述 427 +* 关联的配置项和或配置项类 428 +* 预估事件的影响和概率 429 +* 相关和可能受影响的服务 430 +* 对组织和客户的影响 431 + 432 +如果问题是在诊断分析之前进行登记,则问题将被分配给适当的专家组。 433 + 434 +如果问题在诊断分析之后登记,则信息应用包括所做的步骤、结果和问题的当前状态。如果在登记时问题还没有得到解决,则将其分配给适当的组。 435 + 436 + 437 +)))|((( 438 +登记问题过程中,进行问题的初步分类。通常包括以下这些内容(如果已知或合理假设): 439 + 440 +* 描述 441 +* 相关事件及其解决方案 442 +* 关联的配置项和或配置项类 443 +* 估计未来事件的影响和概率 444 +* 相关和可能受影响的服务 445 +* 对组织和客户的影响 446 +* 估计的事件影响和概率 447 + 448 +根据初步的分类,将问题分派到一个负责相关的配置、服务或产品的专家组 449 + 450 + 451 +))) 452 + 420 420 === **3.2.3** **问题控制** === 421 421 422 422 该流程专注于问题的调查。它包括表3.6中所示的活动,并将输入转换为输出。 ... ... @@ -423,9 +423,8 @@ 423 423 424 424 表3.6 问题控制过程的输入活动和输出 425 425 426 -(% style="width:532px" %) 427 -|(% style="width:256px" %)**关键输入**|(% style="width:147px" %)**活动**|(% style="width:127px" %)**关键输出** 428 -|(% style="width:256px" %)((( 459 +|**关键输入**|**活动**|**关键输出** 460 +|((( 429 429 问题记录 430 430 431 431 服务配置数据 ... ... @@ -435,11 +435,11 @@ 435 435 事件记录 436 436 437 437 监控数据 438 -)))|( % style="width:147px" %)(((470 +)))|((( 439 439 问题调查 440 440 441 441 已知错误沟通 442 -)))|( % style="width:127px" %)(((474 +)))|((( 443 443 问题记录 444 444 445 445 已知错误 ... ... @@ -478,9 +478,8 @@ 478 478 479 479 表3.8 错误控制的输入活动和输出流程 480 480 481 -(% style="width:453px" %) 482 -|(% style="width:145px" %)**关键输入**|(% style="width:177px" %)**活动**|(% style="width:129px" %)**关键输出** 483 -|(% style="width:145px" %)((( 513 +|**关键输入**|**活动**|**关键输出** 514 +|((( 484 484 问题记录 485 485 486 486 服务配置数据 ... ... @@ -492,7 +492,7 @@ 492 492 监控数据 493 493 494 494 知识管理数据 495 -)))|( % style="width:177px" %)(((526 +)))|((( 496 496 问题解决方案开发 497 497 498 498 问题解决启动 ... ... @@ -500,7 +500,7 @@ 500 500 已知错误监控和检查 501 501 502 502 问题关闭 503 -)))|( % style="width:129px" %)(((534 +)))|((( 504 504 问题记录 505 505 506 506 问题型号 ... ... @@ -525,12 +525,49 @@ 525 525 526 526 表3.9 错误控制的活动流程 527 527 528 -[[image:1642236751919-789.png]] 559 +|**活动**|**描述** 560 +|问题解决方案开发|团队(根据问题调查进行分配或重新分配)寻找解决问题的方法。这包括定义消解方法(请参见表2.1)和所选方法中的实际解决方案开发。如果没有针对问题的可行解决方案,则会记录支持信息,并且定期评审错误。 561 +|启动问题解决|((( 562 +在大多数情况下,问题需要通过变更解决。负责的团队按照组织初始化和实现变更的程序,提交变更请求。 529 529 530 -[[image:1642236783017-518.png]] 564 +在其他情况下,所需的操作不归类为变更,可以按照其他过程来启动和执行。无论哪种方式,团队都会启动已定义(如果需要的话,已批准)问题解决所需的操作。可能需要以相关理由支持(包括财务、风险、合规性、技术和其他注意事项)。 565 +))) 566 +|已知错误监控和评审|((( 567 +**如果已知错误的解决方案得到批准** 531 531 532 - [[image:1642236807230-396.png]]569 +使用预先商定的标准控制和确认解决方案的实施。这通常由发起解决方案的团队,或其他预先约定的角色,如由问题经理来完成。 533 533 571 +对于被动识别的问题,可以根据事件动态的变化(解决或预防相关事件)来完成。对于主动识别的问题,解决控制基于已发起变更是否成功,并可能包括一段时间来监控可能受到错误影响的服务。如果问题的解决方案没有得到确认,团队则返回到该过程的问题解决方案开发步骤。 572 + 573 +**如果找不到针对已知错误的可行解决方案** 574 + 575 +指定专家团队对已知错误进行监控。这通常是负责与已知错误关联的配置项、服务或产品的团队。该团队按照消解策略中定义的方式的监控已知错误的状况。监控的参数可能包括: 576 + 577 +* 相关事件的动态 578 +* 事件解决方案的有效性 579 +* 问题解决的有效性 580 +* 解决问题所需资源状态的变化(预算,供应商,专家的更新,新的基础结构等)。 581 + 582 +团队应定期进行问题审查(根据商定的消解方法),或基于监控结果进行问题审查。 583 + 584 +如果评审确认消解方法有效且是最新的(问题存在,最新影响评估,事件解决方案有效,问题变通方案有效且没有可行的问题修复程序方案可用),那么继续进行已知错误的监控。 585 + 586 +如果消解方法变得无效,则启动问题解决方案开发活动来审查和重新定义消解方法。这可能包括开发和实现一个问题解决方案或更新相关事件的事件解决方案。 587 + 588 +如果问题不再存在(例如,已通过计划的软件或硬件更新或通过停用受影响的配置项将其移出),则启动问题关闭。 589 + 590 +如果问题出现了一个新状况,建议修改或创建问题模型,并将问题模型将作为问题评审活动的一部分进行记录和交流。 591 + 592 +基于监控数据更新问题记录。 593 +))) 594 +|问题关闭|((( 595 +负责问题的团队(或专家)记录问题评审结果并正式关闭问题记录。 596 + 597 +如果确认解决,则团队记录解决控制结果并正式关闭问题记录。已关闭问题记录应作为组织的知识库的一部分,尤其是如果有类似的 598 + 599 +问题可能会再次发生。 600 +))) 601 + 534 534 问题管理活动由服务提供者执行,如表3.3、3.5、3.7和3.9中所述。他们可能涉及供应商和合作伙伴,甚至有时还涉及客户和用户。这些活动可以利用工具和技术支持开展(有时甚至是全自动化或很高程度的自动化)。这些将在以下部分中进行阐述。 535 535 536 536 ... ... @@ -578,16 +578,90 @@ 578 578 579 579 表4.2 负责问题管理活动的角色示例 580 580 581 -[[image:1642236862713-306.png]] 649 +|**活动**|**负责角色**|**能力类型**|**特点技能** 650 +|(% colspan="4" %)((( 651 +主动问题识别流程 582 582 583 -[[image:1642236898589-438.png]] 653 + 654 +))) 655 +|(% rowspan="5" %)评审提交的信息|CI 所有者|(% rowspan="5" %)T|(% rowspan="5" %)对产品的深入了解,包括架构和配置 656 +|问题协调人 657 +|问题经理 658 +|产品负责人 659 +|服务负责人 660 +|(% rowspan="5" %)问题登记|CI 所有者|(% rowspan="5" %)TA|(% rowspan="5" %)了解登记工具和程序 661 +|问题协调人 662 +|问题经理 663 +|产品负责人 664 +|服务负责人 665 +|(% rowspan="5" %)问题初步分类与分派|CI 所有者|(% rowspan="5" %)TAC|(% rowspan="5" %)熟悉产品,服务架构和业务影响,了解团队中的职责和能力 666 +|问题协调人 667 +|问题经理 668 +|产品负责人 669 +|服务负责人 670 +|(% colspan="4" %)被动问题标识流程 671 +|(% rowspan="5" %)问题登记|CI 所有者|(% rowspan="5" %)TA|(% rowspan="5" %)了解注册工具和程序 672 +|问题协调人 673 +|问题经理 674 +|产品负责人 675 +|服务负责人 676 +|(% rowspan="5" %)问题初步分类与分派|CI 所有者|(% rowspan="5" %)TAC|(% rowspan="5" %)熟悉产品,服务架构和业务影响,了解团队中的职责和能力 677 +|问题协调人 678 +|问题经理 679 +|产品负责人 680 +|服务负责人 681 +|(% colspan="4" %)问题控制流程 682 +|(% rowspan="7" %)问题调查|CI 所有者|(% rowspan="7" %)CT|(% rowspan="7" %)((( 683 +熟悉产品、服务架构和业务影响 584 584 585 -[[image:1642236931692-643.png]] 685 +熟悉诊断、调查和分析方法和工具 686 +))) 687 +|问题协调人 688 +|问题经理 689 +|产品负责人 690 +|服务负责人 691 +|供应商 692 +|技术专家 693 +|(% rowspan="4" %)已知错误沟通|CI 所有者|(% rowspan="4" %)TC|(% rowspan="4" %)了解利益相关者和责任,了解沟通工具和程序 694 +|事件经理 695 +|问题协调人 696 +|问题经理 697 +|(% colspan="4" %)错误控制流程 698 +|(% rowspan="5" %)问题解决方案开发|CI 所有者|(% rowspan="5" %)TMC|(% rowspan="5" %)((( 699 +良好的产品和服务架构、配置和技术细节知识 586 586 587 - [[image:1642236958142-525.png]]701 +创造力 588 588 703 +系统思维 704 +))) 705 +|问题协调人 706 +|问题经理 707 +|((( 708 +产品负责人 589 589 710 +服务负责人 590 590 712 +供应商 713 +))) 714 +|技术专家 715 +|(% rowspan="6" %)问题解决启动|CI 所有者|(% rowspan="6" %)CT|(% rowspan="6" %)无需特定技能 716 +|问题协调人 717 +|问题经理 718 +|产品负责人 719 +|服务负责人 720 +|技术专家 721 +|(% rowspan="6" %)已知错误监控和评审|CI 所有者|(% rowspan="6" %)TAC|(% rowspan="6" %)熟悉产品和服务架构及业务影响 722 +|问题协调人 723 +|问题经理 724 +|产品负责人 725 +|服务负责人 726 +|技术专家 727 +|(% rowspan="5" %)问题关闭|CI 所有者|(% rowspan="5" %)TCA|(% rowspan="5" %)熟悉产品、服务架构和业务影响 728 +|问题协调人 729 +|问题经理 730 +|产品负责人 731 +|服务负责人 732 + 591 591 == **4.2** **组织结构和团队** == 592 592 593 593 尽管问题管理的角色有时与正式职称相关联,但问题管理实践的专用组织结构却很少见。这对于具有复杂官僚机构和大量需要管理的问题的组织来说是典型的。许多组织发现组建临时团队调查影响度高的问题和/或开发解决方案很有用。 ... ... @@ -622,15 +622,36 @@ 622 622 623 623 表5.1 问题管理活动的自动化解决方案 624 624 625 -[[image:1642237130977-375.png]] 767 +|(% rowspan="2" %)**活动流程**|(% rowspan="2" %)**自动化手段**|(% rowspan="2" %)**关键功能**|(% rowspan="2" %)**对实践的效果** 768 +| 769 +|(% colspan="4" %)((( 770 +主动问题识别流程 626 626 627 -[[image:1642237200059-275.png]] 772 + 773 +)))| 774 +|评审提交的信息|监控和事态管理工具,用户门户和其他用户接口,工作流程管理和协作工具|收集和概述来自各种来源的信息,包括数据分析和协作团队|高| 775 +|问题登记|工作流程管理和协作工具|与其他服务管理数据集成的问题记录的管理|高| 776 +|问题初步分类与分派|工作流程管理和协作工具以及配置管理工具|将问题管理记录与其他服务管理记录、待办项管理、沟通和协同支持集成在一起|高| 777 +|(% colspan="2" %)被动问题标识流程| | | 778 +|(% rowspan="2" %)问题登记|(% rowspan="2" %)((( 779 +工作流程管理和协作工具 628 628 629 -[[image:1642237214689-525.png]] 781 + 782 +)))|(% rowspan="2" %)基于机器学习的问题识别基于对过去和正在发生的事件的分析,将问题管理记录与其他服务管理数据集成在一起的|(% rowspan="2" %)高| 783 +| 784 +|问题初步分类和分配|工作流程管理和协作工具以及配置管理工具|将问题管理记录 785 +与其他服务管理数据、待办项管理、沟通、协同支持和CI影响评估集成在一起|高| 786 +|(% colspan="4" %)问题管理流程| 787 +|问题调查|诊断和分析工具,以及配置管理工具|依赖关系分析假设分析,因果分析和建模|高| 788 +|已知错误沟通|工作流程管理和协作工具|沟通与协作支持|中| 789 +|(% colspan="4" %)错误控制管理流程| 790 +|问题解决方案开发|诊断和分析工具,配置管理工具和设计工具|解决方案设计和验证|中到非常高,取决于在解决方案架构| 791 +|问题解决初始化|工作流程管理和协作工具|沟通与协作支持|中| 792 +|已知错误监控和评审|监控和事态管理工具,工作流程管理和协作工具以及自动化测试工具|收集和概述来自各种来源,数据分析以及团队协作验证的信息,以确定存在已知错误和解决方法|中到高| 793 +|问题关闭|工作流程管理和协作工具|沟通和协作支持,自动发布到协作工具中|中| 630 630 631 631 632 632 633 - 634 634 ---- 635 635 636 636 = **6. 合作伙伴和供应商** =
- 1642237200059-275.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -38.6 KB - Content
- 1642237214689-525.png
-
- Author
-
... ... @@ -1,1 +1,0 @@ 1 -XWiki.superadmin - Size
-
... ... @@ -1,1 +1,0 @@ 1 -57.7 KB - Content