文档更改服务管理实践 - 04 问题
由 superadmin 于 2024/12/25, 15:38 最后修改
修改评论
该版本没有评论
Summary
Details
- Page properties
-
- Content
-
... ... @@ -97,7 +97,6 @@ 97 97 * 主动问题管理有助于预防事件第一次发生 98 98 * 被动问题管理有助于预防事件再次发生,并可能有助于解决进行中的事件 99 99 100 - 101 101 === **2.2.2 问题控制** === 102 102 103 103 问题识别使得问题被登记形成问题记录。可能形成一系列待分析问题列表。已记录的问题将根据其最初的分类和优先级进行分析。问题完成分析之后,问题初始分类很可能会发生改变,特别是基于事件(症状)信息登记的问题。 ... ... @@ -223,18 +223,21 @@ 223 223 224 224 表2.2 与其他实践指南中描述的问题管理实践相关的活动 225 225 226 -|**实现价值**|**实践指南** 227 -|事件解决|事件管理 228 -|(% rowspan="4" %)控制和实现为解决问题而启动的变更|变更启动部署管理 229 -|基础设施和平台管理发布管理 230 -|软件开发和管理 231 -| 其他做法 232 -|风险评估和控制|风险管理 233 -|(% rowspan="3" %)检测和控制产品在部署到运行环境之前的错误|部署管理服务设计 234 -|服务验证和测试 235 -|软件开发和管理 236 -|沟通事件的解决方法给用户|服务台 225 +(% style="width:560px" %) 226 +|(% style="width:276px" %)**实现价值**|(% style="width:283px" %)**实践指南** 227 +|(% style="width:276px" %)事件解决|(% style="width:283px" %)事件管理 228 +|(% rowspan="4" style="width:276px" %)控制和实现为解决问题而启动的变更|(% style="width:283px" %)变更启动部署管理 229 +|(% style="width:283px" %)基础设施和平台管理发布管理 230 +|(% style="width:283px" %)软件开发和管理 231 +|(% style="width:283px" %) 其他做法 232 +|(% style="width:276px" %)风险评估和控制|(% style="width:283px" %)风险管理 233 +|(% rowspan="3" style="width:276px" %)检测和控制产品在部署到运行环境之前的错误|(% style="width:283px" %)部署管理服务设计 234 +|(% style="width:283px" %)服务验证和测试 235 +|(% style="width:283px" %)软件开发和管理 236 +|(% style="width:276px" %)沟通事件的解决方法给用户|(% style="width:283px" %)服务台 237 237 238 + 239 + 238 238 == **2.4 实践成功因素** == 239 239 240 240 **定义:实践成功因素** ... ... @@ -248,6 +248,7 @@ 248 248 * 识别并了解问题及其对服务的影响 249 249 * 优化问题解决和消解措施。 250 250 253 + 251 251 === **2.4.1** **识别并理解问题及其对服务的影响** === 252 252 253 253 组织应该掌握其产品中的存在错误。因为,它们可能导致事件并影响服务质量和客户满意度。问题管理实践确保问题被识别,从而有助于持续改进的产品和服务。如果是主动执行而不是被动执行,这将更加有效。 ... ... @@ -317,12 +317,13 @@ 317 317 318 318 表3.1 主动问题标识流程的输入活动和输出 319 319 320 -|**关键输入**|**活动**|**关键输出** 321 -|((( 323 +(% style="width:820px" %) 324 +|(% style="width:351px" %)**关键输入**|(% style="width:205px" %)**活动**|(% style="width:263px" %)**关键输出** 325 +|(% style="width:351px" %)((( 322 322 来自供应商和供应商的错误信息 323 323 324 324 有关专家团队提交的潜在错误的信息 325 -)))|(% rowspan="4" %)((( 329 +)))|(% rowspan="4" style="width:205px" %)((( 326 326 评审的提交信息 327 327 328 328 问题登记 ... ... @@ -330,10 +330,10 @@ 330 330 问题的初步分类和分派 331 331 332 332 333 -)))|(% rowspan="4" %)问题记录反馈给问题发起者 334 -|外部用户和专业团体提交的有关潜在错误的信息 335 -|用户提交的有关潜在错误的信息监控数据 336 -|服务配置数据 337 +)))|(% rowspan="4" style="width:263px" %)问题记录反馈给问题发起者 338 +|(% style="width:351px" %)外部用户和专业团体提交的有关潜在错误的信息 339 +|(% style="width:351px" %)用户提交的有关潜在错误的信息监控数据 340 +|(% style="width:351px" %)服务配置数据 337 337 338 338 图3.2 显示了流程的工作流程图。 339 339 ... ... @@ -378,8 +378,9 @@ 378 378 379 379 表3.4 被动问题识别过程的输入,活动和输出 380 380 381 -|**关键输入**|**活动**|**关键输出** 382 -|((( 385 +(% style="width:521px" %) 386 +|(% style="width:229px" %)**关键输入**|(% style="width:153px" %)**活动**|(% style="width:137px" %)**关键输出** 387 +|(% style="width:229px" %)((( 383 383 有关持续事件的信息 384 384 385 385 事件记录和报告监控数据 ... ... @@ -387,11 +387,11 @@ 387 387 服务配置数据 388 388 389 389 服务级别协议(SLA) 390 -)))|((( 395 +)))|(% style="width:153px" %)((( 391 391 问题登记 392 392 393 393 问题初步分类与分派 394 -)))|问题记录 399 +)))|(% style="width:137px" %)问题记录 395 395 396 396 被动问题识别过程的工作流程图如下图3.3所示: 397 397 ... ... @@ -407,49 +407,11 @@ 407 407 408 408 表3.5 被动问题识别过程的活动 409 409 410 -|**活动**|**由进行中的事件触发**|**由事件记录分析触发** 411 -|问题登记|((( 412 -处理该事件的团队确定需要进行问题调查。在某些情况下,问题记录与一个或多个事件记录相关联,以便于跟踪调查。当多个地点的多个事件由不同的团队处理时,需要进行协同进行问题调查,或者由专门的团队进行问题调查时,这一点可能尤为重要 415 +[[image:1642236652061-588.png]] 413 413 414 -在其他情况下,处理该事件的团队可以继续调查事件的原因,并在事件解决后记录问题。这个问题可能仍然需要登记,特别是导致事件的原因在事件解决过程中没有得到消除,可能导致新的事件发生 415 -)))|((( 416 -负责系统、服务或生产的专家团队会定期检查与其职责范围相关的事件记录。如果他们经过分析发现了问题,并进行问题记录的登记。这些情况可能包括: 417 +[[image:1642236633390-520.png]] 417 417 418 -* 类似事件频发 419 -* 在目标解析时间之后解决的事件的高百分比 420 -* 重大事件 421 -* 可用性低于目标 422 -))) 423 -|问题初步分类与分派|((( 424 -登记问题过程中,进行问题的初步分类。通常包括以下这些内容(如果已知或合理假设): 425 425 426 -* 描述 427 -* 关联的配置项和或配置项类 428 -* 预估事件的影响和概率 429 -* 相关和可能受影响的服务 430 -* 对组织和客户的影响 431 - 432 -如果问题是在诊断分析之前进行登记,则问题将被分配给适当的专家组。 433 - 434 -如果问题在诊断分析之后登记,则信息应用包括所做的步骤、结果和问题的当前状态。如果在登记时问题还没有得到解决,则将其分配给适当的组。 435 - 436 - 437 -)))|((( 438 -登记问题过程中,进行问题的初步分类。通常包括以下这些内容(如果已知或合理假设): 439 - 440 -* 描述 441 -* 相关事件及其解决方案 442 -* 关联的配置项和或配置项类 443 -* 估计未来事件的影响和概率 444 -* 相关和可能受影响的服务 445 -* 对组织和客户的影响 446 -* 估计的事件影响和概率 447 - 448 -根据初步的分类,将问题分派到一个负责相关的配置、服务或产品的专家组 449 - 450 - 451 -))) 452 - 453 453 === **3.2.3** **问题控制** === 454 454 455 455 该流程专注于问题的调查。它包括表3.6中所示的活动,并将输入转换为输出。 ... ... @@ -456,8 +456,9 @@ 456 456 457 457 表3.6 问题控制过程的输入活动和输出 458 458 459 -|**关键输入**|**活动**|**关键输出** 460 -|((( 426 +(% style="width:532px" %) 427 +|(% style="width:256px" %)**关键输入**|(% style="width:147px" %)**活动**|(% style="width:127px" %)**关键输出** 428 +|(% style="width:256px" %)((( 461 461 问题记录 462 462 463 463 服务配置数据 ... ... @@ -467,11 +467,11 @@ 467 467 事件记录 468 468 469 469 监控数据 470 -)))|((( 438 +)))|(% style="width:147px" %)((( 471 471 问题调查 472 472 473 473 已知错误沟通 474 -)))|((( 442 +)))|(% style="width:127px" %)((( 475 475 问题记录 476 476 477 477 已知错误 ... ... @@ -510,8 +510,9 @@ 510 510 511 511 表3.8 错误控制的输入活动和输出流程 512 512 513 -|**关键输入**|**活动**|**关键输出** 514 -|((( 481 +(% style="width:453px" %) 482 +|(% style="width:145px" %)**关键输入**|(% style="width:177px" %)**活动**|(% style="width:129px" %)**关键输出** 483 +|(% style="width:145px" %)((( 515 515 问题记录 516 516 517 517 服务配置数据 ... ... @@ -523,7 +523,7 @@ 523 523 监控数据 524 524 525 525 知识管理数据 526 -)))|((( 495 +)))|(% style="width:177px" %)((( 527 527 问题解决方案开发 528 528 529 529 问题解决启动 ... ... @@ -531,7 +531,7 @@ 531 531 已知错误监控和检查 532 532 533 533 问题关闭 534 -)))|((( 503 +)))|(% style="width:129px" %)((( 535 535 问题记录 536 536 537 537 问题型号 ... ... @@ -556,49 +556,12 @@ 556 556 557 557 表3.9 错误控制的活动流程 558 558 559 -|**活动**|**描述** 560 -|问题解决方案开发|团队(根据问题调查进行分配或重新分配)寻找解决问题的方法。这包括定义消解方法(请参见表2.1)和所选方法中的实际解决方案开发。如果没有针对问题的可行解决方案,则会记录支持信息,并且定期评审错误。 561 -|启动问题解决|((( 562 -在大多数情况下,问题需要通过变更解决。负责的团队按照组织初始化和实现变更的程序,提交变更请求。 528 +[[image:1642236751919-789.png]] 563 563 564 -在其他情况下,所需的操作不归类为变更,可以按照其他过程来启动和执行。无论哪种方式,团队都会启动已定义(如果需要的话,已批准)问题解决所需的操作。可能需要以相关理由支持(包括财务、风险、合规性、技术和其他注意事项)。 565 -))) 566 -|已知错误监控和评审|((( 567 -**如果已知错误的解决方案得到批准** 530 +[[image:1642236783017-518.png]] 568 568 569 - 使用预先商定的标准控制和确认解决方案的实施。这通常由发起解决方案的团队,或其他预先约定的角色,如由问题经理来完成。532 +[[image:1642236807230-396.png]] 570 570 571 -对于被动识别的问题,可以根据事件动态的变化(解决或预防相关事件)来完成。对于主动识别的问题,解决控制基于已发起变更是否成功,并可能包括一段时间来监控可能受到错误影响的服务。如果问题的解决方案没有得到确认,团队则返回到该过程的问题解决方案开发步骤。 572 - 573 -**如果找不到针对已知错误的可行解决方案** 574 - 575 -指定专家团队对已知错误进行监控。这通常是负责与已知错误关联的配置项、服务或产品的团队。该团队按照消解策略中定义的方式的监控已知错误的状况。监控的参数可能包括: 576 - 577 -* 相关事件的动态 578 -* 事件解决方案的有效性 579 -* 问题解决的有效性 580 -* 解决问题所需资源状态的变化(预算,供应商,专家的更新,新的基础结构等)。 581 - 582 -团队应定期进行问题审查(根据商定的消解方法),或基于监控结果进行问题审查。 583 - 584 -如果评审确认消解方法有效且是最新的(问题存在,最新影响评估,事件解决方案有效,问题变通方案有效且没有可行的问题修复程序方案可用),那么继续进行已知错误的监控。 585 - 586 -如果消解方法变得无效,则启动问题解决方案开发活动来审查和重新定义消解方法。这可能包括开发和实现一个问题解决方案或更新相关事件的事件解决方案。 587 - 588 -如果问题不再存在(例如,已通过计划的软件或硬件更新或通过停用受影响的配置项将其移出),则启动问题关闭。 589 - 590 -如果问题出现了一个新状况,建议修改或创建问题模型,并将问题模型将作为问题评审活动的一部分进行记录和交流。 591 - 592 -基于监控数据更新问题记录。 593 -))) 594 -|问题关闭|((( 595 -负责问题的团队(或专家)记录问题评审结果并正式关闭问题记录。 596 - 597 -如果确认解决,则团队记录解决控制结果并正式关闭问题记录。已关闭问题记录应作为组织的知识库的一部分,尤其是如果有类似的 598 - 599 -问题可能会再次发生。 600 -))) 601 - 602 602 问题管理活动由服务提供者执行,如表3.3、3.5、3.7和3.9中所述。他们可能涉及供应商和合作伙伴,甚至有时还涉及客户和用户。这些活动可以利用工具和技术支持开展(有时甚至是全自动化或很高程度的自动化)。这些将在以下部分中进行阐述。 603 603 604 604 ... ... @@ -646,90 +646,16 @@ 646 646 647 647 表4.2 负责问题管理活动的角色示例 648 648 649 -|**活动**|**负责角色**|**能力类型**|**特点技能** 650 -|(% colspan="4" %)((( 651 -主动问题识别流程 581 +[[image:1642236862713-306.png]] 652 652 653 - 654 -))) 655 -|(% rowspan="5" %)评审提交的信息|CI 所有者|(% rowspan="5" %)T|(% rowspan="5" %)对产品的深入了解,包括架构和配置 656 -|问题协调人 657 -|问题经理 658 -|产品负责人 659 -|服务负责人 660 -|(% rowspan="5" %)问题登记|CI 所有者|(% rowspan="5" %)TA|(% rowspan="5" %)了解登记工具和程序 661 -|问题协调人 662 -|问题经理 663 -|产品负责人 664 -|服务负责人 665 -|(% rowspan="5" %)问题初步分类与分派|CI 所有者|(% rowspan="5" %)TAC|(% rowspan="5" %)熟悉产品,服务架构和业务影响,了解团队中的职责和能力 666 -|问题协调人 667 -|问题经理 668 -|产品负责人 669 -|服务负责人 670 -|(% colspan="4" %)被动问题标识流程 671 -|(% rowspan="5" %)问题登记|CI 所有者|(% rowspan="5" %)TA|(% rowspan="5" %)了解注册工具和程序 672 -|问题协调人 673 -|问题经理 674 -|产品负责人 675 -|服务负责人 676 -|(% rowspan="5" %)问题初步分类与分派|CI 所有者|(% rowspan="5" %)TAC|(% rowspan="5" %)熟悉产品,服务架构和业务影响,了解团队中的职责和能力 677 -|问题协调人 678 -|问题经理 679 -|产品负责人 680 -|服务负责人 681 -|(% colspan="4" %)问题控制流程 682 -|(% rowspan="7" %)问题调查|CI 所有者|(% rowspan="7" %)CT|(% rowspan="7" %)((( 683 -熟悉产品、服务架构和业务影响 583 +[[image:1642236898589-438.png]] 684 684 685 -熟悉诊断、调查和分析方法和工具 686 -))) 687 -|问题协调人 688 -|问题经理 689 -|产品负责人 690 -|服务负责人 691 -|供应商 692 -|技术专家 693 -|(% rowspan="4" %)已知错误沟通|CI 所有者|(% rowspan="4" %)TC|(% rowspan="4" %)了解利益相关者和责任,了解沟通工具和程序 694 -|事件经理 695 -|问题协调人 696 -|问题经理 697 -|(% colspan="4" %)错误控制流程 698 -|(% rowspan="5" %)问题解决方案开发|CI 所有者|(% rowspan="5" %)TMC|(% rowspan="5" %)((( 699 -良好的产品和服务架构、配置和技术细节知识 585 +[[image:1642236931692-643.png]] 700 700 701 - 创造力587 +[[image:1642236958142-525.png]] 702 702 703 -系统思维 704 -))) 705 -|问题协调人 706 -|问题经理 707 -|((( 708 -产品负责人 709 709 710 -服务负责人 711 711 712 -供应商 713 -))) 714 -|技术专家 715 -|(% rowspan="6" %)问题解决启动|CI 所有者|(% rowspan="6" %)CT|(% rowspan="6" %)无需特定技能 716 -|问题协调人 717 -|问题经理 718 -|产品负责人 719 -|服务负责人 720 -|技术专家 721 -|(% rowspan="6" %)已知错误监控和评审|CI 所有者|(% rowspan="6" %)TAC|(% rowspan="6" %)熟悉产品和服务架构及业务影响 722 -|问题协调人 723 -|问题经理 724 -|产品负责人 725 -|服务负责人 726 -|技术专家 727 -|(% rowspan="5" %)问题关闭|CI 所有者|(% rowspan="5" %)TCA|(% rowspan="5" %)熟悉产品、服务架构和业务影响 728 -|问题协调人 729 -|问题经理 730 -|产品负责人 731 -|服务负责人 732 - 733 733 == **4.2** **组织结构和团队** == 734 734 735 735 尽管问题管理的角色有时与正式职称相关联,但问题管理实践的专用组织结构却很少见。这对于具有复杂官僚机构和大量需要管理的问题的组织来说是典型的。许多组织发现组建临时团队调查影响度高的问题和/或开发解决方案很有用。 ... ... @@ -764,36 +764,15 @@ 764 764 765 765 表5.1 问题管理活动的自动化解决方案 766 766 767 -|(% rowspan="2" %)**活动流程**|(% rowspan="2" %)**自动化手段**|(% rowspan="2" %)**关键功能**|(% rowspan="2" %)**对实践的效果** 768 -| 769 -|(% colspan="4" %)((( 770 -主动问题识别流程 625 +[[image:1642237130977-375.png]] 771 771 772 - 773 -)))| 774 -|评审提交的信息|监控和事态管理工具,用户门户和其他用户接口,工作流程管理和协作工具|收集和概述来自各种来源的信息,包括数据分析和协作团队|高| 775 -|问题登记|工作流程管理和协作工具|与其他服务管理数据集成的问题记录的管理|高| 776 -|问题初步分类与分派|工作流程管理和协作工具以及配置管理工具|将问题管理记录与其他服务管理记录、待办项管理、沟通和协同支持集成在一起|高| 777 -|(% colspan="2" %)被动问题标识流程| | | 778 -|(% rowspan="2" %)问题登记|(% rowspan="2" %)((( 779 -工作流程管理和协作工具 627 +[[image:1642237200059-275.png]] 780 780 781 - 782 -)))|(% rowspan="2" %)基于机器学习的问题识别基于对过去和正在发生的事件的分析,将问题管理记录与其他服务管理数据集成在一起的|(% rowspan="2" %)高| 783 -| 784 -|问题初步分类和分配|工作流程管理和协作工具以及配置管理工具|将问题管理记录 785 -与其他服务管理数据、待办项管理、沟通、协同支持和CI影响评估集成在一起|高| 786 -|(% colspan="4" %)问题管理流程| 787 -|问题调查|诊断和分析工具,以及配置管理工具|依赖关系分析假设分析,因果分析和建模|高| 788 -|已知错误沟通|工作流程管理和协作工具|沟通与协作支持|中| 789 -|(% colspan="4" %)错误控制管理流程| 790 -|问题解决方案开发|诊断和分析工具,配置管理工具和设计工具|解决方案设计和验证|中到非常高,取决于在解决方案架构| 791 -|问题解决初始化|工作流程管理和协作工具|沟通与协作支持|中| 792 -|已知错误监控和评审|监控和事态管理工具,工作流程管理和协作工具以及自动化测试工具|收集和概述来自各种来源,数据分析以及团队协作验证的信息,以确定存在已知错误和解决方法|中到高| 793 -|问题关闭|工作流程管理和协作工具|沟通和协作支持,自动发布到协作工具中|中| 629 +[[image:1642237214689-525.png]] 794 794 795 795 796 796 633 + 797 797 ---- 798 798 799 799 = **6. 合作伙伴和供应商** =