Changes for page 服务管理实践 - 05 监控和事态
Last modified by superadmin on 2024/12/25, 15:38
Summary
Details
- Page properties
-
- Content
-
... ... @@ -405,26 +405,62 @@ 405 405 406 406 407 407 408 -表3.2监控规划流程的活 动408 +表3.2监控规划流程的活 409 409 410 -[[image:1642237641108-965.png]] 410 +|**活动**|**描述** 411 +|定义监控目标|((( 412 +利用从服务设计阶段、服务验证和测试实践以及服务开发(可用性,容量和性能管理实践)和服务级别管理实践收到的信息,团队定义监控的关键目标。 411 411 412 - [[image:1642237710166-351.png]]414 +该讨论应覆盖功效需求到功用需求(首先涵盖最明显的功能要求,例如,在应用程序的用户案例中)。另外,从关键服务性能到更多详细信息和组件,它的颗粒度应增加。 413 413 414 -[[image:1642237738910-108.png]] 416 +团队应列出一个优先级降序的监控列表。 417 +))) 418 +|评估可用的度量监控标准|((( 419 +然后,将监控优先级列表项映射或转换为可用度量或基于可用度量的综合度量。 415 415 421 +应该探索添加度量值。 422 +))) 423 +|定义监控对象的事态类型|团队对不同类型的事态进行定义和分类。类型可以是一般性的,例如信息性,警告性,异常性,也可以取决于功能,用户组及其优先级,再通过关键监控目标的组件或类型进行划分。 424 +|定义不同事态类型的阈值|((( 425 +团队与服务或组件开发团队一起定义不同类型事态的阈值。相同的组件指标可能是根据现有的SLA和针对服务或组件定义的可用性,容量和性能的要求,它基于服务进行了不同的处理。 416 416 427 +另外,应该将处理吞吐量的事态纳入考量,因为尽管现代IT系统几乎可以探测到任何事态,但不是所有事态都需要进行响应。因此,从最初预防灾难到后来完善组件,通常都应将监控和事态管理进行迭代开发。 428 +))) 429 +|定义服务'运行状况模型'(端到端事态)|((( 430 +根据参与服务设计的团队的输入,构建了一个“运行状况模型”,它反映了服务及其关联的关键事态。一个服务可能有几种模型。 417 417 432 +这些模型使监控团队可以评估服务的用户体验。例如,可以为单个银行客户交易构建模型,并度量从移动应用程序中的请求(包括所有银行数据库系统到移动应用程序中完成交易的通知)花费的时间。 433 + 434 +服务“运行状况模型”也可以实现为服务健康和性能的报告或仪表板,并由服务所有者,参与其他实践的团队和其他利益相关者临时使用。这样,有关这些服务的信息就被干系人“拉”走了。 435 +))) 436 +|定义事态关联和规则集|((( 437 +与参与服务设计的团队一起,定义事态关联和相应的规则集。 438 + 439 +某些关联可能会使用第二个事态作为对第一个事态的检查,或者进一步过滤事态的范围。同样,已定义的关联可以帮助防止事态同时发生时可能产生的负面协同效应。 440 + 441 +规则集由多个规则组成,这些规则定义了如何处理和评估特定事态的事态消息。例如,每次磁盘日志文件到达其容量时都可能生成警告事态,但是如果已生成四个以上的警告事件,则会生成异常事态。 442 + 443 +规则本身通常嵌入监控和事态处理技术中。它们由布尔类型的算法组成,用于关联已生成的事态,以创建需要传达的其他事态。这些算法可以编入通常称为关联引擎的事态管理软件中。 444 + 445 +人工智能(AI)系统可用于定义用户,管理员,系统等的典型和非典型行为。这可能形成其他检查以过滤事态。 446 +))) 447 +|将事态与行动计划、职能部门和通知对应起来|((( 448 +对于每个事态或事态组,都定义了一个行动计划以尽量减少事态的负面影响。基于行动计划,可以定义响应事态的团队或职能部门。 449 + 450 +行动计划还可以自动执行或半自动执行,包括对某些重要操作进行人工干预。 451 + 452 +在此阶段创建的行动计划成为事态程序和自动化的基础。 453 +))) 454 + 418 418 === **3.2.2 事态规划** === 419 419 420 420 表3.3事态处理流程的输入、活动和输出 421 421 422 -(% style="width:593px" %) 423 -|(% style="width:137px" %)**关键输入**|(% style="width:220px" %)**活动**|(% style="width:233px" %)**关键输出** 424 -|(% style="width:137px" %)((( 459 +|**关键输入**|**活动**|**关键输出** 460 +|((( 425 425 * 来自监控对象,监控工具的通知 426 426 * 监控计划 427 -)))|( % style="width:220px" %)(((463 +)))|((( 428 428 * 事态检测 429 429 * 事态日志记录 430 430 * 事态过滤和相关性检查(可能是迭代的) ... ... @@ -431,7 +431,7 @@ 431 431 * 事态分类 432 432 * 事态响应选择 433 433 * 发送通知,执行响应规程 434 -)))|( % style="width:233px" %)(((470 +)))|((( 435 435 * 事态记录 436 436 * 已更新的事态统计信息 437 437 * 事态响应错误 ... ... @@ -451,16 +451,80 @@ 451 451 452 452 表3.4事态处理流程的活动 453 453 454 -[[image:1642237833826-395.png]] 490 +|**活动**|**描述** 491 +|事态检测|((( 492 +监控系统检测到的事态,或作为手动监控的结果。 455 455 456 -[[image:1642237866153-106.png]] 494 +并非所有事态都应被检测到,监控系统带宽也应纳入考量。在现有有限的资源中应仅检测到关键事件和需要采取行动的事态。 495 +))) 496 +|事态记录|事态应该最好自动记录在监控系统中。 497 +|事态过滤和相关性检查(可能是迭代的)|((( 498 +事态应该按照规则集进行处理,以过滤和查找相关性,以实现更好的分类。 457 457 500 +该活动可能是迭代的。 501 +))) 502 +|事态分类|事态分为组或类型,如果需要选择适当的响应,则在组内进一步过滤特定的事态。 503 +|事态响应选择|在监控规划流程中应该为每个事态制定行动计划或响应规程。根据规划中定义的规则,选择事态响应和通知的团队。 504 +|发送通知,执行响应规程|响应规程执行后,将通知负责操作或监督的团队(如果响应规程是全自动的)。 458 458 506 +|**关键输入**|**活动**|**关键输出** 507 +|((( 508 +* 更新的知识文章 509 +* 重大事态记录 510 +* 重大事件记录 511 +* 改进建议 512 +* 事态记录和统计 513 +* 服务所有者和利益相关者的信息请求 514 +)))|((( 515 +* 评审重大事态和事件 516 +* 评审过滤和相关性分析 517 +* 评审服务“运行状态模式” 518 +* 评估事态的响应程序和自动化程度 519 +* 评审用于数据分析、相关性分析、人工智能(AI)和机器学习(ML)的工具 520 +* 评审监控工具收集的统计信息 521 +)))|((( 522 +* 更新的事态响应程序 523 +* 过滤和相关分析的改进建议 524 +* 针对自动化的变更 525 +* 更新的监控标准和阈值 526 +* 更新的过滤方法 527 +* 更新的被使用的工具和技术清单 528 +* 更新的已提供的报告和统计信息清单 529 +))) 459 459 460 460 === **3.2.3 监控和事态管理评审** === 461 461 462 -[[image:1642237945213-442.png]] 533 +|活动|描述 534 +|评审重大事态和事件|((( 535 +事实上,重大事件发生通常可能意味着未检测到某些异常服务或组件行为并对其采取行动。因此,重大事态和事件为监控知识发现和改进提供了良好的基础。 463 463 537 +应审查和分析重大事态的性质、相关性,并将其分解为组件甚至配置项,并应探索相应的指标,这些指标可能有助于检测导致重大事件的重大事态或异常。 538 + 539 +应探索组件的其他或类似风险,并将已识别的事态添加到监控中。 540 + 541 +建议对监控进行更改以在未来检测类似的事态。 542 +))) 543 +|((( 544 +评审过滤和相关性分析的评审 545 + 546 +评审服务的“运行状态模式” 547 +)))|当监控检测到大量事态或检测不到事态时,应进行过滤和相关性分析。有时可以考虑采取临时措施,例如放宽阈值或事态分组。否则,应进行详细分析和详尽的规则定义,以及建议对监控进行更改。 548 +|评估事态响应程序和自动化程度|((( 549 +应评审因事态响应导致的事件和故障并提出变更建议。 550 + 551 +同样,此评审的目标应是提高事态检测和事态响应的自动化程度。也可以建议其他的自动化。 552 +))) 553 +|评审用于数据分析、相关性分析、人工智能(AI)和机器学习(ML)的工具|((( 554 +应审查内部和市场上可能提高监控效率的工具。应在监控预算内建议试用和试运行。 555 + 556 +另外,此评审应该讨论监控中使用的任何新技术或最佳实践,应该进行市场基准测试的开发,并提出对监控的改进。 557 +))) 558 +|评审监控工具收集的统计信息|((( 559 +应该审查统计信息,以提出对监控的改进,并监控服务。 560 + 561 +服务生命周期涉及的所有团队均应评审检测到的服务趋势。 562 +))) 563 + 464 464 表3.6 监控和事态管理评审流程的活动 465 465 466 466 ... ... @@ -483,16 +483,215 @@ 483 483 |**М**|**Methods and techniques expert 方法和技术专家** 与该能力相关的活动和技能包括设计和工作技术的实施,程序文档,有关流程的咨询,工作分析以及持续改进。 484 484 |**Т**|**Technical expert 技术专家** 此能力专注于技术(IT)专业知识和基于专业知识的任务。 485 485 486 -[[image:1642237990168-323.png]] 586 +|(% style="width:203px" %)活动|(% colspan="2" style="width:205px" %)负责角色|(% colspan="2" %)能力框架|**具体技能** 587 +|(% colspan="6" %)监控规划流程 588 +|(% style="width:203px" %)定义监控目标|(% style="width:199px" %)((( 589 +服务负责人 487 487 488 - [[image:1642238024237-336.png]]591 +设计人 489 489 490 - [[image:1642238202293-164.png]]593 +开发人员 491 491 492 - [[image:1642238225338-195.png]]595 +用户 493 493 494 - [[image:1642238253882-729.png]]597 +交付经理 495 495 599 +客户经理 600 + 601 +测试人员 602 + 603 +服务验证专家 604 + 605 +运维经理 606 +)))|(% colspan="2" %)协调员、管理员(CA)|(% colspan="2" %)((( 607 +理解利益相关者的服务价值和服务主张 608 + 609 +服务级别和用户体验方面的专业知识 610 +))) 611 +|(% style="width:203px" %)((( 612 +评估可用的度量监控标准 613 + 614 +定义监控对象的事态类型 615 + 616 +定义不同事态类型的阈值 617 +)))|(% style="width:199px" %)((( 618 +测试人员 619 + 620 +服务验证专家 621 + 622 +监控专家 623 + 624 +开发人员 625 + 626 +设计人员 627 + 628 +架构师 629 + 630 +业务经理 631 +)))|(% colspan="2" %)技术专家、方法技术专家(T M)|(% colspan="2" %)((( 632 +服务架构和设计的知识 633 + 634 +监控工具,探头探测器和传感器方面的专业知识 635 +))) 636 +|(% style="width:203px" %)((( 637 +定义服务'运行状况模型'(端到端事件) 638 + 639 +定义事件关联和规则集 640 +)))|(% style="width:199px" %)((( 641 +服务负责人 642 + 643 +用户 644 + 645 +交付经理 646 + 647 +客户经理 648 + 649 +运维经理 650 + 651 +测试人员 652 + 653 +服务验证专家 654 + 655 +监控专家 656 + 657 +开发人员 658 + 659 +设计人员 660 + 661 +架构师 662 +)))|(% colspan="2" %)技术专家、方法技术专家、管理员(T M A)|(% colspan="2" %)((( 663 +用户体验的知识 664 + 665 +功效需求和功用需求的知识 666 + 667 +服务主题和业务流程知识 668 + 669 +服务架构和设计的知识 670 + 671 +监控工具、探头探测器和传感器方面的专业知识 672 +))) 673 +|(% style="width:203px" %)建立行动计划和需要响应和通知的职能部门之间的映射关系|(% style="width:199px" %)((( 674 +服务负责人 675 + 676 +用户 677 + 678 +交付经理 679 + 680 +客户经理 681 + 682 +测试人员 683 + 684 +服务验证专家 685 + 686 +监控专家 687 + 688 +开发人员 689 + 690 +设计人员 691 + 692 +架构师 693 +)))|(% colspan="2" %)管理员、技术专家、方法技术专家(A T M)|(% colspan="2" %)((( 694 +运维和支持基础设施以及组织的知识 695 + 696 +服务架构和设计的知识 697 + 698 +监控工具以及探头探测器和传感器方面的专业知识 699 +))) 700 +|(% colspan="6" %)((( 701 +事态处理流程 702 + 703 +应尽一切努力使此流程尽可能自动化,因此将不讨论该流程的角色。 704 +))) 705 +|(% colspan="6" %)监控和事态管理评审 706 +|(% style="width:203px" %)((( 707 +评审重大事件或事态 708 + 709 +评审过滤和相关性分析 710 + 711 +评审服务“运行状况模式“ 712 +)))|(% style="width:199px" %)((( 713 +服务负责人 714 + 715 +用户 716 + 717 +交付经理 718 + 719 +客服经理 720 + 721 +监控专家 722 + 723 +开发人员 724 + 725 +设计人员 726 + 727 +架构师 728 +)))|(% colspan="2" %)技术专家、方法技术专家、管理员(T M A)|(% colspan="2" %)((( 729 +服务架构和设计的知识 730 + 731 +监控工具方面的专业知识 732 + 733 +服务主题知识和业务流程知识 734 + 735 +持续改进技能 736 +))) 737 +|(% style="width:203px" %)评估事态的响应程序和自动化程度|(% style="width:199px" %)((( 738 +服务负责人 739 + 740 +交付经理 741 + 742 +监控专家 743 + 744 +开发人员 745 + 746 +设计人员 747 + 748 +架构师 749 + 750 +服务台经理 751 + 752 +运维经理 753 +)))|(% colspan="2" %)管理员、技术专家、方法技术专家、协调员(ATMC)|(% colspan="2" %)((( 754 +运维和支持基础设施以及组织的知识 755 + 756 +监控工具方面的专业知识 757 + 758 +自动化专业知识 759 + 760 +服务主题知识和业务流程知识 761 + 762 +持续改进技能 763 +))) 764 +|(% style="width:203px" %)评审用于数据分析、相关性分析、人工智能(AI)和机器学习(ML)的工具|(% style="width:199px" %)((( 765 +监控专家 766 + 767 +架构师 768 + 769 +业务分析员 770 + 771 +技术顾问 772 +)))|(% colspan="2" %)方法技术专家、技术专家、管理员(MTA)|(% colspan="2" %)((( 773 +监控工具,AI,ML方面的专业知识 774 + 775 +自动化专业知识 776 + 777 +持续改进技能 778 +))) 779 +|(% style="width:203px" %)评审监控工具收集的统计信息|(% style="width:199px" %)((( 780 +监控专家 781 + 782 +架构师 783 + 784 +业务分析员 785 +)))|(% colspan="2" %)方法技术专家、技术专家、管理员(M T A)|(% colspan="2" %)((( 786 +服务架构和设计的知识 787 + 788 +监控工具方面的专业知识 789 + 790 +服务主题知识和业务流程知识 791 + 792 +持续改进技能 793 +))) 794 + 496 496 表4.1 监控和事态管理实践活动涉及的角色 497 497 498 498 ... ... @@ -553,14 +553,164 @@ 553 553 554 554 在某些情况下,监控和事态管理实践的工作可以大大受益于自动化(有关何时适用的详细信息,请参见本指南的“ 价值流和流程”部分)。在这种情况下,自动化是可能且有效的,它可能涉及表5.1中概述的解决方案。 555 555 556 -[[image:1642238337737-961.png]] 855 +|流程活动|自动化手段|关键功能|实践的效果上的影响 856 +|(% colspan="4" %)监控规划流程 857 +|((( 858 +定义监控目标 557 557 558 - [[image:1642238364744-334.png]]860 +评估可用的度量监控标准 559 559 560 -[[image:1642238466365-934.png]] 862 +定义监控对象的事态类型 863 +)))|((( 864 +可视化工具(例如思维导图,服务图表,架构可视化) 561 561 562 - [[image:1642238480595-735.png]]866 +服务目录工具 563 563 868 +配置管理数据库 869 +)))|((( 870 +服务结构,依赖项,配置项等的可视化 871 + 872 +提供有关服务结构的信息,以及 873 + 874 +组件/ 服务的相互依赖性 875 + 876 +提供有关 877 + 878 +服务SLA和要求的信息 879 +)))|中 880 +|((( 881 +定义不同事态类型的阈值 882 + 883 +定义服务'运行状况模型'(端到端事件) 884 + 885 +定义事态关联和规则集 886 +)))|((( 887 +监控和事态管理工具 888 + 889 +ITSM工具 890 + 891 +软件定义的基础设施工具 892 + 893 +基础设施和平台内置的监控工具 894 + 895 +服务可视化工具 896 +)))|主动和被动性监控,事态设置,数据收集,数据分析,警报,规则设置|高 897 +|建立行动计划和需要响应和通知的职能部门之间的映射关系|((( 898 +监控和事态管理工具 899 + 900 +ITSM工具 901 + 902 +软件定义的基础设施工具 903 + 904 +协作和通讯工具 905 + 906 +集成总线 907 + 908 +自动化系统 909 + 910 +用于事态关联、行为监控与分析的AI和ML工具 911 +)))|((( 912 +ITSM工具集成(例如,基于事态的事件记录) 913 + 914 +通知和通讯,任务创建。 915 + 916 +自动化脚本运行 917 + 918 +AI和ML 事态关联,正常/异常行为分析 919 +)))|高 920 +|(% colspan="4" %)事态处理流程 921 +|((( 922 +事态检测 923 + 924 +事态日志记录 925 + 926 +事态过滤和相关性检查(可能是迭代的) 927 + 928 +事态分类 929 + 930 +事态响应选择 931 + 932 +发送通知、执行响应过程 933 +)))|((( 934 +监控和事态管理工具 935 + 936 +ITSM工具 937 + 938 +软件定义的基础设施工具 939 + 940 +协作和 941 + 942 +通讯工具 943 + 944 +集成总线 945 + 946 +自动化系统 947 + 948 +报告和仪表板工具和门户 949 +)))|((( 950 +ITSM工具集成(例如,基于事态的事件记录) 951 + 952 +通知和通讯,任务创建。 953 + 954 +自动化脚本运行 955 + 956 +AI和ML 事态关联,正常/异常行为分析 957 + 958 +报告和仪表板发布 959 +)))|高 960 +|(% colspan="4" %)监控和事态管理评审 961 +|((( 962 +评审重大事件或事态 963 + 964 +评审过滤和相关性分析 965 + 966 +评审服务“运行状况模式“ 967 + 968 +评估事态的响应程序和自动化程度 969 + 970 +评审用于数据分析、相关性分析、人工智能和机器学习的工具 971 + 972 +评审监控工具收集的统计信息 973 +)))|((( 974 +可视化工具(例如思维导图,服务图表,架构可视化) 975 + 976 +统计分析工具,数据库 977 + 978 +服务目录工具 979 + 980 +配置管理数据库 981 + 982 +监控和事态管理工具 983 + 984 +ITSM工具 985 + 986 +协作和通讯工具 987 + 988 +报告和仪表板工具和门户 989 + 990 +业务分析工具 991 + 992 +基准工具和 993 + 994 +知识管理工具 995 +)))|((( 996 +服务结构,依赖项,配置项等的可视化 997 + 998 +提供有关服务结构和组件/ 服务相互依赖关系的信息 999 + 1000 +提供有关服务SLA和要求,合规性和违规的信息 1001 + 1002 +提供重大事件的信息 1003 + 1004 +报告和仪表板发布 1005 + 1006 +通知,聊天 1007 + 1008 +分析和评估 1009 + 1010 +知识共享 1011 +)))|中 1012 + 564 564 表5.1 监控和事态管理活动的自动化解决方案 565 565 566 566 ... ... @@ -589,13 +589,13 @@ 589 589 590 590 实践指南的大部分内容都应作为组织在建立和发展自己的实践时可能考虑的领域的建议。实践指南是组织可能考虑的事情的目录,而不是答案的列表。使用ITIL 实践指南的内容时,组织应始终遵循ITIL 指导原则: 591 591 592 - *聚焦价值593 - *从你所处的地方开始594 - *基于反馈迭代推进595 - *协作和提升可视化程度596 - *整体性思考和工作597 - *保持简单实用598 - *优化和自动化。1041 +1. 聚焦价值 1042 +1. 从你所处的地方开始 1043 +1. 基于反馈迭代推进 1044 +1. 协作和提升可视化程度 1045 +1. 整体性思考和工作 1046 +1. 保持简单实用 1047 +1. 优化和自动化。 599 599 600 600 有关指导原则及其应用程序的更多信息,请参见以下内容的第4.3节: 601 601