08 IT服务管理体系—可用性与IT服务持续性管理程序
IT服务管理体系—可用性与IT服务持续性管理程序
1 简介
1.1 目的
确保在满足SLA的前提下达到承诺给客户的服务可用性和持续性,增强IT基础设施的弹性。
1.2 适用范围
适用于服务项目的服务可用性及持续性活动,并满足服务需求的管理活动。
1.3 术语表
可用性:指一个组件或一种服务在设定的某个时刻或某段时间内发挥其应有功能的能力。
可靠性:指IT基础设施可以无间断运作的能力,主要取决于单个IT组件的可靠性和IT基础设施的弹性。
可维护性:指IT基础设施组件出现故障后可被修复并恢复正常运作的特性。
可服务性:描述IT服务提供方与外部供应商之间合同履行情况的一个指标。
关键业务功能( VBF):指由IT服务所支持的业务流程中的关键环节。
平均系统事件间隔时间( MTBSI):指连续两次事件发生之间的平均间隔时间。
(注:平均系统事件间隔时间=平均修复时间+平均无故障时间)
平均修复时间:指事件发生到服务恢复之间的平均间隔时间。
平均无故障时间:指从某次事件修复到下次事件发生之间的平均间隔时间。
组件故障影响分析( CFIA):在可用性设计时,通过预测和评价由于IT基础设施中组件失灵对IT服务可用性造成的影响。
1.4 引用文件
- 《ISO/IEC 20000》
- 《IT服务管理手册》
2 职责
2.1 服务部
2.1.1 负责组织可用性与IT服务持续性需求分析与规划,组织可用性与IT服务持续性改进。
2.1.2 负责新服务或变更服务活动的策划,参与可用性与IT服务持续性规划,参与可用性与IT服务持续性的改进。
2.1.3 负责与客户沟通可用性与IT服务持续性的需求,参与可用性与IT服务持续性的改进。
2.1.4 根据配置信息和能力基线水平,参与可用性需求设计,组织可用性和IT服务持续性的监控,配合IT服务持续性方案的实施。
2.2 销售部门
2.2.1 协助完成可用性与IT服务持续性的需求分析,并提供可用性与IT服务持续性实施、维护、监控的成本预算支持。
3 流程图
4 具体内容
4.1 收集可用性与业务持续性的资源需求
4.1.1 服务部应及时与客户沟通,按《服务策划管理程序》的要求,了解、收集客户在可用性与业务持续性的资源方面的需求,并考虑对现有《服务级别协议》的影响。主要包括:
- 需要提供新服务或变更服务的关键业务功能。
- 客户对新服务或变更服务的期望和要求。
- 可量化的、可描述的可用性需求。
- 客户要求的业务运作时段,及IT服务中断时间。
4.1.2 服务部负责收集、统计、反馈生产系统日常运维的信息,监控IT服务系统的可用性水平。技术组根据日常运维信息分析IT服务系统的可用性的满足状况。
4.2 可用性与业务持续性的资源评价及分析
4.2.1 服务部根据业务需求及服务级别协议的要求,负责拟制售前方案,对现有服务系统的可用性与业务持续性的资源进行分析和评估,主要包括:
- 现有IT基础设施的配置状况和可用性水平,及当前系统对服务可用性和连续性需求的满足程度(包括:潜在问题的确认,存在的薄弱环节及其分类;事件或灾难发生时,可使用的能力或有限的应急服务)。
- 在非计划的IT服务中断发生时,对所要求的服务功能所产生的可量化影响。
- 为满足可用性和连续性要求所需要的额外资源和成本(包括:计划外的后期支出,供应商收取的额外成本)。
- 有关技术支持、接口、人员技能等角色、职责和要求。
- 与信息安全相关的IT基础设施、工作环境、人员、规程等要求。
- 可用性标准无法实现的情况(包括:法律法规、标准以及外部环境的要求和影响,供应商提供服务的水平,以及其变更、中断造成的影响)。
- 确定可用性标准(可靠性、可维护性)及评价准则。
- 安全标准的级别,以及对应的角色和职责。
4.3 制订可用性与业务持续性的资源计划
4.3.1 服务部负责制订《项目策划书》中<可用性与业务持续性的资源计划>部分。其中应包含:
- 可用性监控方案的制定和实施。
- 可用性改进计划。
4.4 设计恢复方案
4.4.1 服务部根据IT服务持续性管理的要求,拟制《连续性演练计划》,并应考虑:
- 定义恢复能力和容错能力。
- 需要安装和测试的硬件和网络组件。
- 需恢复的应用系统、数据库和数据。
- 安全性要求和质量标准。
- 明确分配每个目标采取措施的责任。
- 计划性维护所需的停机时间。
- 测试计划及安排。
- 对服务和系统组件的依赖程度。
- 专门的接口、人员及其职责。
- 明确所有需要支持该计划的具体的活动程序。
4.4.2 服务部按《连续性演练计划》的要求,组织相关人员定期备份服务恢复所需的数据、文件、软件等,并应在重大服务失效或灾难时及时提供。
4.5 开展持续性测试
4.5.1 服务部根据《业务连续性保障方案》和《连续性演练计划》的要求,组织开展持续性测试活动,确保:
- 应针对特定的情形实施并具有明确的目标和成功标准。
- 测试计划应包含对恢复计划、活动程序和相关的技术组件的初始测试。
- 测试应与客户或客户代表、相关部门协商,共同进行。
- 测试失败的结果应记录并评审,并输入服务改进计划。
4.5.2 持续性测试每年至少应进行一次,以识别计划中的弱点以及被忽略的变更。在IT基础架构的配置项发生重大变更后还需要实施进一步的测试。
4.5.3 服务部在测试完成后拟制《业务连续性演练报告》,经事业部总监批准后发放相关部门。
4.6 监控、维护、评价可用性与持续性活动
4.6.1 服务部负责监控可用性与持续性策划的实施,确保:
- 监控和记录IT服务的可用性。
- 维护精确的历史数据。
- 与SLA中定义的需求相比较,以识别对约定的可用性目标的不符合项。
- 预计未来的可用性。
- 对潜在问题,采取的预防措施。
4.6.2 如果在采取各种恢复措施后,仍存在残余风险,则服务部应组织制订对应的应急措施。
4.6.3 服务部每月拟制《服务月报》,其中应对可用性与持续性的绩效进行统计,包括MTTR(平均修复时间)、MTBF(平均无故障时间)等指标。
4.6.4 服务部按《服务质量改进管理程序》的要求,每年末组织对策划进行评审或更新。
5 输出的文件和记录
文件和记录 | 文件属性 | 完成的部门/职位 |
售前方案 | D | 服务部 |
《业务连续性保障方案》 | D | 服务部 |
《连续性演练计划》 | D | 服务部 |
《服务月报》 | D | 服务部 |
《项目策划书》 | D | 服务部 |