关于某组织信息技术运维管理中问题管理流程的探讨
IT运维管理体系中问题管理流程的详细手册,以规范问题管理实践,构建主动分析问题根本原因并寻求根本解决方案的机制,以降低故障的重复发生率。本手册详尽地阐述了问题管理流程的目标、适用范围、术语定义、角色与职责、输入输出、流程描述以及关键绩效指标。
问题管理流程手册
概述
- 目标:规范问题管理实践,构建主动分析问题根本原因并寻求根本解决方案的机制,以降低故障的重复发生率。
- 范围:本管理流程适用于日常运维过程中发现的问题的提交、识别、解决与回顾管理。
术语定义
- 问题:指一个或多个事件的潜在原因。在创建问题记录时,通常原因尚未明确,需由问题管理流程进一步研究。
- 问题管理:指负责管理所有问题生命周期的流程。其主要目标是预防事件的发生,并最小化不可避免事件的影响。
- 问题记录:包含问题详细信息的记录。每个问题记录记录了一个问题的生命周期。
- 已知错误:指已记录根本原因和规避措施的问题。已知错误由问题管理在其整个生命周期中创建和管理。已知错误也可能在开发过程中或由供应商确定。
- 主动问题管理:指问题管理流程的一部分。主动问题管理的目标是识别可能被遗漏的问题。主动问题管理分析故障记录,利用其他服务管理流程收集的数据确定趋势或重大问题。
- 回顾:指对变更、问题、流程、项目等进行评价。回顾通常在生命周期的特定点进行,特别是在关闭后。回顾的目的是确保所有交付物已提供,并识别改进的机会。
角色与职责
- 问题负责人:
- 审核问题申请,指定问题分析团队。
- 审核重大问题的解决方案。
- 审批一般问题的解决方案。
- 验证并关闭问题,将问题的解决方案更新至知识库。
- 问题流程经理:
- 设计和改进问题管理流程。
- 设定问题管理的绩效指标并考核指标完成程度。
- 组织召开评审会确定问题负责人。
- 组织问题管理的回顾。
- 对问题负责人审核未通过的问题进行复核。
- 收集汇总过程信息,编制管理报告,反映存在问题,提出改进建议,制定改进计划。
- 评审并决策是否接受风险。
- 问题分析团队:
- 分析问题,查找根本原因,制定、执行解决方案。
- 问题解决人:
- 执行问题负责人审核通过的问题解决方案。
- 问题提交人:
- 根据重大事件、频发事件的上报,形成问题。
- 生成问题记录单,提交问题。
输入
- 反复发生、症状相似的故障:来源为事件管理,发生时提交。
- 日常监控、巡检发现的潜在隐患:来源为日常运维,发生时提交。
- 外部服务商的产品缺陷:来源为运维工程师,发生时提交。
输出
- 问题记录:流程内部生成,发生时输出。
- 变更请求:提交至变更管理,发生时输出。
- 问题管理报告:提交至服务报告管理,每月输出。
流程描述
- 管理定义:
- 问题发起原则:包括事件触发、主动分析等,由事件处理工程师或问题经理发起。
- 问题分类:与事件分类相同,具体分类未详细列出。
- 问题分级:重大问题和一般问题,根据事件等级划分。
- 问题解决时间:重大问题3个工作日内提交解决方案,10个工作日内整体解决;一般问题10个工作日内提交解决方案,20个工作日内整体解决。
- 问题升级:问题分析团队无法查明问题根源或无法在解决时限内制定解决方案时,报告至问题负责人和问题流程经理。
- 关闭代码:成功解决、接受风险、已取消。
- 管理策略:
- 所有已识别的问题都需记录。
- 问题流程经理每月进行一次问题回顾,参与回顾人员包括问题负责人、问题分析团队、问题解决人等。
- 管理流程:
- 提交、审批与分派:
- 问题提交人在工单系统中提交问题工单。
- 问题负责人审核问题,决定是否继续调查。
- 问题流程经理复核未通过的问题。
- 调查与分析:
- 问题分析团队接受指派,对问题进行调查和分析。
- 问题分析团队确认是否找到问题根源,若未找到则决定是否继续调查。
- 问题解决:
- 问题分析团队制定解决方案。
- 问题负责人审核解决方案,判断是否合理可行。
- 问题解决人实施解决方案,可能触发变更管理流程。
- 问题关闭:
- 问题负责人会同问题提交人验证问题是否解决。
- 问题负责人选择问题关闭代码,对问题进行关闭。
关键绩效指标
- 重大故障问题转化率:目标值100%,衡量方式为重大故障生成问题单的比率,负责人事件经理。
- 找到问题根本原因的比率:目标值≥90%,衡量方式为找到根本原因的问题数量/问题总数,负责人问题分析团队。
- 有解决方案问题比率:目标值≥90%,衡量方式为有解决方案的问题数量/问题总数,负责人问题分析团队。
- 成功关闭的问题比率:目标值≥80%,衡量方式为问题关闭代码为“成功解决”的问题数量/问题总数,负责人问题分析团队。
相关文件和记录
- 问题管理报告(模板):定期发布的问题管理报告,负责人问题流程经理。
IT运维管理体系中问题管理流程,从目标、范围到具体的术语定义、角色职责、输入输出、流程描述以及关键绩效指标,为问题管理的日常运营提供了全面的指导。通过这些规范和流程,组织能够确保问题的有效管理,提升服务质量,增强用户满意度。