19 某信息化中心运维服务ITIL问题管理程序
版本记录
文档名称 | 变更说明 | 版本号 | 日期 | 编写人 | 审核人 |
问题管理程序 | 新建文档 | V1.0 | 2017年12月25日 | 董XX | |
问题管理程序 | 新建文档 | V1.1 | 2018年1月11日 | 董XX | |
问题管理程序 | 新建文档 | V1.2 | 2018年1月17日 | 董XX | |
问题管理程序 | 新建文档 | V1.3 | 2018年2月1日 | 董XX | |
注:本表记录本文档的变更记录。
1文档介绍
1.1文档简介
本文档是XX信息化中心调度室(以下简称调度室)制定的问题管理程序文件。通过制定该流程,可以帮助交付中心的IT运维有效降低或消除事件、重复事件的数量,提高IT系统和服务的质量,向业务人员和相关用户提供更优质的IT服务,并且可以有效地帮助技术部的IT运行管理从被动管理转向主动管理。
1.2文档用途
本文档作为问题管理流程的策略文件,读者对象为与问题管理流程相关的所有技术与管理人员。
本文档所描述的流程在IT服务管理中有许多作用,举例如下:
- 找出问题的根本原因,并确定永久性解决方案
- 防止同类事件的重复发生,改进IT部门的服务可用性
- 降低突发事件的数量,提高IT人员的效率
- 提高IT资源的使用率,降低支持成本
- 可减少关键业务系统的停机时间和中断现象,提高业务人员的工作效率
- 提高客户的满意度
2概述
问题管理流程的根本目的是消除或减少生产环境中事件发生的数量和严重程度,从而为客户建立一个稳定的IT环境,提高IT服务的可用性。此流程对发生的事件进行分析,确定最常发生或具有重大影响但没有根本解决的事件,找出产生这些事件的根本原因,然后根据需要通过变更请求(RFC)、变通方法或建议的预防性措施来防止事件的再次发生。问题管理流程常常需要和变更管理流程一起来实施找出的解决方案,以便从根本上解决问题。
问题管理流程中的问题通常具有如下特征:
- 一个没有从根本上解决的重大或紧急事件(事件处理结束后定义为问题,由问题管理找出根本解决方案);
- 一组具有一定关系或相似特征的已关闭的事件。
问题管理的输入有:
- 从事件管理中得到的事件详细信息
- 事件现象
- 事件的处理方法和解决方案
- 事件发生影响程度及紧急程度
- 事件的变通解决办法
- 从配置管理数据库中得到的配置详细信息
- 相关的配置信息
- 配置项之间的关联关系
问题管理流程的输出有:
- 已知错误/知识条目
- 变更请求
- 变通方法/预防性措施/解决方案
2.1流程目的
问题管理流程的主要目的是分析已被列为问题的事件(一组或一个)的根本原因,然后找出和建议根本解决方案。其目的包括:
- 分析并确定事件的根本原因,找到最终解决方案,以防止此类事件再次发生
- 确保问题分派了正确问题分析员,提高解决率
- 根据问题优先级合理分派IT资源
- 对事件记录做趋势性分析,主动提供预防性措施
- 提高IT服务的可靠性
- 降低IT支持成本
2.2问题策略
2.2.1问题分类
类别 | 子类 | 维护所属 | 备注 |
三网业务系统 | 家庭宽带 | 信息站 | |
办公宽带 | 信息站 | ||
家庭电话 | 信息站 | ||
办公电话 | 信息站 | ||
数字电视 | 数字电视部 | ||
安全生产类系统 | 调度电话 | 基础网络部 | |
安全监测数据联网系统 | 自动化部 | ||
综合自动化系统 | 自动化部 | ||
机房监控系统 | 自动化部 | ||
工业电视系统 | 自动化部 | ||
应急指挥系统 | 自动化部 | ||
综合调度系统 | 自动化部 | ||
综合调度显示系统 | 自动化部 | ||
煤化工能源管理系统 | 自动化部 | ||
煤化工生产联网监测系统 | 自动化部 | ||
安防监控系统 | 自动化部 | ||
经营管理类系统 | 兖矿集团财务公司资金集中管理信息系统 | 应用系统部 | |
兖矿云考勤系统 | 应用系统部 | ||
呼叫中心系统运维 | 应用系统部 | ||
短信平台系统 | 应用系统部 | ||
电子招投标系统 | 应用系统部 | ||
物资商城系统 | 应用系统部 | ||
MDM主数据系统 | 应用系统部 | ||
SRM系统 | 应用系统部 | ||
ERP系统 | 应用系统部 | ||
合同管理系统 | 应用系统部 | ||
计划生育系统 | 应用系统部 | ||
人力资源管理系统 | 应用系统部 | ||
养老保险系统 | 应用系统部 | ||
国资监管系统 | 应用系统部 | ||
坚果云系统 | 应用系统部 | ||
三网融合系统(综合电信系统) | 应用系统部 | ||
总医院PACS系统 | 应用系统部 | ||
计划统计系统 | 应用系统部 | ||
经营调度系统 | 应用系统部 | ||
煤炭交易系统 | 应用系统部 | ||
审计系统 | 应用系统部 | ||
OA系统 | 应用系统部 | ||
网站系统 | 应用系统部 | ||
电邮系统 | 应用系统部 | ||
其他业务系统 | 骨干网络 | 基础网络部 | |
专网系统 | 基础网络部 | ||
运营商专线 | 基础网络部 | ||
公安国安审计系统 | 基础网络部 | ||
视频会议系统 | 基础网络部 | ||
机房基础环境 | 基础网络部和信息站 | ||
云系统 | 应用系统部 |
表2-2-1 问题分类表
2.2.2问题分级
影响范围 | 定义示例 |
1级 严重 | 造成多站点整体通信故障,大面积骨干传输网中断,多个集团级应用系统整体瘫痪,主要通信枢纽节点多点断线等情况之一的故障级别。 |
2级 高 | 造成个别站点整体通信故障,单个集团级应用系统瘫痪,主要通信枢纽个别节点断线,骨干传输网络个别节点故障等情况之一的故障级别。 |
3级 中 | 造成个别站点区域内部网络、通信、数字电视系统多点故障,个别被服务单位内部多个应用系统瘫痪等情况之一的故障级别。 |
4级 低 | 造成个别站点区域内局部网络、通信、数字电视故障,个别被服务单位内部个别系统故障等情况之一的故障级别。 |
紧急程度 | 定义示例 |
1级 紧急 | 故障发生突然,需要恢复,紧急 |
2级 高 | 系统功能受到影响,部分功能不可用,高 |
3级 中 | 系统仍可使用或无需马上解决,中 |
4级 低 | 系统仍可使用或任何时候解决都行,低 |
问题分级结论
影响范围 紧急程度 | 1级 严重 | 2级 高 | 3级 中 | 4级 低 |
1级 紧急 | 紧急(级别1) S1 | 紧急(级别1) S1 | 严重(级别2) S2 | 重大(级别3) S3 |
2级 高 | 紧急(级别1) S1 | 紧急(级别1) S1 | 严重(级别2) S2 | 重大(级别3) S3 |
3级 中 | 严重(级别2) S2 | 严重(级别2) S2 | 一般(级别4) S4 | 一般(级别4) S4 |
4级 低 | 重大(级别3) S3 | 重大(级别3) S3 | 一般(级别4) S4 | 无故障(级别5) S4 |
S1为最高级需优先处理,S2为次高级第二处理,S3为严重级第三处理,S3为一般级第四处理,S5为最低级最后处理。
2.2.3问题解决时间
优先级 | 处理时间 | 问题单关闭 |
S1 | 2小时 | 1天 |
S2 | 4小时 | 2天 |
S3 | 8小时 | 3天 |
S4 | 24小时 | 7天 |
2.2.4问题升级
问题升级 | 问题提交人 | 问题分析员 | 问题管理岗 | 技术总监 |
S1 | 2小时 | 1小时 | 2小时 | 4小时 |
S2 | 4小时 | 2小时 | 4小时 | 8小时 |
S3 | 8小时 | 4小时 | 8小时 | —— |
S4 | 24小时 | 12小时 | 24小时 | —— |
达到以上要求时限,按照列表进行对应的通知。
3流程范围
交付中心问题管理范围是对用户的IT生产环境中发生的问题进行管理,并采取主动性预防措施来降低事件数量。
4流程详述
4.1问题管理的主要流程
问题管理触发后,首先应由指定的责任工程师编制合理的问题解决计划,如果需要协调配合,还应将问题分解成多个任务,分别指派给合适的工程师去分步解决。当问题所涉及的全部任务均完成后,应当由该问题的责任工程师汇总详细解决方案并归档,关闭问题并使之成为一个已知问题,从而结束问题管理的全部流程。
在问题管理流程中,如涉及配置及业务变更,还应当发起相应的变更请求,由变更管理小组负责实施相关变更。
问题管理流程同时也受到服务水平协议和服务可用性协议的监督。当问题被成功解决成为已知问题后,还可以将问题发布为公告,以告之用户问题的处理结果和详细的解决方案。
4.2问题的创建
问题的创建分为主动问题和被动问题,主动问题是问题提交人根据对事件、监控告警、采集数据等资料的分析,根据自身的判断直接申报新的问题。主动式问题如果能够在事件发生之前得到解决方案,规避或者预防事件的发生,将大幅提升服务质量,体现更高的服务价值。
被动问题主要是来源于事件的问题,一般是指在事件处理过程中没有根本解决,从而申报的新问题。
问题创建的输入包括:问题分类、问题的描述、问题发生的环境、问题提交人、相关客户和项目、期望解决的时限、问题的紧急程度和影响范围。
问题创建的输出结果为待确认的问题单。
活动 | 描述 | 责任人 | 输入 | 输出 |
提交新的问题 | 申报新的问题 | 问题提交人 | 新的问题 | 待确认的问题 |
问题分类 | 对问题进行分类 | 问题提交人 | 新的问题 | 待确认的问题(分类确定) |
确定问题优先级 | 对问题进行业务影响度分析,初步确定影响范围和紧急程度 | 问题提交人 | 新的问题 | 待确认的问题(优先级确定) |
如有必要关联相关事件和配置项 | 关联相关事件和所涉及配置 | 问题提交人 | 新的问题 | 待确认的问题(关联了事件和配置) |
4.3问题的确认与分析
新建的问题提交到问题协调员(服务台),由问题协调员进行确认,检查各个字段信息填写是否符合规范。如果信息需要补充的,退回提交人进行完善。如果确认没问题,然后问题进行初步分析,判断分类信息、严重程度紧急程度填写是否准确,必要时进行调整,然后指派合适的问题分析员(一般是二线工程师)进行跟踪处理。
活动 | 描述 | 责任人 | 输入 | 输出 |
问题确认 | 是否属于问题管理范畴 问题填写内容是否规范,完整 | 问题协调员 | 待确认的问题 | 已确认的问题 |
问题退回 | 对需要补充、完善的问题单 不属于问题范畴的问题单 | 问题协调员 | 待确认的问题 | 退回的问题 |
问题分类调整 | 对问题的分类进行调整 | 问题协调员 | 已确认的问题 | 已确认的问题(分类确定) |
问题优先级调整 | 对问题的紧急程度、影响范围、优先级进行调整 | 问题协调员 | 已确认的问题 | 已确认的问题(严重度确定) |
4.4问题的调度与分派
问题协调员在对问题分析之后,没有合适的解决方案。需要对问题单进行合理的分派。分派原则优先本项目组内对应的工程师/二线工程师,其次本交付团队内的二线工程师,然后是全国二线工程师。如果需要费本项目组的二线工程出到现场支持,需要通过对应的交付经理协调调度。
活动 | 描述 | 责任人 | 输入 | 输出 |
分派问题 | 对于已确认但没有找到解决方案的问题,问题协调员根据问题的描述和分类,分派合适的分析员进行处理。 如果需要异地二线工程师出现场,那么需要和工程师所在的交付经理进行沟通,由交付经理协调调度 | 问题协调员 | 已确认的问题 | 已分派的问题 |
4.5问题的协调调度
根据公司的组织结构,如果涉及异地的二线工程师或二线专家去现场,需要由二线经理,安排出差的时间计划,同时需要工程师发起出差申请。
活动 | 描述 | 责任人 | 输入 | 输出 |
协调调度二线支持人员 | 问题管理岗和对应的责任人协调后,安排出差时间、计划。审批出差流程。 行政配合订票和住宿等相关事宜。 | 交付经理、二线专家经理 | 已确认的问题 | 已分派的问题 |
4.6问题的调查诊断和恢复
本阶段的内容就是问题分析员对问题进行处理解决。
活动 | 描述 | 责任人 | 输入 | 输出 |
调查诊断 | 根据自身经验对问题进行深入分析,采取各种手段进行尝试解决。 | 问题分析员 | 处理中的问题 | 处理中的问题 |
创建变更请求 | 若明确问题原因,需要通过实施变更才能解决,则为解决问题创建RFC。 任务:创建变更单 | 问题分析员 | 处理中的问题 | 处理中的问题 (新建变更请求) |
监控变更请求 | 跟踪变更请求的状态,一旦变更成功实施既可以解决问题。 | 问题分析员 | 处理中的问题 | 处理中的问题 (实施完毕的变更) |
问题恢复 | 问题恢复有几种情况: 1、找到了问题解决方案,不需要变更。 2、找到了问题解决方案,需要依赖变更实施,并且变更已经实施完毕。 3、找到了问题根源,但是由于其他客观条件,目前无法消除。通过变通方案临时解决。 | 问题分析员 | 处理中的问题 | 已解决的问题 |
4.7问题的解决确认
由问题分析员对问题进行了恢复或者提供了解决方案之后,问题提交人需要对问题处理结果进行确认。
活动 | 描述 | 责任人 | 输入 | 输出 |
问题解决确认 | 1、对已经恢复的问题,进行解决确认。 2、对于提供了解决方案、或者变更方案的,进行方案执行,验证方案解决结果。 任务1:确认问题解决达到要求,进入下一环节。 任务2:问题解决未达到要求、协调问题分析员继续处理。 | 问题提交人 | 已解决的问题 | 已确认的问题 |
4.8问题的提炼与关闭
本环节的目标在于将完善的解决方案提炼为知识条目,或者已知错误。
活动 | 描述 | 责任人 | 输入 | 输出 |
问题提炼 | 对问题解决方案或者变通方案进行梳理,结合问题的现象描述,创建知识条目。 任务:新建知识。 | 问题分析员 | 已确认的问题 | 已关闭的问题(新建的知识) |
4.9问题的取消
根据问题程序规则,有些问题可以不经过解决直接取消。
活动 | 描述 | 责任人 | 输入 | 输出 |
问题取消 | 问题取消有两种情况: 1、在创建问题之后,故障现象自行消除,经分析没有必要进行深入研究的。 2、由问题协调员退回后,提交人确认确实不属于问题范畴的单子。 | 问题提交人 | 新建或者退回的问题 | 已取消的问题 |
5人员和角色
5.1问题流程负责人(项目经理)
问题流程负责人从总体上对问题管理流程的设计、实施、执行及优化负责,确保问题管理流程被正确的执行。当流程不能够适应实际运维情况时,流程负责人必须及时的对此进行分析,找出缺陷,进行改进,从而实现可持续提高。
职责:
- 确保问题流程的设计、实施及执行,能够取得管理层的参与和支持
- 确保问题流程符合公司实际状况和公司 IT发展战略
- 整体上对问题流程负责,建立流程实施、评估和持续优化机制
- 确保问题流程的有效执行,定期评估流程,制定流程改进计划
- 保持与其他流程负责人的定期沟通
5.2部门负责人
职责:
- 定期组织相关人员对事件记录进行分析,发现潜在问题
- 确认和审核问题
- 必要时对问题进行上报
- 监视问题的诊断、分析和处理过程
- 必要时与帮助台及问题请求者沟通问题的相关信息
- 必要时协调所需资源
- 定期产生问题报表,提供正确决策信息
- 提交变更请求并监控变更实施
5.3问题提交人
职责:
- 接受问题主管分派的问题
- 分析和诊断问题,确定根本原因
- 确定和测试解决方案
- 对与问题相关的事件解决提供协助和支持
- 需要时协调第三方的资源来帮助诊断和改正问题
6与其他流程的关系
事件管理
事件管理对问题管理来说是一个重要信息提供者。有效的事件记录对成功地进行问题管理来说非常重要,因为这些信息是用于发现问题的。
问题管理支持事件管理流程的工作。问题管理对问题进行分析,直到找到问题的解决方案;同时问题管理还能为事件管理提供应急措施(通常是在对问题进行研究时找到)来对事件进行处理。
一旦确定了问题的原因并且定义了一个已知错误,那么提供一个临时修复以阻止事件的再次发生并降低事件的影响。理想的情况下,问题管理还可提供一个变更请求,这会使问题得到最终的解决。
变更管理
变更管理负责控制执行变更,包括有问题管理为消除问题而发出的变更请求(RFC)。变更管理负责预测所需变更产生的影响,同时估算在对其进行计划、协调、评价时所需的资源。他还通知问题管理了解关于纠错性变更的进展和完成情况。这些纠正性变更的评价需要与问题管理进行磋商。这样能产生一个实施后评审,如果变更成功进行,此后所有相关事件和问题记录(已知错误)都可以终结了。
配置管理
配置管理提供关于基础设施、结构图、硬件和软件配置及服务等组件的重要信息。配置管理流程还描述这些组件之间的关系。这些关系对问题管理的调查至关重要,因为它们定义了整个IT基础设施之间的相互关系。
服务级别管理
服务级别管理包括就是是IT服务时的服务质量问题进行协商和谈判。服务级别问题为问题管理提供用于定义问题的信息,而问题管理流程应当遵守、支持规定的服务级别。问题管理与财务管理和IT服务持续性管理之间也有类似的关系。
7衡量指标
为了较好地控制问题管理流程的质量,必须为问题管理流程设置考核指标,通过对指标的分析,可以有效地对流程的运行情况进行监控和改进。
问题管理流程的关键衡量指标如下:
编号 | 衡量指标 | 计算方法描述 |
1 | 问题总数 | 数量:在问题单中根据以下条件过滤,
|
2 | 关闭的问题数量 | 【问题关闭时间】在统计周期内,【问题状态】=‘已关闭’的问题个数 |
3 | 问题成功解决率 | 数量:在关闭问题数量中,【问题结束代码】=‘根本解决’的问题个数 比率:数量 /关闭问题数量 × 100 % |
4 | 通过变通方法解决的问题数量 | 数量:在关闭问题数量中,【问题结束代码】=‘变通方法’的问题个数 |
5 | 事件衍生问题所占比率 | 数量:在问题总数中,【问题来源】=‘事件管理’ 的问题个数 比率:数量 / 问题总数 × 100 % |
6 | 趋势分析问题所占比率 | 数量:在问题总数中,【问题来源】=‘趋势分析’ 的问题个数 比率:数量 / 问题总数 × 100 % |
7 | 维护中提出的问题比率 | 数量:在问题总数中,【问题来源】=‘维护中提出’ 的问题个数 比率:数量 / 问题总数 × 100 % |
8 | 提出过变更的问题数量 | 数量:变更管理流程中,【变更来源】=‘问题’的变更数量 |
8流程持续改进
每个流程的改进计划由流程经理初步整理后,与业主沟通协商,了解业主的新需求。运用运维工具,提高问题处理的解决率,加强工具的投入,提高问题的平均解决时间,将报告汇总到服务改进计划中。