返回本章节索引    阅读下一篇

某网管中心IT集中运维咨询项目调研分析报告

应急管理—现状与问题

管理要求

集团的要求:要有应急灾备方案,并定期演练

网管中心的要求:各主要专业要制定容灾方案、演练计划、演练方案

上级领导要求:

如何快速应对手机阅读故障。保障硬件快速恢复是应急主要内容  

梳理现有应急场景 ,有针对性的采取应急措施

应急要标准化、自动化,首先第一步应该是制度标准化,明确由谁来执行、各个环节的衔接

应急预案要简洁实用,流程管理也应简化

朝自动化应急、标准化启动、一键式平台努力

应急组织

当前IT维护室应急组织架构、人员角色职责、应急流程尚未明确,应急管理制度缺失

手机阅读与资源池是IT运维室重点应急对象

流程

缺乏应急启用的具体条件约束

紧急事件发生期间的检查点有待明确

有紧急事件发生期间的升级过程,上级制度有相应要求,有待明确如何在应急过程中有效调动现场人员 在应急过程中,是否可通过远程接入来诊断故障、服务器的串口管理有待加强

值守要求有待明确,譬如错峰上班、获取厂家支持的方式如通讯方式等

目前手机阅读应急中的沟通方式和通讯方式尚未明确要求

应急技术

有容灾应急措施;

底层的存储设备级别容灾---同机房、同城, 技术手段:复制、镜像,

当前容灾分业务级别的容灾与

主机级别的容灾

手机阅读业务级的容灾已经实现 业务测容灾有工具和脚本,有 一键切换平台

演练(以最近一次演练为例)

演练内容:存储容灾改成基于数据库的容灾

演练地点:XXX

演练业务:手机阅读业务

演练要求: 由于主营业务长期跑在B,所以也要确保B能切换到A。

停业务->停DB->正向切换->反向切换 演练沟通方式:

演练中主要是通过skype 或者电话的方式 进行沟通

值守方式:演练人员48小时值守

(在演练准备、执行上基于经验已经摸索出了一套演练的方法,并予以实践,但未标准化、系统化,在一些关键环节上有待改进,如,应急决策条件与系统的预案支撑等)

应急备份

备份工作现状 正在筹备备份平台、目前有备份策略 备份优先级:        

1根据设备等级,设备级别比较高的优先考虑        

2辅助设备放后或者不予考虑

备份机制: RPO,一周备份一次 , RTO,根据运维经验进行计算判断 (如,通过光纤备份的RTO=容量/恢复的最大速度)

备份过程:

1备份管理员跟业务接口人沟通是否要恢复,并确定能够恢复到什么时间点 (RPO);

2业务接口人进行决策;

3计划走变更流程,工程师按照变更方案操作;

4数据恢复以后,业务接口人恢复业务。

备份操作步骤:      

启动小型机—>启动主机—>通过网络引导启动—>网络引导连接备份boot

Server—>识别磁带—>从磁带读数据恢复到硬盘—>然后重启

备份恢复预案状态:

当前“预案”相当于官方技术操作文档

应急风险场景(业务角度)

手机阅读应急风险:核心数据库风险较大,往年故障都出在这上面,备份切换要两个小时;

应急难点应急决策;

智能网应急风险:应急准备时间,决策机制,目前没有实际切换过,负荷一直比较高、切换成本较高;

资源池应急风险:未知风险、现在应急预案和演练都是空白,目前支撑内容越来越多,双机可能会存在软件宕掉的风险,会直接影响业务

应急风险场景(技术角度)

主机应急风险: 单块主机挂了;Cluster挂了;整个物理刀框挂了 双网卡都出现故障;虚拟分区出现故障等

数据库应急风险:

DB切换失败,如何人工干预以确保数据不丢

RAC的单点故障(容灾机制失效了,业务在存活的节点无法承载,再次挂掉)

HA双机切换失败(HA软件问题或者硬件未及时更新)

网络应急风险:

最担忧防火墙和路由器的出口应急

网管资源池路由器可能存在单点故障

光纤交换机异常,高可用之外有异常 SVC存储虚拟化引擎(非常关键 )紧急故障

负载均衡故障;核心交换机故障;接入交换机故障

虚拟交换机故障;

概率较低杀伤力大的风险:

各专业组目前未做备份

误操作的应急风险:IT集中化,很多东西都批量操作,可能带来风险,如账号组如果有危险操作误删账号,可能会导致应急场景的出现

(上述风险场景尚未开展风险场景的梳理)

应急管理—现状评估

冗余技术--》应急管理基础-》应急管理优化-》应急管理平台化-》应急执行自动化

微信图片_20240603132303.png

应急管理—需求汇总

应急工作急迫须解决的问题

0应急管理制度缺失

1业务的各种容灾环境下是否有演练流程、演练计划、应急保障方式、应集中沟通方式;

2如何决定是否切换

3每个实际情况的预案描述;

4 手机阅读风险场景都有哪些;

5如何通过工具实现应急

需求领域需求详细说明
 应急组织•应急组织设计
应急管理制度•从制度层面,完善容灾应急方案、容灾演练方案、容灾演练计划
应急流程•明确应急过程中如何启动应急、应集中内部如何沟通、后续工作如何展开
风险场景梳理•对各专业领域风险场景的认知,并以此作为今后预案编写的依据
应急演练计划•将IT运维室演练实践精华固化下来的演练计划
应急预案•符合实际情况的、可用的应急预案
 
•备份恢复预案的制定
自动化应急•应急管理工具平台
 
•应急自动执行

应急管理流程—目标及阶段性实现

冗余技术--》应急管理基础-》应急管理优化-》应急管理平台化-》应急执行自动化

阶段目标描述
应急管理基础“应急管理制度设计” : 初步设计 XX-XX 优化设计 XX-XX 管理确认 XX-XX
  
 .应急预案启动的条件讨论与设计;应急组织架构梳理;风险的界定与评价设计;应急预案管理设计;应急处置流程设计;应急信息通报要求设计;应急善后处理要求设计;应急保障要求设计;应急演练要求设计
第一阶段“应急演练方案设计”:初步设计X年X月-X年X月 优化设计X年X月-X年X月 管理确认X年X月-X年X月
  
(X年X月-X年X月)演练方案内容要素设计;演练信息发布流程梳理;演练准备工作梳理;演练流程梳理;演练后保障措施梳理
 “应急风险场景梳理”:初步设计X年X月-X年X月 优化设计X年X月-X年X月 管理确认X年X月-X年X月
  
 围绕手机阅读,基于现有运维人员的维护经验、顾问指导,收集、梳理手机阅读业务现有风险场景
 “应急预案制定”  初步设计X年X月-X年X月 优化设计X年X月-X年X月 管理确认 X年X月-X年X月
  
 针对主要应急场景建立1-2个预案。预案内容要素包括:风险分析;应急预案启动条件;应急组织成员;应急时长;应急处置流程;故障排查表;信息发布流程;应急处置步骤;关联影响;善后处理措施
应急管理优化“继续完善场景与预案”
  
 继续完善手机阅读应急场景设计、预案编写
第二阶段 
 “演练验证与优化”:
(X年X月-X年X月) 
 通过应急演练检验流程设计,并据此寻找改进点
 “经验拓展”:
  
 通过应急演练检验流程设计,并据此寻找改进点基于手机阅读的风险场景梳理、预案制定经验,将其拓展到资源池应急管理中
应急管理平台化“经验拓展”:
  
 通过应急演练检验流程设计,并据此寻找改进点基于手机阅读的风险场景梳理、预案制定经验,将其拓展到智能网应急管理中
第三阶段 
  
(X年X月-X年X月)“应急管理平台建设”:
  
 应急管理平台建设,将应急流程固化,应急操作标准化于工具之中,提升沟通效率和执行效率
应急执行自动化“应急自动化建设”:
  
 在应急流程与操作标准化、固化基础上,实现应急脚本自动执行
第四阶段 
  
(X年X月-X年X月)“应急改进”:
  
 在上述阶段基础之上,继续完善应急管理制度、应急方案、预案、与管理工具优化

返回本章节索引    阅读下一篇

标签:
由 superadmin 在 2024/06/03, 13:23 创建
     
深圳市艾拓先锋企业管理咨询有限公司