Wiki源代码分享超大规模IT系统运维稳定性保障的经验
Version 3.1 by superadmin on 2025/01/14, 08:18
Show last authors
author | version | line-number | content |
---|---|---|---|
1 | (% style="text-align:center" %) | ||
2 | [[image:1736584231384.png||height="149" width="442"]] | ||
3 | |||
4 | |||
5 | |||
6 | 本研究文稿旨在分享中国联通在超大规模信息科技系统运维稳定性保障方面的实践经验,该文稿由中国联通运维负责人在GOPS全球运维大会2022·上海站上提出。本报告深入探讨了中国联通cBSS系统(作为全球最大的电信运营商支撑系统)在运维稳定性保障方面的实践与经验。 | ||
7 | |||
8 | |||
9 | **挑战与困境** | ||
10 | |||
11 | 报告开篇即指出,随着系统架构的演进,中国联通cBSS系统遭遇了众多挑战与困境。自2014年31省BSS集约化以来,系统经历了2019年的云化、微服务化、分布式架构转型,直至2022年的混合架构实践,期间故障频发、定位缓慢、协作困难、工具分散、数据不贯通,缺乏全流程的可观测性。 | ||
12 | |||
13 | |||
14 | **稳定性保障体系构建** | ||
15 | |||
16 | 为应对上述挑战,报告提出了一套全面的稳定性保障体系,该体系涵盖制度规范、运营机制、组织架构及平台工具四个方面的保障措施。该体系依托四大保障,聚焦于研运流程中Ops部分的三个阶段,对应十四项核心工作,目标在于提升中国联通大IT系统的稳定性。 | ||
17 | |||
18 | |||
19 | **制度规范的保障** | ||
20 | |||
21 | 在制度规范保障方面,制定了《大IT生产运营规范》、《红线底线纪律条例》和《大IT生产运营奖惩方案》。这些规范明确了团队组织、分工、流程和工作要求,落实了集中系统维护职责,构筑了安全风险防线,激发了团队活力,保持了持续的警觉性。 | ||
22 | |||
23 | |||
24 | **组织架构的保障** | ||
25 | |||
26 | 在组织架构保障方面,构建了四级安全生产运营保障团队,包括集团数字化部运营管理处、联通软件研究院的一体化SRE运营团队、分子公司运营响应团队和一线业务团队。这些团队分别承担不同的职责,如应用运维、平台运维、基础设施运维等,形成了一个有序协作的运维体系。 | ||
27 | |||
28 | |||
29 | **平台工具的保障** | ||
30 | |||
31 | 在平台工具保障方面,报告介绍了中国联通数字化监控平台,该平台为运营保障2.0体系中的十四项核心运营工作提供了端到端、全层级、全流程的工具支撑。这些工具包括配置管理、自动化作业、故障自愈、自动化运维、任务调度平台、变更追踪、业务监控、日志中心、智能监控告警平台等。 | ||
32 | |||
33 | |||
34 | **运营保障篇** | ||
35 | |||
36 | 报告详细阐述了运营保障的各个方面,包括链路识别、全层级监控、自动化巡检、隐患管理、应急预案、应急演练、故障调度、故障定位和故障闭环。这些措施通过制度规范、注意要点、平台工具和落地方法四个方面进行了详细的阐述,确保了故障的快速发现、定位、处理和复盘。 | ||
37 | |||
38 | |||
39 | **关键结论** | ||
40 | |||
41 | - 链路识别:通过识别核心业务链路,提升运维人员对业务流程、系统架构及系统调用关系的理解,减少故障分析时间,提前识别系统隐患。 | ||
42 | |||
43 | - 全层级监控:实现从业务到触点、应用、中间件、云平台、基础资源的全层级指标数据监控覆盖。 | ||
44 | |||
45 | - 自动化巡检:模拟人类工作方式,实现7x24不间断业务巡检,主动侦测防御,发现问题并出具报告。 | ||
46 | |||
47 | - 隐患管理:利用运维大数据与专家排查双重手段,进行全面故障预防,确保隐患“三到位”(安全保障责任到位、隐患监控到位、预防预案到位)。 | ||
48 | |||
49 | - 应急预案:重点关注预案覆盖来源、应急预案分类、应急预案书写要点,确保预案可执行,确认预案实际执行时间。 | ||
50 | |||
51 | - 应急演练:围绕故障快速恢复目标,通过桌面演练和实操演练,压降故障历时,提升应急响应能力。 | ||
52 | |||
53 | - 故障调度:遵循“先抢通、后抢修”原则,通过“三线一屏”分析法及五类角色职责,确保故障快速恢复。 | ||
54 | |||
55 | - 故障定位:通过观影响、定分类、查变更、有序层级排查,快速定位故障,提升故障处理效率。 | ||
56 | |||
57 | - 故障闭环:通过故障复盘、故障报告、故障演练、整改跟踪、故障定级、故障定责、故障处罚和故障受教育,确保故障不再发生或可快速恢复。 | ||
58 | |||
59 | |||
60 | 本报告展示了中国联通在超大规模IT系统运维稳定性保障方面的丰富经验和实践成果。通过构建全面的稳定性保障体系,中国联通成功应对了系统变革带来的挑战,实现了运维的高效管理和数字化转型。这些经验对于其他企业应对类似挑战具有重要的参考价值。 | ||
61 | |||
62 | |||
63 | |||
64 | [[IT运维管理:ITIL先锋论坛—超大规模IT系统运维稳定性保障经验分享.pdf>>url:https://itil-foundation.cn/forum.php?mod=attachment&aid=NDYwNDF8YTViOWVlYWJ8MTczNjU4NDA3NnwyMDY2M3wzNjQ1MjY=]] |