腾讯SRE质量运营体系构建与实践研究

Last modified by superadmin on 2025/01/15, 16:59

腾讯SRE（Site Reliability Engineering）质量运营体系的构建与实践，重点探讨了SLO（Service Level Objective）与On-Call事件管理在腾讯内部的应用，深入分析了其在增强产品稳定性方面的实践经验与成效。

行业背景

从理论层面来看，如何进行稳定性建设是关键问题之一。SLO与On-Call在业界已有多种产品或解决方案，如PagerDuty、Opsgenie、Grafana、Datadog、Google Cloud Monitor和Facebook的SLICK等，主要涉及质量运营管理、研发过程管理、可视化和可观测性等领域。

从产品层面来看，这些产品在SLO管理与简化版On-Call方面各有特色。例如，PagerDuty作为On-Call的标杆产品，Opsgenie将研发管理延伸至On-Call，Grafana从可视化延伸至On-Call，Datadog和Google Cloud Monitor专注于可观测性领域，而Facebook的SLICK则用于内部SLO管理。

基于SLO与On-Call的质量运营体系

在问题背景方面，产品稳定性无法量化，难以转化为明确的组织管理目标以持续改进提升；故障处理过程不透明且不可控，受团队或个人主观因素影响较大，导致故障影响时间延长；传统方法缺乏先进性，未应用DevOps方法论，研发与SRE团队协作不足，稳定性投入普遍积极性不高。

在SLO管理方面，通过合理建立稳定性与功能迭代的评估关系，SRE与研发共同制定合理的质量目标，面向用户场景而非系统本身，采用错误预算燃烧告警和错误预算决策等方法。

在On-Call管理方面，通过On-Call事件管理实现告警匹配、收敛、升级、恢复等功能，解决告警泛滥问题，提升故障处理效率。

在腾讯的大规模落地实践

SLO管理实践：

核心场景与SLI指标：确定一级场景和二级场景，分别面向外部用户和内部用户的核心场景，每个技术团队确认职责边界，定义场景和SLI。

SLO目标与错误预算：目标设定的时间周期为28天（Google推荐），通过自动计算历史周期给出推荐目标，SRE主导，研发参与共同制定，面向用户，明确组织复杂情况下的使用者。

SLO应用：基于错误预算燃烧率的告警，例如某业务核心SLI成功率开始波动时，触发告警并快速响应。

建立SLO运营机制：已实现大规模接入，1000+业务场景，3000+SLO指标，聚焦核心场景与指标，降低SLO配置成本，基于错误预算进行决策。

On-Call事件管理实践：

事件接入解决的问题：通过告警匹配、收敛、升级、恢复等措施，解决告警泛滥问题，减少告警绝对数量，实现告警治理和On-Call事件接入。

标准化定义渠道：自动发现或用户反馈的数据驱动提升故障自动发现，实现全渠道接入，持续观测与提升故障自动发现比例，数据置信度大大提升。

On-Call在研发流程中的定位：面向技术团队，包括toC用户、toB用户和内部用户的反馈处理，实现一站式管理各类事件。

运行案例：展示了On-Call事件管理在实际运行中的案例，如全渠道接入、故障自动发现比例提升等。

On-Call响应管理实践：

保证标准化执行：通过业务管理、值班管理、升级策略、工单管理等基础功能，保证On-Call标准化执行，覆盖MTTR全周期。

值班管理与升级策略：提升团队整体研发效率和故障处理效率，满足多级别和多层级的灵活性需求。

工单管理：串联大部分On-Call能力，实现事件的高效管理。

质量数据模型实践：

数据模型分阶段：围绕不同数据维度，包括SLO数据、运营数据、渠道数据和质量数据等，进行分阶段的数据管理。

数据决策与管理稳定性：基于以上数据进行管理决策，制定稳定性相关OKR，实现数据驱动的质量管理。

腾讯通过标准化的产品与运营，大规模推进SLO与On-Call质量运营体系的落地，客观描述产品稳定性，实现数据决策质量投入，科学解决产品稳定性建设问题。

展望：稳定性的提升是一个复杂且需要长期投入的过程，未来将聚焦于SLO精细化运营，影响产品研发决策，延伸质量体系至研发过程（CI/CD），并在SRE稳定性建设方面投入更多资源，如质量数据、可观测性、混沌、演习、容量、巡检、治理等，以持续提升产品和服务的稳定性与可靠性。

IT运维管理：ITIL先锋论坛—腾讯 SRE 质量运营体系建设与实践.pptx

Tags:

Created by superadmin on 2025/01/10, 13:52

粤ICP备17056641号

深圳市艾拓先锋企业管理咨询有限公司