Wiki源代码某金融机构在IT运维管理方面的AIOPS能力建设经验分享
由 superadmin 于 2025/01/11, 16:55 最后修改
Show last authors
author | version | line-number | content |
---|---|---|---|
1 | (% style="text-align:center" %) | ||
2 | [[image:1736585741252.png||height="167" width="500"]] | ||
3 | |||
4 | |||
5 | 本文是一份关于某金融机构AIOPS能力建设经验分享的报告,旨在介绍该机构在智能运维领域的实践和成果。报告由国内最大的数字化时代IT服务管理交流社区——ITIL先锋论坛的专家在GOPS全球运维大会2022·上海站上提出。报告内容涵盖了智能运维能力建设的背景、场景建设、数据基础能力建设以及未来展望等方面。 | ||
6 | |||
7 | |||
8 | **智能运维能力建设背景** | ||
9 | |||
10 | 报告指出,随着业务的快速创新和技术架构的日益复杂化,运维面临着巨大挑战。分布式、微服务、云计算等新技术架构的并存,要求运维人员具备更广泛的知识和技能,同时动态响应业务需求。运维对象数量激增,关联性复杂,导致故障定位困难,需要提供按需而变的运维保障服务。 | ||
11 | |||
12 | |||
13 | **智能运维场景建设** | ||
14 | |||
15 | 报告提出了智能运维的建设思路,包括场景驱动、数据支撑、智能决策和自动实施。通过面向运维使用场景,优化运维数据的处理能力,利用人工智能算法实时检测系统运行状态,解决异常检测、故障定位等问题,并通过RPA(机器人流程自动化)和自动化平台标准化运维流程,提升企业运维效率。 | ||
16 | |||
17 | |||
18 | **智能算法整体建设情况** | ||
19 | |||
20 | 报告详细介绍了智能算法在故障发现、故障全景视图、日志异常检测、指标异常检测、多维异常定位等方面的应用。通过提取业务指标、日志数据,实现故障发现和多维异常定位,提供详细的异常指标和日志模式展示,辅助运维人员快速定位问题。 | ||
21 | |||
22 | |||
23 | **指标异常检测** | ||
24 | |||
25 | 通过对业务性能黄金指标数据(如交易量、响应时间、错误数等)进行异常检测,识别业务指标趋势的反常变化,及早发现问题风险,缩短故障发现与恢复时间。智能检测能够动态调整阈值,减少误报漏报,适应不同时段的规律变化。 | ||
26 | |||
27 | |||
28 | **多维异常定位** | ||
29 | |||
30 | 当系统级别的业务指标发生故障时,通过多维异常定位快速判断异常程度最高的维度属性,精准缩小排障范围。系统自动提取重要维度,进行多维组合分析,分钟级产生根因推荐。 | ||
31 | |||
32 | |||
33 | **日志异常检测** | ||
34 | |||
35 | 系统日志格式多样,通过日志的相似性进行聚类,对日志模板的频率变化进行检测,将未匹配日志及频率改变的日志进行告警提示,辅助运维人员快速定位异常。日志异常检测通过多种告警合并,避免管理员重复收到大量告警,便于定位原因。 | ||
36 | |||
37 | |||
38 | **基于知识图谱的故障定位** | ||
39 | |||
40 | 通过数据接入、实时数据流、CMDB、调用链数据等,构建故障子图,实现流式根因定位。基于知识图谱的故障定位能够快速识别故障原因,提供精准的故障诊断和风险预警。 | ||
41 | |||
42 | |||
43 | **数据基础能力建设** | ||
44 | |||
45 | 报告指出,智能场景建设面临数据孤岛、数据质量不高、数据不可知等问题。数据治理的开展思路包括运维数据治理目标、组织保障机制、治理管控城、技术保障机制等。通过数据治理顶层设计,实现数据的统一连接、质量提升和服务自助化。 | ||
46 | |||
47 | |||
48 | **数据治理开展思路** | ||
49 | |||
50 | 数据治理的目标是以质量为中心,以活量为导向,保障体系成果,以服务为价值。通过组织架构、角色职责、管理办法、绩效监督和考评等机制,确保数据治理的有效实施。 | ||
51 | |||
52 | |||
53 | **数据治理顶层设计** | ||
54 | |||
55 | 数据治理的顶层设计包括总纲架构、运维数据治理蓝图演进适配、运维数据治理管控政策优化梳理等。通过数据管理域、解决方案、运维数据治理需求梳理等,实现数据的全生命周期管理。 | ||
56 | |||
57 | |||
58 | **运维数据治理技术实现要点** | ||
59 | |||
60 | 技术实现要点包括对象识别、数据质量标准、元数据管理、数据安全等级定级、统一数据服务设计规范等。通过数据质量管控、数据血缘、数据服务生命周期管理等,实现数据的高质量管理和安全访问控制。 | ||
61 | |||
62 | |||
63 | **未来展望** | ||
64 | |||
65 | 报告对未来展望进行了阐述,包括挖掘统一数据底座、整合应用场景、安全运营、自研算法等方面。通过数据治理完善优化平台通、智能算法、运维应用场景等能力建设,持续发挥运维数据的价值,提升IT技术运营价值。通过优化整合技术运营与安全运营两大领域,结合数据与智能能力,为公司数字化转型保驾护航。 | ||
66 | |||
67 | |||
68 | 报告详细介绍了某金融机构在AIOPS能力建设方面的实践和经验,强调了智能运维在应对业务创新和技术架构复杂性方面的关键作用。通过智能算法、数据治理和未来展望,报告展示了如何通过技术创新提升运维效率和质量,为金融机构的数字化转型提供支持。 | ||
69 | |||
70 | |||
71 | |||
72 | [[IT运维管理:ITIL先锋论坛—某金融机构AIOPS能力建设经验分享.pdf>>url:https://itil-foundation.cn/forum.php?mod=attachment&aid=NDYwNTF8OTJlYzdiZmF8MTczNjU4NTQ4NXwyMDY2M3wzNjQ1MzE=]] |