从版本 1.1 >
由superadmin编辑
在2025/01/11, 16:55上
到版本
由superadmin编辑
在2025/01/11, 16:55上
修改评论 该版本没有评论

Summary

Details

Icon Page properties
标题
... ... @@ -1,0 +1,1 @@
1 +某金融机构在IT运维管理方面的AIOPS能力建设经验分享
... ... @@ -1,0 +1,1 @@
1 +G 参考资料.F ITIL实践案例.WebHome
Content
... ... @@ -1,0 +1,73 @@
1 +(% style="text-align:center" %)
2 +[[image:1736585741252.png||height="167" width="500"]]
3 +
4 +
5 +本文是一份关于某金融机构AIOPS能力建设经验分享的报告,旨在介绍该机构在智能运维领域的实践和成果。报告由国内最大的数字化时代IT服务管理交流社区——ITIL先锋论坛的专家在GOPS全球运维大会2022·上海站上提出。报告内容涵盖了智能运维能力建设的背景、场景建设、数据基础能力建设以及未来展望等方面。
6 +
7 +
8 +**智能运维能力建设背景**
9 +
10 +报告指出,随着业务的快速创新和技术架构的日益复杂化,运维面临着巨大挑战。分布式、微服务、云计算等新技术架构的并存,要求运维人员具备更广泛的知识和技能,同时动态响应业务需求。运维对象数量激增,关联性复杂,导致故障定位困难,需要提供按需而变的运维保障服务。
11 +
12 +
13 +**智能运维场景建设**
14 +
15 +报告提出了智能运维的建设思路,包括场景驱动、数据支撑、智能决策和自动实施。通过面向运维使用场景,优化运维数据的处理能力,利用人工智能算法实时检测系统运行状态,解决异常检测、故障定位等问题,并通过RPA(机器人流程自动化)和自动化平台标准化运维流程,提升企业运维效率。
16 +
17 +
18 +**智能算法整体建设情况**
19 +
20 +报告详细介绍了智能算法在故障发现、故障全景视图、日志异常检测、指标异常检测、多维异常定位等方面的应用。通过提取业务指标、日志数据,实现故障发现和多维异常定位,提供详细的异常指标和日志模式展示,辅助运维人员快速定位问题。
21 +
22 +
23 +**指标异常检测**
24 +
25 +通过对业务性能黄金指标数据(如交易量、响应时间、错误数等)进行异常检测,识别业务指标趋势的反常变化,及早发现问题风险,缩短故障发现与恢复时间。智能检测能够动态调整阈值,减少误报漏报,适应不同时段的规律变化。
26 +
27 +
28 +**多维异常定位**
29 +
30 +当系统级别的业务指标发生故障时,通过多维异常定位快速判断异常程度最高的维度属性,精准缩小排障范围。系统自动提取重要维度,进行多维组合分析,分钟级产生根因推荐。
31 +
32 +
33 +**日志异常检测**
34 +
35 +系统日志格式多样,通过日志的相似性进行聚类,对日志模板的频率变化进行检测,将未匹配日志及频率改变的日志进行告警提示,辅助运维人员快速定位异常。日志异常检测通过多种告警合并,避免管理员重复收到大量告警,便于定位原因。
36 +
37 +
38 +**基于知识图谱的故障定位**
39 +
40 +通过数据接入、实时数据流、CMDB、调用链数据等,构建故障子图,实现流式根因定位。基于知识图谱的故障定位能够快速识别故障原因,提供精准的故障诊断和风险预警。
41 +
42 +
43 +**数据基础能力建设**
44 +
45 +报告指出,智能场景建设面临数据孤岛、数据质量不高、数据不可知等问题。数据治理的开展思路包括运维数据治理目标、组织保障机制、治理管控城、技术保障机制等。通过数据治理顶层设计,实现数据的统一连接、质量提升和服务自助化。
46 +
47 +
48 +**数据治理开展思路**
49 +
50 +数据治理的目标是以质量为中心,以活量为导向,保障体系成果,以服务为价值。通过组织架构、角色职责、管理办法、绩效监督和考评等机制,确保数据治理的有效实施。
51 +
52 +
53 +**数据治理顶层设计**
54 +
55 +数据治理的顶层设计包括总纲架构、运维数据治理蓝图演进适配、运维数据治理管控政策优化梳理等。通过数据管理域、解决方案、运维数据治理需求梳理等,实现数据的全生命周期管理。
56 +
57 +
58 +**运维数据治理技术实现要点**
59 +
60 +技术实现要点包括对象识别、数据质量标准、元数据管理、数据安全等级定级、统一数据服务设计规范等。通过数据质量管控、数据血缘、数据服务生命周期管理等,实现数据的高质量管理和安全访问控制。
61 +
62 +
63 +**未来展望**
64 +
65 +报告对未来展望进行了阐述,包括挖掘统一数据底座、整合应用场景、安全运营、自研算法等方面。通过数据治理完善优化平台通、智能算法、运维应用场景等能力建设,持续发挥运维数据的价值,提升IT技术运营价值。通过优化整合技术运营与安全运营两大领域,结合数据与智能能力,为公司数字化转型保驾护航。
66 +
67 +
68 +报告详细介绍了某金融机构在AIOPS能力建设方面的实践和经验,强调了智能运维在应对业务创新和技术架构复杂性方面的关键作用。通过智能算法、数据治理和未来展望,报告展示了如何通过技术创新提升运维效率和质量,为金融机构的数字化转型提供支持。
69 +
70 +
71 +
72 + [[IT运维管理:ITIL先锋论坛—某金融机构AIOPS能力建设经验分享.pdf>>url:https://itil-foundation.cn/forum.php?mod=attachment&aid=NDYwNTF8OTJlYzdiZmF8MTczNjU4NTQ4NXwyMDY2M3wzNjQ1MzE=]]
73 +
深圳市艾拓先锋企业管理咨询有限公司