由 superadmin 于 2025/01/11, 16:55 最后修改
Summary
Details
- Page properties
-
- 标题
-
... ... @@ -1,0 +1,1 @@ 1 +某金融机构在IT运维管理方面的AIOPS能力建设经验分享 - 父
-
... ... @@ -1,0 +1,1 @@ 1 +G 参考资料.F ITIL实践案例.WebHome - Content
-
... ... @@ -1,0 +1,73 @@ 1 +(% style="text-align:center" %) 2 +[[image:1736585741252.png||height="167" width="500"]] 3 + 4 + 5 +本文是一份关于某金融机构AIOPS能力建设经验分享的报告,旨在介绍该机构在智能运维领域的实践和成果。报告由国内最大的数字化时代IT服务管理交流社区——ITIL先锋论坛的专家在GOPS全球运维大会2022·上海站上提出。报告内容涵盖了智能运维能力建设的背景、场景建设、数据基础能力建设以及未来展望等方面。 6 + 7 + 8 +**智能运维能力建设背景** 9 + 10 +报告指出,随着业务的快速创新和技术架构的日益复杂化,运维面临着巨大挑战。分布式、微服务、云计算等新技术架构的并存,要求运维人员具备更广泛的知识和技能,同时动态响应业务需求。运维对象数量激增,关联性复杂,导致故障定位困难,需要提供按需而变的运维保障服务。 11 + 12 + 13 +**智能运维场景建设** 14 + 15 +报告提出了智能运维的建设思路,包括场景驱动、数据支撑、智能决策和自动实施。通过面向运维使用场景,优化运维数据的处理能力,利用人工智能算法实时检测系统运行状态,解决异常检测、故障定位等问题,并通过RPA(机器人流程自动化)和自动化平台标准化运维流程,提升企业运维效率。 16 + 17 + 18 +**智能算法整体建设情况** 19 + 20 +报告详细介绍了智能算法在故障发现、故障全景视图、日志异常检测、指标异常检测、多维异常定位等方面的应用。通过提取业务指标、日志数据,实现故障发现和多维异常定位,提供详细的异常指标和日志模式展示,辅助运维人员快速定位问题。 21 + 22 + 23 +**指标异常检测** 24 + 25 +通过对业务性能黄金指标数据(如交易量、响应时间、错误数等)进行异常检测,识别业务指标趋势的反常变化,及早发现问题风险,缩短故障发现与恢复时间。智能检测能够动态调整阈值,减少误报漏报,适应不同时段的规律变化。 26 + 27 + 28 +**多维异常定位** 29 + 30 +当系统级别的业务指标发生故障时,通过多维异常定位快速判断异常程度最高的维度属性,精准缩小排障范围。系统自动提取重要维度,进行多维组合分析,分钟级产生根因推荐。 31 + 32 + 33 +**日志异常检测** 34 + 35 +系统日志格式多样,通过日志的相似性进行聚类,对日志模板的频率变化进行检测,将未匹配日志及频率改变的日志进行告警提示,辅助运维人员快速定位异常。日志异常检测通过多种告警合并,避免管理员重复收到大量告警,便于定位原因。 36 + 37 + 38 +**基于知识图谱的故障定位** 39 + 40 +通过数据接入、实时数据流、CMDB、调用链数据等,构建故障子图,实现流式根因定位。基于知识图谱的故障定位能够快速识别故障原因,提供精准的故障诊断和风险预警。 41 + 42 + 43 +**数据基础能力建设** 44 + 45 +报告指出,智能场景建设面临数据孤岛、数据质量不高、数据不可知等问题。数据治理的开展思路包括运维数据治理目标、组织保障机制、治理管控城、技术保障机制等。通过数据治理顶层设计,实现数据的统一连接、质量提升和服务自助化。 46 + 47 + 48 +**数据治理开展思路** 49 + 50 +数据治理的目标是以质量为中心,以活量为导向,保障体系成果,以服务为价值。通过组织架构、角色职责、管理办法、绩效监督和考评等机制,确保数据治理的有效实施。 51 + 52 + 53 +**数据治理顶层设计** 54 + 55 +数据治理的顶层设计包括总纲架构、运维数据治理蓝图演进适配、运维数据治理管控政策优化梳理等。通过数据管理域、解决方案、运维数据治理需求梳理等,实现数据的全生命周期管理。 56 + 57 + 58 +**运维数据治理技术实现要点** 59 + 60 +技术实现要点包括对象识别、数据质量标准、元数据管理、数据安全等级定级、统一数据服务设计规范等。通过数据质量管控、数据血缘、数据服务生命周期管理等,实现数据的高质量管理和安全访问控制。 61 + 62 + 63 +**未来展望** 64 + 65 +报告对未来展望进行了阐述,包括挖掘统一数据底座、整合应用场景、安全运营、自研算法等方面。通过数据治理完善优化平台通、智能算法、运维应用场景等能力建设,持续发挥运维数据的价值,提升IT技术运营价值。通过优化整合技术运营与安全运营两大领域,结合数据与智能能力,为公司数字化转型保驾护航。 66 + 67 + 68 +报告详细介绍了某金融机构在AIOPS能力建设方面的实践和经验,强调了智能运维在应对业务创新和技术架构复杂性方面的关键作用。通过智能算法、数据治理和未来展望,报告展示了如何通过技术创新提升运维效率和质量,为金融机构的数字化转型提供支持。 69 + 70 + 71 + 72 + [[IT运维管理:ITIL先锋论坛—某金融机构AIOPS能力建设经验分享.pdf>>url:https://itil-foundation.cn/forum.php?mod=attachment&aid=NDYwNTF8OTJlYzdiZmF8MTczNjU4NTQ4NXwyMDY2M3wzNjQ1MzE=]] 73 +