系统运行风险防范-告警管理【必示说第八期】
发布时间:2023-04-14 11:08:00
随着数字化程度越来越高、系统规模越来越大、组件监控粒度越来越细、监控数据量越来越大,以及新技术和新组件的不断引入。企业IT运维人员为了快速发现和处理平台故障,往往需要使用多个监控平台满足不同场景的监控需求,而不同的监控平台互相独立形成监控“孤岛”,运维管理人员经常需要在多个平台查看和处理告警,事前发现、事中处理、事后审计都很难统计所有告警信息。总之,告警管理是运维过程中不可或缺且耗时耗力的工作。
而传统告警管理平台,多数仅聚焦于告警的集中管控,缺乏对告警的分析及结论推荐。在告警风暴发生时,大规模告警发生时种种问题使相关人员工作难度加大,也易引发告警噪声大、无效告警,导致告警处理不及时等诸多问题。
所以,具有全流程的告警数据运营体系、告警发生时迅速甄别显示告警紧急程度、减少无效告警、真实显示准确告警,且具有优化告警规则调整升级能力的告警管理产品被迫切需要---必示智能事件管理平台应运而生。
必示智能事件管理平台
必示智能事件管理平台(AlertSeer)是必示智能运维产品矩阵中,实现“事件发生即发现”功能的智能运维产品,在实现告警全生命周期集中管控的基础上,结合先进的告警分析算法,实现“关键告警一屏清”、“故障排查有方向”、“告警治理有保障”等运维目标。
统一管理所有IT事件,实现“一屏清”:
通过统一窗口监视所有监控工具的告警信息,提升告警易读性和可视性,通过“一块屏”全面掌握IT运行状态。
提升告警有效性,达到“低干扰”:
提升告警质量,降低无效告警数量,降低人均接收告警消息数量,让运维人员更有针对性地处理“真”运维故障。
告警风暴中迅速找出可疑线索,避免“瞎忙活”:
帮助运维人员快速识别告警风暴中的关键告警信息,提升应对告警风暴能力,减少“忙中出错”几率。
必示科技通过百余家的以金融头部企业为代表性的客户服务经验,在产品落地部署过程中,以价值对应告警统一管理、智能告警发现、智能事件分析、告警策略优化和告警风暴定位五个典型场景需求为导向,以及不断复盘中不断迭代必示智能事件管理平台,具有以下三个亮点模块。
价值一:智能监控
为了从源头上减少告警数量,提升告警发生时告警发现和处理效率,必示智能事件管理平台中智能监控模块,通过无监督学习算法,支持数十万级指标实时检测。
通过有别于传统的静态阈值监控方式,必示AIOps可通过智能检测实现动态阈值调整,通过曲线特征自动提取和选择、聚类算法使用、基于深度生成模型的无监督异常检测、自动敏感度调整等技术创新,使故障发现准确率95%以上,平均故障发现时间下降至5分钟内,最快可达30秒。同时在监控过程中无需调参数、无需标注,提升运维效率。
价值二:智能摘要分析
为了帮助运维人员在故障发现时,尤其是告警风暴时提升故障排查和处置效率,实现分钟级的故障定界,必示智能事件管理平台通过摘要分析模块的告警摘要分析汇总、问题组件定位、可疑应用定位、全局告警时序图等能力,实现多维度多视角的告警分析报告。
价值三:智能告警大屏
在大规模故障发生时,通过针对重要业务,构建告警智能分析大屏,实现从告警风暴识别、告警路径分析到可疑应用推荐的全栈能力。而在重保场景下对告警数据进行实时智能分析,从而保障业务的健康度和业务连续性。
案例:某大型城商行智能运维项目
客户业务挑战
解决方案概述
统一运维事件处理平台:整合各监控工具的告警事件,进行集中化管理与处理,上线系统工具间关联影响分析等场景功能,提高运维问题处理效率。
统一运维数据展示平台:性能数据收集、汇总、计算和存储,通过统一的分析和展示工具,对数据进行实时分析,同时支持大屏仪表盘等应用场景。
智能化运维分析平台:引入业务指标异常检测、机器指标定位等智能算法模块,将监控数据与业务性能数据相结合,搭建统一的、智能化的运维分析平台。
客户收益
简:多种数据告警源集中管理,实现告警数据标准化,与CMDB联动完成告警丰富,实 现告警数据的可读性和易读性,提升运维人员的运维效率。
全:实现所有IT事件的“一屏清”,对整个数据中心运行状态“了然于胸”。
少:告警数量成倍减少,实现“真告警”,“少告警”,系统筛选出“必须处理”的故障,避免无效告警的干扰,分散注意力。
高:告警的分布,特征和可疑点心中有数,获得告警分析的初步线索,突出一线运维价值。
快:实现业务故障数据早分析、早发现、早预警、早定位,确保业务的连续性。
- 上一篇:IT系统变更风险防控【必示说第七期】
- 下一篇:清华裴丹 | 运维大模型展望-上篇