AIOps在线评测基准首阶段建设完成,面向社区发布真实运维数据!
发布时间:2024-05-27 16:35:00
以下是正文:
2024年1月份OpenAIOps社区成立,随着越来越多的社区成员加入,各项工作在有条不紊的推进中。在线评测基准系统(AIOps Live Benchmark)是今年社区工作中的重点之一。
历届AIOps挑战赛都是一次评测。比如2018年的赛题是指标异常检测、 2022年的赛题是微服务架构下电商系统的故障识别与分类。大赛组委会根据赛题搭建真实的运维评测系统去产生真实的数据,然后把真实的故障注入到该系统中,最后由参赛选手提供各种思路的解决方案参赛评选。
但是,赛事结束之后评测系统也会随之关闭,如果选手们后续有了更好的改进方案也无法继续评测。OpenAIOps社区着手推进在线评测基准工作,目标之一也是希望把每届挑战赛的成果都沉淀下来。
在线评测基准简介
在线评测基准系统包含了几个重要模块。首先是运维的IT系统,这部分系统是可以扩展的;还部署了混沌工程相关的工具,模拟出真实的运维场景;同时部署了一些可观测性的工具来获取运维数据,像开源的Promethues、Jeager等。数据收集好后通过具体的AIOps应用或者评测方法,提供一个实时在线评审榜单。在线评测基准系统的最终目标是提供真实系统、真实数据、真实评测,让大家共同探讨研究AIOps技术。
在线评测基准系统(AIOps Live Benchmark)建设架构
上图是在线评测基准系统的整体架构,分为基础设施、 IT系统、平台工具和AIOps应用。整个架构相当于一个小型企业的 IT运维平台,麻雀虽小五脏俱全。图片中绿色部分是邀请社区专家和企业界的同仁一起已完成系统模块。目前实现了注入故障模拟、采集各种各样的运维数据功能,并且部署了业界开源和专业可观测性工具,最后把数据统一汇总,对上提供服务,也成功部署了像异常检测、告警分析等应用工具。
1、微服务系统——Online Boutique
Online Boutique是谷歌的一个开源的电商系统,能够模拟一些常见的IT系统使用环境。它还是微服务的架构,支持多种语言的开发,对于可观测性工具,包括运维场景,具备一些典型的代表性。
同时系统是开源的,可以根据不同的运维场景对系统进行改造升级,目前实现了支持信创数据库TiDB、支持OpenTelemetry数据采集、模拟变更场景等功能。欢迎大家把自己的开源服务部署到社区中来,构建典型的运维场景。
2、混沌工程工具
架构中部署了混沌工程的开源工具并做了集成,其中典型的是ChaosMesh。图片中右边部分是一个具体的例子,在容器中注入一个CPU使用率负载高的故障,然后观察在上面部署的这些应用能否检测到对应异常。
3、可观测性工具
目前已经部署Jaeger、Promethues等开源的工具。Jeager是开源的分布式跟踪系统,用于采集电商系统的trace数据;Promethues是开源的监控数据采集和告警工具,用于采集电商系统的指标数据。
同时我们也邀请了云杉网络、乐维、基调听云、蓝鲸等企业,针对上文提到的微服务系统Online Boutique做了全面的数据采集。
4、开源数据集
完成数据采集后,平台构建了一个数据的指标体系,按照规则把数据清洗分类,并定时在系统上发布。大家可以在OpenAIOps社区网站(https://www.aiops.cn)上获取这些数据,希望提供的这些真实数据可以推动AIOps的技术研究和工业落地。
5、AIOps应用
系统上也部署了AIOps的应用,图片中展示的是必示科技提供的两款标准化的产品。
(1) 智能业务指标异常检测。通过具体指标数据,不需要人工设置就能够识别出阈值,图中展示的是真实的效果。这款应用好处是无需人工配置阈值,同时自动学习哪些指标能够做监控,扩大监控范围,减少人工运维成本。
(2) 智能告警管理,提供基础的告警管理功能,在告警智能化分析上,主要解决告警风暴检测和分析问题,当告警量突增,系统自动检测并生成分析报告,辅助运维人员快速处置异常。
网站正式发布对外开放,欢迎大家学习交流。
在线评测基准系统(AIOps Live Benchmark)建设情况
在线评测基准系统(AIOps Live Benchmark)工作自3月份开始推进,我们快速搭建了整套的系统和具体的可观测性工具。5月份,第一批数据清洗出来并成功发布,同时开始准备指标异常检测的评测基准工作。
来自社区的专家成员积极参与,贡献力量。目前基准专家组已经有59个成员,来自高校研究所、科技公司、银行、证券等各行各业。工程师团队超过40+,来自中科院、南开大学、必示科技、云杉网络、乐维、听云、蓝鲸等单位。
未来展望
目前在线评测系统可以提供真实的IT应用场景,可以学习前沿的AIOps技术,发布对应的权威数据集,推动行业发展。
在线评测系统搭建完之后,我们未来重点工作为应用评测,例如业务指标的异常检测、机器指标的异常检测、调研链的异常检测和定位等。在做评测应用的同时,进一步的完善系统的可观测性和混沌工程能力。