当前位置:首页 > 新闻中心 >新闻详情

清华裴丹 | AIOps展望:生态、标准、产品

发布时间:2022-08-01 17:37:00


本文由2022 CCF国际AIOps挑战赛决赛暨AIOps研讨会上,清华大学计算机系长聘副教授裴丹发表的演讲整理而成。


行业关键时期:回归理性,注重实际效果

 
以上两图分别代表全球和中国国内的AIOps成熟度趋势。从图中可以看出,国内智能运维技术在2~5年内便会进入成熟的实质生产阶段,而全球范围内该预期则是5~10年。由此可见,国内智能运维技术成熟度相较全球处于前沿水平。这意味着中国智能运维产业和技术非但没有遭遇“卡脖子”危机,还处于领先地位。另一方面,上述趋势也表明国内智能运维行业在未来两年将回归理性,更加注重实际效果。
 
上图展示出各类技术所处的部署阶段,外层为观望阶段,中间层代表进入试点期,内层代表实际部署落地;技术实际部署的挑战性与难度用不同颜色表示,红色为最难;圆形面积大小代表技术为企业带来的价值。
 
由此看到,AIOps技术目前处于实际部署阶段,落地过程中遇到的挑战不可忽视;而同时,AIOps为企业创造的价值颇为可观。从上述趋势得出结论:未来两年是中国AIOps产业的关键两年,行业需要回归理性,并且需要输出实质的生产效果。
 
 
富有生命力的生态系统
 
为了在生产环境中输出实质效果,AIOps需要一个以运维监控数据和运维领域知识为输入的、算法和规则联动的、人机协同的大型分布式软件系统,即富有生命力的生态系统。在这样的大型分布式生态系统中,数据采集、数据清洗、数据分析等工作都有专业分工;不同模块、多元多模态数据源、多种规则与领域知识、机器学习算法、基于规则的硬编码等需要紧密结合。
 

 
具体而言,AIOps生态系统需要具备四要素:
 
  • 丰富的应用;
  • 来自厂商、服务商、用户与学术界的大量技术创新者;
  • 可演进的架构,其中包含所需的组件(产品),定义组件间的连接方式,并可支撑丰富的应用场景;
  • 对组件输入/输出和性能指标等有标准定义。
 
 
满足以上条件,便可构建一个健康而充满活力,能够创造实际价值的AIOps生态系统。
 
 
 
可演进的架构   
 
为了建立良性的AIOps生态系统,首先需要对运维工作进行拆解分析,定义、划分出AIOps核心的模块与组件,为此需要创建一个可演进的架构。该架构可采用自顶向下的方式逐渐推进标准化、生态化。
 
上述架构是一个聚焦运维质量的典型AIOps架构参考。
 
 
在实际的运维工具研发过程中,研发团队需要对每个粒度的组件定义其对应的参数与效果KPI。例如,风险感知平台每月发现的风险数量、故障发现工具的发现覆盖率、根因定位工具在一定时间内的定位准确率等。未来两年的时间窗口内,行业需要认真对待这一主题。通过售前、POC测试、招投标、工作任务书、项目实施进展、验收标准等抓手尽量满足各方期待,才能让智能运维产业如期走向成熟。
 

 
 
数据治理和消费场景并行建设
 
 
数据治理和数据消费场景对于AIOps的落地非常重要。数据治理和数据消费场景需要并行建设,“边用边治理”,因为服务方需要消费方提供清晰的需求和方向指引才能达到较好的治理效果。例如,常见的图数据库需要针对场景专门优化才能将性能提升到较为理想的水平;一个运维知识图谱需要场景驱动才能完成相关的多种数据服务、多跳关联的优化过程,进而形成有价值的数据平台能力。
 
 
挑战赛平台向AIOps应用市场演进
 
目前,AIOps挑战赛平台已成为社区中的算法、人才练兵场与数据源。平台包含算法应用、流量模拟、混沌工程等模块,且要求参赛方案全部服务化,以便与平台对接。平台运行在公有云上,满足相关性、代表性、公平性、可重复性、成本效益、可扩展性和透明度等要求,具备常态化运行能力。
 
从“算法、人才练兵场与数据源” 演进成“服务公有云租户的AIOps应用市场”,只需将模拟监控对象替换为云租户监控对象,将参赛队伍孵化算法替换为厂商算法,便可为公有云端的现实租户提供服务,解决诸多运维挑战,进而为AIOps良性生态体系创造扎实基础。
 
 
总结  
 
 
未来两年是国内AIOps产业到达成熟的实质生产阶段的关键时期。在这一阶段,行业需要标准引领建立生态系统,并打造可演进的架构,自顶而下逐渐标准化、生态化,实现互联互通。与此同时,作为生态系统架构组件的产品需要定量的性能评估指标,数据治理和消费场景则需要并行建设,边用边治理。最后,常态化的挑战赛平台会逐渐演进成“服务公有云租户的AIOps应用市场”。

 

TOP

010-82362970