当前位置:首页 > 新闻中心 >新闻详情

必示科技 | 基于人机协同的智能运维算法创新及实践

发布时间:2022-10-18 13:49:03


2022年9月18日上午,第五届双态IT乌镇用户大会“智能运维算法研讨会”顺利举行,必示科技携手国泰君安共同举办。会上,必示科技知识图谱与算法团队负责人、高级算法专家温希道发表主题演讲《基于人机协同的智能运维算法创新及实践》,本文由现场演讲整理而成。
 
智能运维关键能力体现在算法研究及落地、数据治理与关联。通过数据+算法双轨并行,构建以运维数据治理为基础,AI算法+运维场景为支撑的运维场景生态体系,衍生面向问题发现、问题分析、问题处理产品体系。智能风险感知平台围绕运行风险发现构建风险识别、风险分析、风险反馈和回溯能力,将AI和自动化能力融入运维流程,实现增加实施效率、提升运维质量、降低维护升级成本,推动运维工作前移和左移;智能事件管理平台利用行业成熟的动态基线感知智能,进行告警精细化管理,提升告警处理效率;智能故障分析平台通过监控业务黄金指标进行故障发现,并自动触发相关的故障定位算法形成故障分析报告,快速向运维人员展示异常数据特征集和排障方向,协助运维人员进行快速的故障处理。以上三个产品底层最核心的是人机协同智能运维算法持续演进,基于人机协同的智能运维算法体系,深入运维场景问题,迭代核心AI能力。
 
今天分享的主题聚焦人机协同式智能运维算法落地,包括人机交互,人机融合,人机共创。
 
 
 
 
  人机协同设计理念  

智能运维AIOps作为AI与Ops的交叉领域,处于技术发展和落地的关键阶段,行业用户在各类细分场景中进行创新实践,科研学术成果不断涌现,但在国内外尚未形成统一的通用标准、技术规范和实现思路,在核心技术、边际成本和技术体系等方面存在诸多挑战。
 
人机协同理念是将精简的专家经验和面面俱到的算法进行有机结合。对于一些问题明确且对业务影响大的情况,我们认为适合精简规则,抓大放小。简单规则用于大面积排查明显风险;识别特征显著,解释性强;使用最具区分度的统计信息,精简数据。比如Oracle数据库场景下AAS_TOTAL指标明显超过预设阈值(200),就认为是异常。对于一些业务影响较小或者间接性的隐患问题,采用是多样的运行异常模式,检测难度大。AI模型有深挖长尾效果,用同比环比、横向比对模型充分开发大数据,这种场景更适合尝试AI模型。
 
借助“人机协同”理念,通过大规模数据去学习训练具备更强泛化性的深度学习模型,实现精细化风险识别模式、发现风险隐患模式。基于人工和机器学习的优缺点,异常发现策略能百倍增加,适配不同的细分的小场景。
 
“人机交互”中的“人”是指运维人员,“机”是人工智能,分为三个阶段进行分步骤建设:
 
  • 人机交互:“松耦合的合作模式”,即Ops w/o AI。通过成熟的感知、认知和决策等智能技术,在部分场景实现AI辅助业务人员进行运维工作,业务人员对结果进行反馈和交互的过程,不断迭代算法结果。
  • 人机融合:“紧耦合的朋友”,即 Ops-AI。将实际生产、服务、决策等运维分析任务根据人和机器的优势进行智能分配,实现人机无缝融合,提升运维工作效率。
  • 人机共创:共同创造“专家服务”,即OpsAI-Ops。通过群体智能以及运维人员自主发掘业务主导的智能算法并动态更新。这是我们期待后续真正建立的智能运维技术体系。



 
  人机交互  

在人机交互核心技术突破方面,以两个场景为例:
 
场景一,异常检测
人机交互是效率模式,用人工智能提升故障发现准确率和故障发现覆盖率,也是必示科技智能事件管理平台的核心技术——事件发现能力。异常检测利用清华大学NetMan实验室及同业在单指标异常指标检测和多指标异常检测方面持续推进科研,每年贡献多篇国际顶级学术成果,持续迭代黄金指标异常检测能力。在此基础上,我们积淀了近百个智能运维项目建设经验,在智能运维社区贡献上连续五届作为国际AIOps挑战赛最稳定的基线算法用于测试赛题故障发现难度,取得了相关领域核心发明专利,并与头部金融企业、高校合作,来持续迭代演进。
 

 
场景二,根因推荐
根因推荐算法作为必示科技智能排障分析平台中的核心算法技术已有多年的技术积累和实践落地,从早期的科研探索到近几年与多家头部金融企业的合作,致力于通过提升不同故障中的根因定位覆盖率和根因定位准确率,辅助运维人员提高提高排障效率。
 

同时,人机交互生态需要更多人参与进来。我们公司自研的智能演练沙箱,在第三届、第四届和第五届国际AIOps挑战赛中提供流量模拟、流量迁移和故障注入等基础能力,并开源挑战赛数据集,推动智能运维从业者共同参与智能运维算法的迭代。人机交互目前处于核心技术突破阶段,我们需要进一步的拥抱生态,行业社区共研,推动关键AI技术演进。
 


 
  人机融合  

人机交互是在局限的场景,在有限人力的条件下针对关注的场景做重大技术的突破。但场景非常复杂,如何让有限技术适配更多业务场景,进而降低算法落地的边际成本?这就体现人机融合,即Ops-AI, AI和运维是“紧耦合的朋友”,Ops-AI将实际生产、服务、决策等运维分析任务根据人和机器优势进行智能分配,实现人机无缝融合,提升运维工作效率。
 
人机融合体现在我们目前探索的新产品线——智能风险感知平台。风险相比故障和告警,数量更多、范围更广、场景更复杂,如果依赖以前的单点智能突破可能会面临大量的误报。依托建设银行运营数据中心前沿的智能运维工具体系化建设理念以及在交易、变更、监控、配置、基础技术资源、批量和容量等领域丰富的运行风险实践经验,结合必示科技成熟智能运维算法核心技术,智能风险感知平台提供基于人机融合的风险决策引擎,标准化核心计算模块的输入输出便于运维人员在更多的场景下进行适配。
 
运维人员基于对场景的理解和业务经验可自行编排风险发现策略中的准入规则、输入规则、计算规则和触发规则。其中,准入规则,即数据需要符合什么样的规则和条件,比如数据波动属性、数据周期性、数据缺失比例,用于检验数据质量、数据特征是否合规能否适合检验;取数规则用于定义后续计算使用的输入数据的查询逻辑;计算规则用于对输入数据进行具体的计算检测,通过标准化AI、脚本、 阈值计算的输入和输出,降低算法落地门槛;触发规则根据计算规则输出结果触发不同等级风险。基于此理念,我们发现原来的核心算法可以扩展到更多场景中,并结合专家经验大幅降低风险误报。
 

 
反规律检测
在人机融合阶段中,运维人员和人工智能是“紧耦合的朋友”,风险决策引擎中的反规律检测深度结合业务知识,识别时间序列曲线精细化的异常模式,提高异常发现的可配置性和可解释性。异常检测的难点在于海量指标的排查、时间序列有一定物理意义、异常需对运维人员有一定解释性、异常识别无标注且能力需要适配不同场景。传统异常检测方法首先通过算法检测到异常,再进而通过业务人员观察异常曲线形态,风险决策引擎把算法检测的范围放在业务人员预设的异常形态范围内,比如CPU指标可能有非常多的异常,管理员往往只是关注部分指标的异常情况,比如突增、突降、缓慢下降等,且观察当前4小时内突增后保持高位在过去同期没有发生,则认为是异常。风险决策引擎利用专家经验把准入、取数、计算、触发规则进行相应的编排。比如取当前4小时窗口以及历史上三个相同周期的窗口,如果当前这4个小时窗口内检测到CPU有突增后保持形态,历史上三个周期内没有发生相同模式,当该策略被匹配则为风险命中。
 
反规律检测算法核心是给一段时间序列曲线,更好把这个曲线异常模式进行分类,比如分成突增突降、突增保持及突降保持、凹型凸型等。算法专注在明确的输入输入情况下,其效果迭代会更加明确。风险决策引擎基于人机融合理念标准化算法的输入和输出,使得算法研究人员可以持续在核心技术上进行迭代和突破。结合专家的场景经验以及对数据的理解,可以快速将已有能力进行规模化的应用和泛化,降低算法落地成本。
 
 
智能比对检测
智能比对检测是变更风险感知平台的核心技术,通过在版本投产的若干个关键时间点对相关指标数据进行检测,获知变更后系统是否处于正常状态。传统变更检测比较变更前和变更后是否有明显的变化,但该方式很难满足运维人员判断异常的需求。比如平均响应时间明显下降了不是问题,上升可能才是问题;交易量下降可能是预期的正常变化;资源扩容后,每个实例平均到的访问量和CPU利用率降低是预期的正常变化;业务逻辑更改后,原实例响应时间增加或降低都可能是正常变化。在这种需要大量专家经验和业务知识的场景下,让智能算法"自动处理"是目前阶段不太现实的,需要一种人机结合的机制让专业人(机)做专业的事情。必示科技联合清华大学在ISSRE2022发表的Kontrast工作,把算法解决的问题聚焦在更加精准的变更指标异常变化检测,在此基础上通过规则的编排,把专家对符合预期和异常变化的判断经验融入到异常检测策略里,进而大幅提高前沿技术的适配能力和泛化能力。
 
离群检测
离群检测是对同质化部署集群中实例的指标进行横向分析比对,发现离群隐患。使用规则编排相应的准入、取数、计算、触发规则,可以更快速地实现应用集群的离群检测、高斯数据库集群的离群检测、交换机网络端口的离群检测等场景。
 
 
  人机共创  

在人机共创阶段,业务人员和人工智能共同创造“专家服务”,通过群体智能运维专业人员自主设计智能运维算法并持续面向业务进行优化。
 
必示科技探索构建一套符合运维复杂、体系化特性的AI算子体系, 支撑运维专属AI服务的研发,提升研发效率,加速智能运维场景落地。随着数据中心的数智化转型,我们也看到越来越多的数据中心人员技能转型,更多智能运维从业人员将拥有基本数据分析和机器学习能力,我们希望面向智能运维从业人员,通过标准化后的数据算子、特征算子、智能算子、复合算子一起支持智能运维开发人员,提供数据接入和处理、AI能力编排和研发,为智能运维应用提供端到端的生命周期支持。
 
在感知智能、分析智能、诊断智能和通用智能适配的“3+X”体系下,人机共创将打造“专家AI服务”;基于核心算法突破,支撑时间序列预测、异常检测、运维语义理解等能力的效果提升,聚焦运维场景的特殊性,完成通用AI能力的运维领域适配,解决运维场景领域性强、标注数据少等痛点问题,降低人工智能使用门槛,促进运维工作真正的数智化转型。
 
 
当前阶段是人机交互的核心技术突破,算法在部分场景能实现辅助运维人员做决策。我们非常期待在2-3年内看到更多同行用不同的方式进行人机融合,让Ops和AI做更紧密的“紧耦合的朋友关系”,降低算法落地的边际成本,并在未来3-5年演进到人机共创,共同创造专家服务。
 
以上是我分享的内容,谢谢大家。

 

TOP

010-82362970