当前位置:首页 > 新闻中心 >新闻详情

【必示说】第二期:能力构建与场景实现双轮驱动,逐步完善智能运维体系

发布时间:2023-01-09 17:04:58

【必示说】上篇文章《以“运维系统稳定性”为目标打造智能运维场景》主要提出了随着运维工程师被海量运维监控数据淹没,利用AI技术解决运维问题成为必然趋势。以运维业务稳定性为价值和效果导向的智能运维体系包括运维数据平台、事件定位、事件管理、运维重保、风险感知、运维演练六个方面。必示科技以此为目标,经过不断往复的技术研发、工业实践和产品迭代,最终完善了必示智能运维产品矩阵。

随着数字化转型的加速推进,银行、保险、券商、运营商等行业的智能运维建设方兴未艾,制造、汽车、电力、交通、物流、环保等行业在国家相关政策推动下也逐渐显露头角。抛开各行业底部条件的不同,企业在智能运维能力和场景建设的路径选择往往有些疑惑,【必示说】第二期,我们聊一聊《能力构建与场景实现双轮驱动,逐步完善智能运维体系》。

智能运维平台本质上是AI技术与运维业务相结合的产物。从AI技术角度,知识、数据、算法、算力四者必不可少。从智能运维业务角度,国家标准《信息技术服务智能运维第1部分:通用要求》中也提出“以场景实现为中心、以能力域构建为支撑”。在企业建设智能运维过程中,能力构建作为智能运维系统上层建筑,是需要全盘思考的。

能力构建:智能运维建设的顶层设计

运维智能化作为AI技术与传统运维的前沿交叉领域,处于技术发展落地的初期阶段,行业用户在各类细分场景中创新实践,科研学术成果不断涌现,但是在国内外尚未形成统一的通用标准和技术规范。在基础领域、技术体系、规模成本和研发模式等方面存在诸多挑战,亟需攻关突破。
而智能运维能力建设是一个体系化的过程,企业在进行智能运维的顶层设计的时候,应考虑平台、算法、应用、产业四种能力的构建,彼此交汇融合才会形成较完善的智能运维体系的现实要求和未来发展。

① 平台:打造智能运维平台、聚焦共性AI能力和数据服务,避免低效率重复研发、烟囱式建设,最终实现智能化研发和应用的常态化能力。

② 算法:基于AI能力开发框架,面向运维全流程,梳理和构建智能运维算子体系,并进行核心算法突破的能力。

③ 应用:围绕运维“质量、效率、成本、安全”四个目标打造标杆应用场景,将AI技术融入运维流程,重点实现降本、增效、提质。

④ 产业:在自我探索和提升的基础上,进一步联合产业一同前进、统一认识、群策群力、带动产业整体提升。
在这个能力体系中,最基础的是运维对象,也就是基础设施,包括网络、服务器、虚拟化、存储、中间件、数据库、应用系统等。在此基础上,智能运维平台从基础设施中采集运维数据,同时需要为基础设施提供跨专业域协同控制能力。而智能运维平台需要拥有运维专属AI服务能力(通过智能运维算子体系提供场景建模、模型训练、能力部署和能力运营等,进行AI能力训练、部署及运营),以及基础能力(任务编排、作业调度、数据处理引擎、计算引擎、采控引擎),和运维数据服务能力(通过知识图谱数据服务提供数据清洗、数据生成、格式转换和数据共享能力,进行数据接入、处理及服务)。通过运维专属AI服务和运维数据服务的赋能,形成了可落地的应用场景。如聚焦在质量维度,应用场景主要包括风险管理(风险识别、风险分析、风险跟踪)、告警管理(告警压制、告警聚合、告警治理)、故障管理(故障发现、故障定位、故障处置)和沙箱演练(案例复盘和混沌工程)四个方面。除质量外,还包括效率、成本、安全等不同应用场景。在运维场景的基础之上形成了运行风险分析和管理、智能事件分析和管理、事件智能处置、知识图谱、智能运维搜索、混沌工程等解决方案。最后,基础设施、智能运维平台、应用场景和智能应用方案通过标准化、开源、竞赛、高校合作等方式,带动产业整体发展和提升。而我们在运维智能化能力构建落地时往往不能一蹴而就,通常采取点、线、面、体的顺序逐步实践。
点:智能运维的最开始,可以在现有监控和运维工具的基础上,引入一些智能运维的算法,赋能运维流程中的某个环节,辅助运维人员提升处理的效率。

线:将多个点串起来,综合多种外延能力形成场景化的应用,逐步串入生产运维流程,提升自动化水平。

面:将多条线聚集成面构建平台,沉淀各类业务流程中的共性AI能力和统一数据,利用AI技术来重构运维流程,提升端对端的用户的感知。

体:通过面的构建和提升,最终形成向上和向下引领产业业务和技术的共进,构建完整的智能运维的生态化体系。

场景实现:智能运维建设的核心抓手

在企业建设智能运维过程中,场景实现是智能运维系统建设的中心,同时也是”通过AI技术解决运维问题“的抓手。必示科技以“场景实现”为中心,为银行、券商、保险、电信、制造等行业企业提供智能风险感知平台、智能事件管理平台、智能故障分析平台、智能运维数据平台、运维专属AI算法平台和智能运维演练中心产品矩阵,从事前预测和防范、事中快速分析定位和处理、事后经验知识沉淀,并以此为循环,在防范和处理运维问题的同时不断提升智能运维平台能力,最终降低MTTR,延长MTBF。
在企业具体落地实践时,我们经常被问到场景实现路径的问题。实际上同运维智能化能力构建一样,企业在智能运维系统落地实施步骤也很难一蹴而就,结合必示智能运维产品矩阵,建议具体建设路径如下:

第一阶段:提升和完善关键业务监控能力,并驱动数据汇总和治理。

第二阶段:接入不同告警源对告警进行统一管理,并基于智能告警分析能力对告警进行精细化管理。此时平台已经具有了对告警事件进行过滤、屏蔽、压缩、丰富、定级、处置、跟踪的能力,同时实现告警事件全生命周期管控。

第三阶段:利用运维知识图谱技术对配置、告警、指标、日志等数据进行汇总,形成初步的跨领域排障分析能力。

第四阶段:利用排障流程引擎编排故障处理过程,实现关键故障场景的自动诊断和推荐分析。此时平台已经具有了成熟的智能故障分析的能力,并通过专家排障知识和决策知识沉淀为排障模型,节省排障效率。

第五阶段:由被动运维转向主动运营,利用知识图谱技术整合多来源数据,基于人机协同决策引擎初步构建风险感知能力,而对于风险规避性需求更强烈的行业则可以直接从第二阶段或第三阶段即可开始风险感知能力建设。

第六阶段:针对关键风险感知业务场景,强化风险感知能力,比如变更、容量、基础资源等风险分析,此时系统已经形成风险管理流程闭环。

第七阶段:构建仿真平台,通过流量生成等技术模拟故障情况,构建稳态基线。

第八阶段:利用混沌工程做全面的风险、故障攻防演练,完善风险感知、智能监控、和排障分析等工具,提升智能化水平,最终构建出高度智能的运维体系。

当然,上述建设路径并不是绝对的,根据企业本底情况、首要解决问题、建设阶段以及数据质量的不同,这八个阶段是可以拆分、组合甚至跳跃的。

根据必示科技服务过60余家数字化转型企业的经验来看,大约20%的组件故障导致了80%的业务故障,建议企业的在智能运维系统建设时,根据要事优先的原则,以场景驱动,先解决首要问题,再循序渐进建设智能运维系统。另外,由于数据治理与AIOps落地是互相依赖、互相促进的,为保证数据治理效果和智能运维效果实现得更高效,建议数据治理与AIOps齐头并进。详见清华大学裴丹教授的文章《AIOps落地的15条原则》



TOP

010-82362970