【必示说】第四期:智能运维系统效果实现(下篇)
发布时间:2023-02-21 14:29:00
无效果,不运维
随着金融行业数字化程度越来越高、业务需求不断激增、系统规模越来越大、组件监控粒度越来越细、以及新技术和新组件不断引入,导致运维工程师被海量运维监控数据淹没,而利用AI技术解决运维问题成为行业必然趋势。在此过程中,运维人员对AIOps的需求符合马斯洛需求金字塔模型,即从最基础的生理需要(通过AIOps解决基础业务需要)到最顶端的自我实现(在AIOps领域的自我价值实现),而这实际上是伴随着对AIOps价值探索不断提升的,而效果是贯穿需求金字塔的隐含支撑。
两个案例讲述AIOps如何“出效果”
必示科技服务了60余家以金融行业为代表的数字化转型头部企业,很多企业通过人力和资金的投入,在探索实践中不断迭代升级,最终取得了不错的效果。这里举两个案例,希望可以归纳出智能运维系统落地实施时,“出效果”有没有共性的特点和方法。
01/某大型股份制银行
在项目建设之初,该银行将智能运维系统效果的目标设定为“十分钟定位问题、十分钟恢复服务”。而与之对应现实的状况是:故障发现依赖于业务部门报障或者银行储户报障、运维数据质量参差不齐、排账依赖专家经验、故障定位基本靠人肉...面对目标与现实状况差距较大的状况,他们并没有追求一步到位,而是分解成多期建设小目标,从2019年到2022年,目前以建设四期,每期都有科学合理可量化的目标。
他们以“试点一批、成熟一批、推广一批”的原则逐渐建设,每期都取得了不错的效果。以2021年为例,相对于2020年在异常检测、调用链、机器指标定位的准确率有了10% -12%的提升,五级以上事件故障发现率大于88%,五级以上事件故障定位准确率大于77%。持续的效果也为运维系统建设部门及有关领导带来不断增强的信心,通过持续投入,坚持持续迭代、细节微雕的建设方式,使该银行向着智能运维建设的行业标杆不断迈进。
过程中通过当前对手边影响“出效果”的失效因素在细节上不断微雕,从量变到质变,使他们向着“出效果”不断迈进。如:通过持续的白名单方案实施,解决低效数据的问题,保障数据质量和算法对齐,提升告警准确率;通过持续的指标扩充与精细化,不断提升故障定位的精度和准度;通过告警规则的持续优化,让告警通知趋于真实可靠。
02/某证券公司
无论是银行还是券商,在智能运维建设的道路上面临的初始问题有很多相似之处。此证券公司在做智能运维系统开始建设前,也面临着误报频发、告警不准、定位靠人肉、数据价值无法体现等问题。而他们智能运维系统总体建设思路是:从单场景出发,持续迭代演进构建智能运维分析能力。具体来说,第一期并没有好高骛远,场景上只是引入了从检测到定位的基本能力,包括业务指标异常检测、日志异常检测,以及机器异常定位功能。在一期的基础上补齐了故障定位能力,即业务明细多维定位功能。第三期的时候他们才开始做数据治理,以及智能事件管理方面的工作。该券商目前完成了三期工程,效果也很明显:监控指标时效从分钟级提升到10秒级,异常定位达到分钟级。
在具体建设中,值得学习的是他们会沉下心,在细节之处下功夫:通过对从数据采集到检测传输持续改造,使业务监控间隔从分钟级、到10秒、再到5秒。这会使系统更敏感地观测到异常交易的细微波动,同时也能够更迅速和高效地定位波动的原因,以此来实现异常检测质量和精度的双提升。再比如该证券国内首创地对KS Monitor的事件与指标监控,并与CMDB结合实现链路指标监控,另外接入了中间件、数据库、硬件、安全、应用性能、拨测等指标,以此来持续扩充监控范围,这也为后续排障分析的效果建立了基础。另外,该券商将交易时间监控扩展到24小时监控,实现全天候监控,监控范围从柜台交易扩大到业务运行系统的E柜通监控。总之,他们通过对细微因素的逐渐打磨和提升,实现了效果提升。
总结:智能运维效果实现的三点建议
01/眼里是星辰大海,脚下是跬步千里
企业智能运维落地实践过程中首先要锁定一个清晰和可量化的远景目标,并以此为基础拆解到每个阶段目标。在实施过程中,通过建设主线、覆盖范围、配套建设工程等互相配合,最终实现“星辰大海”(总体效果)的目标。
对智能运维系统目标逐步实现的过程遵循从被动到主动,从可见到不可见,从简单到复杂的迭代原则,从感知力(业务指标异常检测、机器指标定位、业务多维分析、趋势预测),到判断力(基于疑似故障的告警关联、调用链根源系统定位、故障指纹、运维指标管理、运维数据平台),再到决策力和洞察力的建设(故障根因排查、故障止损方案推荐、运行风险识别、智能变更检查等),逐步创造智能运维价值,实现最终效果的“星辰大海”。
02/通过细节微雕,迭代解决手边的“失效”因素
这里引用罗振宇在今年“时间的朋友”跨年演讲的一个观点“微雕”。意思是说与其浮躁地抱怨糟糕的结果,不如沉下心、脚踏实地,通过精雕细琢把手边的细节做到极致。智能运维效果最终效果目标的实现也是如此,通过两个案例我们会发现,其实在智能运维系统的效果提升过程中,量变和质变并不是泾渭分明的。无论是夯实基础、还是扩充范围、提升精度,都是一个持续而费力,但是又影响最终效果的过程。通过持续的微雕,先解决可以手边的影响效果因素,终将获得性能的提升和目标的解决,才会向着“星辰大海”持续迈进。
当然这个微雕工作也不是盲目的,首先要明白每个小目标的逻辑顺序。异常检测扎实了,我们再提升定位能力。定位场景做好,我们再开始根因分析。同时以数据治理与系统建设并行的理念,去做数据处理和提升。如案例2中,那家券商是在第三期才做数据治理的,前两期还是集中力量放在监控和定位的提升上面。
03/效果为王,先固化、再僵化、再优化
在智能运维建设过程中,不同企业底部条件的不同,路径选择也许也有差异,但是总体上应以“先固化、再僵化、再优化”为路径,让每个阶段都能“出效果”,这也会使运维部门和上级领导通过效果的达成获得持续的信心,通过迭代来逐步实现AIOps最终价值。
1、固化(引入成功经验,目标快出效果)
根据必示科技服务过60余家数字化转型企业的经验来看,大约20%的组件故障导致了80%的业务故障。建议在做初期智能运维建设时,首先基于当前运维和数据的现状,以“急迫需求”和“必要功能”入手,引入和复制行业通用功能为主的成功模式,以产品“尽快可用”和“出效果”为目标建设智能运维系统。同时为了当前和后续效果的持续提升,建议数据治理与数据消费场景并行建设。
2、僵化(联合相关部门、追求放大效果)
随着“固化”战略产生效果,数据治理体系和智能运维系统已初见成效。此时应以智能运维系统的易用性为基础,推广到每个运维人员日常工作当中,此时可以考虑追求必要的定制功能,同时加强数据治理和管控能力建设。这个过程需要多方协作,将数据产生和使用的应用维护、技术支撑、软件开发等部门联合起来,共同推进智能运维系统建设的同时放大效果和价值。
3、优化(创新场景功能、实现最佳价值)
随着“僵化”战略产生效果,智能运维系统的效果和价值呈现同时,数据组织和治理工作也较为完善。此时,应使智能运维系统与其他运维管理系统进一步融合,让运维人员充分享受AI技术为运维工作带来便利。与此同时,无论是系统还是认知,都已经有了做场景创新的条件。此时可以在从“易用”到“必用”,在高频使用的基础上追求一些“出彩”场景和创新功能,包括数据战略和数据安全、挖掘独特业务价值的场景等。