AIOps挑战赛 | 浙江移动AIOpsDev运维转型实践
发布时间:2020-04-07 17:56:00
首先感谢清华大学,感谢裴丹教授,浙江移动能够作为联合主办方参与本届大赛。我们将为各参赛选手提供在真实运维环境下,模拟真实故障的运维数据注入,同时提供优质可靠的移动云为各位参赛选手参赛入驻护航。希望通过本届AIOps挑战赛,同行间能够迸发出更多、更好的AIOps应用及相关算法,从而促进AIOps进一步发展。
作为一个从事运维工作十多年的“老兵”,感激这个时代的技术进步,特别是云原生、人工智能、大数据技术,让我们运维人能够经历从传统运维到当下数字化运维的蝶变,从而不断探索运维人的价值。近日,我们浙江移动原有的两个传统运维部门「应用运维部」、「平台运维部」正式更名为「技术运营部」和「技术保障部」,更加坚定了我们以技术为驱动的运维数字化转型的理想信念。很高兴今天能够借此机会与业界的各位专家、同仁分享浙江移动运维转型实践的经验。
Why:运维为什么要数字化转型?
当前,整个国家和社会层面都在谈数字化转型,对于企业也一样,尤其这次疫情期间,我们深刻感受着数字经济的力量,无论是政府主导的精密智控抗疫,还是云办公、云教育等,都从各个方面向我们充分展现了数字化转型的价值。
中国移动很早就在进行数字化转型,贯彻集团董事长提出的“四个范式”变迁,面向C(移动市场)、H(家庭市场)、B(政企市场)、N(新兴市场)四大市场全向发力,尤其在数字化领域包括智慧家庭、移动云、DICT、5G+AICDE等新业务方向进行积极开拓。浙江移动也积极对标互联网公司,从2015年便开启数字化转型之旅,创造企业新能力、建设IT新架构、打造行业新生态 。通过大IT平台的打造,构建大IT、小IT运营生态, 有效赋能前端数字化业务规模创新,转型发展能力可以获得全面提升。
在企业进行数字化转型的过程中,技术创新是构建竞争优势的护城河。更低成本的创新与更快的上线速度,会为企业创造最大的价值。这些价值主要归功于IT架构的演进,浙江移动的IT架构演进就是一个数字化转型的过程。针对互联网层面云原生的四个级别,浙江移动目前约处于2.7级(对标头部互联网公司,大多处在3.0~3.2级别)。浙江移动正在向云原生3.0演进,努力实现核心系统灰度发布,白天上线。
在IT架构不断演进的过程中,运维面临着更大的挑战——我们维护的边界、开发的迭代速率、我们的数据规模在不断增长;故障定位变得困难,传统的运维手段不再适配,组织架构也难以适应。架构的不断演进与运维能力的不断升级是有着密不可分的关系的,运维困境的解决需要通过能力的不断发展和架构的代际适配。
因此,企业的数字化转型需要IT架构演进,IT架构演进需要运维数字化转型来适配架构,因此,一切都要数字化,数字化能够解决效率、精益、智能、平台、赋能与生态问题。
What:运维数字化转型“转什么”?
纵观浙江移动的运维历程,可以分为两大阶段。第一阶(2000年—2015年),从“大侠运维”,到标准化运维,再到体系化运维,我们核心的理念是不断地把人训练成“机器”,不断完善组织架构,完善流程管控,完善服务质量。我们一直在“玩”的都是基于传统的ITIL体系,还处于传统人肉运维、救火队员、低价值循环的阶段。
但人肉运维由于种种客观因素制约,大的故障排障周期一定在半个小时以上。这半小时的黄金时间,对于业务和客户感知的影响是致命的。我们通过深刻的反思驱动了变革,开始了数字升维,向敏捷运维迭代。当时我们并没有完善的方法论,只是一步步不断在实践中探索,但我们始终坚持的理念,就是要把机器训练成人,用代码去对抗代码。
2015年末期转型到现在走过的这四五年是我们运维的第二个阶段。这一阶段的战略可以总结为浙江移动信息技术部王晓征总经理提出的一个概念:AIOpsDev。打破传统运维范式的依赖,AIOps与OpsDev两翼齐飞。AIOps是用人工智能的手段,在单场景或者复杂场景中以AI算法驱动运维的数字化转型。互联网的DevOps提出的是一个敏捷开发概念,从开发到运维的一个闭环。与传统企业不同的是,互联网企业是自带开发基因的,但其对于传统企业,尤其是传统运维人员,通过自我驱动去尝试开发,到了一定阶段也会由于知识背景和能力结构的局限陷入瓶颈。因此我们现在这个阶段,叫做“OpsDev”——我们要打造运维的开发平台,来驱动运维人员做更好的开发、简单的开发、快速的开发。
战略层面的三大转变:
- 第一个转变,是整个运维过程向数字孪生的转变,运维数字化的过程,其实就是一个数字孪生的过程,一切网元,业务信息要数字化,核心指标可以被感知,通过AIOps训练,实现简单场景到复杂场景的智能决策。
- 另外一个转变,是运维能力向工具能力的转变,这是我们最近一直在提的“运维新基建”。运维新基建要求我们一切的网元,包括数据库、主机、操作以及各种网络等,都要做到可编程,一切运维能力都可以被组装。
- 更重要的是第三个转变,运维人员的心智转变,要摒弃墨守成规,突破一成不变的思维模式;一定要有自我创造,在这些场景中要自驱地去开发,去自我进化、去解决问题——这是更重要的。
战术层面的四化转型:
- 转型一、运营的数字化。运营数字化聚焦在故障的生命周期,从故障的发现、定位到处置操作,要做到感知的泛在化、认知的智能化和操作的无人化(这就是AIOps的落地)。
- 转型二、能力的中台化。能力中台化是指我们在构建运维的平台,让可感知的网元,可编程的网元能力沉淀,运维能力显性化。
- 转型三、运维的研发化。让运维人员进行研发,人创造机器,再由机器取代人来做维护,这个落地就是OpsDev,基于显性化的运维能力,各个专业领域都要自治。
- 转型四、是组织的敏捷化。我们打造了几大敏捷的组织,包括GMC(即全局监控)、SRE(即应急保障)、BOE(即业务准确性保障)以及OPE(运维平台的开发)。这其中,SRE是我们最重要的破局点,我们组建了一个较大规模的SRE团队去开发和运维。
我们勾画出的“浙江移动无人驾驶IT网络”,这是我们的星辰大海。对标云原生架构,目前浙江移动所处的位置接近Level 3。运维无人化的趋势即指AIOps的落地:从单技术栈道多技术栈,从单场景到多场景,从简单场景到复杂场景,我们将慢慢地逐渐解放眼睛、解放大脑、再解双手,逐渐推进和覆盖。这里的核心观点是:在未来相当长的时间里,人机结合将是一个常态。由人研发机器,再由机器替代人做一些场景、处理一些事情。我们不能期待AIOps一下子解决整体到局部的所有问题,一定是局部各个突破,再到整体突破。
此外,很多领导会关注一个问题:是否现在做了AIOps,运维成本就能够压下来?事实上,在人研发机器→机器替代人的过程中,运维成本有可能反而增加——这是因为运维队伍的结构和规模发生了变化,人机比例也在发生变化;我们的边界拓宽了,开发的人数增加了,每个单人单点维护的系统网元越来越多,运维的价值密度在随之不断提升。因此短期来看,运维成本不会立即下降,但是我们会迎来一个奇点的到来。这个奇点就是上面图中讲到的Level 5,真正的由机器替代人去做的无人运维——这就是我们运维的星辰大海,在不远的将来一定可以实现。
How:如何开展运维数字化转型?
纵观运维的整个生命周期,安全生产周期从前端架构设计、路网管控、发布上线、再到故障态的运行制定,这是一个运维端到端的闭环。在这一闭环中,所有的节点对运维都很重要,都需要转型升级。而AIOps的落地需要循序渐进,因此我们初期首先将重心聚焦在故障的运行治理上。关注MTTR(Main Time to Repair),即平均故障的修复时长:从故障的感知、发现,分析、定位,到故障的处理,这一过程是目前浙江移动聚焦的领域范畴。
故障的发现的要求是感知泛在化,让运维人员实现Eyes Off。要做到这一点,首先要做的是数据汇聚。我们有非常多的指标,平台侧、业务应用的黄金指标和白银指标等,我们需要将这一系列数据汇聚和加工,统一技术栈、统一数据中心,形成运维的“金矿”。没有这个“金矿”,AIOps是无法实现的。
有一个比较普遍的困惑,就是很多人期待一站式搞定故障发现、定位、解决,但很容易陷入瓶颈。AIOps并不是一蹴而就,一定是分域自治的邦联模式,一定是各个技术栈分别Eyes Off、Minds Off、hands Off,再到整体的Eyes Off、Minds Off、hands Off。
此外,OpsDev是我们重点的运维能力平台,包括运维的开发中心、运维的业务中心、数据中心、智能中心和技术中心。我们从去年开始积累,打造现在的运维能力平台,将所有运维场景可编程的组件和操作对接到运维研发平台(即ODP),使所有运维人员能够通过开发中心迅速地进行相应的运维能力开发。我们的目标是让每个网元可以被编程,让每个运维能力可以被组装,让每个运维人员都可以进行研发转型。这对我们传统运营商或传统企业是一个必经的过程,它可以降低开发门槛、统一规范、提升开发效率,进一步助推运维的迭变。
Can:浙江移动助力AIOps挑战赛
本次大赛浙江移动将为所有选手提供真实的环境、真实的流量、真实的数据。我在上文提到的运维数据、我们的运维数据中台都是基于我们真实的环境,包括真实的流量、真实的系统、真实的数据、微服架构端到端调用链数据、前端所有业务的黄金指标,以及后端平台所有网元的指标,这些数据我们都可以提供给本次大赛的参赛选手。这些数据将近240个小类,是我们非常核心的资源。期待基于我们的数据,可以让各支参赛队在本次大赛中更好地展现实力和水平。
本次大赛的复赛阶段,所有参赛队伍用到的云资源由浙江移动的移动云提供。浙江移动的移动云能力十分强大,我们将在IaaS层、PaaS层、SaaS层为选手提供一系列云服务。例如我们的“六脉神剑”,包括:云网边、云增值存储、云安全、云渲染、云区块链、云灾备等。让我们的移动云能力为本届赛事保驾护航。
最后,预祝本届大赛圆满成功!同时希望能够各位选手可以与浙江移动进行更多的交流。让我们一起来推动整个AIOps,推动智能运维向前更进一步。