必示科技刘大鹏:智能运维为企业数字化转型保驾护航
发布时间:2021-10-28 19:06:10
本文根据必示科技CEO刘大鹏博士在金融电子化杂志主办的中国金融科技应用发展研讨会上的演讲整理而成。
众所周知,数字化转型能够为企业重要业务带来明显收益。在国内,数字化经济已成为大势所趋。企业系统和员工的工作愈发依赖数字化平台,在这些平台上存在千差万别的公共组件、应用软件,难免会因为各种各样的原因出现错误。企业在数字化转型过程中需要保障系统的稳定性与可靠性,这就需要IT运维这样的关键职能。
智能运维是原有运维技术的延续。在传统运维中,管理人员要同IT系统中产生的海量机器数据打交道;而在智能运维中,智能化的手段和算法先将海量、异构的运行数据做初筛和分析,得到有价值的线索,让管理人员在精炼过的信息上更快做出决策。
这是目前智能运维的能力边界:它并不能完全替代人的作用,而是在规模庞大的IT系统内,协助运维团队更好、更快地完成任务。
在全球范围,智能运维的发展如火如荼,国内很多机构和组织也在起草相关标准。据Gartner预测,2024年将有30%企业领导者依靠AIOps平台推动业务相关决策。
智能运维快速兴起的背后原因,是数字化转型给企业带来巨大收益的同时,其背后的IT系统变得愈发复杂、种类繁多。一家大型企业一般会有上万台服务器、几百套业务系统,构建在上千个不同的软件和技术架构上,每周可能要为业务需求做上百次变更。
复杂系统涉及的组件繁多,任意节点均存在故障隐患,且故障类型亦千差万别。不同行业和各类技术架构的演进也会对IT系统带来诸多挑战。例如容器化、云原生、私有云、混合云等技术的普及均对整个运维空间带来巨大变化与压力,难以通过传统手段应对。为此,基于数据驱动的智能运维应运而生。
深入探讨智能运维之前,应先了解AI领域的一些关键概念:任何模拟人行为的计算机技术均属于AI范畴。清华大学张钹院士是国内AI领域的泰斗级人物,他提出了人工智能取得成果需要满足的几大条件:
智能运维也适用于相同的描述:任何模拟运维人员行为的计算机技术均属于智能运维范畴。它本质上是在辅助和代替人的行为,可以是基于专家经验的,也可以是基于自动化,或者机器学习的。我们团队在和许多大型企业合作的四五年的时间里,逐渐形成了智能运维的体系化的思考逻辑。
体系化思考逻辑可抽象为一个智能运维大脑,左脑负责通过人工智能算法从复杂IT系统中检测问题,具体手段包括指标检测、日志检测或Trace检测等。左脑检测出异常后,右脑负责“运维经验线上化”,通过对异常之间的部署关系、时空关系或专家经验进行建模,沉淀到系统中进行自动关联和推理。
如此我们便能通过智能运维大脑活动“上帝”视角,看到IT系统中每时每刻的异常信息以及它们之间的关系,进而发掘一系列应用场景,提前发现问题,进而循序渐进地总结出智能运维落地的平台架构。在这一架构中,AIOps智能算法负责检测事件,如数据库性能问题、网络端口不通、交易成功率下降等。事件检测时,不同数据源需要应用不同的检测方式。
检测到大量事件后,需要通过两类最关键的信息建立事件间的关联关系。一类信息名为实例拓扑,是IT系统中的物理结构,包括部署关系、网络的访问路径、应用之间的关系等等;另一类信息以专家经验为主,如进程检查同CPU使用率之间的关系等。智能运维大脑随着时间不断演进的全局数据结构,构建了我们提到的“上帝”视角。智能运维平台基于“上帝”视角,可以更有效地实现诸多能力,如发现、定位问题,提前排除隐患等。
完整的智能运维大脑落地需要一个过程,我们在与众多金融企业合作项目的过程中摸索出了三步走路线。第一步是建设一些智能运维应用的“黄金场景”,其本质是先建设智能运维大脑中左脑,在企业普遍具备的运维数据基础上,挑选关键运维异常信号进行检测,能够帮助企业更高质、高效地部署智能运维,有效提升故障发现和定位效率,提升IT系统稳定性。同时,我们也针对业务系统的潜在问题总结出一些关键信号,即“黄金指标”。使用“黄金指标”可以提前几十分钟到数小时发现问题,随即多个算法根据重要线索进行检测以发现异常,并提供相关证据进行快速定位。
第二步是建设完整的智能运维大脑底座,真正有效的“智能运维”必须将专家经验与各种检测算法有机组合在一起。运维的标准化部分比例很高,相关专家经验可以不断提炼、总结甚至传递,让不同的企业共享。
第三步是在智能运维大脑上从事中、事后向事前拓展。我们观察到,每一起大型故障背后,很早就有各种隐患浮现。因此,我们更希望通过一个有效的平台提前识别此类亚健康状况,及时进行整改,避免隐患真正进入故障阶段。这个平台通过“上帝视角”汇总整个数据中心内所有的异常信息,以及它们之间的关联信息,基于这些信息开发一系列风险应对场景,包括:交易风险、变更风险、容量风险,设备风险等等,真正将事件与故障的处理流程统一,进一步提前解决故障,避免陷入应急状况。
总结
首先,在数字化转型过程中,智能运维体系的建设要有总体规划,统一建设,从而形成合力,实现协同工作。
第二,智能运维是原有运维体系的自然延伸。一些头部大型企业部署智能算法后才发现数据中存在的诸多问题。因为企业原有的数据难以实现人工全盘审阅,未经校验和实战使用。智能运维作为数据的使用者,可以每次分阶段解决使用中遇到的问题,进而不断完善系统,为企业持续带来更多价值。
第三,找准高价值的“黄金场景”才能让智能运维顺利落地。有些场景对实际工作难以产生较大收益,关键在于发现真正高价值的应用场景。
最后,智能运维是新兴的技术方向。受数据中心的人员和技术储备限制,企业广泛接受和习惯需假以时日。当有更多的行业技术和案例交流、更多的经验可以借鉴,便可加速这一适应过程。我们之前的经验一再证明,很多企业通过站在他人经验的“肩膀”上实现弯道超车,提前入场,走得更快、更远。