当前位置:首页 > 新闻中心 >新闻详情

AIOps挑战赛|云原生可观测技术探讨

发布时间:2022-04-15 10:47:19

本文由2022 CCF国际AIOps挑战赛线上宣讲会上,阿里云可观测平台时序引擎负责人张城的演讲整理而成。该文介绍了可观测技术的时代背景、系统组成、阿里云SLS可观测实践以及云原生可观测技术发展趋势。


时代背景

可观测技术概念来源于19世纪70年代的电气工程领域。当时的电气工程系统过于复杂,需要通过告警和监控信息发现外围异常,然后通过可观测能力判断异常位置,并采取修复措施。在IT领域,可观测技术的出现来自三大趋势:
  • IT系统更加复杂;
  • 开发协同成本不断上升;
  • 运行环境日趋多样化。

整体而言,IT领域的开发模式、系统架构、部署模式、基础设施等要素,经过几十年的发展都出现巨大变化。这些变化降低开发成本、提升发布效率,但也让IT系统变得更加复杂、人员需求增多、问题处理起来也更加困难。

针对上述问题,可观测技术主要带来三方面收益:更早发现问题;更快推断问题根因并处理问题;系统设计更加稳定。通过可观测技术,最终可以利用更低的成本实现更高的经济价值。

对可观测技术的理解从狭义到广义的区分:
狭义层面,可观测性是指监控机房的宕机、错误、请求缓慢等问题;广义层面,可观测性还会关注用户体验相关的各个层面,在更加广泛的应用场景中发挥作用。


可观测系统组成

可观测领域的问题本质是获取各种类型的数据,通过开放标准进行统一分析:

该过程中有两大核心目标:

第一是全栈,要求尽可能获取外围和内部的全方位信息。
第二是关联,指各类数据需要组合在一起进行关联分析,从而适应更多场景。具体到可观测系统的组成细节,可以分为传感器+存储+算力+算法,共四大部分:


其中,系统需有足够的传感器获取对应的数据;然后需要庞大的存储系统存储各类数据;第三需有足够的算力为人工分析、机器学习分析提供快速的计算环境;最后,针对不同类型和结构的数据需有一套良好的算法快速发现数据中的异常,并定位问题根因。


阿里云SLS可观测实践

以下是阿里云SLS可观测基础平台的概览:
该平台的特点和优势:

平台提供数据采集能力,覆盖面广泛、数据种类繁多,并提供开源采集代理:iLogtail;
平台提供统一存储能力,支持实时热存和冷存,支持全生命周期数据管理;
平台提供数据融合分析能力,能够快速对可观测数据进行关联分析,提供强大的查询能力;
平台上层构建众多应用App,如用户成本分析、全栈监控、云产品分析等。

阿里云SLS可观测基础平台三大典型应用场景:

/ Trace可观测 /


平台可以将Trace与外围日志、数据库等信息关联在一起做分析,将Trace能力升华到更高的高度实现更加完备的观测能力。平台提供Trace标准化能力,可将各类数据统一接入,根据Trace的模式处理各类数据,并通过标准化接口提供上下游分析、蓝绿版本对比等能力。


/ 成本可观测 /

平台能够分析各类资源的计费信息及使用量信息,以及每种资源的归属部门,公司可以清楚地了解各类开支的去向,判断开支是否合理,从而推动各个部门提升相关资源的利用率,达到节约成本的目的。


/ 全链路可观测 /

针对App的终端用户操作,平台能够分析终端用户行为对应的后台行为,关联移动端、H5、后端等各种类型的数据进行统一分析,提供问题定位和还原、线上监控、日志下钻、丰富测试用例等能力,最终提升App的整体稳定性。


云原生可观测技术发展趋势

最后一部分主要探讨云原生可观测技术近几年的发展趋势,以及如何将AIOps平台落地到具体的应用场景中。


标准化

任何系统发展到一定程度后,都要经历标准化的过程。云原生可观测技术标准化能够带来许多好处:首先是降低门槛,方便更多人使用;其次是定义各个模块的输入输出,降低模块间的耦合度;第三,经过标准化的系统可以很容易地扩展;最后,不同厂商都可以针对标准体系开发自己的产品,为用户提供更多选择,促进良性竞争。

在可观测技术领域,标准化主要体现在数据格式、采集技术、分析方式三大层面。其中,数据格式的标准化主要针对日志、Trace等格式进行统一定义,方便数据快速关联;采集技术的标准化旨在统一可观测数据的采集方法,使用户可以通过丰富的插件系统便捷增加采集功能;分析方式的标准化主要关注数据提供到算法的接口标准,希望让数据能够更容易地被不同算法接纳。


AIOps落地场景:混合云

云原生可观测技术落地的第一大场景是混合云。以传统而言,运维部门会针对中间件、数据库、云厂商、容器和基础设施等场景中的云端数据分别进行监控和观测。但随着K8s的兴起,针对混合云的数据管理变得更加简单清晰。更多时候,运维部门只需关注K8s Cluster自身的稳定性和上层应用的稳定性即可,K8s会屏蔽云下的各类要素。如此一来,AIOps算法只需关心上层的抽象指标和数据,无需针对每一个云厂商再分别适配。


AIOps落地场景:精细化观测

随着企业业务市场增速放缓,市场竞争更加白热化,增量用户逐渐减少,企业需要进一步挖掘存量用户价值,精细化观测每一个存量用户。与此对应,系统监控需求也从早期的只关注系统平均响应率,逐渐过渡到监控p95、p99长尾请求,最终发展到监控每一个个体的状态。如今,系统需要了解某一个用户、某一个实例出现了怎样的问题,对应怎样的成因。这样的需求运用传统运维监控手段很难满足,需要依赖AIOps能力实现精细化观测目标。

精细化观测的挑战在于监控对象数量极多、数据规模巨大,因此产生的观测成本也是非常巨大的。为此AIOps平台需要在成本和收益两方面做好平衡,设计出足够精简高效的算法,以很少的资源占用实现精细化观测,获得可观的收益。



AIOps落地场景:多数据融合

在云原生可观测领域,需要观测的数据种类和数据量极多,应用场景和维度也非常广泛。针对这样的需求背景,传统算法往往难以应对,运维部门更多需要通过AIOps技术解决异常检测、根因分析、模式挖掘、故障预测、告警降噪、修复建议等需求。AIOps平台能够将各类海量数据关联在一起,并在不同应用场景中提供所需的观测结果。






TOP

010-82362970