【必示说】第一期:以“运维系统稳定性”为目标打造智能运维产品矩阵
发布时间:2023-01-03 16:08:51
【必示说】卷首语
必示科技成立已六载有余,六年以来,我们一直坚持自主创新路线,聚焦AIOps产品力和创新力的提升,坚持为行业客户不断创造价值,加速智能运维产品和技术在银行、券商、保险、电信、制造等行业中高效和高品质落地。六年间,我们积累了一些经验,也取得了一些成绩:2022年,必示科技获得了更多客户、行业组织和生态伙伴的认可、完成了近两亿元的C轮融资、完善了更符合当下需求及未来趋势的必示智能运维产品矩阵。
回头看,一切过往皆为序章;向前望,所有将来皆可期盼。
智能运维行业的发展,离不开基础理论、技术体系、市场需求、落地环境等一系列问题的突破,需要整个生态中的企业在竞争与合作中共同推动。企业的快速发展,意味着更大的责任,我们坚信智能运维技术是第一生产力,也坚信产学研的融合是推动行业向前发展的引擎。心之所向、素履以往。作为较早进入智能运维领域的国家高新技术企业,新年伊始,我们想在技术创新、产品研发、落地实践等各个方面,对我们所热爱的智能运维行业说点什么...【必示说】第一期,我们以“运维系统稳定性”为目标 打造智能运维产品矩阵开始。
以“运维系统稳定性”为目标 打造智能运维产品矩阵
新一轮科技革命与产业变革方兴未艾,在数字经济、十四五规划、东数西算等一系列国家政策驱动下,以银行、证券、保险、运营商等行业为代表的众多企业迈进数字化转型的浪潮。随着数字化程度越来越高、系统规模越来越大、组件监控粒度越来越细、监控数据量越来越大以及新技术和新组件不断引入,这些导致运维工程师被海量运维监控数据淹没,利用AI技术解决运维问题成为行业必然趋势。
创新技术必须落地才能产生最大价值,价值和效果是衡量落地成功与否的标准。对于“利用AI技术解决运维问题”的智能运维领域,无论是价值实践,还是效果实现,毋庸置疑地指向了IT运维系统的稳定性上。
以运维业务稳定性为价值和效果导向的智能运维系统包括什么?我们经过60余家企业智能运维服务过程中的需求沟通,近百位业内专家的思想碰撞,千余篇国内外趋势论文的研读。我们认为企业建设智能运维系统,首先要对采集到数据的汇聚,并通过关联和编制,实现对告警、指标、日志统一查询(运维数据中心),以此为基础,在场景实践上既要在告警事件发生时具有迅速定位、快速处理的能力(事件定位、事件管理),又需要在重要活动和交易前后对运维系统进行维稳(运维重保),还需要具有根据事件出现的征兆提前发现隐患并主动处理的能力(风险感知),同时在未出现告警事件或者征兆时,还需要通过流量模拟、混沌工程等技术,在测试环境中消除隐患的能力(运维演练)。
要想运维系统“稳若磐石”,就应该结合场景的基础上,将智能运维系统建设打造成事前、事中、事后均针对“运维系统稳定性”的目标产生价值和效果的“六边形战士”。以此为目标,必示科技经过不断往复的技术研发、工业实践和产品迭代,最终完善成我们理想中的必示智能运维产品矩阵。
智能事件管理平台面向故障发现和处理环节,基于大数据技术和智能告警数据分析算法,打通监控工具孤岛,对性能数据和告警事件数据等治理、整合、统计、分析,借助AI算法能力,打造事件可视化、事件处置和事件分析三大管理平台模块,辅助运维人员快速发现和定位故障,解决告警多无所适从的问题。目的是为告警统一管理,并对告警智能降噪、告警分级甄别、定期巡检优化、告警风暴定位等重要场景提供智能化运维工具。必示智能运维产品矩阵包含运维平台和运维工具两个层面。首先,从数据源上结合采集的指标、日志、告警、CMDB等需要运维的数据,进入到运维平台。必示科技产品矩阵中运维平台包括三个部分:智能运维数据平台包含运维知识图谱和运维数据编制,将指标中心、告警中心、日志中心等通过运维数据的汇集、关联和编制,为运维工具层赋能;运维专属AI算法平台针对于具体场景实现算法自动化应用,包括自然语言处理、图计算、感知智能、分析智能、针对智能化等算法模块,利用算法的创新、编排和服务功能为运维工具平台赋能;智能运维演练中心,利用混沌工程、运维对抗、稳态构建、流量生成与迁移等技术和手段,通过流量仿真和故障注入,不断提升运维系统的稳定性能力。
智能运维平台本质上是AI技术与运维业务相结合的产物,从AI技术角度,知识、数据、算法、算力四者缺一不可。而从运维业务角度,传统人工运维无法满足当前的情况根本原因是场景实现无法突破日益庞大系统和数据,所以到了智能运维时代,数据应该是智能运维系统应该考虑的重要因素。在场景实现方面,我们将智能数据运维平台和运维专属AI算法平台为依托和底座,为具体场景提供智能运维平台工具提供汇聚、关联和编制后的数据流,以及为各场景打造的专属算法,最终利用智能风险感知平台、智能事件管理平台和智能排障分析平台来解决运维场景中的实际问题。
智能风险感知平台面向风险事前防范环节,基于智能运维专属AI算法和专家经验,构建场景配置引擎和风险决策引擎,形成风险发现、分析、整改、反馈的管理流程闭环,实现从被动运维到主动运营,最终延长MTBF。目的是为IT运维中变更风险感知、同质化集群部署的离群节点检测、资源风险感知、容量风险感知等场景提供风险预测、量化评价的智能运维工具。
智能排障分析平台面向故障定位环节,融合海量运维数据,通过知识图谱和算法的双轮驱动,通过对故障的自动发现、分析、处置和推荐等功能实现,提升排障速度和效率、沉淀专家经验、推动数据治理,并不断提升智能运维平台排障能力,最终降低MTTR。目的是为故障发现、故障画像、拓扑排障、高频故障识别定位、关联故障分析、业务影响分析、故障分析报告等多种场景提供智能化运维工具。
必示智能运维产品矩阵,以“运维系统稳定性”为目标,为银行、券商、保险、电信、制造等行业企业提供智能风险感知平台、智能事件管理平台、智能故障分析平台、智能运维数据平台、运维专属AI算法平台和智能运维演练中心“六边形”智能运维产品,从事前预测和防范、事中快速分析定位和处理、事后经验知识沉淀,并以此为循环,在防范和处理运维问题的同时不断提升智能运维平台能力,最终降低MTTR,延长MTBF。