必示科技受邀参加农村中小银行数字化发展研究报告线上发布会
发布时间:2022-07-12 14:54:41
本场发布会上,必示科技解决方案总经理杨利梅受邀发表题为《农信运维人数智化转型担当》的演讲,分享农信智能运维建设落地的方法论与成功路径,帮助农村中小银行搭建智能运维体系,助力数字化转型。
为什么说智能运维是农信运维人的必然选择
数字化转型本质是业务模式的变革,当下很多金融业务都利用大量数字化技术实现业务模式创新。业务模式的变革带来了技术革新,分布式、容器、微服务、云原生等技术和双模、DevOps、SRE管理理念已经成为农信行业新一代IT系统的主流选项。
伴随技术革新速度加快,IT系统的复杂性也随之水涨船高。在过去,一家银行有二十台小型机就称得上大规模。到了今天,银行自建数据中心部署上万台PC服务器并不罕见。规模剧增、技术多样性意味着运维复杂性今非昔比,数字化基础设施保障面临巨大压力。另一方面,传统运维手段和工具积累了海量运维数据,且数据质量参差不齐,没有发挥出运维数据应有的价值,农信行业在这方面仍有提升空间。
在金融行业数字化转型过程中,人行印发的《金融科技发展规划(2022-2025年)》是非常重要的指导文件。该通知要求金融企业需要建立健全数据中心智能运维能力,打造虚拟化和云化的科技保障手段。通知对智能运维的建设提出明确要求,实现良好的风险感知、异常发现和故障定位的能力,强调运维过程中实现数智化、无人化。对农信行业来说,实现这样的能力并不是一蹴而就,而是需要经历长期建设的过程。
从同行业来看,必示科技已落地的智能运维项目帮助众多金融企业有效提升运维智能化水平,使企业具备动态故障感知、故障快速定界等能力。头部银行在6年前便开始在智能运维领域的探索和场景研究,且经过实践获得了显著收益。这些探索和成果给农信行业提供了很好的范本,为农信行业数据中心的运维管理人员带来极具价值的参考和启发。
智能运维的能与不能
智能运维的核心目标是降低MTTR,提升MTBF,能够更快更准地发现和定位故障、修复故障,并在故障未发生时设法发现潜在隐患,将隐患消灭在萌芽阶段,否则各种XOps都只能是“口号”和“泡沫”。
运维的初心是保障企业数字化业务系统的稳定运行。在智能运维的发展过程中,围绕着运维的质量、效能、成本、安全领域,有很多场景可以发力。
必示科技在金融行业经过多年探索实践,明确质量保障领域应当排在优先级最高的位置,质量保障关注异常检测、故障诊断、故障预测、故障自愈、风险检查等方向。结合运维数据的现实质量、运维工作频度、运维工作复杂度等因素,在实践中大多数银行聚焦最体现价值的智能运维场景,包括端到端故障感知、定界、诊断、恢复及变更和风险检查等。对于农信行业来说,这些同样是运维领域投资效益比最好的场景。
智能运维建设遵循冰山理论,意味着建设智能化运维不能一步到位,需要从可见到冰山开始,向下面隐藏的部分逐层挖掘,实现智能运维从感知力 → 判断力 → 决策力 → 洞察力的能力建设。
必示科技希望通过运维数据与智能运维算法的双轮驱动,以场景为牵引,通过故障根因排查、故障止损方案推荐、运营风险识别、智能变更检查等手段帮助运维管理人员保障数据中心的稳定生产,实现数字化系统的自维护、自决策、自愈合。
智能运维建设的正确途径
智能运维建设需要分为几个阶段逐步实施。具体到农信行业,第一阶段应先将可见的部分能力建设好,通过业务指标异常检测、机器指标定位、业务明细多维分析、趋势预测等能力打造数据中心,快速确定故障边界,为故障排查指明方向,打造敏锐运维感知力。
第一阶段
必示科技提供一套端到端的智能解决方案,从故障感知,到故障分析、止损方案推荐、事后复盘,形成一整套故障解决体系。这套方案能够敏锐感知业务状态,及时发现业务异常,抢在终端用户之前第一时间洞察数据中心和业务运行的状态。方案还将业务告警、IT告警、基础设施告警等汇集统一,实现一站式告警管理,并通过智能告警压缩机制避免运维人员被大量告警淹没。通过故障定界和分析找到故障的位置和故障症状。
通过第一阶段建设实现在业务部门/终端用户之前发现业务故障,分钟级定位未知故障位置的大目标。
第二阶段
进入故障排查“深水区”,重点放在故障根因分析上,借助可观测性(指标、日志、链路),基于空间关系、运维经验建立运维知识图谱,实现排障图谱。使用多种算法检测手段(交易细分检测、日志检测、突变检测、自动拨测等),真正实现人工智能辅助的运维故障排查,打造运维的判断力与决策力。
第三阶段
此阶段的重点是防患于未然,希望尽早发现风险故障隐患,提前采取措施,打造运维洞察力。遵循海恩法则,力图实现故障预防,实现面向系统亚健康的主动风险管理,通过离群机器检测、反规律检测、趋势预测、变更核查等手段实现对交易风险、配置风险、容量风险、批量风险、架构风险的“主动防范”。
最终,必示科技将助力农信行业打造数字化运维大脑,包括数据运维平台、算法平台和智能场景中心等三大核心。该运维大脑能够全局管理整个数字业务系统,做到“事前有预案、事中有手段,事后有复盘”。
必示科技解决方案总经理杨利梅给予农信行业运维从业者三点建议:
- 智能运维体系建设需要循序渐进,聚焦单一目标、做精做细、快速迭代等建设原则,从异常检测、故障定位,到根因分析,再到风险管理,按部就班的实施;
- 智能运维体系建设的成功要诀为“需求导向、实用先行、效果为王”。企业需要通过确场景、定需求、看效果、追功能,从而实现能力建设;
- 智能运维能力建设过程中伴随大量配套工程,包括运维知识图谱、自动化平台、大数据平台、知识库等,同时运维人员的算法意识与技能培养也是必不可少的前提条件。
综上所述,企业的数字化进程离不开智能运维的保驾护航,并且需要勾画全面的智能化运维建设蓝图,快速建设和优化,持续迭代,直至达成建设目标。
在智能运维体系建设的过程中,尤其对农信行业而言,选择第三方解决方案提供商共同打造高水准的智能运维平台是更为科学、合理的路径。目前,越来越多的金融企业选择必示科技作为建设智能运维体系的合作伙伴,双方共同打造支撑数字化转型的运维底座。近年来,必示智能运维平台相继在银行、保险、证券、运营商等多个行业落地,并取得了不俗成果。必示科技将继续专注于利用智能运维技术帮助用户打造稳定可靠的IT系统,助力企业提升在数字时代的竞争力。