当前位置:首页 > 客户案例 > 案例详情

某股份制银行智能运维项目

发布时间:2020-07-01 10:32:09


客户情况介绍

该银行成立于1992年,是经国务院批复并经中国人民银行批准设立的全国性股份制商业银行,总部设在北京。截至2020年6月30日,已在境内设立分支机构1290家,实现境内省级行政区域服务网络的全覆盖,机构网点辐射全国147个经济中心城市。


背景

在金融科技蓬勃发展的背景下,银行业正在积极探索人工智能、大数据等前沿技术与金融业务的融合路径,为业务提供持续创新动力。作为金融业务的支撑底座,银行数据中心更需要先行一步,利用智能化运营技术保障业务稳定性。
 
为持续提升数据中心运维效率、开拓智能化应用场景,某股份制银行与必示科技合作,引进基于AI技术的智能运维平台。该平台旨在解决以下运维挑战:
 
  • 传统静态阈值监控方式无法有效、全面检测业务指标异常情况;
  • 传统数据类应用的批量数据加工方式难以满足运维管理对数据的时效性要求;
  • 科技运维数据来源多,数据标准化程度低,故障定位与恢复速度较慢;
  • 微服务等改造工程令系统调用关系愈加复杂、排障效率低下。


银行智能运维平台部署实践

随着银行数字化转型以及云计算、人工智能在业务场景中的广泛应用,数据中心运维工作也在数据和业务价值驱动下向智能化运维转变。在数据生产和应用场景,运维数据需要满足实时性、全面性和准确性的要求,并通过标准、规范和统一的手段进行管理。
 
与此同时,银行业务系统的分布式架构转型使数据中心运维管理对象指数级增长。数据中心需要利用大数据、人工智能等新技术探索业务运行容量趋势分析、时序指标异常检测、交易链路异常检测、告警风暴智能收敛、故障根源分析定位等智能化场景,提升数据中心运维工作中的监测、分析和决策能力,保障银行业务稳定可靠,有效支撑数字化转型。
 
落地方案
 
某股份制银行智能运维平台建设项目旨在利用人工智能技术提升运维效率,丰富智能化应用场景,逐步推动AIOps落地实践。必示智能运维平台通过对基础设施监控、业务监控和跑批平台数据的接入,实现机器指标、业务指标、交易明细及批处理信息的汇聚。与此同时,平台可通过系统内算法处理实现智能故障预警及故障定位,提升排障效率及系统可用性。
 
该股份制银行希望通过智能运维平台的建设,提高故障检测的准确性、实时性及覆盖范围,缩短故障排查时间,保证业务连续性和稳定性,实现对运维风险的及早发现,做到提前处置和规划应对。

 

项目实施方案分为运维系统优化、智能运维场景推广、智能运维平台部署三大部分:
 
丰富运维系统检测的数据类型与维度,优化告警级别并提升告警效率,优化平台架构;
与银行业务端结合,推广智能运维的场景应用;
部署智能运维平台,验证应用场景,拓展根因分析推荐功能。

 
1、运维系统优化


◆ 丰富系统检测的数据类型与维度
 
针对银行数据中心运维管理对运维数据的时效性要求与数据治理过程中面临的数据来源多、标准化程度低等挑战,必示智能运维平台从应用、中间件、网络、系统、存储等领域入手,使用智能算法对业务、中间件性能、网络流量、存储IO、Kafka读写性能等十余万指标进行全面覆盖,满足数据纵横贯通的可视化需求。
 
 
◆ 优化告警级别并提升告警效率
 
改造对接监控平台,直接推送告警数据到ECC大屏,提升一线人员获取告警信息的时效性;
通过juggle可直接配置过滤、级别调整等功能增强告警灵活性配置;
通过无数据告警、响应时间阈值设置以及增加失败量或交易量起报笔数,并针对业务系统特性调优,实现总告警量减少44.6%。
 
 
2、智能场景推广
 
面对银行业务端的规模扩展与持续创新需求,必示智能运维平台给予场景化解决方案,并与应用部门合作进行推广落地。智能场景的落地进程分为四个阶段:
 
 
  • 接入多系统的交易指标数据,只推送业务系统的告警信息,细分交易的告警默认屏蔽;设置相同的初始默认告警规则。
  • 在投产前后放开细分交易告警,观察是否有因投产引起的交易异常;根据管理员需求修改告警规则;复盘行内事件,完善平台功能。
  • 放开所有细分交易告警,针对告警量较多的系统与相关管理员沟通确认;调整模型与告警触发规则等,提升告警准确性;与管理员持续沟通,迭代优化告警数据。
  • 延长触发告警所需的异常持续时间,剔除部分可自动恢复的异常;比对发生事件时的告警信息,引入告警准确率指标,提升告警有效性。
 
 
3、智能运维平台部署
 
部署智能运维平台是该项目的重点内容,目标实现根因推荐和自动排障,从而减少排障时间,提升运维效率。与传统运维相比,必示智能运维平台能够采集实时运维数据,并搭建可视化监控场景,自动执行运维数据的流式异常检测。在发现故障后,自动触发排障,对故障执行场景化分析,帮助管理员快速对问题分析定界,显著缩短排障时间。
同时,平台通过对业务性能指标数据的采集,实现检测具有一定时序特征或者周期特征的数据,识别异常点。管理员通过可视化界面一站式查看全部未处理疑似故障、故障趋势与告警对比等信息,快速访问故障详情,显著缩短人工诊断的时间,降低故障误报与漏报率。银行基于某次业务事件对平台排障的实际效果进行复盘,确认了必示智能运维平台异常指标检测、多维结果定位、告警复盘分析等能力的有效性。
 
此外,必示智能运维平台的根因推荐功能,旨在进一步加强平台对管理员的辅助能力。根因推荐功能通过配置关系、专家经验、历史规律、日志及指标数据确定故障的范围,识别表现异常的系统、交易、设备等实体和指标,基于配置关系、专家经验、历史规律,实现AI智能关联分析,判定故障根源,简化定位流程,将管理员关注点从繁琐的海量告警分析转移到实际故障应对上。
 
 
总结与思考
 
 
必示智能运维平台在该股份制银行部署后,已在银行数据中心运维实践中取得明显成效:
 
数据中心实现了超过三十万运维指标的标准化统一管理与实时可视化监控,实现运维指标的全面覆盖,保障了系统的稳健性与可靠性;
显著降低无效告警比例,事件响应时间缩短80%,故障排查时间缩短50%,同时大幅降低管理员重复劳动时间,将有限精力集中应对潜在问题与风险。
 
项目实施以来,银行运维系统可用性与扩展能力得到可观提升,为业务的稳定运行与开拓创新提供了可靠支撑。同时,银行运维部门通过项目实践积累了宝贵的场景设计、数据治理和算法研发经验。
 
目前,智能运维技术仍在发展阶段,必示智能运维平台将进一步拓展延伸,与银行内更多应用场景结合,通过AI技术赋能实际金融业务,逐步推动更多的智能运维应用场景落地。未来,智能化数据中心将发挥更为突出的作用,全面保障银行业务运营的稳定,并通过运维数据为业务与管理决策提供更多价值,助力银行完成数字化转型的目标。





 

相关产品链接

业务指标异常检测

更多案例效果,请致电:400-666-1132
或发邮件至 contact@bizseer.com 索取

TOP

010-82362970