当前位置:首页 > 新闻中心 >新闻详情

必示科技|智能运维在证券行业的落地实践

发布时间:2022-12-24 10:52:53

 
篇首语-智能运维的价值
 
相比传统运维方式,在明确的应用场景下,智能运维在数据分析效率、分析结论准确性、数据处理广度等方面具有明显优势,能够实现更细粒度、更高精度的异常发现,特别是一些潜在的业务风险、系统瓶颈,能够更加高效、更加准确的定位故障根因。
 
借鉴海恩法则的思路,在日常运维工作中及时发现并修复大量的潜在风险,在这些隐患逐渐累积形成严重的IT故障事件之前将危险消弭于无形,从被动式救火转向主动式运营,保障业务稳定安全运行,正是运维工作的价值体现。
 
 
行业背景
 
现代证券行业涉及大量资金的频繁交易,交易并发量高、涉及资金规模巨大、交易处理时效性要求极高,且需要严格遵守监管法规,因而证券企业对交易系统的可用性、响应率等指标有着十分严苛的要求。同时,由于交易时段集中所带来的海量交易数据集中处理压力,也使证券企业的交易系统运维工作面临巨大挑战。交易系统的运维管理水平直接影响企业业务的运营质量和安全性;低效的运维工作会拖累业务的增长潜力。随着证券市场业务规模的迅速增长和新技术、新组件的持续引入,传统运维手段越来越难以满足复杂交易系统的运维需求。近年来,一批富有探索创新精神的证券企业开始将目光投向基于机器学习算法与运维大数据的智能运维体系,借助智能运维手段推动企业数字化转型,为业务持续成长打造坚实的IT基础。
 
在这样的时代背景下,自2019年起,某头部证券企业率先迈出了建设智能运维体系的战略步伐,与必示科技共同建设智能运维平台,在证券行业落地实践智能运维能力建设,以更加高效的手段应对运维工作挑战。
 
 
建设目标
 
  • 赋能监管控运维体系,提升运维效率和系统可用性,改善RTO水平,降低MTTR。
  • 引入成熟可控的开源组件和技术,降低运维系统建设成本。
  • 探索金融领域可落地、可复制的智能运维体系建设实施路径。
 
 
需求痛点
 
“不全”:功能号级的细粒度业务指标覆盖范围不够,业务指标的阈值配置依赖于管理员经验,配置维护工作量大,难以快速、大规模扩展指标监控范围。
 
“不灵”:证券行业的业务处理存在交易时段的限制,而非交易时段往往执行大量的升级、变更操作,容易导致交易时段指标数据模型的训练受到非交易时段数据的波及,进而影响指标基带效果和告警准确率。
 
“不准”:应对大规模数据的排障过于依赖人力投入,不仅耗时较长,且难以保持较高的准确度。由于人工手段效率不足,大量运维数据难以被充分利用。
 
针对上述问题,该证券企业与必示科技以场景驱动、充分挖掘数据价值为思路,开始合作探索适配证券行业特点的智能运维场景,构建符合企业运维需要的智能运维能力。
 
 
解决方案
 
与人工排查为主的传统运维手段相比,智能运维平台可利用机器学习算法快速分析大规模的运维数据,从异常发现和异常定位两方面有效提升运维系统对海量数据的利用效率。该证券企业充分运用这一优势,将现有各类KPI数据与业务明细数据、日志数据相结合进行自动化关联分析,有效改善了故障的发现与定位流程。
 
管理员首先从业务运行健康状态和用户体验的视角,通过响应时间、响应率、成功率等业务指标和应用日志的实时异常检测去及时发现异常事件。当业务指标出现异常后,平台会自动遍历所有业务维度组合去挖掘异常维度定位结果,帮助管理员横向判断初步的异常排查方向,或本次异常的影响范围。同时,平台会自动扫描与该业务系统相关联的所有基础架构对象实例的性能指标,向管理员提供纵向机器指标的定位分析结果。最后,结合日志数据分析结果、相关联的事件工单等,管理员可根据各项排障线索去做进一步的深入故障排查,以确定故障原因和故障处理方案。
 
相比传统运维方式,智能运维手段以机器学习算法和大数据处理能力为基础,能够处理的数据种类更加丰富、数据量更大,可以从海量数据中捕捉IT系统的异常痕迹,并分析可能的故障成因,帮助运维人员及早发现、定位和处理问题,降低平均故障修复时间,提升系统平均无故障运行时间。
 
 
大范围高敏感低误报”的异常感知能力
 
业务指标异常检测:以集中交易系统的交易明细数据和网交系统的业务日志为数据源,主要针对系统级和功能号级的业务可用性指标进行实时检测,利用算法对自动对数万规模的细粒度指标实现监控覆盖,可将指标聚合粒度从分钟级提升到秒级,以适配券商交易对于时效性要求高的特点。此外,在算法层面单独针对交易时段的数据进行模型训练和检测,以避免非交易时段数据的干扰,用于适配证券交易时段的业务特点。目前该场景已覆盖集中交易、融资融券、快速订单、各类网交系统等多个核心交易系统的数万个业务指标(响应时间、响应率、成功率、调用次数,均包括系统级和功能号级)。
 
日志异常检测:以日志管理平台为数据源获取各类日志数据,从应用日志、系统日志的角度发现日志数据中蕴含的异常事件,并作为故障分析时获取更多排障线索的佐证。日志数据中往往蕴含着丰富的系统运行信息,甚至直接是异常的根本原因,因此对日志数据的价值挖掘无论对于异常发现还是故障排查均极具必要性。但由于日志数据量巨大、种类繁多、格式复杂等因素,无差别的全量日志异常检测通常存在告警量大、误报多等问题,按照日志的不同类型来区分监控方式是更加可行的数据利用思路,包括日志关键字监控、日志模板提取、指标提取与检测等。通过综合不同监控方式充分集成运维经验和算法优势,该场景已对系统日志、应用日志、数据库日志等实现实时检测,多次发现传统应用监控未发现的异常事件。
 
 
“立体式全方位快速度”的异常定位能力
 
水平定位——业务明细多维定位:以集中交易系统的交易明细数据和网交系统的业务日志为数据源(与业务指标异常检测场景使用相同的数据源)。业务明细数据中蕴含丰富的维度数据可用于在聚合类业务指标出现异常波动时去判断异常根因维度和异常影响范围,例如响应时间、交易量,这类整体性质的聚合类指标背后的每一笔交易往往存在多个维度属性(返回码、客户端版本、线路、省份、城市等)。当此类业务指标出现问题时,针对多个细分维度数据快速判断异常程度最高的维度属性组合,往往能帮助管理员迅速缩小排障范围,进而提升故障处置效率。目前该场景已覆盖十几个交易维度,能够在业务指标发生异常时在分钟级时延内迅速定位可能的异常维度(组合)。相比人工逐个维度的取值进行下钻分析的方式,该场景对于数据分析效率的提升是十分显著的。
 
垂直定位——机器异常定位:以IT基础设施监控对象的性能指标数据和CMDB的资源关联关系数据为数据源。当业务指标产生告警时,自动对相关联的海量IT基础设施对象的性能指标状态进行批量扫描,判断其在故障时段是否存在异常波动。相比人工排查基础监控视图的方式,该场景利用聚类、时序检测等算法快速完成对万级基础对象监控指标的批量扫描,分钟级给出分析结果,有效提升故障排查效率。目前该场景已接入主机、数据库、中间件等多类基础监控对象的数万个性能指标,可以帮助管理员迅速完成基础监控层面的指标排查。
 
 
建设成果
 
该证券企业与必示科技经过深入交流和紧密合作,针对券商业务特点和数据特点对智能运维平台进行了一系列适配和优化,取得了明显的运维工作改善成效。
 
实现业务精细化监控:针对数万个功能号级的细粒度业务指标,大规模扩展监控覆盖范围,补足多维度的业务监控盲区,及时识别业务运行的潜在异常风险。
 
提升业务监控时效性:将业务监控指标颗粒度从数分钟提升至10秒,异常定位速度提升至分钟级,大大缩短异常发现时延,应对证券交易时效性高的特点。
 
优化系统潜在风险,提升业务竞争力:平台将系统MTTR降低约5成,节省了多个运维岗位的人力需求。数月内发现近百个潜在风险点,有效提升企业风险防范能力与运行保障能力。
 
智能运维能力建设与行业特性适配:双方深度合作,在智能运维平台的设计和运营过程中充分适配证券行业的业务特性和数据特征,不断优化算法模型来探索适合证券行业的智能运维能力落地经验,为更多证券企业提供建设演进路线。
 
 
实践总结
 
该证券企业是行业内最早建设智能运维体系的先行者之一。经过与必示科技的合作,双方在运维场景与券商业务特点适配方面取得显著成果,有效提升了业务系统的运维质量和效率,增强了业务系统的稳定性,并多次荣获行业奖项,为证券业的智能运维转型升级提供了良好的示范作用。
 
通过智能运维体系建设,该证券企业应对业务系统故障和潜在风险的能力明显增强。该项目成果具备快速复制到其他同行业客户的特点,可帮助更多证券企业完善运维体系建设,为数字化转型构筑稳定可靠的能力基础。随着更多企业与必示科技合作,智能运维技术不断普及,逐渐展现其真正的价值,成为金融科技进行数字化转型不可或缺的能力要素。

 

TOP

010-82362970