专访 | 刘大鹏:深度融入场景,AI技术决定智能运维落地效果
发布时间:2020-11-06 16:52:00
《中国银行业信息科技“十三五”发展规划监管指导意见》明确指出,“提高运维自动化水平,打造智能化运维体系:持续推进生产运维监控精细化、自动化、智能化建设,强化系统风险和故障的早预警、早定位和早处置。实现应用层面交易全流程、全节点监控全覆盖,结合应用系统交易特性及相关数据的分析对比,提升交易过程监控的智能化水平。加强运维大数据分析,利用运维大数据加强业务风险防控,探索利用运维大数据推动业务流程优化并支持业务创新。”
“十三五”收官在即,目前商业银行均已建设了基础的IT运维管理系统,借助各类运维工具实现对业务系统的监控管理、自动化运维和资源管理。随着金融科技的深度应用,平台化和智能化已成为金融企业IT运维体系发展的大趋势。如何看待金融行业AIOps的应用现状?智能运维在金融行业的应用还面临哪些困难和挑战?智能运维有哪些成熟的应用场景?金融企业开展智能应用应做好哪些准备?日前,金科创新社就上述话题采访了必示科技CEO刘大鹏。
金融企业IT运维特点
我国金融企业由于信息系统的复杂程度和技术跨度决定了IT环境的复杂程度和IT运维的难度远高于其他行业。刘大鹏指出,随着行业数字化程度不断提高,IT系统建设和运维能力变得越来越重要。金融行业IT和数字化建设起步早,运维工具、流程经过多年的发展形成了较成熟的体系。运维能力不断提升的同时运维挑战也随之增加,主要表现在:一是,随着业务规模的快速增长,IT基础设施的种类和数量也与日俱增,同时系统应用架构的复杂度越来越高,系统数量日益庞大,在运维人力有限的情况下,传统运维方式已经无法适应当前形势下的运维需要;二是,金融作为强监管的行业,对系统稳定性、可靠性有很高要求,而金融业务又具有灵活多变的特点,特别是近年来随着移动互联网的发展,业务系统升级、迭代、扩容愈发频繁,传统的稳态运维方式面临挑战;三是,随着越来越多的系统纳入监控对象,监控数据量呈几何级数增加,传统的依赖人工排查海量告警和数据、依据专家经验进行故障定位分析的运维方式难以挖掘运维数据价值,限制了运维工作效率的进一步提升。四是,随着中国人口结构的变化、各行业人才竞争加剧,运维人员和运维专家的成本不断提升,而对专家的过度依赖也会导致运维效率的低下。
如何在数字化新形势下打造更为高效、准确的智能运维体系,成为金融IT运维迫切需要解决的问题。
智能运维:运维场景与AI技术的深度结合
IT运维经在历了“手工—机器—自动化”发展后,向智能化演进。智能化运维建设的重要基础是实现海量数据的管理与分析能力,建立系统的自我学习能力。刘大鹏表示,智能运维落地的核心挑战在于,从金融企业运维的角度,有数据、有应用,但是缺乏一些算法和经验;从学术界的角度,有算法、有认知能力,但是缺少数据支撑,也不熟悉运维的场景、流程、痛点。作为专注智能运维新技术的创业公司,必示科技的优势在于上述两方面的技术和经验的积累。
必示的技术团队源自清华大学智能运维实验室,几位核心成员在清华计算机系读博时就开始主攻智能运维方向,开拓并积累了大量前沿成果。“通用型的AI技术在运维领域找到落地和实践的场景需要花费大量的时间进行长期实践。必示团队经过多年积累,培养、聚集了一批高水平人才,在国际前沿学术会议上发表论文100余篇。同时,早在公司成立前就与多家互联网公司合作,除了引入算法领域的高级人才,还请来了十几位经验在10年以上行业资深专家,在既有技术优势的基础上弥补经验不足。因此,面对运维的复杂场景可以快速找到切入点或对应的解决方案。” 刘大鹏说。
传统运维企业大都以监控、自动化起家,在转型智能化的过程中,可能会面临技术储备不足,持续迭代、优化能力不够的问题;而创业型公司如果从零开始组建智能运维团队,则需要较大的时间成本,不一定做得深入,很难持续优化、跟进。智能运维的落地需要技术企业与行业用户的长期合作、共同打磨,是一个不断成熟和发展的过程,选择一个更具有创造力和持久力的团队对于金融用户来说至关重要。
基于与金融运维场景深度结合的技术优势,必示科技已经与多家金融头部企业展开合作,通过大量真实业务场景、真实数据的支撑,对产品效果做了很多关键性的验证和调优,展现的效果十分明显,故障发现和定位的准确度逐渐变得成熟稳定,分钟级完成对IT系统应用故障的发现(预警)与自动定位,让企业不再为应对随时可能出现的应用故障而困扰,提高系统可用性和运维效率。
智能运维的突出特点是具有多样化的异构数据的综合分析能力,与传统监控工具大都聚焦在一定范围,重点解决某一类问题(如网络监控、基础架构监控、应用监控、交易监控等)不同,智能运维将运维作为一盘棋,通过产品的组合、算法的组合,汇总各种数据,最终得到一个全面、综合的结论。智能运维之前,运维数据是孤立的,随着运维复杂度的提高,监控数据量不断增大,智能化的投入/产出的优势才能体现出来,这也是为什么最近几年智能化开始受到普遍关注的原因。
既然智能运维必须以大数据为基础,那么智能运维的应用对于企业的数据基础是否有比较苛刻的要求,对于数据基础不达标的企业,智能运维如何开展?对此,刘大鹏指出,智能分析的上游是各类监控、运维数据的输入,所以企业首先要实现数据采集和数据融合的能力,结合机器学习、智能算法,对IT运维实现洞察,获得预见性。对金融行业来说,头部企业数据较完备,能够满足当前阶段典型的智能运维场景对数据的需求。对于数据基础相对薄弱的企业,完善数据采集与智能化应用可以同步建设。先在某个特定领域进行智能化场景探索和尝试。这样做的好处,可以让用户尽早了解数据使用情况,制定合理的数据监控策略,从数据诉求的角度,对于无用的数据不盲目监控,对于欠缺的数据尽早采集。同时,智能运维系统上线后也会反哺运维数据。智能算法的使用会暴露监控数据的不足,以及对数据的精细度、准确性、数据质量、连续性等提出要求,促进企业不断完善监控质量。从这个角度看,智能运维与数据基础是相互推动,相辅相成的关系。
智能化是IT运维的发展趋势,企业在现阶段运维中应充分了解和尝试,做好准备,可以选择成熟度高的场景着手开展。
必示智能运维解决方案的系统应用架构采用多层设计,主要包括展现层、服务层、智能分析层和数据层四个层次。展现层的目的是为运维人员提供前端交互界面,满足其接入数据、调节算法结果、数据可视化展示与理解等一系列运维操作要求;服务层对底层功能进行接口抽象,对上提供查询和控制接口服务,对下进行大数据任务下发;智能分析层是智能运维算法的核心层,为核心智能运维算法大数据组件提供任务、资源和模型管理;最后数据层提供时序数据管道和持久化,及模型和配置的存储服务。
这种架构的优势在于随着新算法的不断成熟,支持随时扩展新的算法组件和数据组合,适合银行业根据自身IT系统运维特点来灵活选择数据类型与算法,构建新的智能运维场景。
智能运维与企业数据基础相互促进
智能运维落地,应综合考虑企业运维现状、基础能力等因素选择成熟度高、可以即刻投产使用的场景。在刘大鹏看来,目前成熟场景主要有两类:一是故障预警,包括针对时序监控指标异常检测和预测,针对日志数据的异常检测。目的是尽量提前、尽早发现系统中的潜在风险或故障;二是故障定位,包括对实体对象(机器、数据库、中间件等)、多个系统和业务维度的异常定位。目的是发现风险信号后,综合各种线索找出故障点。这两类场景下又有一些细分领域,如故障预警包括:针对时序监控的异常发现、针对日志数据的异常发现、针对业务容量或系统容量指标的预测;故障定位包括:针对实体对象的异常定位、针对多个系统的异常定位、针对业务维度的异常定位。
每个智能运维场景都需要潜心深耕,比如多维度数据的异常定位算法,当总交易量出现问题的时候,如何在海量搜索空间中自动智能地进行下钻定位根因维度组合?这一直是IT运维的难题,需要进行大量的前置性研究和算法设计,同时根据实际场景不断对算法进行优化。
“智能运维方案需要在实际运行环境中不断打磨和完善,以提高通用性和处理不同情况的能力。每一个算法在开始阶段,由于成熟度不够,需要在不同的客户场景中完善,持续修改、调优后,加入新的机制,随着应用的不断深入,调整的工作量越来越小,逐渐收敛成为一个成熟的算法产品。最终实现无需人工,或管理员根据业务特点进行简单配置即可使用。”刘大鹏说。
下一步,必示科技对两大类、各细分领域的相对独立的场景、算法进行组合,结果关联,进一步提升线索价值,节约排查时间。“智能运维场景非常多,以往大都做点单的应用和落地,场景与场景之间缺乏有机整合。我们希望通过打造运维知识图谱,将不同的运维场景有机融合,形成更有价值的信息和更为精简的直达主题的结论。”
谈到对AI在金融行业落地的期待,刘大鹏作为从业者对人工智能技术有着理性和清晰的认识。他认为,AI的应用需要与用户能力匹配,智能化并非无所不能,也不是毫无帮助,目前的定位还是以辅助人工为主。以智能运维为例,运维环境越复杂,运维的对象、数据的规模越大,智能化的辅助价值也就越大。目前,智能运维在辅助效果好、成功率或确定性比较高的场景中可以与自动化工具联动,进一步节省人力开销,而实现无人运维还有很长路要走。金融行业随着数字化转型的加速,运维、安全、风控、营销等业务决策对数据的依赖性越来越大,是AI和大数据大显身手的领域。AI的应用得益于金融行业数字化发展成果,目前在各金融机构金融科技布局下,重点放在抢占相关领域和关键人才方面。
- 上一篇:第一页
- 下一篇:必示科技智能运维论文获国际顶会ESEC/ FSE 2020录用