随着行业数字化转型的深入、人工智能的快速发展,传统运维框架正在逐渐被颠覆,运维难度指数增长。客户应用软件系统群日益庞杂,急需完成系统群的集成运维,运维需求向更加专业化和规范化迈进。如何让IT系统持续稳定运行、如何让运维更加智能化成为了很多客户的痛点和难点。头部ISV在当前复杂的运维需求中具备重要的机会点和发力点。
中科软科技股份有限公司作为提供行业应用软件产品和解决方案的高新技术软件企业,行业应用软件的运维是公司业务中的重要部分。在AI技术迅猛发展的当下,如何利用好头部ISV的技术和资源优势,加快AI运维系统的开发和应用并及时落地推广也是中科软科技一直以来的努力方向。
为推进公司行业应用软件的AI运维系统的更好发展和落地,同时也为了通过和相关领域专家、客户的指导交流,推动公司AI运维系统的技术开发及运维行业的技术发展和进步,中科软科技于2024年11月29日及12月2日成功举办了为期两天的研发实践技术交流会,主题为“行业应用软件的AI运维系统方案”。
在软件开发的过程中,运维和AI结合是一个比较典型的部分。目前AI的实践大量用于分析非结构化数据中,产生的效益主要来自多模态数据、机采数据等方面,而运维正是机采数据的应用场景。
从目前实践看,将运维单纯作为工具这一路径还存在一定困难,在垂域大模型崛起后,新的硬件和模型基座厂家让目前的运维领域出现了合作趋势。其中的模型部分,需要通用和专用两个层面的训练。基座厂家侧重通用,而头部ISV由于擅长领域知识,侧重专用的关键部分。当前大模型训练关注成本和准确精度,所以问题焦点在标准正确答案数据集,即半结构化标注数据集,也是“精准计算”模型训练所需数据集。问题关键又从模型通用技术,转回了领域知识数据的准备。在运维领域也分成系统软件和应用软件两部分,特别是运维本身的知识库/智能体的建设。只有大量工程实践和积累的情况下,模型训练精度才能提高,成本才会下降。故必须广泛开展半结构化数据集应用软件实践,另外新兴的小模型(SLM)也是运维系统发展的一个重要方向,因其具有准确和本地化安全部署的特点,在降低运维成本的同时,也更能契合目前运维市场更加专业化和精确化的需求。ISV和厂家在这方面需要紧密的合作,才能提供给客户更优质的产品和服务。
在新需求产生的同时,运维领域的几个特点也让运维智能化变革成为可能:全周期,在做需求、设计、开发测试和使用手册的整个周期过程中都涉及到了运维。全内容,运维的过程可以分为三个部分,三个部分中都可以有AI的助力。数据结构需要运维引入AI技术作为数据模型、数据做表的工具;在功能及运行模块,即表示层部分,涉及到大量界面的统一管理,这也是人工智能的重要应用场景;最后在组件和脚本平台部分,行业应用软件的代码生成也可以运用AI的能力。全环境,运维不仅涉及到应用软件层面,也关系到系统软件层面,运维监控就是对操作系统、数据库、网络等多方面进行监控,在这部分工作中AI也大有可为。
本次交流会非常荣幸地邀请到来自人保科技、农银人寿、恒安标准养老保险、现代财险、中意人寿、中华人寿、华泰人寿、邦邦汽车、中国疾病预防控制中心、民航科学技术研究院、揽秀科技、神舟灵云等各行业客户及生态伙伴的技术专家,以及北京交通大学、北京工业大学、中国科学院软件研究所、中国社会科学院、中国科学院大学等高校及科研机构的专家参与方案评审,共同探讨AI运维系统在行业应用软件领域的实践和应用。
中科软科技各事业群在各领域行业应用软件的AI运维系统研发实践中,积累了丰富的经验及解决方案,部分智能化运维方案已在客户端开始落地和试点工作,在本次技术交流活动中相关团队就已有的AI运维系统和具体解决方案进行了成果展示,其中财险团队-财险数智化运维平台、寿险团队-知行AIOps平台获评本次技术交流活动的优秀方案:
► 财险数智化运维平台的01234体系
随着智能运维(AIOps)理念的不断发展,这一领域正步入高速发展的全新阶段。AIOps 作为一种极具创新性的技术手段,吸引着众多行业头部企业以及富有开拓精神的创业者纷纷投身其中。一时间,构建完善的 AIOps 体系和打造相关特色产品成为业内最为热门的话题与发展趋向。
为推动 AIOps 在保险行业垂直领域的众多业务场景中有效落地,事业群在2017年研发的开发运维一体化平台(DevOps平台)基础上,升级进化成财险数智化运维平台,核心理念是0-1-2-3-4体系。
数字“0”代表财险数智化运维平台的起点,即2017年推出的财险DevOps平台,主要功能包含监控平台、CMDB、ITSM、作业平台等。
数字“1”代表一个运维数据中心,负责整合多来源运维数据(指标、链路、日志、事件等),涵盖数据采集、数据加工、数据存储、运维数仓、数据服务和数据治理等环节,确保运维数据能够被高效利用,为后续智能检测、智能分析、智能预测等场景提供全面支撑。
数字“2”代表两类算法模型,即小模型和大模型,小模型主要负责指标聚类、趋势预测等算法,用于特定场景的异常检测和故障诊断;大模型整合 MaaS平台,算法能力、对话能力、生成能力,与小模型结合提升运维效果,满足用户日常运维管理的需求。
数字“3”代表为三类运维场景赋能,具体涵盖稳定性保障、成本管理以及效率提升这三大关键领域。其中囊括了系统监控、时序预测、日志监控、容量规划、智能规划、成本管理、自动作业、智能变更、ChatOps 等多种复杂运维场景,全方位助力运维工作的高效开展。
数字“4”代表四套完备的运维保障体系,分别为运维知识体系、运维管理体系、运维协作体系以及运维技术体系。运维知识体系着重于对运维知识与保险知识进行统筹整合;运维管理体系负责组织管理、制度管理以及流程管理;运维协作体系细分为内部协作与外部协作两方面;而运维技术体系则涵盖开源及三方组件,旨在为运维工作提供坚实的技术支持。
在财险数智化运维平台的基础上,我们针对众多保险公司运维的不同场景推出了多个解决方案,并在多个关键领域所取得显著效果,例如在多维根因分析方面,以往需要耗费1至2小时,借助财险数智化运维平台方案可将时间降低至10秒至20秒,效率提升了200倍。日志分析同样成果突出,从异常问题被发现到完成修复,从过去的半个小时压缩至现在的10分钟左右,使得平均修复时间(MTTR)效率提升了约3倍,减少了因问题搁置而可能引发的业务风险。容量规划也取得了重要突破,系统监控点实现了极大的扩充,系统资源利用率提升了10%~50%。再看 ChatOps 方面,运维人员每天平均产生的运维问答达100多次,运维效率平均提高了12倍左右。
► 寿险-知行AIOps平台
关于AI大模型应用的探索已经到了具体场景、具体业务的赋能提质、提效的阶段。整个运维领域的发展过程是从依赖人工、脚本的ITOps到横向打通各个模块的DEVOps到从海量运维数据中不断地学习、提炼、总结,进行智能分析、决策的AIOps,在稳定性保障、成本管理、效率提升三大价值领域持续发挥作用。AI赋能智能运维的过程是通过AI大模型融合小模型工具,构建具有感知、交互、情景记忆、判断决策的智能体运维架构。
对于行业应用运维更多的要考虑对于业务的关联,在整个运维体系中,更聚焦在ITSM方面。经过对近5年超大规模保险核心系统运维经验总结我们发现,系统答疑的运维处理量占据日常运维工作中的首位,系统答疑、数据维护、数据提取三项总占比高达86%,是成本投入的重点部分。性能问题、宕机问题虽然占比小,但是破坏力最强、排查难度最高。处理时效仍有较大进步空间。我们希望AI运维可以做到简化运维处理流程,快速定位问题、事件秒级响应;有效实时预警,生成参考解决方案,提升运维效率;大幅减少系统人工答疑工作量。
寿险信息服务事业群团队以多年大规模保险核心系统运维服务经验为基础,结合LLM大模型RAG、AI Agent能力,构建知行AIOps平台,实现智能运维体系的完整建设。整个平台架构分为四层,底层为CMDB、领域知识所构成的数据基础;其上通过数据处理平台、MaaS平台两大支撑,结合平台组件工具,形成业务功能、AI能力两大功能版块。更广范围的结构化、半结构化数据的处理,与模型的产出、Agent构建两者并重。IT服务管理的规范化和AI赋能的能力输出也是相辅相成的,AI成为复杂事务过程中的操作入口和信息处理元件。
AI能力的两大核心是“智能分析”和“智能问询”,智能分析通过AI来组织形成更贴近事实描述的运维事件信息,结合平台分析组件,进行快速的问题定位。智能问询根据标准化的知识图谱内容进行针对性的问题答复和操作指引,自动完成问题改派,生成方案建议,代替一线运维工作。
智能分析的流程是分析任务创建、构建分析路径、定位异常点、根因分析。首先对系统预警进行有效的归类,根据预警等级及业务场景来触发分析任务。通过skywalking等工具提取服务拓扑图、链路日志、响应参数、应用指标等半结构化数据。数据的规范化处理是构建分析路径的关键步骤,将半结构化、结构化、非结构化数据借助领域知识、规则库经过数据清洗、规范化再进行存储。数据采集汇总完成之后需要组合串联链路信息,形成事实描述长文本。运维分析信息来源于不同的设备、中间件,同时含有大量的业务标签,通过大模型来实现理解和组织,形成分析路径。同时运行过程中产生的这些描述信息又会形成丰富的数据资产提供给模型进行反复迭代训练,使模型意图识别的能力越来越强。
智能问答处理是直接面向业务人员,业务人员发起咨询事件建立工单进入服务过程。AI代替一线运维人员进行问题回复交流,充分引导业务补充关键信息,对问题进行分类并指派对应二线运维处理。答疑的处理中操作问题居多,因此我们将需求、操作手册与操作过程的对应关系数据进行迭代训练,以识别业务系统操作意图,实现有效的问答及指引。在存在业务含义的运维工作中标准化过程是服务质量、服务效率提升的关键,业务需求有非常强的结构化要求,要有非常明确的页面操作、业务流程的说明,将问题对应到需求再通过需求对应到相关代码,制定知识标准化的规则通过约束运维管理平台的录入来积累良好的数据基础。问题录入明确分类,并且每次问题解决对应的提交代码进行关联,再结合标准需求、标准程序以及表结构实现信息录入的约束和处理。
在本次技术交流会上,与会专家评委们不仅充分肯定了中科软科技通过技术交流的手段促进公司乃至整个行业技术水平的提升,同时一致认可中科软科技在行业应用软件的AI 运维系统领域展现出创新性,也肯定了中科软科技在行业应用软件的AI运维系统这一领域做出实践落地的新成果。在本次比赛后,多位专家表达了进一步深化合作的期望,认为公司在AI运维系统方案方面的研究与实践找到了行业痛点,提出的解决方案为行业发展注入了新的活力。客户方面也对公司的AI运维系统方案表达了浓厚的兴趣,对公司所展示的技术深度和前瞻性解决方案充满期待,并期望能够早日在实际业务中见到这些创新成果的应用。此外,专家们对此次技术交流活动给予了高度评价,认为这次活动不仅为公司内部员工搭建了一个技术交流的平台,也促进了行业内外专业人士之间的思想碰撞、经验分享和合作机会的探索。
中科软科技在未来的发展中也会一直坚持不断探索行业软件技术发展前沿及应用实践,在吸收学习新知识、新技术,不断加强业务骨干学习度的同时继续传承中科软的开发精神和技术,给客户提供更为智能、高效的行业应用软件解决方案,引领行业发展的新趋势。