2023年6月30日,中科软科技股份有限公司成功举办了专题为“开源软件支撑下的垂直AIGC平台(MaaS)及组织协同实施”的技术交流会。本次受邀与会参与方案评审的专家有:中国疾病预防控制中心信息资源管理服务室主任王松旺、中国质量认证中心综合处技术总监赵磊、中国人寿财险金融科技中心科技创新部总经理陈起、华农财险科创技术中心总经理李翔、华泰人寿科技中心副总经理侯峻、农银人寿部门副总经理王福强、北京航天自动控制研究所信息中心主任兼CIO刘京涛、国家工业信息安全发展研究中心人工智能研究室主任张熠天、中国科学院软件研究所软件发展研究部副主任杨立。
作为中科软公司每年研发活动的一项重要环节,技术交流会已成为一项传统,每年的技术交流会也是各领域团队将公司当年研发重点方向的技术成果进行跨领域交流的重要活动,技术交流会形成的成果物也将指导进一步的深入研发以至最终的产品及服务落地。作为公司今年的研发重点:行业应用领域垂直AIGC平台建设,成为了本次技术比赛的主题,各事业群结合保险、非保险金融、政务、医疗卫生等垂直场景,就平台建设、模型使用、数据训练、场景应用、效果评估、关注问题等方面进行了充分的技术交流。
AIGC打开行业应用软件新的发展空间 AIGC(生成式人工智能)技术已经在文本、图像、语音、视频等领域取得快速发展,并催生了诸如ChatGPT、midjourney、GitHub Copilot等一系列流行应用。在企业和政府端,利用新一代AI技术提升营销、生产、组织、管理、服务效率,创新产品及服务将成为各行业客户新的需求,对于行业应用软件的发展带来重大影响:
1、加速数智化创新、赋能深度应用
客户在销售、生产、管理、服务等环节端积累、留存的大量数据、规则、经验通过AIGC强大的学习和分析能力,升级原有信息化应用,并创造新的智能化应用,并与已有应用软件功能群进行融合提升企业数智化能力,随着AIGC技术的不断迭代,行业应用软件系统群向多模态形式升级换代,智能性也将不断增强,并不断作用到客户组织内人和物的各个环节,使客户能够更快地响应市场需求和竞争压力,创造更为丰富的产品和服务。AIGC的发展将有利于行业应用软件在客户端重要性的提升,增强客户对于应用软件的重视和依赖度。
2、提升软件开发效率及质量
在开发端,借助AIGC 技术在代码提示、自动代码生产、自动化测试和代码审查等方面的能力,减少开发人员手动编写代码的工作量、帮助发现和修复潜在的软件缺陷和漏洞,提供更好的代码规范和最佳实践,并减少人为错误的产生。这样可以提高开发效率,缩短项目的开发周期。开发人员可以将更多的时间和精力投入到软件的设计和创新上,从而提高软件的质量、功能和稳定性。
3、衍生AI训练、安全监控等方面的新需求
AIGC的良好应用需要大量的语料及训练工作,进而衍生出对于数据预处理、模型预训练、提示工程等和AI训练相关的技术及服务需求,同时基于合规、安全角度对应用场景下AIGC应用的安全管理和监控也对行业应用软件的发展提出更高要求,当行业应用软件进入AIGC时代,软件开发者的角色亦会发生变化,软件开发者与AI模型交互演进,软件工程师群体实现分工晋级。
垂直AIGC应用成为企业级应用的关注焦点 基于NLP(自然语言处理)等技术的AI功能已大量用于企业客户智能交互、流程自动化、风险管理等应用场景,而基于LLM模型的ChatGPT等应用的出现使得人工智能具备了更为强大的生成能力,进而推动AIGC应用的进一步深入。
AIGC平台又可以分为面向任何组织和个人通用化需求的水平AIGC平台,以及涉及专门领域场景结合专门领域知识的垂直AIGC平台。
在企业级应用需求方面,需要AIGC以多模态数据互动的方式,输入部分(或不完整)信息,快速的、给出大概率的已有完整的内容,甚至是一个标杆性的内容,AIGC平台是通用(水平)和专用(垂直)的整体内容集合,要使准确度和实用性提高,必须分成多专项、多领域知识的细分频道。
在企业级市场,AIGC的重心在向垂直领域方向发展,已有的水平AIGC成果需要迁移,更重要的是自建垂直AIGC,即预处理MaaS模型建立和运维。数据(大多公有资产)+算法(相似计算模型)+算力(支撑)技术平台构成了水平AIGC的核心要素,而在垂直应用时要大幅下降,即轻量化。
水平AIGC中的数据和模型相当于“公有资产”,垂直AIGC平台建立的新模型相当于对这部分资产的迁移。新模型更重要的部分是针对性强的“私有资产”,它更强调安全和隐私,它是新模型的重要组成,两者融合(通用+专用),形成完整的结果内容。
垂直AIGC是“约束性软件需求和实现”的重要尝试方向,是低代码软件开发的新分支。由于技术工具和方法庞杂,多以流行开源软件各种版本方式提供,且不断翻新变化,客户端技术转移工作量巨大。
在垂直AIGC的建立及不断完善的过程中:数据收集和准备(数据质量和准确性)、模型选择和训练(算法及算力成本)、模型的集成和部署(集成企业应用系统中)、数据流和实时处理(快速推断和相应)、模型监测和更新(迭代更新)、安全和隐私保护、监控和优化等方面成为核心工作,决定了垂直AIGC平台的最终功能及使用效果。
中科软垂直AIGC平台应用实践 公司各事业群在各领域垂直AIGC平台研发应用的实践过程中,积累了较多经验及解决方案,并在本次技术交流活动中进行了充分展示,其中:华东寿险分群联合团队-寿险生成式人工智能(MaaS)平台方案,及金融保险事业群团队的财险代码智能支撑平台CGC整体解决方案分获前两名。
寿险生成式人工智能(MaaS)平台方案 寿险生成式人工智能(MaaS)平台,由多个应用系统及工具组成。从系统层次上来看,包括数据层、训练层、服务层及安全层。
数据层包括垂直领域知识库、数据集仓库及模型仓库等。垂直领域知识库是对行业领域知识的管理仓库,以寿险行业为例,包括:词根表、蓝图库结构、样本程序及产品条款知识图谱等各种领域知识数据。数据集仓库是指对垂直领域知识经过数据处理后的待训练的数据集仓库,以编程领域为例,包括:代码摘要数据集、代码生成数据集及缺陷检测数据集等。模型仓库是指通过微调进行垂直领域知识增强后的大模型的存储仓库,以本次展示内容为例,包括:BERT、CodeBERT及CodeT5等大模型微调版本。
训练层包括模型训练系统,由数据(处理)层、(模型)训练层及(模型)评估层构成。数据层主要由数据特征工程师从知识库加载垂直知识数据,并进行加工处理,生成特定任务的训练数据集。生成后的训练数据集由数据集仓库进行统一管理。训练层和评估层主要由算法工程师从模型仓库加载预训练大模型,并使用含有垂直领域知识的对应任务数据集对其进行微调、评估及测试,最终生成经过垂直领域知识增强的大模型。增强后的大模型由模型仓库进行统一管理。
服务层包括能力服务系统,由模型层、任务层及API层构成。模型层主要完成从模型仓库加载训练好的领域大模型,并为任务做好准备。任务层主要依据应用需求对相应模型任务进行封装,并实现能力功能。API层主要负责模型任务能力的对外开放,以使得用户可以通过API获得模型能力服务。
安全层包括安全机制和安全框架。在机制层面,着重构建以机构(人)、制度和技术为主体的三位一体的安全保障体制。机构(公司)设立数据和模型安全的管理规约,以通过技术(安全框架)实现对人和流程的安全管理的落实,预防数据与模型被恶意污染。在框架层面,建设贯穿整个知识加工过程中的监控与管理框架,通过对各环节的监控日志,动态管控全流程上的风险,及实施应对措施。通过版本管理实施及时回退措施,以保障数据与模型的安全。
在应用工具层面,丰富的插件工具可以使最终用户便捷地获取模型能力服务,以编程领域为例,用户可以从私有插件市场轻松获取具有代码注释生成、代码生成及脚本生成等功能的IDE插件。
财险代码智能支撑平台CGC整体解决方案 财险代码智能支撑平台CGC整体解决方案以“水平为基、垂直为穹”,充分利用CodeT5的能力全面提升了事业群代码质量和效率,并不断泛化新的能力。
水平方向上,事业群以通用水平AIGC平台CodeT5作为基础进行知识迁移,通过比较标准的大规模模型并结合领域知识对模型进行训练与调整,有效地实现了面向具体行业的代码相关任务的能力支撑,并通过在输入中加入注释序列的手段,实现了从注释中获取函数功能及变量含义的能力,较好地处理了多模态训练任务。
垂直方向上,事业群以20多年积累的保险术语和词根、样本程序、蓝图数据结构等行业知识和经验的沉淀为基础,直接或间接打磨垂直领域高质量数据集来支撑模型训练,并最终形成模型和组件的能力,使其从传统 "基于规则的财产保险代码管理"转变为 "智能财产保险代码管理"。
财险代码智能支撑平台(CGC)直接引用优质领域数据集作为垂直领域数据集,以可靠的结构、领域知识和条件约束,支撑实现优越的模型训练效果;同时实现对模型训练效果的可视化呈现。平台亦支持用户通过命令行工具植入各个领域的模型算法,实现包括模型基础配置、模型任务管理、模型参数设置、模型版本管理在内的全方位模型管理。
此外,CGC平台通过统一接口实现对外提供能力输出,针对Idea、VS Code等开发工具提供的开发插件能够支持用户实时调用统一接口,并在开发过程中辅助进行高效率编码工作,明显提高了代码规范度程度,节省了大量测试与管理成本,效果十分显著。
与会专家评委对中科软通过技术交流搭建事业群之间知识沟通和经验共享平台的方式表示了肯定,体现了中科软的积累与传承。专家们认为技术交流的主题很贴合目前业界的主流发展方向和关注重点,各团队形成的方案从开发实施和行业应用软件开发的角度拓宽了业界的视角,体现了中科软作为国内领军行业应用软件服务提供商的技术责任感。
此外,由于垂直AIGC平台建立过程中,涉及大量开源工具应用,为了增强各业务团队在业务开展过程中对有关开源工具与知识产权保护相关问题的认知,本次技术交流会邀请了法律方面的专家就相关法律问题进行了深入分享。
通过本次技术交流活动,进一步增强了公司各业务领域团队对于垂直AIGC平台研发及应用实践的理解,技术交流活动形成的各项成果物在未来将进一步支撑公司在垂直AIGC平台应用领域的研发创新及业务开拓。