金融大模型数据治理与应用创新

Original 李杨 DataFunSummit

2024-09-11

导读本文将分享关于大模型在金融市场中数据治理与应用创新的技术分享。从金融数据规范、金融数据生产流程、生产问题、AI 原生下的数据生产方式、生产架构、多模态文档理解、AI 大模型下的数据治理架构、数据存储模式、企业级私域大模型数据治理、Multi-Agent 下的智能投顾应用等方面进行介绍。

接下来的分享将围绕下面三点展开：

1. 金融数据的生产现状分析

2. AI 原生下的金融数据生产

3. 数据治理领域的 AI 技术应用

分享嘉宾｜李杨上海恒生聚源数据服务有限公司部门经理

编辑整理｜华永奎

内容校对｜李瑶

出品社区｜DataFun

金融数据的生产现状分析

1. 金融数据相关的指引和规范

首先介绍金融数据相关的指引和规范。

（1）监管文件

在监管文件方面，从 2022 年开始，有《人工智能风险管理指引》、《金融科技创新监管试点指引》、《国家金融监督管理总局关于银行业保险业做好金融“五篇大文章”的指导意见》，人工智能持续、深入到整个金融领域的各个方面。

（2）行业趋势

在行业趋势方面，行业趋势整体上呈现出鼓励金融数据生产加工和消费环节引入 AI 技术、促进创新和控制风险的平衡点。数据在金融科技创新中处于中心地位，定位也越来越具体、越来越重要。在 AI 技术爆发的背景下，数据在金融科技中起着关键作用，数据处于中心地位，整个数据金融慢慢地从幕后走向台前，从附着于某个业务的价值，到展现出独立的价值和影响。

2. 金融数据生产的关键要素分析

下面介绍金融数据生产的关键要素分析。

数据生产的关键要素分析，在 AI 辅助形式下的数据生产的流程示意包括以下部分：

常规的一个生产流程是从互联网上或者一些其他方，获得一个数据源，通常会有一个爬虫服务，做采集。
为了到达采集的目的和效果，因为数据源有时会变动，所以要配置相应的配置人员，做一些采集前的准备和一些配置文件的整理、修订、确认的工作。
如果整个采集服务是正常运转的，那它采下来的文件会放在相应的存储资源中心，涉及到结构化的文件，如表格或者 json 数据等，也有一些非结构的，像文档 PDF 文件、一些图片。
接下来就要进入一个解析服务的环节。常见的解析服务，第一个就是 PDF 文件解析，然后就是 OCR，对图片进行文字提取，除此之外也会涉及到一些表格，如 PDF 里面的结构化的表格，提取会容易一些，否则涉及到一些表格单元格识别分割，还有单元格关系的重建，也会涉及到一些页眉、页脚或者目录版面分割等任务，会涉及到基于文本消除歧义和进行基于自然语言下的纠错。
下一步进入 NLP 域抽取服务，大的层面上会分成文本的分类，然后对这些公司等实体做识别，也会做一些关系抽取、实体消歧。
抽取完导入到开发库，在这个过程中会出现在解析阶段或者抽取阶段有一些错误要修订，需要一些数据加工人员来进行人工操作处理，极端情况下可能某些数据质量很差，就需要全程重做，从爬虫爬下来数据之后的人工处理和入库。
入库后为了保证数据质量，会有一些风控或者数据集合人员持续地在开发库和产品库里做一些相应的数据集合抽检，发现问题反馈或者直接修正。

在整个流程里用了一些 AI 的能力和服务，但是整体上仍然是一个基于上一代传统的思路来构造的。AI 的能力只是介入进来做一些自动化效率的提升和一些对人的辅助和帮助，本质上还是一个以人工为中心的生产方式。

3. 金融数据生产问题分析

下面介绍金融数据生产问题分析。

以人工为中心的金融数据生产方式有下列问题：

生产成本

第一个就是生产成本，生产成本是企业的竞争力或者整个生产力发展最核心和根本的问题。单人工成本逐年升高，对时效和数据质量的要求进一步要求更多的人力投入，技术进步会让单位算力、存储、网络等成本持续下降。

数据时效

第二个就是数据时效，数据时效是妥协的结果，成本可控下始终有提升数据时效的必要性。通过提升自动化率、优化人工排班、分级处理等提升时效的空间已经不大。

数据质量

第三个关键因素就是数据的质量。质量是整个数据生产的生命线，通过人工审核、人工双录、稽核校验、问题专项等方法保障准确率目前已经到了一定瓶颈，自动化工具引入不能覆盖所有数据类型。

AI 原生下的金融数据生产

下面分享第二点，AI 原生下的金融数据生产。

1. AI 辅助到 AI 原生下的数据生产方式转变

首先介绍 AI 辅助到 AI 原生下的数据生产方式转变。

从 AI 辅助到 AI 原生转变带来非常大差异。AI 原生是指以 AI 为中心来构造数据管理业务流程、人机交互、产品设计等。AI 在整个应用中承担起一个类似于大脑的角色。AI 原生的应用首先表现为这种类人的智能体的角色，然后衍生特征就是整体上强调智能优先。数据产品设计工作流的输入，输出的接口，还有评价机制都要以人工为中心转变为以 AI 为中心，以下是比较关键的改变：

第一个是输入输出的内容的变革，原来的输出结果更多在小模型时代或者前 AI 时代，如机器学习时更多的是预测式的判断，如是与否的问题或者多分类的问题，现在在大模型时代下就会变成问答式的。

第二个是交互方式，之前的不管是 APP 或者流程，就是交互的时候大多数是以 UI 交互的方式，甚至说在物理世界可能也都是按钮屏幕的点击，在整个 AI 为中心下的构造，会变成自然语言交互方式。不再是定义几个特定的功能，只能通过事先编制，就是编写好的功能来实现有限的特定问题，而是今天面对的是智能体的角色，认为在这个场景下，需要它做的任何任务都可以以自然语言的形式来和他沟通。

第三个是 prompt 知识的输入重新定义了人工的价值，之前人工的价值可以认为是体力劳动者，可能付出的是一个做某些很具体的事情，如你搬一个箱子或者往前把某个东西移动多远，是这样的一个工作，如果脑力劳动者，制定了一个流程规范或者完成了一个设计，或者白领监督制作了一个流程或者跟进了一个流程。基于 prompt 输入的方式，一定程度上改变了工作的价值，其实是要学会如何和大模型互动和利用大模型能力来辅助完成工作，甚至可以编制出一些更加智能和全面的多任务的一个智能体状态，能直接端到端的输出一些工作，到技术上可能就会从之前多个小模型的 pipeline 方式，然后变成这种 end to end 的直接以任务力度或者一个场景力度来完成工作的方式。

2. 大模型应用下的 RAG 和 Agent

下面介绍大模型应用下的 RAG 和 Agent。

继续延伸，我们用大模型通常有两个主要的技术手段，一个是基于 RAG 的增强检索，另一个是基于 Agent 编排。RAG 进而 Agent 对比如下：

首先是应用阶段，RAG 通常用于微调和推理，Agent 还没有针对 Agent 的直接端到端的训练，更多的还是在推理。

其次价值体现，RAG 是一个放大模型的能力的作用，它就是大模型。如一个文档如果不进行 RAG 的增强，直接提问可能也能问出一些东西，但是相对准确率可能不高，可能换问题比较严重。如果用 RAG 的方法，对它做切片，做向量化，可能效果上就会更好，相当于是把大模型的能力增强，但 Agent 一定程度上相当于丰富大模型的能力，因为大模型其实现在狭义上是大语言模型，在自然语言里面可能有比较强的能力，但是要扩展到自然语言之外，如一个常见的场景，就是订机票、订酒店，那它就不是一个单纯的 NLP 的任务，用 agent 的方式，可以用大模型的编排能力，工具助手来实现一个丰富大模型的能力的目的。

第三适应场景，RAG 可能更适用于垂直领域，有限空间下突破准确率的临界点，Agent 覆盖多种模态和功能点，能够实现端到端的强 AI 的能力突破。

最后 RAG 和 Agent 原理与结构示意图对比。

3. AI 原生下的金融数据生产架构

下面介绍 AI 原生下的金融数据生产架构。

AI 原生下金融数据的生产架构是前期做了一些探索、一些分析，然后结合项目推进的过程中总结出的生产架构。

首先底层就是数据，从归属权力度分成一些外部的数据、内部的数据、三方的采买数据，从类型上有文本、有结构化的数据、图像。

其次涉及到搜索引擎领域场景，外网实时得到的一些数据，采集后对数据先做 embedding，就是统一的向量化。在整个数据生产过程中，根据人工的规则和经验，进入规则库，字段、库表的管理知识的导入，指标知识导入，进入 Prompt 引擎，输入到一个记忆单元。同时过往也会积累到已经成熟的文章，文档解析的服务能力，也涉及到一些图片解析，具体就是一些表格 OCR 能力，也会做一些文本的切片，对某些场景下可能基于正则或者其他人工经验写的一些规则的导入。在相应的前期工作做完之后，也会灵活接入多种内外部大模型的这样一个基座。

然后进入 AgentGroup，会涉及到采集层面、数据生产层面、数据风控层面数据应用，包括意图识别、任务编排、结果生成和反思，最终形成整个的生产过程。生产出来的语料会进入我们的产品层，有语料集，一个是基础数据的产品，还有一个就是训练语料的产品库，还有标准化的 AI 服务，还有原子化的 AI 能力输出。其中基础语料，有我们标准的数据库产品，包含宏观、微观、企业财务等标准的金融数据。大量的 B 端客户在使用，为了适应数据更容易的在 AI 时代下出去，也做了一个丰富数据语义的 AIDB 数据库产品。在蚂蚁的珍小宝场景下供它的股票、在线基金还有一些宏观数据的使用和调用。

在训练语料层方面，当前整个大模型其实面临的一个问题就是高质量的语料其实一直是稀缺的，尤其是中文领域，当前公开爬取的语料也面临着大量的被很多的中低端的模型污染，还有 AI 生成的低质量语料越来越多。

训练语料产品上会是一个比较有竞争力的产品，市场需求也越来越明确，所以我们也做了一些文本语料、结构化的数据语料、向量语料和一些基于人工经验导入的精调语料。

标准化 AI 服务层面，建立了 AI 抽取和解析，还有智能客服和溯源比对能力，关键的产品包括小梵洞见、Warrenq 等，原子化能力是我们过往积累的专家任务，涉及到一些表格的识别目录解析等等。

4. 多模态文档理解

下面介绍基于 OCR 多模态文档理解。

对于比较清晰的文档，OCR 结合当前的一些最新的技术进展，在多模态领域比较好的工作，架构借鉴达摩院 2023 年 mPlug 的架构。整体做一个自适应模态，能实现比较清晰的图表、文档和里面图表的识别。

比较关心的模态是图片、文本、表格，对表格进行一个 table to text 的一个重新表达，之后和文本一起做一些文本向量化。借鉴图片结构，做一个基于 VIT 编码，再对这种特征做 cross attention，类似的交叉，再把它拼接在一起，输入到大模型，解码之后产出相应的文本。

5. 多模态文档理解

下面继续介绍多模态文档理解。

上面介绍基于 OCR free 方式进行多模态文档理解，如 mm-react 方式，它就是一个 Agent 组件或者一个多模态的能力，实际上是基于专家能力来提供的 OCR，在一定程度上也不是一个完整的端到端的状态，而且也受限于调用过程中本身会有一些编排过程中和任务上的损失。

在 ESG 的报告里面，整体上取得比较不错的效果。整个的准确率、覆盖面提升比较多，目前如果说针对这种中低质量和比较不清晰的文档，就是当前多模态的能力，判断还是有一定差距，会持续跟进研发的进展。

数据治理领域的 AI 技术应用

下面分享第三点，数据治理领域的 AI 技术应用。

1. 数据治理领域的 AI 技术应用

数据治理是讨论的很火热的一个话题，因为数据是土地、劳动力、资本、技术之后随着信息化时代兴起尤其是在 AI 时代后公认的第五大生产要素。在数据尤其是大模型时代，数据和大模型是一个非常好的相互促进的关系。理论上数据治理做得越好，数据可能越干净，比较适合训练出一些好的模型，模型就能催生出好的应用，好的应用就会有更多的应用场景，产生更多数据，就可以有一个飞轮效应，正向循环起来。

数据治理面临的问题如下：

只看局部不看整体

第一个是只看局部，不看整体，视角狭隘，认为数据治理就是“数据清洗”，对数据治理缺乏全局视野和整体方案设计。

不重视”最后一公里的问题”

第二个是不重视”最后一公里的问题”，数据治理本身不是目的，治理后怎么用以及产生足够的收益是关键。

数据安全性考虑不足

第三个是整个的数据安全性考虑不足，整体上数据治理缺乏对数据的流转、存储、检索、清洗，还有应用各环节的一个可信的隐私保护和安全合规的设计。

2. AI 大模型下的数据治理架构图

下面介绍 AI 大模型下的数据治理架构图。

企业做数据治理，担心过程中会导致重要数据外泄或者里面有很大的合规性风险，所以也没有做起来。在 AI 大模型下的数据治理，会包含着业务应用数据治理和模型基座。另外在整个治理流程中要辅以一个监控平台和全域的风控能力，基于大模型有三种应用方式，一种是基于 API 的外部大模型，根据企业性质或者应用场景允许你的数据来调用外部的大模型，这种效果比如说 GPT 4 或者更好的模型，然后效果会更好一些。如果不允许的话，其实更常见的形式是一个私域大模型，大部分企业尤其是金融企业，模型是部署到本地，数据不会出来。第三种应用情况是端侧大模型，是企业里面会有一些人、部门或者一些很敏感的数据，即使注入私域大模型也有可能导致数据由于大模型的原因外泄到它管控范围之外的状态，可能更适合端侧大模型，把模型能力主要贡献到一个全流程的风控能力。

关注数据治理的核心单元，在数据治理过程中引入一些计算工具、AI 的工具、小模型或者一些规则工具，形成工具库进行贡献，核心的数据治理单元还是和正常数据治理流程差不多的，包括一些集成开发、清洗索引、标准化等。

做完数据治理之后，形成结构化数据、非结构化数据，多媒体图片、视频数据和治理过程中或者设计过程中形成的日志数据，往上支撑的关键任务其实就是问答创作或者检索推理。

再往上，论证清楚业务价值，认真思考当前的数据治理，要么是提升组织效率、人效，降低公司的运转成本，具体就会有自动化的流程，类 AI 服务贡献、助理或者对外提供智能客服，或者对内知识管理，提升产品竞争力。一个是产品设计的能力，还有是提升产品的体验。第三就是提升风控水平，尤其是金融领域，智能合规、时刻感知到监管的变化或者整个动作过程中是否触发一些不合规的地方，能提醒、风险预警。还有确实发生不合规的事情或者有了紧急状况，一套紧急止血的流程也是智能完成的，而不是当天遇到问题了，先请示领导、找领导的领导，最后制定出某个策略或者翻翻手册我应该怎么做。流程希望 AI 介入能实现实时的真的发生异常情况的紧急止血。风控又涉及到一些隐私的脱敏、合规源数据、数据一致性等，都会变得非常重要，对模型层面也涉及到一些模型的生命周期管理的监控，还有一些常规的数据地图异常报警等。

3. “湖仓一体”的 AI 友好型数据存储模式

下面介绍“湖仓一体”的 AI 友好型数据存储模式。

数据治理后，基于湖仓一体的 AI 友好型数据存储方式是一个比较好的构筑方式，"湖仓一体"（Lakehouse）是一种新兴的数据存储架构，它结合了数据湖（Data Lake）和数据仓库（Data Warehouse）的特点，旨在提供一个统一的平台来存储、处理和分析大量结构化和非结构化数据。

湖仓一体要解决以下三个问题：

数据湖提供了灵活性和扩展性，但缺乏数据治理和优化的查询性能。
数据仓库提供了结构化和优化的查询性能，但缺乏处理非结构化数据和快速迭代的能力。
面向 AI 的原生数据架构设计需要满足多种类型数据的统一服务。

基于此架构，在底层，数据采集包括爬虫服务、扫描服务、人工录入、IoT 设备的序列数据、外部采买的第三方数据，上层是原始数据，包括文本、图片、文档、优化数据、音频、视频等。在上层，分成两个环节，数据湖中构建 OSS 对象存储和 HDFS 分布式存储，把相关的数据先存下来，数仓中 ODS 数据、DW 业务数据、资源索引、核心元数据、日志数据，向量化数据，有相应的资源索引能力，构造数据仓库上基于 AIDB 的设计，要求一些自然语言能力的语义增强。同时供上游的 AI 数据的统一服务平台，最上层应用层有数据的检索任务、问答任务、数据分析任务、数据的应用和数据的生成等，构造一个 AI 数据统一服务平台。

4. 企业级私域大模型数据治理应用

下面介绍企业级私域大模型数据治理应用。

企业级私域大模型是数据治理的另外一个重要方向。私域大模型的状态是让数据治理的价值最大化显现贯穿全局。数据工程是从最底座的模型开始到最终的应用，整个过程中都涉及到非常多的数据清洗、打标构造，还有一系列的数据工程的动作债。在底层的 AI 能力方面，要建设大模型基座或者做基座测评，选好基座，基于 RAG 增强构造，整个流程有一套适应公司的业务需求特点的 Agent 框架。Agent universe 是蚂蚁相对比较好的框架，既支持一个开箱即用的基础能力的特点，也支持一些深度的定制化。上层聚焦数据产品化、agent 产品化、模型训练微调、专家助手建设。在上层，是通用的企业级私域大模型，关注的包括三点：第一点是数据整合与统一数据视角，第二点是数据隐私和安全性的保护，第三点是模型的性能与可扩展、可学习。金融类企业级私域大模型也有自己的特点，关注的包括三点：第一点严格的合规性要求，如果不合规可能会导致非常大的资损和企业系统性的风险，第二点就是模型可解释性和透明性，模型或者整个推理过程，最好给出来结论，同时要给出来结论的原因以及结论支撑数据和数据的来源，第三点是高度的确定性和一致性，不能一次推理是一个状态，下一次是不一样的。最上层拆分成应用，一个是拟人类的 APP，是把人的环节完全拿掉的，如一些客服类似，相当于有一个虚拟人或者智能人存在。第二个就是生产力类 AI，不是要把人拿掉，但是只要这一块功能，类似于写周报或者 PPT 的设计或者设计一个广告文案。第三个是风控类 AI。

5. 以数据为中心构造AI应用

下面介绍以数据为中心构造 AI 应用。

以数据为中心（Data-Centric）和以模型为中心（Model-Centric）的大模型设计范式是两种不同的人工智能系统构建方法，它们在设计理念、工作流程、研发重点、数据依赖性、维护成本上有所区别，详见上表所述。

6. 数据工程分析方法举例

下面介绍数据工程分析方法举例。

在模型层面，对数据进行结构分类，把注意力放在数据上，在构造头部模型助手时，有数据工程的分析方法，在整个投顾领域主要是文本类和结构类数据，不涉及到图片，更多的是以内外部和结构化、非结构化来分。把数据分成四个象限，包括一些新闻舆情、自媒体、论坛、年报、公报公开的订报类数据，一些行业类的三方数据，一些宏观类的数据。数据工程能力包括以下三点：

数据的表达能力

重点是看数据的表达能力，通过数据切片、向量化、ES 召回、实体抽取技术，形成输入大模型前的数据表达服务能力。

数据服务能力

第二个是数据服务的能力，提供一个简单易用的服务提供数据。建立 NL2API、NLP2SQL 的数据服务，形成大模型对数据的消费能力。

prompt 工程能力

第三个是 prompt 工程能力，要跟一些行业专家进行反复沟通，通过业务建模，设计提示模版，建立 AI 模版测评能力。

7. Multi-Agent 下的智能投顾

下面介绍 Multi-Agent 下的智能投顾。

基于上述的数据工程，构造一个基于 Multi agent 的智能头部系统，实现从以 AI 原子能力到 AI 系统能力的突破，利用领域专家经验、利用私域和公域数据获得一个高价值的答案，而不是向一些比较弱的大模型说正确的废话。用户如果问一些头部问题，先经过 prompt 引擎，形成一套 prompt 范例，进入任务编排 agent，agent 同时会外挂一个 RAG 输入，把全金融领域的财务类的数据库与任务挂钩。做一个文档，有结构化数据、有互联网的三方爬取的数据注入，注入完后进入任务编排反思，进入基于细分专家，包括行情、财务，还有风险预警等模块，这种 agent 模块，各个子模块拿到的结果做一个 agent 的总结和反思。风控 agent 只有结果进行产出，对一个问题做一个解释，既会有一个核心观点的表达，也会参考最新的新闻资讯，也会分成从利好的面看利空的面，也会有基本面的分析、公司的亮点、个股排雷。还有为什么得到这个结论，以及给出相对犀利一点的头部建议，而不是说给出一个可能是这样，也可能是那样的结论，没有非常好参考价值，从而让他觉得这些智能不能帮到他，没有生产力的价值。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

李杨

上海恒生聚源数据服务有限公司

部门经理

2016 年硕士毕业于南京航空航天大学交通信息工程及控制专业，过往先后在阿里巴巴集团淘系技术部、新浪微博从事 CV、多模态、推荐算法的研发工作。2023 年 2 月起，开始在上海恒生聚源数据服务有限公司担任 AI 生产部技术经理，聚焦金融数据领域 AI 技术研发、产品化和应用场景落地。在文档智能理解、数据生产大模型、多 Agent 金融场景服务方面取得多项技术突破和应用场景落地，在提升数据生产效率和数据质量的同时，也为金融数据消费场景的智能化转型贡献力量。

活动推荐

往期推荐

生成式AI带来的冲击与改变，我们讨论得还远远不够

多模态在京东内容算法上的应用

LLM+RAG：大模型在金融场景的落地探索

智能电销新纪元：大模型技术的应用与未来趋势

Apache Hudi 从零到一：初识表服务：压缩、清理及索引（五）

小红书推荐系统迭代：AB测试架构的高效与稳定性策略

7倍性能提升｜阿里云AnalyticDB Spark向量化能力解析

FinLLM：金融大模型真实场景落地实践

数据普惠与智能分析:LLM时代下指标平台的构建与创新实践

数据治理体系建设与落地探索

点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个

DataFunSummit

向上滑动看下一个

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

金融大模型数据治理与应用创新

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

生成图片，分享到微信朋友圈

金融大模型数据治理与应用创新

您可能也对以下帖子感兴趣