数势科技在 NL2Semantics 与 Multi-Agent 架构上的革新与业务实践

B站影视 内地电影 2025-08-28 17:41 2

摘要:导读本文基于数势科技 CTO 韩秀锋在深圳站的技术分享,深入探讨了 Data Agent 作为企业数字化转型核心驱动力的时代机遇与技术挑战。数势科技作为一家专注于 AI+BI 的 Data Agent 服务企业,从创立之初就定位为服务企业数字化的专业机构。其创

导读本文基于数势科技 CTO 韩秀锋在深圳站的技术分享,深入探讨了 Data Agent 作为企业数字化转型核心驱动力的时代机遇与技术挑战。数势科技作为一家专注于 AI+BI 的 Data Agent 服务企业,从创立之初就定位为服务企业数字化的专业机构。其创始团队来自百度、京东等知名企业,硕博占比超过一半,在 Data Agent 产品的国内标准制定、首个落地以及商业化方面都处于领先地位。目前已成功服务中原银行、上海银行、百信银行、中粮资本、沃尔玛、山姆、宝洁、胖东来、瑞幸等数十个国内 KA 大客户。

本文将详细阐述 Data Agent 如何推动企业数据民主化,实现从数据提取、智能洞察到高阶行动的范式变革,并通过具体案例展示其在金融行业的落地成效。

全文目录:

1. Data Agent 的时代机遇

2. 核心技术突破:NL2Semantics 与 Multi-Agent

3. 行业应用案例:金融行业的落地实践

4. 未来展望

5. 结论

分享嘉宾|韩秀锋 数势科技 CTO

编辑整理|张龙春

内容校对|郭慧敏

出品社区|DataFun

01

Data Agent 的时代机遇

Data Agent 是数据分析领域的一次“时代性机遇”,过去的数据分析经历了从 Excel 处理小数据到大数据概念的兴起,再到数仓加 BI 模式的演进。然而,在 DeepSeek 时刻之前,企业数据能力的构建仍然停留在“软件范式”层面。这意味着,通过技术编程沉淀下来的产品,往往只能表达和发挥企业知识的 10% 左右,许多优秀的个体和数据分析专家的隐性知识难以产品化。

Data Agent 的出现,改变了这一范式。借助大模型的智能化能力,Data Agent 能够沉淀企业的显性知识和隐性知识,并通过大模型的推理加工和多维衍生,产生新的内容。这使得 Data Agent 相对于传统工具而言,具有革命性的变化。如果将传统的数据分析工具比作“油车”,那么 Data Agent 则更像是“自动驾驶”,其天花板更高。此外,由于大模型的加持,智能体的能力真正做到了“人人可用”,不再需要复杂的 Excel 透视表或 BI 工具来绘制图表,极大地降低了数据分析的门槛。

然而,要在企业级落地 Data Agent,面临三大挑战

如何让 Agent 理解和解释企业的复杂语义: 企业,特别是龙头企业,拥有海量数据,表数量可达数百上千甚至上万张,数据量达到 TB 级别。这些丰富的数据资产在企业经营决策中的价值往往只发挥出一两成。如何将这些复杂表的语义以及企业经营知识关联起来,让大模型理解,是首要挑战。如何让 Agent 完成复杂的多维任务: 传统的 BI 或 Excel 范式更多地是表达个体认知和数据洞察视角。Data Agent 需要能够组合并完成复杂的多维任务,从数据中发现问题,找到商业化信号,为解决方案提供参考意见,甚至实现工作的闭环,趋向于“自动驾驶”的落地。Agent 的个性化:在这个时代,每个人都可以拥有 N 多个 Agent,形成以“我”为中心的智能 Agent 超级个体。这意味着 Agent 需要“懂我”,实现“千人千面”而非“千人一面”。

BI 的核心是可视化展现企业数据,呈现数据价值,但其表达方式和内容是数据分析师预设好的。Chat BI 只是改变了交互方式。而真正的 Data Agent,其天花板是“自动驾驶”,相当于从 L1、L2、L3 到 L4 的端到端智能交互。要做好企业级落地,至少需要 L1(数据取数)和 L2(数据洞察)的能力扎实,才能释放出传统 BI 无法达到的能力。

L1 能力,即数据取数,要求做到 100% 的准确性,并且能够自由取数,无需人工干预。

L2 能力,即数据洞察,意味着企业数据的任何信号都能够被发现,而不是依赖于人工盯表。这种洞察能力应该是主动式的,甚至能够发现人经验无法察觉的东西。

在这两个能力之上,当数据出现波动、归因,发现问题和信号后,如何形成解决方案和建议,则需要大模型的推理能力和外部知识的整合能力,类似于“Deep Research”。更进一步,当 Agent 的建议准确性或决策辅助建议达到一定程度,且过程中有人为确认环节时,就可以与其他的执行工作流联动起来,实现自动化决策,例如在茶饮行业中,通过监控单店模型,当外卖订单突然下降时,可以直接对应到 SOP,形成建议性决策。

02

核心技术突破:NL2Semantics 与 Multi-Agent

数势科技在过去两年半的时间里,打造出企业级的 Data Agent 产品,其技术路线可以从底层原理抽象为一张图。过往的“数仓+BI”方案更像是传统模式,即数据分析师需要将数据加工成 BI 报表,或者通过 SQL 工程师从数仓中拉取数据。这种链路的问题在于,每一个非重复的数据消费需求都需要人工参与,导致数据响应受限于人的能力和人数。

数势科技的技术范式则是在原有数仓的基础上,对数仓架构进行重构,打掉数据集市层,让数仓回归基础的数据汇聚,只做到 DWD层。然后,将原始数据通过指标和维度注册到“语义层”。这个语义层是一个无代码的平台,通过拖拉拽的方式,构建企业的智能语义层。它也是从之前“管用源一体化”的 Headless BI 指标加标签平台演进而来,并加入了 AI for Data 的能力,提升了自动化程度。

智能语义层的好处在于,它构建了一个企业的指标体系,是企业运转的数据镜像和孪生。整个指标、维度等都是大模型能够理解的。未来,人与数据之间的交互将由AI智能体进行桥接。这种生产关系的改变意味着:数据工程师回归到数仓部分,负责底层数据表的建设和数据质量的维护;而数据分析师和产品经理则转变为“数字牛马员工的训练师”,在数据语义层和 Agent 层面训练智能体,使其成为可以无限复制的企业级智能体,每个老板和员工都可以配备一个或多个。

从技术架构上讲,数势科技的 Data Agent 是一个开放性的架构,旨在构建一个通用的企业级产品。它需要能够整合企业多元异构的数据,因此设有一个“整合层”。数据引擎部分,通过行业领先的数据指标标签知识库能力,构建了整个企业的数据资产层。由于范式变化,数据交互需要实时性,因此需要一个高性能的数据引擎来支撑秒级响应。

在大模型方面,数势科技坚持“基模会越跑越快”的技术路线,将基础大模型作为核心驱动引擎。将大模型比作大学培养出来的通用博士生,并结合业务领域的一方数据,构建小模型工具集,包含计算、归因等分析算法。在此之上,有一个一体化的智能调度平台。Multi-Agent 和工作编排部分,则通过多智能体架构进行任务规划,甚至在 DeepSeek R1 出现之前,他们就已经在构建自己的思维链(Chain of Thought)。

1. Data Agent 的核心竞争力

挑战一:复杂业务语义的精准映射

传统的 NL2SQL 方案在企业级应用中面临诸多瓶颈。首先是准确率低,在拥有数百上千甚至上万张表的企业级数据库中,NL2SQL 的准确率通常仅为 60%-70%,即使是 GPT 等大型模型也难以直接达到理想效果。其次是性能风险,大模型生成的 SQL 未经优化,可能导致长查询和性能瓶颈,影响实时交互体验。再者是学习成本高,大模型缺乏企业一方数据的预训练,对复杂数据结构和业务逻辑的理解不足。最后是数据安全风险,直接对接数据库可能导致数据权限管控缺失,存在泄露企业核心机密的风险。此外,NL2SQL 的能力单一,难以解决高级分析问题。

突破一:NL2Semantics——企业级语义翻译官

为解决 NL2SQL 的痛点,数势科技创新性地提出了 NL2Semantics 技术路线,旨在构建企业级的“语义翻译官”。其核心在于结合大模型与指标语义层,实现从自然语言到企业业务语义的精准映射,而非直接生成 SQL。具体而言:

数据可信与准确率提升:通过预设数据指标的定义与管理,避免业务理解上的歧义。借助思维链分析和歧义反问机制,提升泛化性,避免直接从文本到 SQL 的误差。这使得数据提取的准确率能够达到 100%,且无需人工干预。性能提升与稳定性:基于自研的数据查询加速引擎,智能优化查询语句,实现秒级出数。即使在 PB 级别的数据量下,也能保证 P95(95% 的请求)在 1 秒内响应,满足实时决策的需求。学习成本低:提供一站式定义、自动开发和管理指标语义的平台,降低使用门槛。全流程白盒化设计,业务人员可使用业务语言描述查询过程,方便快速排查问题。数据安全可保障:利用指标的权限管理能力,对数据和指标进行精细化的权限管控,实现数据查询的安全可控。这比传统数仓的行级、列级管理更为精细,可以针对人、指标、维度进行权限控制,确保每个人只能看到其权限范围内的数据。能力覆盖更全:通过精准的指标关联与展示,解决高级数据分析问题,实现单项数据可查、报表可展示、总结报告可生成。

挑战二:数据分析领域复杂任务的协同

企业级数据分析往往涉及复杂的跨域任务,例如“首先分析我们自己的收入指标增速,然后对比竞争对手的公开数据情况进行 benchmark 分析,然后结合 websearch 新闻,最后给我写一个完整的调研报告”。这种任务需要多个智能体协同工作,传统单点工具难以胜任。

突破二:Data 领域的“Multi-Agent”架构

数势科技引入了 Data 领域的 Multi-Agent 架构,通过多智能体协同工作,实现复杂任务的自动规划与执行。其核心机制包括:

目标驱动:用户设定一个目标,例如“看下近 7 天基金申购人数,哪个渠道跌得最多,写个详细的总结报告”。专家雇佣与协同决策:系统根据目标自动雇佣相应的“专家 Agent”,如取数专家、可视化专家、归因专家、预警专家和报告专家。这些 Agent 通过协同决策,共同制定任务执行计划。N 轮循环与结果评估:任务执行过程中,Agent 会进行多轮循环,每一步的结果都会被评估,确保符合预期。这类似于 DeepSeek 的 COT(Chain of Thought)编排,但更强调工程化和结果校验。
主动找人:Multi-Agent 架构使得系统能够主动感知多模态信号,进行复杂的多指标变化的多维归因,并形成目标行动计划,最终调用工具。这种“问题找人”的模式,极大地提升了业务响应速度和决策效率,且可以一直进化。

数势科技将 Data Agent 的核心能力总结为 MAGIC 框架:

Multimodal Environmental Perception(多模态环境感知):Agent 能够感知并理解结构化数据、非结构化文本、图像和语音等多种数据格式,建立上下文理解。Adaptive Complex Reasoning(自适应复杂推理):基于多层次推理机制,处理因果关系分析、假设验证和异常检测,从海量数据中提取有价值的洞察。Goal-Oriented Planning(目标导向规划):将用户意图转化为具体的分析计划,自动分解复杂任务,并根据执行结果动态调整策略。Inteligent Tool Orchestration(智能工具编排):通过抽象工具接口层,协调调用各种外部工具、数据库和模型,根据任务需求选择最合适的工具组合。Continuous Learning & Iteration(持续学习与迭代):通过用户反馈和自我评估不断优化自身能力,积累领域知识,提高分析效率和准确性。

挑战三:Data Agent 的个性化记忆

Data Agent 要真正做到“千人千面”,理解不同用户的个性化需求,并随着业务动态持续进化,需要强大的记忆能力。例如,不同部门或岗位的用户,对“数据表现”的理解可能完全不同(运营团队关注新客首单人数,经营分析团队关注门店营收)。

突破三:Memory Module——长期记忆模块

数势科技创新性地引入了长期记忆模块,赋予 Data Agent 持续进化的能力,使其能够记住用户是谁,偏好何种提问范式。记忆模块的核心操作参考下图。

通过构建个性化分析图谱(Personalized Analytical Schema)和个性化词典(Personalized Dictionary),Data Agent 能够形成长短期记忆,并具备可进化、可交互、可编排、可冷启动的产品设计,真正实现“越用越懂你”。

03

行业应用案例:金融行业的落地实践

数势科技的 Data Agent 已在多个行业落地,尤其在金融领域取得了显著成效。以某头部城商行为例,详细阐述了 Data Agent 如何帮助其行领导灵活问数,显著提高了经营决策效率。

1. 银行面临的痛点

在引入 Data Agent 之前,该银行面临着以下突出痛点:

数据查询效率低下:银行的业务需求是无限的,但开发资源有限,导致数据查询需求经常排队,响应速度慢。行领导需要通过数据秘书或专职数据分析师来获取各种报表,耗时耗力。例如,原来行长需要找数据秘书或分析师来获取月报、周报等数据,如果记不住数据还会被批评,这仅仅是“找数”的阶段。指标归因分析缓慢:当数据或驾驶舱中的指标发生变化时,传统方式下很难进行深入分析。例如,BI 工具虽然能展示指标变化,但无法直接下钻到问题根源。要找出数据波动背后的原因,需要分析师人工在 BI 工具或 Excel 中进行维度与因子下钻,手工挖掘洞见,这个过程漫长且容易出错。而且,给行长提供的数据需要非常严肃和反复校准,这个过程在银行内部通常需要两到三天,甚至紧急情况下需要通宵达旦。数据解读依赖人工:领导面对大量报表时,难以快速获取核心结论。他们需要人工解读数据,并且无法即时获取数据异动的原因。这导致了决策的滞后性。

2. SwiftAgent 解决方案与成效

数势科技的 SwiftAgent 为该银行提供了全面的解决方案,并取得了显著成效。在产品共创完成后,效果令人满意:

灵活问数与高效查询:行领导可以通过自然语言形式快速获取每日所需的经营数据,并支持智能生成可视化图表。上线一周内,20 多个试点领导与智能体交互达 1200 多次,其中简单的取数响应时间小于 6 秒。这极大地提升了数据获取的便捷性和效率。智能归因分析:系统能够根据行内常用的分析维度与指标的因子关系,进行自动化归因分析与建议生成,帮助行领导快速发现数据异动的原因,形成业务闭环。对于领导关心的指标,基本召回率从最初的 70%-80% 快速提升至 90%。这得益于语义层的构建,它是一个模型概念,具有良好的泛化能力,能够将指标转化为乐高积木般的原子,自由拼装组合,涵盖业务语义。自动报告生成:SwiftAgent 能够基于明细数据自动进行趋势分析、占比分析、排序分析和异常值分析等工作,并将生成的结果以清晰易懂的报告形式展现。报告生成支持上传模板或自由输入需求,可生成图文并茂、数据准确的分析报告。报告的生成时间取决于复杂度,通常在 5 到 20 分钟内完成。

通过 SwiftAgent,银行领导的工作模式发生了根本性转变。当负责的指标发生异动时,系统会直接推送消息到 OA,手机报警。领导打开消息,一点即可查看多维归因报告。他们还可以与 Agent 进行交互,例如要求 Agent 结合其他指标进行对比分析,进而形成归因报告,帮助领导做出判断并采取行动。这使得数据获取成本降至最低,并能将有价值的洞见以结论和报告形式总结出来,极大地提升了决策效率。

3. 核心应用场景

SwiftAgent 在该银行支持的核心场景包括:

理财产品销售分析:帮助理财经理了解市场需求,优化产品推荐策略,例如查询“上个月哪几款理财产品销售额最高”。风险评估:找出贷款违约集中的行业领域,为信贷部门调整信贷政策、加强风险管理提供重要依据,例如询问“近期贷款违约主要集中在哪些行业”。客户行为分析:找出导致客户流失的关键因素,为银行改进服务提供依据,例如分析“客户流失率与哪些因素相关”。分支行业绩对比:为总行领导提供业务指导参考,例如比较“A 分行和 B 分行今年的贷款业务总量对比”。财务分析:计算各项业务对利润的贡献比例,帮助财务部门进行成本控制和利润优化,例如询问“各项业务对利润的贡献比例是怎样的”。信用卡业务分析:找出逾期率最高的客户群体特征,以便银行采取针对性措施降低风险,例如查询“信用卡逾期率最高的客户群体是哪些”。

此外,SwiftAgent 还在对公贷款、存款报送、对公业务拓客转化等场景中发挥了重要作用,显著提升了数据查询准确度、管理效率和审批效率。例如,在对公贷款场景中,指标配置开发时间小于 1 分钟,基础查询小于 3 秒,同环比查询小于 3 秒,归因分析小于 6 秒,复杂查询小于 10 秒。在对公业务拓客转化中,潜客精准度提升 30%,平台活跃度提升 15% 以上,管理效率提升 60%,查询效率提升 2 倍,审批效率提升5倍。这些数据充分证明了 Data Agent 在企业级应用中的巨大价值。

Data Agent 的运转机制,特别是在处理复杂任务(如生成几十页的经营分析报告)时。这个过程需要调度不同的智能体,进行有机的组合,并不断地进行循环校验。例如,一个 Deep Research 报告的生成可能需要大约 10 分钟的离线运行时间。其核心运转机制是:设定目标 -> 多 Agent 雇佣和编排(通过 COT) -> 运转(1-4 步) -> 结果评估(规则+智能)-> 循环 -> 交付符合预期的结果。这个过程中,性能和每一轮结果的评估至关重要。

04

未来展望

Data Agent 正处于发展的早期阶段,但其演进速度将如同大模型一样,呈现出加速度的态势。与过去软件发展模式的线性、稳健增长不同,Data Agent 的发展具有加速性。早期的合作伙伴在使用产品过程中,甚至会发现超出数势科技自身认知的东西,这些经验和能力会反哺到产品中,形成正向循环。这意味着 Data Agent 产品将与用户“越用越快”,不断进化。

数势科技对 Data Agent 的未来发展趋势有以下展望:

1. 从被动到主动:Reactive -> Proactive

Data Agent 将从问答式的被动接受问题、响应任务,转变为主动式的、具有主人翁意识的“数据秘书”。它将主动帮助用户发现问题,甚至预测潜在风险和机遇。这种主动性将是企业数据分析能力的重要飞跃。未来的 Agent 将是企业内部能力的集合,是企业中最有能力的数据分析师的能力加上其他人的能力合集。

2. 从通用到个性化:General -> Personalized

Data Agent 将显著提升对用户个性化需求的理解与实现,从“千人一面”走向“千人千面”。通过持续学习和记忆,每个 Data Agent 都将越来越懂其用户,成为用户能力的有效外延,如同智能手机之于个人。例如,对于“查看北京知春路门店数据表现”这样的简单问题,不同角色、不同岗位的用户,由于职责和 KPI 不同,他们想要的结果也会不一样。Data Agent 需要通过整合知识、索引、更新、遗忘和压缩等机制,构建长短期记忆,实现真正的个性化。

3. 从简单到复杂:Synchronized -> Asynchronized

Data Agent 可以处理的任务将从简单的同步型任务,往异步复杂型任务演进。它将能够结合一方数据、三方数据甚至网络支持,处理更复杂的任务,实现更深层次的洞察和决策支持。目前,Data Agent 在企业级应用中已经超越了现有数据分析产品的能力,并且其外延和空间将更大。

最后向大家倡议,尽管智能体目前可能不稳定且成本较高,但我们仍需积极使用它,因为它像大模型一样,进化速度非常快。从 2023 年下半年开始倡导全员使用编码工具(如百度 Commit、Cursor),最初大家可能抗拒或不习惯,但现在发现绝大部分非创造性的功能模块和可闭环的业务逻辑代码都可以自动生成。Data Agent 也将如此,它的能力已经从 L2 跨越到 L3 阶段,未来将为企业真正赋能。

05

结论

Data Agent 作为推动企业数据民主化的关键技术,正在重塑企业数据分析的范式。数势科技在 NL2Semantics、Multi-Agent和Memory Module 等核心技术上的突破,有效解决了企业级应用中的痛点,并在金融等行业取得了显著的落地成效。未来,随着技术的不断演进,Data Agent 将变得更加智能、主动和个性化,为企业每个人打造“专属业务助手”,真正赋能企业数字化转型。Data Agent 的进化速度之快,要求我们积极拥抱并实践,因为“智能体是越用越快的”。

以上就是本次分享的内容,谢谢大家。

来源:DataFunTalk

相关推荐