摘要:在 AI 发展的三要素——算力、算法与数据中,“数据”正日益成为决定 AI 效果与落地质量的核心因素。相较之下,算力成本持续下降。例如 GPT 模型的 Token 调用成本在过去一年多时间里已下降超过50倍,随着国内异构算力体系的不断完善,整体算力价格仍有进一
导读本文来自腾讯云副总裁黄世飞先生,在腾讯全球数字生态大会,腾讯云大数据 Data+AI 专场的分享。将介绍腾讯云 AI-Ready 的数据平台建设进展。
包括以下几个部分:
1. 背景挑战:高质量数据是AI差异化竞争的关键
2. 架构创新:腾讯云AI Ready数据平台的三大核心能力
3. 生态落地:腾讯云携手行业伙伴推进产业智能化转型
01
背景挑战:高质量数据是AI差异化竞争的关键
1. 算力成本下降,算法模型开源化,数据成为关键竞争力
在 AI 发展的三要素——算力、算法与数据中,“数据”正日益成为决定 AI 效果与落地质量的核心因素。相较之下,算力成本持续下降。例如 GPT 模型的 Token 调用成本在过去一年多时间里已下降超过50倍,随着国内异构算力体系的不断完善,整体算力价格仍有进一步下探的空间。
在算法与模型层面,以 DeepSeek 等开源大模型为代表,企业正越来越多地选择将开源模型进行后训练与强化学习,以适配自身的业务场景与需求。目前已有近60%的企业正在拥抱开源大模型体系,这一趋势推动了 AI 技术在产业侧的快速落地。
再者是数据,作为企业的核心竞争力,当前大模型所依赖的知识大多来自公域,企业如何将自身知识与 AI 有效结合,成为至关重要的问题。
2. 企业面临的主要障碍:多模态数据处理、实时性要求、知识库构建成本高、数据与 AI 平台割裂
目前近四成企业认为数据是影响 AI 实施的主要障碍。造成这一问题的原因在于,要充分发挥 AI 能力,首先需要构建高质量的数据体系,而这对数据平台提出了很高的要求。从当前数据平台的现状来看,整体适配 AI 的能力仍相对滞后。
首先,传统数据平台主要处理结构化数据,对于非结构化数据的支持不够完善,因此,多模态数据的处理成为一项关键挑战。
其次,随着业务对实时性的要求不断提高,例如游戏行业对营销时效的要求、汽车制造企业对车辆数据实时决策的需求,平台对数据记录的实时性提出更高要求。
最后,在构建企业知识库方面,当前普遍采用 RAG 技术,但其构建成本仍然较高。
从平台架构来看,数据平台与 AI 平台之间存在割裂现象。许多企业中,数据团队与 AI 团队分属不同部门,数据共享与权限管理协同不足,导致数据无法高效流转。这是因为数据分析门槛与链路高,导致决策慢。再者大数据本身是组件非常多的系统,一旦某个部分出了问题如何快速排查也是问题。此外,非结构化数据的统一管理也是一大难点,如何把非结构化数据与结构化数据结合建立起一个统一的目录和统一的资产管理体系实现统一治理,成为企业面临的重要挑战。
02
架构创新:腾讯云大数据 AI Ready 数据平台的三大核心能力
1. 云原生数据基座:夯实多模、实时、知识库能力
(1)DIaaS 平台:多模态数据处理开箱即用
在平台建设方面,腾讯云推出了新一代智能数据平台 DIaaS,该平台有两方面的提升,一是怎样解决资源不足时快速整合资源以应对高峰,同时更好支持离在线的稳步模式,二是怎样进一步提升非结构化的多模数据。
在 Meson 的计算引擎之上增加 XPark 的能力,是专门针对多模态数据做的数据引擎,底层采用支持结构化与非结构化的多模数据湖 TCLake。TCLake 采用创新的统一元数据服务,能够同时管理结构化和非结构化数据,并提供高效的计算加速能力。实测数据表明,该 Lakehouse 架构在计算性能方面实现2.7倍提升,存储成本降低30%,读写性能提升30%,整体存储成本降低50%,大大简化了 Data+AI 的技术架构。
(2)流湖引擎 Setats:实现业务实时分析决策
在当前业务对实时性的要求日益提高的背景下,传统数据系统架构已难以满足分钟级甚至秒级的处理需求。以往系统多采用类似 Lemma 的架构,数据自 Kafka 接入后,经由 HBase 进行实时处理,再同步至 Hive 进行离线分层建模与分析。这种“离线+实时”双链路架构存在显著弊端:一方面存储成本高昂,另一方面在时效性上往往只能达到 T+1 或小时级,难以支撑对高实时性的数据分析需求。
腾讯云推出的新一代实时数据湖引擎 Setats 通过统一 Kafka 之后的整个数据处理 Pipeline,实现流式与批处理的一体化,显著提升了链路处理效率。核心架构中嵌入增量计算引擎,使数据处理能力从小时级提升至秒级,满足了对高频决策支持的需求。
此外,得益于存储架构的统一优化,整体存储成本降低约30%;
同时,由于系统架构简化,平台的运维复杂度大幅下降,相关人力投入减少约45%。
(3)ES 智能搜索:构建企业知识库应用
在传统架构中,企业知识库通常通过 Elasticsearch(ES)实现文本检索,结合多模态数据 Embedding 向量生成,再进行融合排序以返回结果。然而该方案存在两大问题:其一,架构复杂、部署成本高;其二,构建与运维门槛较高,难以满足高效开发需求。
针对上述挑战,腾讯云通过跟 ES 商业公司合作,推出“混合检索 + AutoRAG”的解决方案,有效降低企业构建知识库的门槛。在该方案中,ES 不仅支持传统的文本检索,还内置向量检索功能,实现文本与向量的一体化检索,统一返回结果。同时,在 RAG 构建过程中引入智能化能力,支持一键生成 RAG 方案,显著简化开发流程。
在性能方面,该方案在10亿级向量规模下可实现毫秒级响应。通过多级并行查询与文本过滤策略,整体检索性能提升约10倍。同时,在存储优化上,通过向量裁剪与量化等技术,实现了70%至90%的空间节省,进一步降低了系统运行成本。
2. Data+AI 一体化体验:WeData 平台打通全流程
(1) WeData OneFlow :打通数据工程与 AI 开发,解决平台割裂
在 AI-Ready 基础设施之上,构建面向数据工程师、数据科学家及算法开发者的一体化平台至关重要。为此,腾讯云推出了端到端的数据与 AI 融合平台——WeData,旨在实现从数据采集、集成、开发、治理到模型训练与部署的全流程一站式打通。
平台核心能力之一是 WeData OneFlow 服务,它通过统一的调度引擎,打通了数据工程与 AI 开发之间的链路,解决了传统架构中数据平台与 AI 平台割裂所带来的痛点。例如,在过去,模型训练往往需在 AI 平台上重复导入数据,且权限体系分散,缺乏统一管理;而 OneFlow 将数据编排、特征生成、模型训练与部署整合至同一平台,实现流程无缝衔接。
在架构底层,平台通过对多模态数据(结构化、非结构化)进行统一管理,为 DataOps 与 AIOps 融合提供坚实基础。同时,平台内置全链路数据血缘能力,保障数据使用的可追溯性与合规性,提升协同效率。
(2)WeData 多模一体化:构建 AI-ready 统一语义
为实现对数据资产的全面管理,WeData 还构建了统一元数据服务体系。过去,大多数元数据平台仅能覆盖结构化数据,如库表信息等,而忽视了模型、文件等非结构化或半结构化资产的管理需求。对此,腾讯云提出以“数据即资产”的理念,将模型、文件、指标等纳入统一元数据管理平台。
整体上,WeData 的数据治理体系由三层构成:
底层统一元数据基座:对结构化数据、非结构化数据、模型与指标实现统一接入与抽象;统一治理平台:提供覆盖全栈的数据血缘、质量监控与资产管理能力;统一语义层:面向智能BI与自然语言问数场景,提供标准化指标与语义表达,提升分析的准确性与智能化水平。通过这三层架构,WeData 有效实现了数据与 AI 的深度融合,打通了业务团队与技术团队之间的协作壁垒,显著提升企业数据智能化能力。
在构建统一的数据工作流与元数据平台的基础上,腾讯云进一步探索如何通过引入智能化能力,提升平台的交互性与自动化水平。其中,Agent 体系成为智能平台建设的重要方向。腾讯云已在多个关键领域开展实践,其中两个具有代表性的场景包括:面向业务用户的智能问数工具 ChatBI,以及面向平台自动化运维的智能管家 TCInsight。
3. 智能化 Agent 能力支持:提升交互与自动化水平
(1) ChatBI Agent :自然语言自主分析降低 Token 消耗
在实际业务场景中,数据获取流程长期面临效率低下的困境。传统流程通常包括:业务人员提出数据需求、数据团队理解并确认需求、生成报表、反馈给决策者,整个过程耗时长、响应慢,难以应对临时性、场景化的数据分析需求。
例如,当面临第二天拜访客户的场景时,往往需要迅速了解客户过往一个月的消耗情况、毛利率表现以及价格策略建议。此类临时性需求,在传统模式下通过报表或人工查询难以及时响应。因此,腾讯云开始探索 ChatBI 的能力。
ChatBI 的构建基于 WeData 开发平台,并统一了语义层,为大模型提供稳定、准确的知识输入。在此基础上,通过意图识别和 NL2SQL 技术,实现自然语言到结构化查询的自动转换。
同时,还支持 Function Call 的能力,可在需要时调用底层数据库功能,最终自动返回结果,完成智能问答的闭环。
腾讯云在此过程中采用了关键技术—— NL2SQL,并在 BIrd-Bench 榜单中获得国内第一的成绩。该技术对自然语言查询向数据执行指令的转化至关重要。同时,WeData 的语义层在智能问数过程中,有效降低了大模型幻觉问题,提高了输入的准确性。
另一个关键挑战是多轮对话中 Token 消耗较高。通过其知识符号和上下文能力优化,使 Token 消耗成本降低了约 30%。
(2)TCInsight Agent :实现数据平台“自动驾驶”,降低资源成本
在智能运维方面,大数据系统本身庞大而复杂,如何进一步优化成本,以及在组件出现问题时快速定位并排查,始终是运维中的核心挑战。随着 AI Agent 的引入,如何借助智能手段实现系统调优,显得尤为重要,基于日志与洞察数仓,腾讯云构建了三类 Agent:
自主调优 Agent:用于系统资源调度优化,进一步降低运行成本;自主运维 Agent:提升运维中故障的归因分析效率;预测治理 Agent:将部分原本需故障发生后才能识别的问题前置至事前治理。通过上述 Agent 的应用,整体资源利用率提升,系统资源成本降低了 15%。问题排查效率也显著提升,平均排查时间从原来的 4.5 小时缩短至 30 分钟,事件处理效率大幅提高,更多问题能够在发生前得到处理。相关技术成果也已在 VLDB 等国际会议上发表。
4. 持续开发:构建更多数据 Agent 智能平台
在持续开发方向上,腾讯云计划依托底层的 Agent Magic,通过 TCADP 平台或第三方平台,构建多种数据相关的 Agent。在分析层面,已构建有 TCDataAgent 及数据智能资质相关的 Agent。同时设想在数据平台上,各类 Agent 能够协同完成运维与数据分析工作,从而显著提升整体效率。
5. 应用实践:TBDS 支持国产化融合创新
在适配国产化方面,企业对国产软硬件兼容性、安全性和可迁移性提出更高要求。腾讯云推出的 TBDS 融合大数据平台,实现了对国产主流芯片的全面适配,包括鲲鹏、海光等处理器,支持 X86 与 ARM 架构的混合部署,能够灵活应对金融、能源、政务等关键行业对算力平台异构化的现实需求。
在基础能力层面,TBDS 具备 IPv6 支持与多活灾备能力,确保平台在高可靠、高可用场景下稳定运行。同时,通过工具化、产品化的迁移方案,企业可将原有系统快速平滑迁移至 TBDS,大幅降低国产化转型过程中的技术门槛和迁移成本。
得益于对底层核心引擎的深度优化,TBDS 整体平台性能提升达65%。在安全合规方面,平台已全面对接主流行业标准和监管要求,满足银行、保险等机构的严苛合规规范。该方案目前已在中信银行成功落地并实现规模化应用。
03
生态落地:腾讯云携手行业伙伴推进产业智能化转型
1. 腾讯云大数据获权威认可
腾讯云始终坚持“共赢、共创、共成功”的合作理念,积极构建开放、协同的大数据生态体系。在过去几年中,腾讯云大数据在多个权威评估中表现优异,连续入选 Gartner 与 IDC 等国际分析机构报告,并在南方电网、长城人寿、中央广播电视总台等项目中获得国家级大奖认可,同时在Gartner的研究中获得了全球第三和国内第一的成绩,有高质量的论文被纳入其中。
2. 源自开源,回馈开源
在开源领域,腾讯云长期投入并积极贡献,持续参与 Elasticsearch(ES)、Apache Doris、Apache Iceberg 等开源社区建设,并在 ClickHouse 领域取得突破性成果。自研的 ClickHouse 发行版 TCHouse-C 在全球权威性能评测中位列生态产品第一,腾讯内部也部署了全球规模最大的 ClickHouse 集群之一。
3. 携手更多生态合作伙伴共赢
目前,腾讯云已携手超过800家生态合作伙伴,覆盖金融、医疗、能源、制造等重点行业,未来,腾讯云将与合作伙伴持续打造面向未来的产业智能化能力体系,共同推动数据产业高质量发展。
来源:DataFunTalk