摘要:导读快手数据平台部致力于提升数据决策效率,通过构建先进的计算引擎和高性能的数据服务,为业务提供全面的数据分析支持。作为国内排名前列的数据平台,快手的 BI 工具链涵盖了多个层面的数据分析需求,从基础的数据接入到高级的数据应用,为用户提供了自助式的数据分析解决方
导读快手数据平台部致力于提升数据决策效率,通过构建先进的计算引擎和高性能的数据服务,为业务提供全面的数据分析支持。作为国内排名前列的数据平台,快手的 BI 工具链涵盖了多个层面的数据分析需求,从基础的数据接入到高级的数据应用,为用户提供了自助式的数据分析解决方案。在 BI 发展过程中,快手不断整合多系统,结合 AI 技术探索智能化场景,推动智能化 BI 产品的建设和应用。然而,随着智能化发展,平台面临着用户需求多样性、数据质量问题和技术实现的挑战。为应对这些挑战,快手提出了一套过程可控、结果可信、模式可行的解决思路,利用 AI 技术不断优化和提升智能分析能力,旨在低成本实现大规模的智能化落地与应用。本文将分享快手 BI 在智能化方向上的探索与实践。
主要内容包括以下几大部分:
1. 背景介绍
2. 挑战与解决思路
3. 解决方案
4. 应用实践
5. 未来与展望
6. 问答环节
分享嘉宾|钱佳 快手 大数据平台技术专家
编辑整理|陈思永
内容校对|李瑶
出品社区|DataFun
首先来介绍一下快手数据平台部。
快手数据平台部的职责是通过先进的计算引擎、高质量的数仓建设、高性能的数据服务,以及一系列数据解决方案,来提升数据决策效率(包括分析决策和实验决策),利用数据助力业务提升。当前快手大数据规模位列国内 Top 级别。
2. 快手大数据分析
快手大数据分析的使命是打造业界领先的一站式数据分析工具链,通过提供全面的分析场景解决方案,提升数据分析决策效率。
上图展示了快手大数据分析的全景图,由上而下分别为:
业务层:覆盖面向个人用户的 DA 类产品、面向运营的平台产品,以及面向主站业务类的在线服务和B端服务等。产品层:提供了两类分析产品,一是通用分析产品,即快手的 BI 产品(KwaiBI);二是专题分析产品,如主站、电商等个性化产品。服务层:支持两大平台,即盖亚标准指标中台和 API 平台;并在此之上提供了三类服务,即数据集查询服务、KV 点查类 API 服务和 SQL 数据表查询服务。接下来将围绕快手 BI 体系展开介绍。
3. BI 平台简介
在介绍快手 BI 之前,先来简单介绍一下 BI 的定义与作用。商业智能(BI)平台是企业将复杂数据转化为有用信息的工具或系统,以帮助业务进行决策和规划。
标准的BI平台处理流程为:
数据接入:通过连接器接入多种数据源,按统一的数据表定义,有效导入 BI 平台。关系建模:对定义后的数据表进行关系建模,定义用户易理解的指标和维度集合(如上图的 GDP 指标、省份、日期、城市等维度)。数据应用:基于数据集查询服务进行分析计算(如计算各市下面的 GDP 分布及异常趋势)。业界 BI 平台的发展经历了三大阶段:
第一阶段:传统 BI,聚焦数据报表功能,需专业人员(如 DA 或 IT 人员)完成高阶分析。第二阶段:敏捷 BI,支持灵活的数据准备、自助分析和可视化工具,形成了一站式平台。第三阶段:智能 BI,面向所有用户,通过AI技术降低数据分析门槛,提升精度与深度。4. 快手 BI
快手 BI 的发展历程如下:
2019 年以前:基于开源+定制,功能以数据提取和简单报表为主,形式较为单一。
2020 年(BI 1.0):初步搭建体系,但存在多套系统、体验割裂、运维成本高的问题。
2021-2022 年(BI 2.0):整合多系统为一站式数据分析平台,建立标准指标体系,覆盖五类用户数据消费场景,支持自助式分析。
2023 年至今(BI 3.0):结合 AI 技术,探索智能化场景(如高阶指标洞察),降低分析门槛,提高自主化分析能力。当前 MAU 达到万级别,并在取数、分析等场景实现了较高的渗透率。
快手 BI 智能化产品的整体建设思路是通过 AI 技术赋能 BI 场景,实现智能化升级。我们梳理了包括综合搜索、SQL 取数、可视化取数在内的十多个重要应用场景,并提供了嵌入式和独立式两种产品模式。通过结合 AI 技术,我们旨在提升智能化水平,提高用户的分析效率。对于一些关键场景,如自然语言取数、指标洞察和结论综述等功能,需要确保高准确性和低用户容错率。
02
挑战与解决思路
1. 快手 BI 智能化面临的挑战
快手 BI 智能化主要面临两大挑战:
首先是高准度取数分析场景落地难。问题方面 - 用户叙述方式灵活,如基于上下文的模糊提问或行业黑话提问。数据方面 - 数据规模庞大(数十万数据集、数千万维值等),数据质量参差(指标定义不一致、命名随意等),数据重复与相似度高(如同一个数据集存在数百个 GMV 相关指标等)。平台方面:基于 NLP 或规则实现成本高且语义理解弱;RAG+大模型生成 SQL 的模式在复杂场景下准确率低。模型方面:通用大模型存在幻觉问题,生成不稳定,性能和成本难以平衡。第二是实现成本高:建设全新智能产品需要投入大量资源,成本较高。2. 快手 BI 智能化解决思路
针对这些问题和挑战,我的解决思路分为过程可控、结果可信和模式可行三个部分。
(1)过程可控
产品层面:支持上下文记忆与多轮追问;提供模糊问题的澄清和确认机制,解决无法同时查询的指标维度或存在歧义的问题。
数据层面:确保高质量的元数据接入,通过元数据预处理和元数据质量评估;对于质量较差的元数据,依托快手标准指标中台对元数据进行管理和规范化。
平台层面:实施精细化流程处理,拆解粗粒度流程,把每一步做到极致,例如:多路召回、重排序、多次大模型交互等优化,实现更高效的智能化操作。
模型层面:针对不同功能进行垂直领域模型训练与推理优化,并结合自动化测试与反馈机制来加速模型效果优化迭代节奏。
(2)结果可信
意图解析可干预:事中,通过对模糊问题澄清确认,进一步明确用户意图,从而得到准确的取数结果;事后,通过 GUI 进行分析要素编辑,实现”递进式的二次分析“。对齐看板模式可验证:针对业务门户,提供对齐看板模式(这里补充说明一下,BI 数据体系包括三道,第一道数据应用,包括多个业务门户,一个业务门户包括多个看板,一个看板会包括多个图表,对于第一道业务门户取数,在元数据录入的过程中,会把指标、维度关联的图表以及组件元信息也录入进来)。通过复用模式(基于原图表)、联动模式(基于原图表+全局筛选)、洞察模式(基于原图表+扩展的分析要素)三种模式实现基于看板图表的“二次分析”,进而实现取数结果的可验证。(3)模式可行
经过上述能力建设和优化,我们可以让智能取数场景能够真正落地和使用起来,认为这个模式是可行的;并通过结合 AI 挖掘机会点、复用沉淀的技术、已有的能力、数据或者模式可以低成本的实现其他 BI 场景智能化;并不断提高智能化水平并确保数据可信,逐步实现大规模推广应用。
接下来介绍具体的解决方案。
核心设计理念为,基于企业级快手BI的能力,结合大模型,也就是 BI + AI,实现 BI 场景的智能化。整体架构分为三层,即数据来源、基础服务和应用服务。其中基础服务又包括 BI 分析服务和 AI 智能服务。
这里重点介绍快手的一些特色服务:
标准化指标中台服务:实现指标维度定义和管理,实现了一处定义、多处复用,解决了元数据质量差、口径不一致等问题。统一数据集服务:整合标准和非标准数据集服务,提供元数据和查询支持,为智能取数打下基础。下面重点介绍 AI 智能服务。
AI 智能服务为“三横一纵”架构。
基建层:包含通用大模型、垂直领域模型,以及向量数据库等基础设施。业务框架层:实现智能化核心逻辑,包括 Agent 管理、对话管理、复杂分析场景工作流编排等,并基于 Lang Chain 衍生出了一些核心工具能力。接口层:通过 HTTP、RPC 协议开放智能服务能力,提高业务分析能力。智能化周边生态能力:包括算法库、元数据质量评估、自动化评估等。此智能服务架构,具备易扩展特性,可通过工作流编排,实现对复杂场景的支持,并提供了完善的评测工具和反馈机制,从而加速了模型优化与迭代。
BI 场景接入 AI 智能服务流程大致可以分为四步:首先是原生 BI 场景的一些能力,如找数、取数、分析等;通过样本训练垂直领域模型,针对调优后的领域模型进行服务化(提供推理能力),并进行推理优化;接着,根据场景灵活适配,包括对元数据层、对话层和工具层的适配;最后,根据领域模型生成的 DSL 或 API 参数调用原生 BI 能力。
上述接入流程具备三大特点:
可控性强:链路清晰,可针对具体步骤或能力进行细致优化。准确率高:垂直领域模型训练后,推理结果准确性高,生成稳定,性能高、成本低。复用性高:通过数据、链路和BI能力复用,低成本实现其他 BI 场景智能化。04
应用实践
快手 BI 已在五大场景和十余个小场景实现智能化落地,涵盖取数、找数、可视化分析等功能。取数场景细分为 SQL 取数和对话式取数,实现了 SQL 续写、纠错,以及对话式(自然语言)取数等场景落地。目前对话式取数已完成针对前两道(BI 数据体系分为三道:第一道数据应用包括通用分析和专题分析、第二道数据集和第三道数据表)即支持通用分析、专题产品等取数需求,同时利用对齐看板模式来保证取数结果可验证。
下面对 SQL 取数、对话式取数,以及分析场景下的归因分析和结论综述进行详细介绍。
1. SQL 续写
用户可通过智能 SQL 续写加速取数分析效率。SQL 续写处理流程包括数据接入、数据加工、模型训练、在线推理服务、效果评估和用户反馈。核心技术为垂直领域模型训练(其借鉴了Java 代码续写训练思路),包括程序分析和指令微调两大核心步骤。
当前 SQL 续写已得到广泛应用,每周生成数十万行代码,全库生成率约 10%。
2. 对话式取数
整体流程:意图理解、分析要素召回、排序、生成 DSL 和查询执行。图中绿色方块表示的是与大模型交互的部分。
例如,一个取数问题为“昨日女装亲子的大盘 GMV”,其中大盘 GMV 指的是风控后支付 GMV。经过分析要素召回,可以得到一个经营分析 DEMO 数据集,其中包括风控后支付 GMV 这一指标,以及 8 个与女装相关的维度。进一步需要做维值澄清,以明确用户意图。澄清后进行问题改写,得到较为明确的问题,再次经过分析要素召回和排序等处理流程,得到唯一符合预期的维度,再调用大模型结合分析要素,生成取数 DSL,最终执行该 DSL,得到取数结果。对于图中的合并 DSL 处理,当前采用对齐看板模式进行验证,对齐看板模式分为:原图表复用模式、原图表+全局筛选联动模式,以及原图表+扩展要素洞察模式,支持递进式二次分析的同时,可以确保取数结果可信。
目前对话式取数已接入数万个数据集和指标、百万级维度,离线准确率约 70%。
3. 归因综述
在取数基础上,还提供归因分析的能力。例如,图中的问题,经过意图理解,得到一个工作流,首先是智能取数,接着进行归因分析,联动 BI 归因组件进行趋势对比、指标拆解和贡献度计算等固定编排,最终给出结论综述。
05
未来展望
截至目前,我们已实现十余个场景的智能化实践,大部分工作主要围绕描述性分析展开。
接下来,将进一步加强 BI 与 AI 的融合,深化数据分析能力,构建智能分析场景闭环,从而持续提升用户分析效率与决策效率。
A1:目前我们的统计口径有两种:一种是全库 SQL 生成率,即 AI 生成并执行或发布的 SQL 占新增 SQL 行数的比例,目前约为 10%;另一种是单兵 SQL 采纳率,AI 生成并执行或发布的 SQL 占 SQL 续写新增行数的比例,当前采纳率在 20% 以上。
未来优化方向包括以下几个方面:
数据精细化处理以保证流程可控性。通过用户样本反馈提升模型生成准确率,逐步实现模型智能化。平台与产品优化(如联想功能)以提高用户使用效率和效果。Q2:如何规避 SQL 取数错误?
A2:SQL 取数门槛高,但用户逻辑清楚,错误概率低。SQL 续写作为辅助工具,能提高编写效率,但最终逻辑由用户确认。对话式取数依赖看板模式提供可信数据,通过复用模式(基于原图表)、联动模式(基于原图表+全局筛选)、洞察模式(基于原图表+扩展的分析要素)三种模式实现基于看板图表的“二次分析”,进而实现取数结果的可验证。
来源:DataFunTalk