白鲸开源郭炜:数据领域PK是大模型Transformer vs 大数据Transform

B站影视 2024-12-02 19:41 2

摘要:去年是大模型蓬勃兴起的一年,热度席卷全球,仿佛AI已经可以解决一切问题。今年随着热潮退去,大模型开始进入深水区,试图深入改造各行各业的底层逻辑。而在大数据处理领域,大模型与传统ETL的碰撞更是点燃了新的讨论:大模型算法中有“Transformer”,而ETL中

郭炜

本文由白鲸开源CEO郭炜撰写并投递参与“数据猿年度金猿策划活动——2024大数据产业年度趋势人物榜单及奖项”评选。

去年是大模型蓬勃兴起的一年,热度席卷全球,仿佛AI已经可以解决一切问题。今年随着热潮退去,大模型开始进入深水区,试图深入改造各行各业的底层逻辑。而在大数据处理领域,大模型与传统ETL的碰撞更是点燃了新的讨论:大模型算法中有“Transformer”,而ETL中有“Transform”,二者看似名字相近,却代表了完全不同的世界。有声音断言:“未来,ETL会被彻底取代,因为大模型可以处理所有数据!”这是否意味着数十年来支撑数据处理的ETL将走向终结?还是说,这是一个被误解的预言?冲突的背后,隐藏着关于技术未来的深层思考。

随着大模型的快速发展,许多人开始设想未来是否不再需要传统的大数据处理方式,甚至怀疑ETL的存在价值。大模型能够从海量数据中自主学习规则、挖掘模式,其强大能力令人叹为观止。然而,我的答案是:大数据处理(ETL)不会消失。到目前为止,大模型还是无法解决的一些有关数据核心问题:

效率问题

尽管大模型在特定任务上展现出了卓越性能,但其计算成本仍然高昂。一个大规模Transformer模型的训练可能需要数周时间,并消耗巨大的能源和资金资源。相比之下,ETL基于明确的规则和逻辑进行数据处理,操作高效、资源占用低,尤其在结构化数据的处理上具有显著优势。

在企业日常的数据处理中,大多数任务仍是以规则为导向的高效操作,例如:

数据清洗:通过明确的正则表达式或规则去除异常数据。

格式转换:以标准化格式存储,便于系统间传递和集成。

汇总统计:按天、周或月对数据进行归类、聚合、计算。

这些工作完全可以通过ETL工具快速完成,无需依赖大模型复杂的推理能力。

自然语言的二义性问题

大模型在自然语言处理(NLP)领域大放异彩,但也暴露出其难以解决的根本问题——自然语言的二义性和模糊性。例如:

● 用户输入一个问题时,模型可能根据上下文得出不同的解读,无法保证结果的确定性。

● 数据质量差异可能导致模型推理结果偏离真实需求。

相比之下,ETL流程是“确定性”的数据处理方式,基于预先定义的规则运行,输出结果可预测且符合标准。尤其是在金融、医疗等高要求的领域,ETL的可靠性和确定性是关键优势。

对结构化数据的强适应性

大模型擅长从非结构化数据(如文本、图像、视频)中挖掘信息,但面对结构化数据的特定任务时,往往效率低下。例如:

● 在大规模关系数据库中,传统ETL可以快速提取数据表,完成JOIN、GROUP BY等复杂操作。

● 大模型则需要将数据转换为特定格式才能参与处理,增加了冗余环节和时间成本。

因此,在数据主要以表格或JSON等结构化格式存在的场景下,ETL仍是最佳选择。

可解释性与监管合规问题

大模型往往被称为“黑箱”,即使数据处理完成后,其具体工作机制和决策过程难以解释:

● 结果不可解释:对于监管要求较高的领域(如金融、医疗、保险),大模型的预测结果可能因无法解释而无法采纳。

● 难以满足合规性:许多行业需要对数据流和处理逻辑进行全面审计,而大模型的数据流复杂性和决策机制使审计难度大幅增加。

传统ETL流程则具备高度透明性,所有数据处理步骤都可以被明确记录并审计,符合企业和行业的合规需求。

数据质量与输入标准化问题

大模型对数据质量极为敏感,任何噪声、异常或非标准化的输入都会显著影响模型性能:

● 数据噪声:大模型无法自动辨别数据中的错误或异常值,可能将错误的数据作为“学习素材”,导致预测结果出现偏差。

● 缺乏标准化:输入数据未经过清洗或转换,直接“喂”给大模型可能导致维度不一致、缺失值等问题,这需要ETL等传统工具提前处理。

相比之下,ETL工具可以在数据进入大模型前完成清洗、去重和标准化,确保数据的高质量。

尽管大模型在许多任务中表现卓越,但其计算复杂性、对数据质量的依赖、对硬件的高要求以及应用中的实际局限,决定了它无法完全取代ETL。ETL作为一种确定性、高效且可解释的工具,仍将在未来与大模型共同发挥作用,为数据处理提供双重保障。

ETL无法取代,但不可否认,大模型在数据处理领域的兴起是历史的必然。在过去的几十年里,电脑和服务器都是以CPU为中心,其它叫做外设,也就是CPU才是数据处理的中心,GPU的显卡只是用于玩游戏,而现在变为CPU+GPU(NPU)为中心进行数据处理了。而现在大模型火爆的程度,看看Intel和NVIDIA的股价趋势就知道了,为什么会发生这么大的转变呢?

计算架构的转变:从单一计算中心到多中心计算

过去数十年间,数据处理的架构经历了从“CPU为中心”到“CPU+GPU(甚至NPU)协同”的演进。这一趋势不仅反映了计算硬件的性能需求变化,也深刻影响了数据处理的逻辑与工具选择。

在“CPU为中心”的时代,CPU是计算系统的绝对核心,其它组件(如硬盘、显卡、内存)只是辅助外设。这一架构支撑了早期大数据的ETL流程:抽取、转换、加载(Extract, Transform, Load)的计算模式几乎完全依赖CPU处理复杂的逻辑操作。典型的应用包括数据清洗、格式转换、汇总与整合,其特点是高度依赖顺序计算和可预测的流程。

然而,随着大数据复杂度(音频、视频、文字)和存储的指数级增长,单靠CPU的算力已无法满足需求。GPU的出现,尤其是深度学习崛起后,其并行处理能力和高效浮点计算能力,使其成为大规模数据处理的另一极。如今,NVIDIA的显卡不再只是“游戏设备”,而是企业和科研计算的核心硬件。观察Intel与NVIDIA过去十年的股价趋势,也足以体现CPU与GPU在行业地位上的此消彼长。

从传统ETL到大模型:数据处理范式的演进

传统ETL流程的设计,符合“CPU中心化”的计算模式,注重严谨的业务逻辑处理和高效的存储访问优化。CPU擅长处理复杂但较小规模的任务,例如:

数据清洗与验证:检查和修复缺失或错误数据。

格式转换:将多种数据格式统一为规范格式。

数据聚合:对分散的数据源进行统计和汇总。

在这一过程中,CPU的指令集设计和多核并行能力被最大化利用,满足了大数据应用中“高吞吐量”的需求。

相比之下,大模型的数据处理需求完全不同。深度学习模型的训练涉及高维矩阵运算和大规模的参数优化,GPU凭借其成百上千的并行计算单元,在这一领域大放异彩:

数据预处理:GPU能在训练时实时对输入数据进行归一化和分片处理。

● 模型训练:浮点运算需求高,训练大型Transformer模型需要GPU的强大算力。

● 推理服务:GPU通过批处理优化在线推理的延迟和吞吐量。

这一趋势不只是技术的迁移,也是数据处理范式的演进:从注重“逻辑计算”到追求“类人脑计算”,从结构化数据的处理到非结构化文章、PDF、音视频的处理。

数据处理的内核和外延也从“计算+数据处理”变为了“计算+推理+知识提取”,大模型的出现,数据处理也可以处理知识了。

另一外面,现在大模型数据处理还有很多痛点问题无法解决,也需要用更高级的方式来解决。

尽管大模型在许多领域表现出强大的能力,但其背后的数据处理却面临诸多复杂且尚未完全解决的挑战。这些痛点不仅限制了大模型的效果发挥,也迫使企业重新思考数据处理的架构设计。

数据处理环节复杂且冗长

缺乏有效的数据处理机制,让大模型对语料数据的依赖使得数据处理成为一个高度复杂的技术体系,包含多个环节:

● 语料归集:企业需要整合分散在各个部门的语料资源,包括人、财、物等领域的数据。这一过程往往受到数据孤岛和权限限制的困扰。

● 数据清洗:去重、编码处理、拼写纠正等操作是语料质量的基础,但面对海量数据时,现有的工具和算法效率不足,难以快速完成。

● 数据预处理:包括分词、词形还原、词干提取等,这些任务需要高度定制化的工具链,而不同语种或领域的差异加剧了复杂性。

● 数据增强:同义词替换、回译、噪声注入等增强技术需要针对模型目标进行调整,过度增强或不适合的增强方式可能对模型训练产生反效果。

● 数据标注与准备:标注质量直接影响模型的表现,但标注工作量巨大且昂贵,自动化标注技术的精度仍待提升。

大模型缺乏有效的数据处理工具

缺乏有效的数据处理工具,这使得大模型数据处理的效率和一致性大打折扣:

1. 重复劳动严重,效率低下在不同团队进行大模型数据处理时,语料归集、清洗、预处理、增强、标注等环节需要从头手工搭建。由于没有统一的模板化工具,每个团队往往需要重新设计流程,导致大量重复劳动,严重浪费时间和资源。

2. 处理流程割裂,难以复用数据处理流程缺乏模块化设计,导致各团队自行开发的流程无法标准化或复用。例如,一个团队开发的文本分词或语料增强方案无法轻松共享给其他团队使用,造成了资源的浪费和协作效率的低下。

3. 缺乏灵活扩展性,难以应对多样化需求没有插件化的架构,各团队在面对特定场景(如行业特定的语料处理或RAG优化)时,需要自行研发和调整算法。这种“从零开始”的方式不仅耗时长,还难以快速响应业务变化的需求。

4. AI资源分散,专家支持不足当前企业内部的AI专家资源往往是分散的,各团队独立探索大模型应用时,算法调优问题(如幻象现象和RAG优化)只能依赖本地团队解决,缺乏系统性的集中支持。这种低效的资源利用模式,导致了问题解决周期长,影响了大模型应用的整体成效。

5. 数据处理质量不一致,缺乏标准化工具意味着不同团队可能使用不同的方法处理数据,导致数据质量参差不齐,最终影响大模型训练和推理的效果。这种不一致性不仅增加了维护难度,还可能导致业务决策的误差。

6. 高昂的开发和维护成本,在没有统一工具的情况下,各团队需要花费大量资源进行流程开发、优化和维护,而这些投入很难在企业层面实现规模效益。例如,每个团队都需要独立处理分词规则、增强算法、提示词优化等,造成了技术资源的浪费。

缺乏有效的的工具,企业在大模型数据处理中陷入了高成本、低效率和资源分散的困局。如果不能解决这些痛点,大模型的实际应用能力将难以释放,企业也难以在AI驱动的竞争中占据先机。这一现状迫切需要通过新一代标准化工具来解决,为大模型数据处理提供更高效、更灵活、更统一的支持。

随着技术的不断进步,大模型与传统ETL逐渐走向融合。在未来的数据处理中,新一代的ETL架构会要融合大模型的智能与ETL的高效,变为万物皆可处理的大模型大数据框架:

硬件:数据处理单元的融合

数据处理的基础单元正从单一的CPU主导,转向CPU与GPU的分工协作:

CPU擅长基础任务:完成初步的数据清洗、整合与简单规则处理,如对结构化数据的抽取、转换、加载。

GPU驱动深度分析:利用强大的并行计算能力,在预处理后的数据上,进行大模型训练与推理任务。

这种融合趋势不仅体现在技术层面,还反映在产业动向中:Intel布局AI加速卡,推动CPU+AI协作;NVIDIA尝试进军数据处理领域,将GPU的应用扩展至传统ETL场景。CPU与GPU的协同,将为下一代数据处理提供更高的效率与智能支持。

软件:数据处理架构的融合

随着ETL与大模型功能的深度结合,数据处理架构正在演变为一个多功能的协同平台:ETL作为大模型的数据准备工具。

大模型在训练前需要高质量的输入数据,而ETL可以完成数据的初步处理,为大模型提供最佳的训练条件:

去噪与清洗:剔除噪声数据,提高数据集的质量。

格式化与标准化:将多种数据源格式统一为适配大模型的输入格式。

数据增强:通过规则化增强和预处理,扩充数据规模,丰富模型学习的多样性。

架构:AI增强型ETL架构的出现

未来的ETL工具将嵌入AI能力,实现更加智能化的数据处理:

Embedding能力:ETL工具将集成Embedding生成模块,为数据的向量化处理提供支持。支持对文本、图像、音频等非结构化数据生成高维向量表示;利用预训练模型生成语义嵌入,用于下游的大模型训练和语义检索任务;在ETL流程中直接完成Embedding计算,减少对外部推理服务的依赖。

LLM知识提取能力:结合大语言模型(LLM)的知识抽取功能,ETL工具可以高效处理非结构化数据,例如,从文档、网页、对话中提取结构化信息,如实体关系、事件信息;利用LLM生成复杂数据字段的补全和推断,例如生成缺失数据值或预测未来趋势;在数据整合环节,基于LLM实现多语种数据的翻译和语义对齐。

非结构化数据识别与关键帧提取能力:AI增强型ETL将原生支持处理视频、图像和音频等非结构化数据。自动识别视频内容中的关键帧,用于数据标注或训练集生成;从图像中提取特征信息,如对象检测、OCR识别等;音频处理支持语音转文本、情感分析等,生成适合大模型训练的输入数据。

动态清洗规则:AI增强型ETL可以根据数据的上下文动态调整清洗与增强策略,确保处理的高效性和适用性。实时检测数据异常并生成适配的清洗规则,例如自动纠正偏差或补全缺失值;针对不同场景(如金融、医疗、营销)优化清洗策略,使数据更加符合领域特性;利用AI分析历史数据,预测潜在问题并提前优化处理流程。

数据自动增强与生成:通过AI模型嵌入,ETL工具能够动态实现数据增强。基于原始数据生成更多样本,例如同义词替换、数据回译、对抗样本生成等;为小样本场景提供自动数据扩充能力,满足模型训练需求;跨语言、跨领域的数据生成,支持更广泛的应用场景。

AI增强型ETL不仅是传统ETL的升级,更是数据智能化的一次深刻变革。通过Embedding、LLM能力、非结构化数据处理和动态规则生成等功能,这类工具将从根本上提升数据处理的效率、灵活性和智能水平,成为未来企业数据架构的重要组成部分。

举例:新一代AI增强型ETL架构——Apache SeaTunnel

以开源的Apache SeaTunnel为例,这一开源项目正在打破传统ETL模式的局限,通过支持多种新型数据格式和处理能力,展现了数据处理未来的蓝图:

原生支持非结构化数据:SeaTunnel的引擎层面直接支持处理文本、视频、语音等非结构化数据,为大模型训练提供了多样化数据源。

向量化数据支持:支持向量数据结构,使得数据可以直接适配深度学习和大模型推理需求。

嵌入大模型功能:SeaTunnel v2.3.8已经支持Embedding生成和LLM(大语言模型)的Transform功能,打通了从传统ETL到AI推理的完整链路。

“Any 2 Any”能力:SeaTunnel的愿景是实现任意数据到任意目标格式的转换。例如,将数据库、binlog、PDF、SaaS、文章、视频或语音转化为向量化数据,并发送到任何存储或分析平台。

SeaTunnel的案例表明,现代数据处理已经不再是单一的ETL或大模型的任务,而是一种AI+BigData全栈化的协同体系,类似的工具将成为企业AI和数据处理战略的核心。

总结

大模型Transformer和大数据Transform并不是对抗关系。未来的数据处理格局是“ETL+大模型”的深度融合:

1. 数据处理单元将由CPU和GPU协作完成,充分发挥二者的优势,处理结构化和非结构化数据。

2. 数据处理架构将实现动态进化,ETL在作为基础数据管道的同时,将嵌入AI能力,支持Embedding生成、LLM知识提取和智能决策。

3. 以新一代的开源工具如Apache SeaTunnel为代表的新一代AI增强型ETL架构,已经展示了这一融合趋势的雏形,为企业打造“Any 2 Any”数据转换能力,打破传统ETL的边界。

未来大模型与ETL的协同将推动数据处理进入一个智能化、标准化和开放化的新阶段。我们相信,随着技术的不断发展,数据处理将更加贴近企业的实际需求,成为驱动业务创新和智能决策的核心引擎。无论是对数据工程师的角色转型,还是对企业架构的升级,ETL与大模型的融合必将成为未来十年的关键趋势,引领数据处理迈向更高效、更智能的新时代。

·关于郭炜:

郭炜,人称“郭大侠”,白鲸开源CEO,Apache基金会成员, Apache DolphinScheduler PMC Member, Apache SeaTunnel Mentor,ClickHouse 中国开源社区发起人和首席布道师。

郭炜先生毕业于北京大学,现任中国通信学会开源技术委员会委员,中国软件行业协会智能应用服务分会副主任委员,全球中小企业创业联合会副会长,TGO鲲鹏会北京分会会长,ApacheCon Asia DataOps论坛主席,全球中小企业创业联合会副会长,人民大学大数据商业分析研究中心客座研究员。

郭炜曾作为演讲嘉宾出席波兰DataOps峰会、北美Big Data Day,并被评为虎啸十年杰出数字技术人物,中国开源社区最佳33人,金猿榜2023大数据产业年度趋势人物,2024中国数智化转型升级先锋人物,并获得2024年中国互联网发展创新与投资大赛(开源)一等奖等奖项。

郭炜先生曾任易观CTO,联想研究院大数据总监,万达电商数据部总经理,先后在中金、IBM、Teradata任大数据方重要职位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,如Presto、Alluxio、Hbase等,是国内开源社区领军人物。

来源:数据猿一点号

相关推荐