6G网络中分布式AI模型协同技术综述

B站影视 内地电影 2025-03-17 19:48 1

摘要:分布式网络人工智能模型协同技术是分布式数据安全流通的底层支撑,是实现6G网络智慧内生的关键技术。对6G网络中的模型协同技术进行了全面的综述。回顾了中心侧大模型中,数据并行、模型并行及混合并行等模型协同技术。面对边缘智能中边缘节点算力及内存不足、通信带宽受限的问

6G网络中分布式AI模型协同技术综述

2

(1.南京晓庄学院电子工程学院,江苏 南京 211171;

2.南京邮电大学通信与信息工程学院,江苏 南京 210003)

【摘 要】分布式网络人工智能模型协同技术是分布式数据安全流通的底层支撑,是实现6G网络智慧内生的关键技术。对6G网络中的模型协同技术进行了全面的综述。回顾了中心侧大模型中,数据并行、模型并行及混合并行等模型协同技术。面对边缘智能中边缘节点算力及内存不足、通信带宽受限的问题,从拆分学习、联邦学习、拆分联邦学习、分布式群体学习等几个方面探讨总结了边缘智能的模型协同技术。最后,强调了在6G网络中,为了不重复训练相似的大模型,需要大小模型协同进化。

【关键词】分布式AI;6G;模型协同;大模型

doi:10.3969/j.issn.1006-1010.20241113-0001

中图分类号:TN929 文献标志码:A

文章编号:1006-1010(2025)01-0043-09

引用格式:张秀贤,朱晓荣. 6G网络中分布式AI模型协同技术综述[J]. 移动通信, 2025,49(1): 43-51.

ZHANG Xiuxian, ZHU Xiaorong. A Survey on Distributed AI Model Collaboration Technologies in 6G Networks[J]. Mobile Communications, 2025,49(1): 43-51.

6G网络的发展趋势是网络无所不达、算力无所不在、智能无所不及。未来6G网络将激活数据要素潜能,基于网络内部和外部数据进行智能分析和协同,助力数字经济,为各行各业提供安全高效的数据流通服务[1]。未来6G网络将通过高速高可靠的网络、泛在的算力及数据提供泛在普惠的人工智能(AI, Artificial Intelligence)服务。特别是大语言模型(LLM, Large Language Model),凭借其强大的泛化能力、理解能力以及生成能力,将其应用在6G网络中,将改变传统网络的设计和运营模式,进而推动无线网络向更高层次的自主性与智能化水平演进[2]分布式网络AI模型协同技术是分布式数据安全流通的底层支撑,是实现6G网络智慧内生的关键技术。分布式网络AI模型协同和迁移与6G网络的深度融合将是网络赋能AI研究领域的发展趋势[3]。在6G网络中,随着大量终端设备的部署和连接,无线大数据以惊人的速度和规模产生。丰富的用户数据和AI技术的最新发展给6G内生智能打下良好的基础,传统的物联网资源配置机器学习方法通常需要单个个体训练,且依赖于智能设备具有强大的计算资源、较高的计算复杂度以及较高的传输带宽,同时,容易引起用户隐私泄露。通过多智能体交互学习信息(如模型梯度、提取特征等,而非原始数据)协同训练统一的AI模型,实现原始数据不出域、数据可用不可见的新型安全流通范式。本文对现有的分布式网络AI模型协同训练的相关技术及其优缺点进行了整理。

许多学者都为此做出了贡献,涉及到AI模型协同的综述也较多,但大多数都分别针对大模型或边缘智能网络的综述,模型协同只作为其中一部分,介绍较少。本文旨在介绍6G网络中常用的AI模型协同技术原理、发展过程及其优缺点,针对性强,覆盖全面,利于读者快速了解6G网络中AI模型协同技术的发展现状。

1 6G网络AI模型协同架构

由于未来6G网络的超大规模、超动态性以及带宽受限等特性,同时,为了保护用户隐私,充分利用边缘节点收集到的数据,大小模型协同学习将会是网络智慧内生的一个可行方案。首先训练全网通用的大模型,然后对大模型进行模型迁移或微调,根据专用数据训练网络专用的大模型,并进一步对网络专用大模型降维、迁移形成网络专用小模型,大模型向边、端的小模型输出模型能力,小模型收集真实场景的增量数据,负责实际的推理与执行。无论是大模型还是小模型的训练都离不开模型协同,如图1所示。本文对中心侧大模型以及边端侧小模型的协同训练进行了整理分析。

2 中心侧大模型

如今智能学习的重大进展大都得益于更加复杂庞大的学习模型,这类模型所需的计算资源和存储资源巨大,一般不能由单一计算节点支撑,因而需要由多节点协同训练,将单节点训练系统转换成等价的多节点并行训练系统,由中心节点实现对训练任务的数据或模型切分,并将训练任务下发给各节点,各节点根据中心节点指派的任务,分别计算各自模型并更新梯度,再通过交互,完成整体模型的训练。当单个节点算力不足时,需要采用数据并行;当单节点内存不足时,采用模型并行;当算力和内存均不足时则采用混合并行。

2.1 数据并行

数据并行,将模型复制到多个GPU上,并为每个GPU分配不同的数据子集同时进行训练[4],这相当于沿批次维度对训练过程进行并行。反向传播后,主节点将模型的梯度聚合,并将模型参数下发给子节点,以便不同节点上的模型参数保持同步。数据并行的优势是实现简单,而且可以灵活地调整工作单元的数量来适应可用的硬件资源。不过随着并行的GPU数量的增加,需要存储的参数副本也随之增加,导致内存开销增大。为了缓解显存的压力,出现了完全分片数据并行[5],在对数据进行切分的同时,将模型的参数也进行切分,每个节点只存储一部分参数信息。在训练前,先从其他节点获取全部参数信息之后在完成计算,再对节点的部分参数进行更新。然而,梯度聚合步骤需要在GPU之间同步大量数据,增加了通信开销,特别是当工作单元的数量增多时,通信延迟过大可能成为模型训练的瓶颈。学者们提出了梯度稀疏化[6]、优化通信拓扑[7]、通信调度优化[8]等各种通信优化方案来降低通信开销。另外,在数据并行过程中,由于中心节点需要频繁和与其他分布式节点通信,导致通信负载不均衡,分布式数据并行[9]应运而生。

2.2 模型并行

模型并行是一种将模型拆分为多个部分,并将其分配给不同的GPU运行,每个GPU上只有部分参数,因此,消耗GPU的显存成比例减少。根据模型拆分方法的不同,模型并行可以分为:流水线并行、张量并行、混合专家模型并行、序列并行等。

(1)流水线并行

流水线并行即将模型按层分割到不同的设备,各个设备顺序执行,从而降低单个设备的显存消耗。传统的流水线并行需要一个GPU完成训练之后,下一个GPU才进行训练,每一个时刻只有一个GPU运行,这导致GPU的利用率极低。Gpipe[10]将传入的小批次数据再进行切分为更小的微批次数据,然后进行前向传播和反向传播。通过在同一时刻训练不同的微批次数据来减小节点的空闲时间,提升GPU的利用率。另外,传统的流水线并行每个GPU一直到最后都需要存储整个批次的激活状态,PipeDream[11]在最终通道阶段完成相应的前向传递后立即开始微批次的反向传递,可以在执行相应的反向传递后立即丢弃低对应的微批次的缓存激活,降低内存占用量。流水线并行的优点有:1)内存优化:通过将模型分割成多个阶段并在不同的设备上处理,可以显著降低单个设备的内存需求,使得能够训练更大的模型;2)计算效率提高:利用多个设备并行处理不同阶段的任务可以提高计算效率;3)可扩展性强:理论上可以无限扩展,只要设备足够,就能处理更大的模型。流水线并行缺点也很明显:1)不同阶段之间的数据交互需要额外的通信开销;2)在各个阶段的计算复杂度不一致,可能会导致某些设备空闲而其他设备忙于计算,造成负载不均衡,部分学者通过引入执行模拟器预测并行策略性能[12]、识别并隔离DNN算子的设备放置核心结构化优化[13]等方式尽可能实现负载均衡;3)需要精确控制各个阶段的同步,确保数据的正确传递,增加了实现难度。

(2)张量并行

张量并行是将架构层内的参数矩阵切分到不同的设备进行计算,训练过程中,每个设备只拥有模型的一部分,减少内存负荷。然后,通过通信和同步操作,确保所有节点上的模型参数得到更新。张量并行在执行过程中的关键点在于:1)参数划分方式的选择,一般可以基于维度、数值范围或结构等特征将大的张量划分为多个小的张量,常用的参数划分方法有嵌入式表示[14]、矩阵乘[15]和随机性控制[16]等;2)依据划分好的张量为各个计算节点分配合适的张量进行计算,需要确保每个节点都能正确地完成参数的更新和同步;3)为促使各个节点之间的协同工作,需要综合考虑通信效率、同步精度及容错能量等因素设计高效的通信机制;4)在确保训练精度的前提下,设计优化算法调整参数的划分方式和任务分配,尽可能降低计算量和通信开销,取得计算和通信开销的平衡。

张量并行可以充分利用多计算节点的计算资源,提高模型的训练效率;将大模型参数分为多个小张量,便于参数的管理和调试。然而:1)由于各计算节点之间频繁的通信,会带来额外的通信开销,需要设计高效的并行算法和通信机制来确保计算的正确性和高效性,避免通信延迟和带宽瓶颈;2)通信机制的设计和优化算法的选择需要考虑到多种因素,具有一定的复杂性;3)在训练过程中可能出现负载不均衡的问题,影响训练的效率和精度;4)通信机制的数据应该考虑到实际硬件环境和网络状况,选择合适的通信协议和通信方式;5)未切分层的梯度、激活值、优化器状态及参数占用内存量大,需要比较高的切分比例,否则未切分的层将成为限制伸缩能力的瓶颈。

基于稀疏层的MoE学习模型[17]与密集模型不同,MoE将模型的某一层扩展为多个具有相同结构的专家网络,并由可训练的门网络根据输入数据的特征,动态地决定激活哪些专家进行训练,从而实现超大规模稀疏模型训练,以达到节省计算资源,提高训练效率的效果,即在扩展模型参数规模的同时显著降低了计算成本,并在自然语言处理领域的多项任务上取得了明显的性能提升[18]。区别于传统密集学习模型,MoE的专家模型专注于特定输入样本,充分发挥不同专家的特长,多个可选专家稀疏激活的设计,使MoE在计算量次线性增加的前提下有效提高了模型的容量和性能[19]。MoE的优势主要体现在:1)根据问题的复杂度灵活设置专家数量、专家规模、甚至专家架构,MoE模型规模可以很容易扩展至万亿级别;2)专家稀疏激活机制保证了模型的计算复杂度随模型规模的扩展而次线性增加,与同等规模的密集模型相比,计算开销显著降低;3)门控网络能够精准地捕获输入样本的特征差异,分配给合适的专家处理,通过对特定数据的针对性训练,专家强化对特定领域任务的预测能力,专业性强;4)路由机制根据输入样本动态激活多个专家,组合多个专家的预测结果,修正专家的预测偏差,提高了模型的泛化能力和可靠性。然而,MOE大规模训练和推理还面临着众多挑战,比如:1)虽然MoE大模型降低了同等参数规模下的计算量,但模型精度往往并不比具有同等计算量的对应稠密模型更高,因此,MoE大模型参数效率较低,内存占用大,硬件需求高,目前常用的解决办法有内存卸载(专家卸载[20]、激活值和临时缓存内存占用优化[21]等)和参数压缩(知识蒸馏[22]、剪枝[23]、量化[24]等);2)MoE大模型分布式训练和推理,专家都需要从其他设备上获取输入样本,通信延迟高,模型执行低效,其主要解决办法有分层通信[25]、通信冗余消除[26]、针对小批量数据频繁通信优化[27]、针对数据切分维度通信优化[28]以及拓扑敏感路由优化[29]等方法;3)系统选择哪个专家的概率是训练出来的,因此,存在专家负载不均衡问题,更为严重的是,这种负载不均衡是动态变化的,严重影响到计算资源利用率和模型计算效率,目前主要的解决办法有专家动态容量[30]、专家和设备负载均衡[31]、专家激活预测[32]、计算和通信流水调度[33]以及计算内核优化[34]等方法;4)专家稀疏激活特性决定一种并行策略难以为MoE大模型的动态专家负载提供最优性能,并行策略需根据专家负载动态调整,以保证高性能表现,因此,MoE大模型并行扩展困难、动态负载性能差,模型执行效率低,其主要解决方法为MoE并行扩展优化[35]。序列并行诞生的背景是自注意力层的内存需求是输入长度的2次方。即长序列数据将增加中间激活层的内存使用量,从而限制设备的训练能力。因此,将序列这个维度划分到不同的GPU上进行并行计算,不再需要单个设备来保存整个序列。文献[36]将输入序列分成多个Chunk,并将每个Chunk输入到相应的设备。为了计算注意力输出,将环形通信与自注意力计算相结合,提出了Ring-Self-Attention(RSA),然而,RSA只针对Bert这种Encoder Only的模型。Megatron-LM[37]在张量并行的基础上,将Transformer层中的LayerNorm以及Dropout的输入按输入长度维度进行了切分,使得各个设备上只需要做一部分的Dropout和LayerNorm。由于LayerNorm和Dropout的计算和激活值都被平摊到了各个设备上,减少了计算资源的浪费,降低了显存开销。Megatron-SP[38]提出了针对Transformer模型的选择性激活重计算(Activation Recomputation)以及序列并行(Sequence Parallelism)方案来减少内存开销。结合张量并行,几乎可以消除重新计算激活的需求。文献[39]采用Blockwise-Parallel-Transformer的方法来降低序列的内存占用量,利用Decoder Only的Transformer模型的Causal特性,任何一个Token都只依赖之前的Token,极端情况下甚至可以逐个Token计算,而反向传播需要的中间Activation可以通过激活重计算的方式节约。以上序列并行受到内存通信效率低的制约,限制了长序列大模型的可扩展性, DeepSpeed-Ulysses[40]提出了用于实现具有极长序列的高效、可扩展的大语言模型训练,DeepSpeed-Ulysses的核心是沿序列维度对输入数据进行切分,并采用高效的All-to-All集合通信进行注意力计算,在序列长度和计算设备按比例增加时可以保持恒定的通信量。这里的DeepSpeed-Ulysses会与DeepSpeed-Zero3结合使用,并且需要Attention head个数是SP设备数的整数倍,即Head数目比较少时并行度不高。Blockwise-Parallel-Transformer的作者基于之前的工作又提出了Ring Attention方案[41],其Attention计算可以看做一个分布式的FlashAttention,然而,Ring-Attention依然需要和激活重计算(Activation Recomputation)结合使用,且可能导致在GPU上的计算效率不高,通信的问题也会更加突出,存在负载不均衡问题。Loong[42]采用2D-Attention来结合DeepSpeed-Ulysses和Ring-Attention,解决了Ring-Attention的负载均衡问题。同样基于ZeRO实现,并且与Selective Checkpoint++相结合。为了支持长视频(序列很长)场景,LongVILA[43]采用了类似Loong的方案,将其扩展到了多模态场景。

2.3 混合并行

为了解决训练模型的算力、内存同时不足的问题,对于一个复杂的模型,通常需要使用更加复杂的混合并行来达到最优效果,通常会将以上几种并行方法混合使用,以充分发挥硬件资源的优势,加速模型训练过程,处理更大规模的数据和更复杂的模型。当前业界的一些大模型就使用了混合并行策略,例如GPT-NeoX[44]、GLM[45]、Bloom[46]都是使用混合并行策略。通过综合利用这些不同的并行技术,能够更好地适应不同的硬件架构和训练需求,从而更高效地进行大规模模型的预训练。混合并行适用于各种模型,可以取得最佳的效果,但是混合并行配置复杂,对工程师要求很高。为了降低对配置人员的要求,部分专家提出了自动并行。用户给定一个模型和所使用的机器资源后,如果系统能够自动地帮用户选择一个较好或者最优的并行策略来实现高效执行,称之为自动并行。因此,自动并行是并行训练的终极目标,它能够减少或避免工程师手动配置分布式并行策略,降低了对配置人员的要求[47]。然而,在目前业界闻名大模型的预练习过程中,自动并行应用较少,主要是因为自动并行复杂度高,实现困难。

3 边缘机器学习

6G网络领域复杂,网络规模巨大,移动设备将呈指数级增长,计算资源由云端向边缘端转移。基于中心云的集中AI平台向分布式的AI平台转变,然而,在边端设备上部署及推理模型过程中,会出现实时分析推理算不完、内存有限模型放不下、通信带宽受限传不出等问题,需要边缘节点协同完成机器学习任务。为了充分利用边缘设备的数据,需要多个边缘设备共同学习,即联邦学习;而当边缘节点算力不足时,则需用到拆分学习;同时,将拆分学习和联邦学习相结合形成拆分联邦学习;针对联邦学习中心节点单点故障问题分布式群体学习应运而生。

3.1 拆分学习

由于单个网络节点在数据、算力和存储等能力方面的限制,难以支撑参数量和复杂度不断增加的模型训练。因此,为了有效解决单个网络节点数据、计算和存储等资源限制问题,出现了拆分学习这一概念[48]。训练模型被水平拆分成终端侧模型和中心节点侧模型两部分,并根据横向切分和纵向切分以及中心侧是否有样本标签信息分为普通型、U型和垂直切分三种,如图2所示。普通型将待训练AI模型水平拆分成终端侧模型和中心节点侧模型两部分。终端利用原始数据进行终端侧模型的前向计算,并将模型分割层的输出特征数据和样本标签信息传输到中心节点,中心节点完成中心侧模型的前向计算,基于模型输出结果和标签信息计算损失函数。然后,根据梯度计算的链式规则,中心节点对模型参数进行逐层反向更新,直至模型分割层。中心节点将分割层的反向梯度传输给终端,终端利用收到的梯度信息完成终端侧模型的参数更新。在更新完成后,终端将更新后的终端侧模型传输给下一个终端,后者重复上述的训练流程。这一过程依次进行,循环往复,直至所有的终端完成训练迭代。U型训练过程的大部分步骤与普通型相似,关键区别在于终端不需要向中心节点传输样本标签信息,当中心节点完成中心侧模型的前向计算后,会将输出结果传输回终端,由终端结合标签信息计算梯度,并发送给中心节点。在垂直切分中,模型被垂直分割而不是水平分割。这种架构适用于多方异构的数据场景。

然而,拆分学习在每一轮训练中通常需要进行多次中间参数的交互,这种频繁的参数交互导致了较大的通信开销。因此,需要降低终端和中心节点之间的通信频次,建立高效的通信模式,或利用模型压缩技术和高效编码方法减少传输数据量。此外,拆分学习的串行训练方式决定了一次训练中只有一个终端与中心节点交互,导致其他终端资源闲置,训练时延长。而并行训练[49]对所有终端进行相同的模型初始化,收集所有终端的中间数据,并返回所有终端平均的梯度值,以保证相同的模型更新。或为每个终端配置边缘服务器,在中心节点引入联邦学习的模型聚合机制,从而能够利用到其他终端的数据。还可以将参与训练的终端按照资源状况聚类分簇,并在簇内并行训练,簇间串行训练,即“先并行后串行”。

3.2 联邦学习

为了有效利用边缘计算资源和实时数据进行模型训练,保护用户隐私,联邦学习应运而生[50]。联邦学习能够在不共享本地数据的情况下完成协同训练,分布式节点根据本地数据训练本地模型,上传本地模型参数的梯度到中心服务器,中心服务器聚合各方梯度建立一个全局共享模型,建好的模型再分配给分布式节点,经过若干次迭代,直到模型精确度达到设定值,即实现了“数据可用不可见,数据不跑模型跑”。联邦学习主要分为横向联邦学习、纵向联邦学习和迁移联邦学习三种,如图3所示。横向联邦学习主要应用在客户群体、样本不同,预测特征类似的场景;纵向联邦学习主要应用在客户群体类似、特征不同的场景,纵向联邦学习在进行本地训练之前需要对齐不同参与方的相同用户的样本;迁移联邦学习主要应用在用户样本和特征都不相同的场景,需要利用迁移学习来克服数据或标签不足的问题。联邦迁移学习将来自不同特征空间的特征迁移到同一个表示中,然后利用不同参与方收集的标注数据进行训练。

联邦学习的训练机制改进是目前的热门课题,其中主要的挑战包括数据的non-i.i.d.分布、通信交互效率、模型收敛性和模型训练的安全性等方面。其中,在分布节点加入部分公共数据集是实际工程中解决数据non-i.i.d.分布问题的常用技巧;对于通信交互效率,目前常用的解决办法是模型压缩[51]、分层聚合[52]、减少聚合次数[53]等;对于模型收敛性,由于大量节点具有差异化的通信特征、缓存能力、计算能力、样本数量以及不断变化的通信环境等,导致各个设备的训练模型到达服务器的时间不同,因此,一轮的训练时延由最慢的设备决定,这导致收敛速度大大降低,目前主要解决方法是丢弃较慢设备的模型[54]、降低较慢设备的epochs数量[55]、优化网络拓扑和每个worker的计算资源数量[56]等。

3.3 拆分联邦学习

联邦学习的优势在于并行训练并保护了数据的隐私性,但是其训练过程会引起较大的计算和通信开销,因为每个终端都需要训练一个完整的模型并进行传输。对于计算资源有限的无线网络终端,可能无法训练完整的本地模型。相较之下,拆分学习可以减轻终端的计算开销,帮助计算资源稀缺的设备完成训练。考虑到联邦学习和拆分学习各自的优缺点,一些学者将二者结合起来,提出了拆分联邦学习[57]。拆分联邦学习在采用并行训练的同时,进行模型分割与协作训练,如图4所示。它提供了比联邦学习更好的隐私保护,比拆分学习更快的训练速度,并在模型训练效率和精度方面都保持了良好的性能。所有终端并行训练终端侧模型,然后传输分割层给中心节点;中心节点并行执行中心节点侧模型的前向推理与反向训练过程,然后将分割层梯度分别传输给分布式终端,用于终端侧模型的反向训练,每个终端根据接收到的分割层梯度完成本地模型更新后,将其上传至另一个中心节点,它通过联邦平均算法更新终端侧模型并下发给各个终端;同时,中心节点通过联邦平均算法更新中心节点侧模型。

尽管拆分联邦学习提供了更好的隐私保护、更快的训练速度,但在通信开销比单独的联邦学习和拆分学习更大。另外,存在终端和中心节点之间计算负载不均衡问题,需要根据终端和中心节点的计算能力来动态调整模型的拆分点,对于计算能力较强的终端设备分配更多计算任务,而对于计算能力较弱的设备分配较少的计算任务。另外,在分布式环境中,保持模型参数的一致性也是一个挑战,特别是在设备异步更新的情况下,需要通过异步更新机制或设计有效的一致性协议,比如基于区块链的分布式一致性协议等,以保证整体模型的一致性。

3.4 分布式群体学习

联邦学习依然需要一个中心节点进行协调,一旦中心节点受到攻击,就有可能导致整个训练系统出现崩溃。去中心化的分布式群体学习是一个关键的解决方案,如图5所示。然而,对于大规模网络分布式群体学习普遍存在学习效率低的问题。对于分布式群体学习,网络的学习效率主要由网络同步拓扑和信息交互频率两个方面决定。网络同步拓扑越稠密、数据分布越均匀,单次本地全局梯度误差越小,信息交互频率可以设置得更大。因此,对于分布式群体学习,如何在保证收敛的情况下优化网络拓扑是一个重要的研究领域。目前的网络拓扑优化主要有:原始对偶分解、图论、分散式梯度下降以及一些专门设计的通信效率相对较高的模式等,比如将训练节点分为头尾集合,每个头集合或尾集合的节点均与位于另一集合的两个相邻节点组成模型交互关联,从而形成联合训练的完整交互链[59]。还有部分学者在联邦学习的基础上引入区块链,利用去中心化的多节点分布式可信机制[60],免去对中心节点的依赖,也规避单一中心节点失效风险,提升了习得模型的可信度。

大模型的出现极大地提升了人工智能的能力,并在语音识别、图像处理、自然语言处理等领域取得了显著成果。未来多模态只会让大模型越来越大,但大模型的性能与能耗提升不成比例的问题限制了规模的扩张。而小模型专注于特定的场景,相对大模型而言参数较少、结构简单、计算量较少,适用于处理规模较小、简单的数据集,可以快速迭代,便于快速验证。因此让网络大小模型的协同进化,可能是更适合的方式,大模型向小模型输出模型能力,同时小模型再向大模型反馈算法与执行成效,让大模型的能力持续强化,形成有机循环的智能体系[62]。比如中国电信的小模型提供内容、场景化能力组合,其包括流量预测模型、根因分析模型、告警压缩模型、分光器端口占用识别模型和质差小区识别模型,这些小模型可以在场景化应用中进行组合后被大模型的API调用。大小模型的协同方式主要有:1)数据和知识协同[63]:小模型和大模型可以共享训练以及测试数据或知识。小模型可以提供领域专用的数据或知识,帮助大模型更好地理解特定领域的规律,提升大模型的泛化能力[64]。大模型也可以向小模型提供通用的数据或知识,帮助小模型更好地适应不同的应用场景。2)优化协同[65]:小模型和大模型可以通过共享优化算法和优化参数来协同进行模型训练和优化。3)部署协同[66]:小模型和大模型可以协同部署和应用。小模型提供领域特定的处理能力,而大模型则提供更通用的处理能力,从而共同构建一个高效、智能的应用系统。4)推理协同[67]:小模型和大模型可以进行使用多个模型一起来完成推理工作。虽然大小模型协同可以让小模型专注在特定场景做极致优化,提升了模型的性能与效率;解决了过去大模型数据集过于单一的问题;让大模型充分共享,不需要重复训练相似的大模型,让算力与能源的使用效率提升。但是,大小模型协同也需要克服一些挑战,比如大小模型协同机制问题,大模型的知识与能力向小模型降维迁移的有效性以及小模型的小样本学习向大模型的升维融合、不同维度数据的清洗与治理的效率等;另外,对大模型的依赖度上升的同时,对模型的信任度决定模型的泛化能力,因此,大模型应具备可解释性[68]。然而,大模型复杂度高、数据依赖性强、输出不确定、具有黑箱性质以及评估指标不足等问题,使得大模型的可解释性变得异常困难。

5 结束语

本文综述了6G网络中模型协同的关键技术。首先对中心侧大模型的协同技术进行了梳理,介绍了数据并行、模型并行、混合并行等并行技术及其优缺点。这些模型并行能力提高了大模型训练的效率,提高了计算及通信的资源利用率。随后,探讨了边缘智能模型协同技术及优缺点,如:拆分学习、联邦学习、拆分联邦学习、分布式群体学习等。这些模型协同技术利用边缘节点算力和数据,实现了原始数据不出域、数据可用不可见的新型安全流通范式,保护了用户隐私,提高了模型训练效率。另外,由于6G网络异构、规模大、分布式节点算力不足等特点,大小模型协同将是未来6G网络的发展方向。下一步研究可以针对模型协同技术进行深入研究,探索更高效、更智能的模型协同技术,并结合实际应用,实现6G网络智慧内生。

参考文献:(上下滑动浏览)

[1] 张平,牛凯,田辉,等. 6G移动通信技术展望[J]. 通信学报, 2019,40(1): 141-148.

[2] Bariah Lina, Zou Hang, Zhao Qiyang, et al. Merouane Debbah. Understanding Telecom Language Through Large Language Models[C]//2023 IEEE Global Communications Conference (GLOBECOM 2023). Kuala Lumpur, Malaysia, 2023: 6542-6547.

[3] 6GANA. 6G内生AI网络架构十问[EB/OL]. (2024-10-16)[2024-11-13]. https://www.6g-ana.com/upload/file/20220523/6378893025752374108632578.pdf.

[4] Li M, Andersen D G, Park J W, et al. Scaling distributed machine learning with the parameter server[C]//11th USENIX Symposium on Operating Systems Design and Implementation(OSDI). New York, NY, USA, 2014: 583-598.

[5] Zhao Y, Gu A, Varma R, et al. Pytorch fsdp: experiences on scaling fully sharded data parallel[EB/OL]. (2023-09-12)[2024-11-13]. https://doi.org/10.48550/arXiv.2304.11277.

[6] Agarwal S, Wang H, Venkataraman S, et al. On the Utility of Gradient Compression in Distributed Training Systems[EB/OL]. (2021-06-29)[2024-11-13]. https://doi.org/10.48550/ arXiv.2103.00543.

[7] Dong J, Cao Z, Zhang T, et al. EFLOPS: Algorithm and System Co-Design for a High Performance Distributed Training Platform[C]//Proc of IEEE International Symposium on High Performance Computer Architecture, HPCA 2020. San Diego, CA, USA, 2020: 610-622.

[8] Li Y, Yu M, Li S, et al. Pipe-SGD: A Decentralized Pipelined SGD Framework for Distributed Deep Net Training[EB/OL]. (2019-01-11)[2024-11-13]. https://doi.org/10.48550/arXiv. 1811.03619.

[9] Li S, Zhao Y, Varma R, et al. Pytorch distributed: experiences on accelerating data parallel training[EB/OL]. (2020-06-28)[2024-11-13]. https://doi.org/10.48550/arXiv.2006.15704.

[10] Huang Y, Cheng Y, Bapna A, et al. Gpipe: efficient training of giant neural networks using pipeline parallelism[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems(NIPS), Vancouver(CA). 2019: 103-112.

[11] Harlap A, Narayanan D, Phanishayee A, et al. PipeDream: Fast and Efficient Pipeline Parallel DNN Training[EB/OL]. (2018-06-08)[2024-11-13]. https://doi.org/10.48550/arXiv.1806.03377.

[12] Jia Z, Zaharia M, Aiken A. Beyond Data and Model Parallelism for Deep Neural Networks[EB/OL]. (2018-07-14)[2024-11-13]. https://doi.org/10.48550/arXiv.1807.05358.

[13] Jakub M Tarnawski, Amar Phanishayee, Nikhil Devanur, et al. Efficient Algorithms for Device Placement of DNN Graph Operators[EB/OL]. (2020-10-29)[2024-11-13]. https://doi.org/ 10.48550/arXiv.2006.16423.

[14] Lin Z, Qu J, Yang X, et al. Research on Image Caption Based on Multiple Word Embedding Representations[C]//2021 3rd International Conference on Natural Language Processing (ICNLP). Beijing, China, 2021: 262-266.

[15] Li H, Choi J, Kwon Y, et al. A Hardware-Friendly Tiled Singular-Value Decomposition-Based Matrix Multiplication for Transformer-Based Models[J]. IEEE Computer Architecture Letters, 2022(2): 169-172.

[16] Shen J, Shafiq M. Deep Learning Convolutional Neural Networks with Dropout - A Parallel Approach[C]//2018 17th IEEE International Conference on Machine Learning and Applications (ICMLA). Orlando, FL, USA, 2018: 572-577.

[17] Jacobs R A, Jordan M I, Nowlan S J, et al. Adaptive mixtures of local experts[J]. Neural Computation, 1991,3(1): 79-87

[18] Shazeer N, Mirhoseini A, Maziarz K, et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts Layer[EB/OL]. (2017-01-23)[2024-11-13]. https://doi.org/10.48550/arXiv.1701.06538.

[19] 史宏志,赵健,赵雅倩,等. 大模型时代的混合专家系统优化综述[J]. 计算机研究与发展, 2024-10-16

[20] Huang H Y, Ardalani N, Sun Anna, et al. Towards MoE deployment: Mitigating inefficiencies in mixture-of-expert (MoE) inference[EB/OL]. (2023-06-18)[2024-11-13]. https://doi.org/10.48550/arXiv.2303.06182.

[21] Zhang Z, Xia Y Q, Wang H L, et al. MPipeMoE: Memory efficient MoE for pre-trained models with adaptive pipeline parallelism[C]//Proc of the 37th IEEE Parallel and Distributed Processing Symp. Piscataway. 2024: 167-177.

[22] Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[EB/OL].(2015-05-09)[2024-11-13]. https://doi.org/10.48550/arXiv.1503.02531.

[23] Molchanov P, Tyree S, Karras T, et al. Pruning convolutional neural networks for resource efficient inference[EB/OL]. (2017-06-08)[2024-11-13]. https://doi.org/10.48550/arXiv. 1611.06440.

[24] Dong Z, Yao Z, Arfeen D, et al. HAWQ-V2: Hessian Aware trace-Weighted Quantization of Neural Networks[C]//Proc of the 34th Int Conf on Neural Information Processing Systems. New York, Curran Associates, 2019: 18518-18529

[25] Nie X, Zhao P, Miao X, et al. HetuMoE: An efficient trillion-scale mixture-of-expert distributed training system[EB/OL]. (2022-11-17)[2024-11-13]. https://doi.org/10.48550/arXiv. 2203.14685.

[26] Lou Y, Xue F, Zheng Z, et al. Cross-token modeling with conditional computation[EB/OL]. (2022-01-14)[2024-11-13]. https://doi.org/10.48550/arXiv.2109.02008.

[27] Shen L, Wu Z, Gong W, et al. SE-MoE: A scalable and efficient mixture-of-experts distributed training and inference system[EB/OL]. (2024-08-12)[2024-11-13]. https://doi.org/10.48550/arXiv. 2205.10034.

[28] Zhang Z, Xia Y, Wang H, et al. MPipeMoE: Memory efficient MoE for pre-trained models with adaptive pipeline parallelism[C]//Proc of the 37th IEEE Parallel and Distributed Processing Symp. Piscataway, 2024: 167-177.

[29] Liu R, Kim Y J, Muzio A, et al. Gating dropout: Communicationefficient regularization for sparsely activated transformers[C]//Proc of the 39th Int Conf on Machine Learning. New York, PMLR, 2022: 13782-13792.

[30] He J, Qiu J, Zeng A, et al. FastMoE: A fast mixture-ofexpert training system[EB/OL]. (2021-04-24)[2024-11-13]. https://doi.org/10.48550/arXiv.2103.13262.

[31] Riquelme C, Puigcerver J, Mustafa B, et al. Scaling vision with sparse mixture of experts[C]//Proc of the 35th Int Conf on Neural Information Processing Systems. New York, Curran Associates, 2024: 8583-8595.

[32] Kossmann F, Jia Zhihao, Aiken A. Optimizing mixture of experts using dynamic recompilations[EB/OL]. (2024-08-02)[2024-11-13]. https://doi.org/10.48550/arXiv.2205.01848.

[33] Shazeer N, Cheng Youlong, Parmar N, et al. Mesh-Tensorflow: Deep learning for supercomputers[C]//Proc of the 32nd Int Conf on Neural Information Processing Systems. New York, Curran Associates, 2018: 10435-10444.

[34] Rajbhandari S, Li C L, Yao Z W, et al. DeepSpeed-MoE: Advancing mixture-of-experts inference and training to power nextgeneration ai scale[C]//Proc of the 39th Int Conf on Machine Learning. New York, PMLR, 2022: 18332-18346.

[35] Kim Y J, Awan A A, Muzio A, et al. Scalable and efficient MoE training for multitask multilingual models[EB/OL]. (2012-09-22)[2024-11-13]. https://doi.org/10.48550/arXiv.2109.10465

[36] Li S G, Xue F Z, Baranwal C, et al. Sequence parallelism: long sequence training from system perspective[EB/OL]. (2024-10-16)[2024-11-13]. http://arxiv.org/abs/2105.13120.

[37] Shoeybi M, Patwary M, Puri R, et al. Megatron-LM: training multi-billion parameter language models using GPU model parallelism[EB/OL]. (2024-02-25)[2024-11-13]. http:// arxiv.org/abs/1909.08053.

[38] Korthikanti V, Casper J, Lym S, et al. Reducing Activation Recomputation in Large Transformer Models[EB/OL]. (2022-05-10)[2024-11-13]. https://doi.org/10.48550/arXiv.2205. 05198.

[39] Liu H, Abbeel P. Blockwise Parallel Transformer for Large Context Models[EB/OL]. (2023-08-28)[2024-11-13]. https://doi.org/10.48550/arXiv.2305.19370.

[40] Jacobs S A, Tanaka M, Zhang C, et al. DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models[EB/OL]. (2023-10-04)[2024-11-13]. https://doi.org/10.48550/arXiv.2309.14509.

[41] Liu H, Zaharia M, Abbeel P. Ring Attention with Blockwise Transformers for Near-Infinite Context[EB/OL]. (2023-11-27)[2024-11-13]. https://doi.org/10.48550/arXiv.2310.01889.

[42] Wang Y, Xiong T, Zhou D, et al. Loong: Generating Minute-level Long Videos with Autoregressive Language Models[EB/OL]. (2024-10-03)[2024-11-13]. https://doi.org/10.48550/arXiv.2410. 02757.

[43] Xue F, Chen Y, Li D, et al. LongVILA: Scaling Long-Context Visual Language Models for Long Videos[EB/OL]. (2024-09-19)[2024-12-13]. https://doi.org/10.48550/arXiv.2408.10188.

[44] Black S, Biderman S, Hallahan E, et al. Gpt-neox-20b:an open-source autoregressive language model[EB/OL]. (2022-04-14)[2024-11-13]. https://doi.org/10.48550/arXiv.2204.06745.

[45] Du Z, Qian Y, Liu X, et al. Glm: general language model pretraining with autoregressive blank infilling[EB/OL]. (2022-04-17)[2024-11-13]. https://doi.org/10.48550/arXiv.2103.10360.

[46] Workshop B S, Scao T L, Fan A, et al. Bloom:a 176b-parameter open-access multilingual language model[EB/OL]. (2023-06-27)[2024-11-13]. https://inria.hal.science/hal-03850124/.

[47] 田海东,张明政,常锐,等. 大模型训练技术综述[J]. 中兴通讯技术, 2024,30(2): 21-28.

[48] Vepakomma P, Gupta O, Swedish T, et al. Split learning for health: Distributed deep learning without sharing raw patient data[J]. arXiv preprint arXiv:1812.00564, 2018.

[49] Jeon J, Kim J. Privacy-Sensitive Parallel Split Learning[C]//2020 International Conference on Information Networking (ICOIN). Barcelona, Spain, 2020: 7-9.

[50] McMahan H B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[EB/OL]. (2017-02-28)[2024-11-13]. https://doi.org/10.48550/arXiv.1602. 05629.

[51] AsadM, Moustafa A, Ito T. FedOpt: Towards communication efficiency and privacy preservation in federated learning[J]. Applied Sciences, 2020,10(8): 2864.

[52] Zhang X X, Zhu X R. Joint Optimization Algorithm of Training Delay and Energy Efficiency for Wireless Large-scale Distributed Machine Learning Combined with Blockchain for 6G Networks[J]. IEEE Internet of Things Journal, 2024,11(19):31602-31618.

[53] 田辉,倪万里,聂高峰,等. 6G网络中面向AI大模型的联邦学习与协同部署技术综述[J]. 移动通信, 2024,48(8): 30-40.

[54] Xu J, Wang H. Client selection and bandwidth allocation in wireless federated learning networks: A long-term perspective[J]. IEEE Trans. Wireless Commun., 2021,20(2): 1188-1200.

[55] Chen M, Mao B, Ma T. Efficient and robust asynchronous federated learning with stragglers[C]//Proc. Int. Conf. Learn. Represent. (ICLR), 2019:1-14.

[56] Huang S, Zhang Z, Huang W K. Accelerating Federated Edge Learning via Topology Optimization[J]. IEEE Internet of Things Journal, 2023,10(3): 2056-2070.

[57] Thapa C, Arachchige P C M, Camtepe S, et al. Splitfed: When federated learning meets split learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022,36(8): 8485-8493.

[58] 6GANA. 6G网络分布式学习白皮书[EB/OL]. (2023-09-09)[2024-10-16]. https://6g-ana.com/upload/file/20231214/6383817257425658559789267.pdf.

[59] Elgabli A, Park J, Bedi A, et al. GADMM: Fast and communication efficient framework for distributed machine learning[J]. J. Mach. Learn. Res., 2020,21(76): 1-39.

[60] Hyesung K, Jihong P, Mehdi B, et al. On-Device Federated Learning via Blockchain and its Latency Analysis[EB/OL]. (2018-08-12)[2024-11-13]. https://arxiv.org/pdf/1808.03949v1.

[61] Feriani A, Hossain E. Single and multi-agent deep reinforcement learning for AI-enabled wireless networks: A tutorial[J]. IEEE Communications Surveys & Tutorials, 2021 23(2): 1226-1252.

[62] 6GANA. 网络大模型十大问题白皮书[EB/OL]. (2023-09-09)[2024-10-16]. https://6g-ana.com/upload/file/20231214/6383817257425658559789267.pdf.

[63] Lu Y, Shu Y C,Tan X, et al. Collaborative learning between cloud and end devices:an empirical study on location prediction[C]//Proceedings of the 4th ACM/ IEEE Symposium on Edge Computing. Arlington Virginia, USA, Association for Computing Machinery, 2019: 139-151.

[64] 中国电信. 网络大模型白皮书(2023)[EB/OL]. (2023-11-29)[2024-11-13]. https://max.book118.com /html/2023/1128/6120223121010013.shtm.

[65] Daga H, Chen Y W, Agrawal A, et al. CLUE:systems support for knowledge transfer in collaborative learning with neural nets[J]. IEEE Transactions on Cloud Computing, 2023,11(4): 3541- 3554.

[66] Jiang P H, Xin K, Li C X, et al. High-efficiency device cloud collaborative Transformer model[C]//Proceedings of 2023 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Vancouver, Canada, 2023: 2204-2210

[67] Ko J H, Na T, Amir M F, et al. Edge-host partitioning of deep neural networks with feature space encoding for resource-constrained internet-of-things platforms[C]//Proceedings of the 15th IEEE International Conference on Advanced Video and Signal Based Surveillance. Auckland, New Zealand, 2018: 1-6.

[68] MANI S K, ZHOU Y J, HSIEH K, et al. Enhancing network management using code generated by large language models[C]//Proceedings of the 22nd ACM Workshop on Hot Topics in Networks. ACM, 2023: 196-204. ★

张秀贤:南京邮电大学在读博士研究生,主要研究方向为无线网络、无线接入技术、物联网、区块链和人工智能等。

朱晓荣:博士毕业于东南大学博士,现任南京邮电大学教授、博士生导师,主要研究方向为无线网络、无线接入技术、物联网、区块链和人工智能等。

《移动通信》★往期推荐




《移动通信》杂志由中国电子科技集团公司主管,中国电子科技集团公司第七研究所主办,是中国期刊方阵“双效期刊”、工业和信息化部精品电子期刊、中国科技论文统计源刊、中国通信学会《信息通信领域高质量科技期刊分级目录》入选期刊、中国电子学会《电子技术、通信技术领域高质量科技期刊分级目录》入选期刊、中国应用型核心期刊、日本JST收录期刊。国内连续出版物号:CN44-1301/TN,国际连续出版物号:ISSN1006-1010,邮发代号:46-181。

来源:移动通信编辑部

相关推荐