摘要:5月27日,大模型架构和AI应用的研发公司元始智能预告其下一代模型架构RWKV-8“Heron”即将发布,并率先公开该架构中的核心创新技术之一——DeepEmbed。
5月27日,大模型架构和AI应用的研发公司元始智能预告其下一代模型架构RWKV-8“Heron”即将发布,并率先公开该架构中的核心创新技术之一——DeepEmbed。
据介绍,这项稀疏结构设计技术实现了与MoE(专家混合)相当的推理性能,却无需额外占用显存甚至内存,为端侧设备上的大模型部署提供全新路径。
据悉,DeepEmbed 在模型的每一层 FFN 中为词表中的每个 token 训练一个可学习的高维向量,这可以写成 Embed 层。这些向量在训练阶段可被学习,而在推理阶段可存储于 RAM/SSD 中,对于每个 token 只需预读极少量参数,从而显著减少显存占用。
推理时,模型根据 token index 可提前预读本层的 embedding 向量,用于对 FFN 输出进行逐通道的乘性调制(channelwise scaling)。
这些基于 token 的 embedding 向量构成了一个规模庞大但稀疏的知识库,能够显著提升模型存储和调用世界知识的能力。尽管这些向量看似增加了模型参数量,但不需要占用显存,且在训练过程中可通过 TP(Tensor Parallelism)避免 DP(Data Parallelism)中梯度同步的带宽开销,并可进一步 offload 至 RAM 或 SSD。
在端侧推理场景下,这些向量同样可存储于内存中,或通过 mmap 等机制直接从硬盘按需加载。由于每个 token 仅引入几十 KB 的额外访存开销,该机制非常适合在边缘设备上部署。
RWKV-8“Heron”是RWKV系列的重要迭代。元始智能成立于2023年6月,并于今年1月宣布获得数千万人民币天使轮融资。
DeepEmbed 技术在X上公布后,引发包括ViT作者Lucas Beyer在内的各方关注。
RWKV团队表示,RWKV-8后续还将公布更多创新模块。(袁宁)
来源:Today1005