moe

国产大模型DeepSeek-V3一夜火爆全球,671B的MoE

今天,一个国产大模型火遍了世界。打开 X,满眼都是讨论 DeepSeek-V3 的推文,而其中最热门的之一是这个参数量高达 671B 的大型语言模型的预训练过程竟然只用了 266.4 万 H800 GPU Hours,再加上上下文扩展与后训练的训练,总共也只有

模型 moe mtp 2024-12-28 09:46  1

一种基于蒸馏大型语言模型的专家混合式框架

MERLOT是对用于加密流量分类优化的蒸馏大型语言模型基于可扩展专家混合(MoE)的改进。借助师生范式中的模型蒸馏技术,源自 GPT-2-base 的紧凑模型既能保持高分类准确率,又能最大程度降低计算成本。这些模型在 MoE 架构中充当专门专家,通过门控网络动

模型 语言 moe 2024-12-05 06:44  2

:将会持续推进AI技术商业化落地

业绩会上,首席执行官程一笑表示,对于AI大模型的进展方面,公司正在研发Moe模型,在模型预训练阶段,多个指标超过11750E模型,大幅降低模型训练的退役成本,通过在可控生成方面升级了镜头控制首尾针控制运动笔刷对口型能力,持续的保持行业领先地位。

商业化 moe 对口型 2024-11-21 10:43  2