mtp

国产大模型DeepSeek-V3一夜火爆全球,671B的MoE

今天,一个国产大模型火遍了世界。打开 X,满眼都是讨论 DeepSeek-V3 的推文,而其中最热门的之一是这个参数量高达 671B 的大型语言模型的预训练过程竟然只用了 266.4 万 H800 GPU Hours,再加上上下文扩展与后训练的训练,总共也只有

模型 moe mtp 2024-12-28 09:46  1