deepseek

DeepSeek甩出了一张“王炸”

国产大模型DeepSeek推出DeepSeek-V3,一个强大的混合专家(Mixture-of-Experts, MoE)语言模型。主要的技术迭代是671B的MoE,37B的激活参数,在14.8万亿个高质量token上进行了预训练。

王炸 deepseek em 2024-12-28 14:49  1