400亿参数大模型:分布式算力,DeepSeek架构,3090单卡部署
Psyche是一个基于Deepseek的V3 MLA架构的去中心化训练网络,测试网首次启动时直接对40B参数LLM进行预训练,可以在单个H/DGX上训练,并在3090 GPU上运行。
模型 架构 分布式 deepseek deepseek架构 2025-05-19 09:57 6
Psyche是一个基于Deepseek的V3 MLA架构的去中心化训练网络,测试网首次启动时直接对40B参数LLM进行预训练,可以在单个H/DGX上训练,并在3090 GPU上运行。
模型 架构 分布式 deepseek deepseek架构 2025-05-19 09:57 6