刚刚,DeepSeek首曝V3降成本秘诀!软硬协同突破Scaling天花板
DeepSeek最新论文深入剖析了V3/R1的开发历程,揭示了硬件与大语言模型架构协同设计的核心奥秘。论文展示了如何突破内存、计算和通信瓶颈,实现低成本、高效率的大规模AI训练与推理。不仅总结了实践经验,还为未来AI硬件与模型协同设计提出了建议。
deepseek scaling 软硬 scaling天花板 2025-05-16 09:19 1
DeepSeek最新论文深入剖析了V3/R1的开发历程,揭示了硬件与大语言模型架构协同设计的核心奥秘。论文展示了如何突破内存、计算和通信瓶颈,实现低成本、高效率的大规模AI训练与推理。不仅总结了实践经验,还为未来AI硬件与模型协同设计提出了建议。
deepseek scaling 软硬 scaling天花板 2025-05-16 09:19 1
Scaling Law 或将终结——这是最近备受热议的话题之一。该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的论文,其研究表明当下的语言模型在大量数据上经历了过度训练,继续叠加更多的预训练数据可能会产生副作用。
模型 scaling scalinglaw 2024-11-22 11:25 3
迈向超级智能系统的AI实验室正意识到,可能需要改换道路。分析指出,相比传统的堆砌计算能力和数据的训练方法,被称为“测试时计算”(Test-time Compute)的新方法更有助于提高AI模型的预测能力。