摘要:DeepSeek凭借其开源AI模型在App Store上取代OpenAI,成为下载量最高的免费应用,受到广泛关注。其核心产品是推理模型DeepSeek R1,具备强大的推理能力,能在数学和编程等AI基准测试中与OpenAI的O1模型媲美甚至超越。
DeepSeek凭借其开源AI模型在App Store上取代OpenAI,成为下载量最高的免费应用,受到广泛关注。其核心产品是推理模型DeepSeek R1,具备强大的推理能力,能在数学和编程等AI基准测试中与OpenAI的O1模型媲美甚至超越。
DeepSeek R1的优势在于高性能和低成本,训练所需芯片大幅减少,运行成本比O1低约96%。与传统模型不同,R1采用“思维链”(Chain of Thought)推理方式,将复杂问题分解为多个步骤,展示推理过程,具备更强的逻辑分析能力和可解释性。
DeepSeek R1似乎突然出现,但实际上,这背后经历了多个DeepSeek模型的积累和发展。
首先是DeepSeek版本1(DeepSeek V1),这是一个拥有670亿参数的模型,于2024年1月发布。它是一个传统的Transformer架构,重点在于前馈神经网络(Feedforward Neural Networks)。
接着是DeepSeek版本2(V2),它真正让DeepSeek走上了AI领域的舞台。这是一个超大型模型,拥有2360亿参数,于2024年6月发布。
这个模型有两个显著的创新点:
多头稀疏注意力机制(Multi-Headed Laden Attention)。DeepSeek专家混合架构(Mixture of Experts, MoE)。这两个创新大大提升了模型的速度和性能,为DeepSeek版本3(V3)的成功奠定了基础。V3于2024年12月发布,参数量高达6710亿。
在V3中,DeepSeek开始引入强化学习(Reinforcement Learning),并能够在大量GPU之间实现负载均衡。其基础设施大量使用了NVIDIA的H800芯片,模型性能进一步提升。
这些模型层层递进,最终发展到DeepSeek R1-Zero,于2025年1月发布,标志着DeepSeek正式进入推理模型领域。
R1-Zero是DeepSeek的第一个推理模型,采用了一种独特的微调方法,完全基于强化学习。
强化学习的核心是奖励和惩罚机制,模型会因其行为或输出的正确与否而受到奖励或惩罚,随着时间推移不断自我学习和优化。
尽管R1-Zero表现出色,但DeepSeek在此基础上推出了性能更强的DeepSeek R1。R1结合了强化学习和有监督微调(Supervised Fine-Tuning),取两者之长,进一步提升了性能,已经接近甚至超越了一些OpenAI的模型。
接下来,出现了一种新的模型范式——蒸馏模型(Distilled Models)。
蒸馏模型是什么?
简单来说,蒸馏模型包括一个“大模型”(教师模型)和一个“小模型”(学生模型)。通过模型蒸馏技术,从教师模型中提取知识,压缩到学生模型中。这不仅是模型压缩,更是一种模型“翻译”,将不同架构间的知识迁移。
例如,DeepSeek将R1-Zero(一种专家混合模型)的知识蒸馏到LLaMA系列模型中,而LLaMA是传统Transformer架构,二者的架构完全不同。
那么,DeepSeek R1是如何以如此低的成本运行的呢?
秘诀在于:
更少的硬件资源:DeepSeek V3的训练只使用了2000块GPU,而相比之下,Meta在训练LLaMA 4时使用了超过10万块NVIDIA GPU。强化学习和思维链推理:R1结合了链式思维(Chain of Thought)和强化学习,使模型在无需大量人类标注数据的情况下,通过试错学习不断优化。专家混合架构(MoE):MoE架构将模型分为多个“专家”子网络,模型只在特定任务时激活所需的专家,而不是整个神经网络,从而大幅降低计算成本。需要强调的是,MoE架构并非DeepSeek独有。法国AI公司Mistral和IBM的Granite模型也采用了类似技术。
来源:老胡科学