摘要:一个鲜为人知的中国人工智能实验室在发布人工智能模型后,尽管制造成本更低且芯片功能更弱,但性能优于美国最好的人工智能模型,引发了整个硅谷的恐慌。该实验室被称为 DeepSeek,它在 12 月下旬推出了一个免费的开源多语言模型,它表示仅使用 Nvidia 的 H
据权威媒体美国消费者新闻与商业频道(CNBC)发布的新闻表示:
一个鲜为人知的中国人工智能实验室在发布人工智能模型后,尽管制造成本更低且芯片功能更弱,但性能优于美国最好的人工智能模型,引发了整个硅谷的恐慌。
该实验室被称为 DeepSeek,它在 12 月下旬推出了一个免费的开源多语言模型,它表示仅使用 Nvidia 的 H800s 功能简化的芯片构建了该模型,构建时间不到 600 万美元。新的发展引发了人们对美国在人工智能领域的全球领先地位是否正在缩小的警惕,并引发了对大型科技公司在构建 AI 模型和数据中心方面的巨额支出的质疑。
DeepSeek 在 2024 年 12 月发布了一款免费、开源的大型语言模型。这款模型的开发仅耗时两个月,成本不到 600 万美元,且使用的是英伟达性能较低的 H800 芯片。然而,就是这样一款低成本、低功耗的模型,在一系列第三方基准测试中,却超越了 Meta 的 Llama 3.1、OpenAI 的 GPT-4o 以及 Anthropic 的 Claude Sonnet 3.5,展现了惊人的性能。
2025 年 1 月,DeepSeek 再次发布了推理模型 r1,该模型在多项第三方测试中均优于 OpenAI 最新的 o1 模型。微软 CEO 萨蒂亚·纳德拉在世界经济论坛上表示,DeepSeek 的新模型在开源模型的推理式计算和超级计算效率方面表现出色,其发展值得我们高度重视。
虽然DeepSeek的初步开发采用了英伟达的H800芯片,但是DeepSeek可以直接接入华为的昇腾平台。也可以通过华为手中的昇腾ai集群,实现ai大模型语言的自我训练。
DeepSeek 采用了多阶段训练方案,结合了监督微调和强化学习,实现了高效的训练过程。具体来说,DeepSeek 的 R1 模型采用了以下四阶段训练方案:冷启动监督微调、大规模强化学习训练能、拒绝采样、混合强化学习训练。
除此之外,DeepSeek 还采用了组相对策略优化(GRPO)算法框架,通过组内奖励对比减少计算冗余,避免传统 Critic 网络的高开销。 R1 模型在 2048 块性能受限的 H800 GPU 集群上,仅用 57 天、558 万美元完成训练,而 GPT-4 的成本约为 7800 万美元。
V3 的训练成本仅为 558 万美元,远低于 OpenAI GPT-4 的数十亿美元。这种低成本的背后,得益于 DeepSeek 在优化策略上的创新,包括高效的负载均衡、FP8 混合精度训练和通信优化等技术。
虽然美国针对中国的ai公司进行了芯片的出口限制,但是在美国实施芯片出口管制之前,DeepSeek 的创始人梁文锋就收购了大量英伟达 A100 芯片。据有关媒体报道,公司库存超过 1 万块,而 AI 研究咨询公司 SemiAnalysis 创始人 Dylan Patel 预估这个数量至少是 5 万块,这种前瞻性的布局为 DeepSeek 的技术突破奠定了基础。
并且在使用成本上面,DeepSeek也有着更突出的优势。
DeepSeek 的 API 服务价格低,输入 tokens 每百万仅需 0.5 元(缓存命中)或 2 元(缓存未命中),输出 tokens 每百万仅需 8 元。相比之下,GPT-4o 的价格要高得多,每百万 tokens 可能需要数十美元。
美国微软公司的首席执行官 Satya Nadella 在瑞士达沃斯举行的世界经济论坛上表示:“看到 DeepSeek 的新模型,就他们如何真正有效地完成执行这种推理时间计算的开源模型以及超级计算效率而言,都令人印象深刻。我们应该非常、非常严肃地对待中国以外的事态发展。”
DeepSeek的出现,以其极低的训练成本和高效的性能而被国际ai领域关注。DeepSeek-V3 和 DeepSeek-R1 模型不仅在性能上与 OpenAI 的 GPT-4o 和 o1 模型相媲美,甚至在某些领域超越了对手,但其训练成本仅为 558 万美元,远低于 OpenAI 的数十亿美元。这种低成本、高效率的模式,对于国际科技领域来说冲击是巨大的。
并且DeepSeek选择了完全开源的策略,发布了模型权重,并采用 MIT 许可协议,这使得全球开发者能够自由使用和改进其模型。这种开放性不仅促进了技术的快速传播和共享,还吸引了大量研究者和开发者参与,形成了强大的社区生态。开源策略的实施,为全球 AI 领域的协作和技术进步提供了新的动力。
在中国的ai企业发布了DeepSeek新模型之后,OpenAI、Meta等美国老牌的ai企业有了大动作。Meta 内部甚至因 DeepSeek-R1 的出现而进入“恐慌模式”,工程师们争分夺秒地分析 DeepSeek 的技术,试图复制其成功。
DeepSeek 的成功,暴露了美国出口管制政策的局限性。
虽然美国早已经通过限制ai芯片的出口,来阻止中国企业发展人工智能,但是DeepSeek在被全面封锁之前,采购了一批来自于英伟达的ai芯片。尽管这些芯片在性能上面已经无法追平现在的产品,但是DeepSeek通过优化算法来提升性能、降低成本,并且支持国内ai集群的生态平台,进一步扩大了国产ai的生态链。
DeepSeek在自然语言处理、多模态大模型等领域的实践,将为华为的昇腾平台提供真实场景下的性能反馈,推动硬件(如昇腾910B)和软件(如MindSpore、CANN)的迭代优化,加速国产技术成熟。
昇腾集群与DeepSeek,可以依靠低功耗和轻量化的技术结合,在智慧城市、工业质检等边缘场景的AI应用中,形成差异化优势。
若昇腾+DeepSeek的组合在国内验证成功,未来可以直接向海外进行输出(如东南亚、中东市场),尤其在注重数据主权和成本敏感的地区打开市场。
来源:大漠过千里