摘要:在 AI 技术飞速发展的当下,行业格局风云变幻。近日,一家来自中国的 AI 公司 DeepSeek(深度求索),竟在一夜之间于美国各大主流媒体和社交网站上疯狂刷屏,引发了广泛关注与热烈讨论,甚至不少美国股民焦虑发问:“这是在做空英伟达吗?” 如此高的关注度,背
在 AI 技术飞速发展的当下,行业格局风云变幻。近日,一家来自中国的 AI 公司 DeepSeek(深度求索),竟在一夜之间于美国各大主流媒体和社交网站上疯狂刷屏,引发了广泛关注与热烈讨论,甚至不少美国股民焦虑发问:“这是在做空英伟达吗?” 如此高的关注度,背后究竟隐藏着怎样的故事?
DeepSeek,中文名深度求索,是一家 2023 年成立的中国 AI 公司,总部位于杭州,由私募巨头幻方量化支持。别看它成立时间不长,可已经在 AI 领域取得了令人瞩目的成就。在技术创新方面,DeepSeek 成果丰硕。其推出的多个大模型在业内引起轰动,尤其是 DeepSeek-V3 和 DeepSeek-R1 这两款模型,堪称明星产品。
(一)R1 模型的惊艳亮相
DeepSeek 之所以能在美国引发如此大的轰动,其核心产品 R1 模型功不可没。1 月 20 日发布的 R1 模型,性能表现堪称惊艳,可与 OpenAI 的 O1 模型相媲美。在专业的大模型排名 Arena 上,DeepSeek - R1 基准测试成绩斐然,已升至全类别大模型第三 ,其中在风格控制类模型 (StyleCtrl) 分类中与 OpenAI o1 并列第一,竞技场得分达到 1357 分,还略超 OpenAI o1 的 1352 分。在高难度提示词、代码和数学等技术性极强的领域,DeepSeek - R1 更是拔得头筹。这一成绩的取得,让美国科技界对来自中国的 AI 力量刮目相看,也成为 DeepSeek 刷屏的导火索。
(二)大佬站台,媒体聚焦
除了自身实力过硬,大佬站台和媒体聚焦也为 DeepSeek 的火爆起到了推波助澜的作用。华尔街顶级风投 A16Z 的创始人马克・安德森(Marc Andreessen),在社交媒体上毫不吝啬对 DeepSeek R1 的赞美之词,称其是 “最令人惊叹和印象深刻的突破之一”,还强调其开源特性是给世界的一份重要礼物。要知道,安德森在 AI 投资领域极具权威性,他的发声无疑为 DeepSeek 吸引了更多关注。
与此同时,《纽约时报》《英国金融时报》《经济学人》《连线》以及 CNBC 等海外主流财经媒体纷纷对 DeepSeek 进行了报道。《纽约时报》指出,DeepSeek 大模型以极低成本(600 万美元)和少量芯片(2000 块)实现了与 OpenAI 等巨头相媲美的性能,挑战了 “唯有科技巨头才能研发尖端 AI” 的行业共识。CNBC 甚至制作了 40 分钟的深度视频,讨论美国 AI 是否受到威胁。这些媒体的广泛报道,让 DeepSeek 的知名度呈指数级上升。
(三)关联英伟达,引发市场猜想
DeepSeek 的爆火,还与英伟达股价的下跌产生了奇妙的关联。1 月 24 日,英伟达股价大跌 3.12%,报 142.62 美元 / 股,创下公司在年初 CES 展产品不及预期表现后的最大跌幅。不少人将英伟达股价下跌与 DeepSeek 联系起来,认为 DeepSeek 以低成本实现高性能的模式,可能会削弱市场对英伟达 AI 芯片的需求预期。因为 DeepSeek 的成功表明,研发强大的 AI 模型不一定需要依赖大量昂贵的芯片,这对英伟达的芯片业务可能构成潜在威胁。
虽然这种观点尚未得到充分证实,但市场上的猜测和讨论却愈演愈烈。一些投资者开始重新审视 AI 行业的投资逻辑,对英伟达等 AI 芯片巨头的未来发展前景产生了疑虑。这也从侧面反映出 DeepSeek 的出现,已经对 AI 行业的格局产生了深远影响,引发了市场的广泛关注和思考。
DeepSeek R1 模型之所以能取得如此优异的成绩,背后离不开其独特的技术突破与创新。这些技术创新不仅展示了 DeepSeek 在 AI 领域的深厚技术实力,也为 AI 技术的发展提供了新的思路和方法。
(一)独特训练策略
R1 - zero 采用的训练策略证明了仅通过强化学习(RL)和无监督式微调(SFT),大模型也可以有强大的推理能力 。传统观点认为,必须先通过大量标注数据进行 SFT,才能让模型具备基础能力,之后才考虑使用 RL 进行能力提升。然而 DeepSeek 的研究团队大胆创新,直接在 DeepSeek - V3 - base 模型上应用强化学习,完全抛开了传统的监督式微调环节。
这个大胆的尝试产生了惊人的效果。以 AIME 2024 数学测试为例,模型的 pass@1 准确率从最初的 15.6% 开始,随着训练的深入不断提升,最终达到了 71.0% 的准确率,使用多数投票机制后更是提升至 86.7%,已经接近 o1 - 0912 的水平。在这个过程中,模型还展现出类似人类的思维特征,会主动反思和验证自己的推理步骤,出现了 “顿悟时刻” ,这表明模型可能已经具备了某种程度的 “元认知” 能力。
(二)四阶段训练方案
在 R1 - zero 的基础上,团队针对 R1 采用了一个精心设计的四阶段训练方案。首先是对合成推理数据进行 “冷启动” 监督微调,利用少量高质量数据对基础模型进行微调,为后续的强化学习提供一个良好的起点,让模型初步掌握推理技巧。
其次是对推理问题进行大规模强化学习训练,专注于提升模型在数学、代码等推理任务上的能力,并引入语言一致性奖励机制,直到收敛,以此来改善模型输出的可读性。
第三是对 3/4 的推理问题和 1/4 的一般查询进行拒绝采样,利用上一阶段训练的模型生成大量数据,并进行筛选和标注,开始向通用模型过渡,然后使用这些数据再次对模型进行微调,进一步提高模型的推理能力和通用能力。
最后是混合推理问题和一般偏好调整的强化学习训练,在各种不同的任务和场景中对模型进行强化学习训练,增强模型的帮助性和无害性,并进一步提升其推理能力 ,最终形成了 DeepSeek R1 模型。这个过程不仅实现了高效的训练,还保持了模型的可读性和最终性能。
(三)工程简单性优势
DeepSeek 通过创新性的方法,在有限的计算资源下实现了这些突破,其工程简单性令人惊讶。微软 AI 前沿研究实验室首席研究员 Dimitris Papailiopoulos 表示,R1 最令人惊讶的是其工程简单性。DeepSeek 追求准确的答案,而不是详细说明每个逻辑步骤,这显著减少了计算时间,同时保持了高效率。在保证模型性能的前提下,减少不必要的计算步骤和复杂逻辑,使得模型在运行过程中能够更加高效地利用资源,降低计算成本,这也是 DeepSeek R1 能够在众多模型中脱颖而出的重要原因之一。
(一)挑战行业共识
在 AI 发展的漫长历程中,人们似乎已经形成了一种固有认知:唯有科技巨头,凭借其雄厚的资金实力、海量的数据资源和强大的计算能力,才能在尖端 AI 研发领域取得突破。像 OpenAI、谷歌等行业巨头,在 AI 研发上投入了巨额资金,构建了庞大的计算集群,动用了海量的数据进行模型训练。例如,OpenAI 训练 GPT-4 模型,耗费了大量的资金和计算资源,这使得很多人认为,只有具备类似资源的科技巨头,才有能力研发出顶尖的 AI 模型 。
然而,DeepSeek 的出现,如同一颗重磅炸弹,彻底打破了这一行业共识。DeepSeek 以极低的成本(600 万美元)和少量芯片(2000 块),就实现了与 OpenAI 等巨头相媲美的性能。这一成就的取得,并非偶然,而是 DeepSeek 团队在技术创新、算法优化和资源整合等方面不懈努力的结果。他们通过独特的训练策略和创新性的技术方法,在有限的资源条件下,实现了 AI 技术的重大突破。这表明,即使没有巨额的资金投入和海量的计算资源,通过创新的思维和高效的技术手段,也能够研发出具有世界领先水平的 AI 模型。
(二)引发美国科技界震动
DeepSeek 的成功,在大洋彼岸的美国科技界引发了强烈震动。微软作为全球科技行业的巨头,在 AI 领域一直处于领先地位。微软 CEO 萨提亚・纳德拉(Satya Nadella)在达沃斯世界经济论坛上,直言 DeepSeek 新模型的表现令人印象深刻,尤其是在模型推理效率方面,强调必须认真对待来自中国的这些发展 。这一表态,充分显示出微软对 DeepSeek 的重视,也从侧面反映出 DeepSeek 的技术突破,已经对微软在 AI 领域的地位构成了潜在威胁。
同样倡导开源的 Meta,也感受到了 DeepSeek 带来的巨大压力。据美国匿名职场社区 teamblind 爆料,DeepSeek 的一系列动作,已经让 Meta 的生成式 AI 团队陷入恐慌。工程师们正在疯狂地分析 DeepSeek,试图从中复制任何可能的技术,这一点都不夸张。更令他们担忧的是,生成式 AI 组织中每个 “领导” 的薪资,都比训练整个 DeepSeek - V3 的成本还要高,而 Meta 有好几十个这样的 “领导”,他们不知该如何面对高层 。为了应对 DeepSeek 的挑战,扎克伯格宣布加速研发 Llama 4,计划投资 650 亿美元扩建数据中心,并部署 130 万枚 GPU,以确保 2025 年 Meta AI 成为全球领先模型 。这一系列举措,充分暴露了 Meta 的焦虑,也表明 DeepSeek 的崛起,已经对美国科技界的格局产生了深远影响。
(三)开源引领新趋势
DeepSeek 的开源模式,为全球 AI 发展注入了新的活力,引领了新的发展趋势。在 AI 发展的早期,很多科技公司为了保持技术优势,往往选择将自己的技术和模型封闭起来,不对外公开。这种模式虽然在一定程度上保护了公司的技术权益,但也限制了 AI 技术的快速发展和广泛应用。
而 DeepSeek 选择将其模型开源,这一举措具有重大意义。一方面,开源使得全球的开发者和研究人员都能够参与到模型的改进和优化中来,大大加快了技术的迭代速度。通过开源社区的协作,开发者们可以共同发现模型中的问题,提出改进方案,不断提升模型的性能和应用效果。另一方面,开源也促进了 AI 技术的普及和应用。更多的企业和开发者可以基于 DeepSeek 的开源模型,开发出各种各样的 AI 应用,推动 AI 技术在各个领域的广泛应用,从而加速 AI 产业的发展。
此外,DeepSeek 的开源模式,还为其他企业提供了新的发展思路和借鉴。在它的影响下,越来越多的企业开始重视开源的力量,纷纷加入到开源的行列中来。这不仅有助于打破技术垄断,促进公平竞争,还能够推动全球 AI 技术的共享与合作,共同推动 AI 技术的发展和进步。
DeepSeek 的一夜刷屏,绝非偶然,而是其在技术创新、开源理念等多方面努力的结果。它不仅挑战了行业共识,引发了美国科技界的震动,还为全球 AI 发展注入了新的活力。在未来,随着技术的不断发展和应用场景的不断拓展,DeepSeek 有望在全球 AI 竞争格局中占据重要地位,为推动 AI 技术的进步和应用做出更大的贡献。而全球 AI 领域,也将因 DeepSeek 这样的创新力量,迎来更加激烈的竞争和更加蓬勃的发展。
来源:海绵宝宝