摘要:技术流:讲模型原理、算法创新、性能突破的。商业分析流:讲创始人背景、企业成长史、行业影响力的。应用探索流:讲提示词写法、本地部署方法,以及怎么用DeepSeek搞钱的。国际格局流:讲国内外反应、讲对抗霸权的。
关于DeepSeek的文章,网上已数不胜数,归了一下类,大概分这么几种:
技术流:讲模型原理、算法创新、性能突破的。商业分析流:讲创始人背景、企业成长史、行业影响力的。应用探索流:讲提示词写法、本地部署方法,以及怎么用DeepSeek搞钱的。国际格局流:讲国内外反应、讲对抗霸权的。当然,还有很多声音在质疑、唱衰和传播假消息,面对这些海量信息的轰炸,要说不FOMO肯定是假的。
因此在这篇文章中,我希望尝试用第一性原理,回答两个问题:
这次破圈,DeepSeek做对了什么?
他们的经验,对我们有什么启发?
我会从多个角度尝试拆分这两个问题,希望借助一些观察和思考,帮助大家跳出焦虑、抓住本质。
引言
马斯克认为,第一性原理的思考方式,是用物理学角度看世界。也就是说,要回归事物最基本的条件,再层层拨开表象,解构成各种要素分析,从而找到实现最优路径的方法。
交通的第一性原理是速度与安全,不是四个轮子加两张沙发;供应链的第一性原理是效率,不是仓储和物流;互联网的第一性原理是流量,不是网站或App;网红的第一性原理是影响力,不是粉丝数和阅读量;那么,对深度求索而言,他们所遵循的,对大模型的第一性原理是什么?
答案很明显,不是参数量,不是评估分数,也不是用户数,是成本,是用极致的计算成本逼近通用问题解决能力的边界!
马斯克曾说过,他的成功得益于自己养成了一种很绝的心态,叫做10%目标定律。也就是无论你在生活中想要什么,都要做10次尝试。
但实际上,大多数人都不会尝试10次,甚至连一次都不想尝试。
从2023年发布首个开源模型DeepSeek Coder,到后来的DeepSeek LLM、DeepSeek-V2,再到如今的V3、R1,每一步DeepSeek都走的很扎实,但这并不代表中间不会出错,就算这家公司的员工都是万里挑一的天才,他们在模型训练上的尝试,肯定不止十次、百次。
那什么样的事,会让他们失败9次,还愿意做第10次呢?一定不是风口上的热闹事。力出一孔,把所有资源都投入在一件事上,是保持专注、缓解FOMO的不二法门。
那么,在DeepSeek对成本的极致追求下,哪些过程会对我们有启发呢?
DeepSeek与创新思维
想探求一款大模型产品的本质,最直接的方法是看论文。
于是春节这两天除了陪家人,就是研究《DeepSeek-V3 Technical Report》和《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》
具体这2篇论文讲了什么,很多文章都有解析,这里不再赘述,我也不是算法研究员,不敢瞎讲。
但我仍旧想从第一性原理的角度来和你分享,从论文中,我看到的DeepSeek做工程创新的基本原则。
举2个例子吧,第一个是MTP架构的创新。
MTP(Multi-Token Prediction),也叫多token预测技术,这是一种并行优化机制,可以让模型在训练时同时预测多个连续位置的token。从而提升整体性能和推理速度。
有人说这项技术Meta早在24年4月就提出来了,DeepSeek就是直接拿过来用而已。但仔细读过论文后,你会发现它们长得并不一样:
因为除了Meta,MTP的背后还有《EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty》和《Fast Inference from Transformers via Speculative Decoding》这2篇论文在起作用。
Meta提出的MTP,对每个输入的token,会同时并行输出4个targets token,但实际上大模型的内容输出是遵循自回归方式一个个输出,是有前后关系的,这种用并行heads去预测token的方式会和自回归逻辑冲突。
而解决思路,就来自另一篇叫《EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty》的论文,它在Medusa算法的基础上,提出用自回归heads取代并行heads的策略。
这里有个很有趣的细节,《EAGLE》这篇论文,其实要解决的是大模型推理耗时问题,其参考了Google的论文《Fast Inference from Transformers via Speculative Decoding》,在该论文“先起草、后验证”方法的基础上,让模型“打草稿”的结果更准。其方法之一,就是将前一步的token序列(包含采样结果)作为输入的一部分来进行预测。
看到这张图,你有没有似曾相识的感觉?
是的,和DeepSeek的MTP架构非常相似。尽管EAGLE的初衷是提升大模型推理效率,但抽象出来看,其本质上也是在预测token,既然这如此,这种思路同样可以用来做模型训练。这就是MTP方法的创新逻辑之一:广泛参考,抽象本质,相互借鉴。
第二个例子,来自DeepSeekMoE架构。
要了解清楚DeepSeekMoE,只看V3论文是不够的,要上到源头《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》,这篇论文中,DeepSeek对传统MoE架构做出了三项改进:拆分、共享和平衡。
抽象出来看,这种“从量变到质变”的思想,本质上是一种资源最优分配的策略,即:如何在有限资源下,在时间、空间、数量、质量之间做权衡和互换,从而以提高系统整体性能和效率,而这个策略延展到极致,本质上这就是“Scaling Law”。
类似的原理,可以在城市规划中看到:将综合商场拆分为店铺集群(如电子产品一条街),提升交易效率;也可以在社会组织中看到:设立公共行政部门(如税务局)处理通用事务,让企业专注专业领域;同样可以在项目管理中看到:通过合理分配开发资源,优化产品开发的流程和质量。
综合上面2个例子可以看出,支撑DeepSeek做创新的关键,正是对事物极强的抽象和整合能力。
延展思考一下,这项能力,对我们做产品会有什么启发呢?
对需求的极致抽象,可以更合理地分配实现资源;对功能的极致抽象,可以更合理地设计产品模块;对市场变化的极致抽象,可以更及时地调整产品策略;举个例子,小猫补光灯,就是对“补光”这一核心需求的抽象;之前在360做的小爆款“时光日记”,是对“情绪表达”的抽象。我觉得从DeepSeek模型训练经验中学到的这种解题思路,尤其适合资源和时间有限的独立开发者,帮助他们拓宽视野、探寻本质,以更高效的分配方式满足用户需求。
DeepSeek与提示词使用
这是对R1论文研读后的思考。DeepSeek火爆后,最让人乐此不疲的,是它的深度思考模式。
很快,网上就流传开一个共识:和DeepSeek对话,不能用传统的“角色-指令”提示词框架,而要采用“场景-需求”的表达方式。典型格式就是:我要xx,要给xx用,希望达到xx效果,但担心xx问题……
另一个现象是,很多时候DeepSeek的输出过于“抽象”,充斥着大量难以理解的高大上名词,什么“参数正交、生命系统、元认知、数据混沌”,但加上一句“说人话”,表达就会“接地气儿”的多。
另一个DeepSeek的神奇之处,是它模仿名人风格写出的作品,和原作者文笔的相似度极高,效果远超其他模型。
这又引起了我的好奇。
为什么要有这种提示词写法的转变?为什么有时候DeepSeek的输出太“学术”,要让它“说人话”?为什么让DeepSeek模仿一个人的风格,能模仿的这么像?为什么在数学推理、编程运算上表现出色的DeepSeek,在创意写作上也令人惊艳?从R1的论文中也许能窥探一二.
首先,DeepSeek-R1-Zero的训练过程中,使用了格式奖励模型,要求模型将思考过程放在‘’和‘’标签之间。
这种做法强化了模型的指令遵循能力,而这项能力,很可能泛化到其他格式敏感的任务中。当用户提出“用某个名人的风格写文章”时,模型会把风格指令看做类似的格式约束,从而做到精准响应。
第二,在强化学习的过程中,模型被要求学会“验证步骤合理性”,而这种能力不仅被用来验证解数学和编程问题,迁移到写作中,也能让写作的每一步更有条理。
此外,猜测在多阶段训练的冷启动阶段,DeepSeek的研究员也为模型注入了大量长链思维数据,其中就包含着高质量的写作样本。
第三,为了训练出一个用户友好的模型,除了格式奖励,DeepSeek-R1的训练过程中还引入了语言一致性奖励(Language Consistency Reward),这使模型更擅长理解“任务目标+约束条件”,而不是抽象角色定义。
举个例子,如果输入这样的提示词:
其中的“希望xxx”部分,会触发格式奖励,因为其隐含了让模型分步解释的要求,类似加上了的限制条件。而“避免xxx,担心xxx”部分,则激活了语言一致性奖励,对应着模型训练中可读性优化的目标。
也就是说,在DeepSeek的强化学习过程中,训练数据通常会遵循“问题描述→约束条件→输出结构”的分布,而如果我们在提示词中也遵循这样的写法,就会触发模型自动生成带风格的分步解答。
从另一个角度理解,让模型扮演一个角色,本质上是给模型设定一个System Prompt(系统提示词),让它具备某项能力。而DeepSeek-R1的训练过程中,并没有显式使用System Prompt(系统提示词),而是完全依赖User Prompt(用户提问)和结构化响应模板(如和标签)来引导模型行为。即:
User: [问题描述]
Assistant: [推理过程] [最终答案]
在论文第5章(Limitations)中也提到,建议用户在使用时直接描述问题,并使用零样本设置指定输出格式以获得最佳结果。如果强制添加角色指令,模型很可能因为训练数据缺乏此类模型而表现不稳定。
如果你对产品思维足够敏感,会发现一件事:
DeepSeek-R1所推荐的提示词写法,和描述需求的方式是一样的,即:
不要讲用户需要什么,而是还原场景,站在用户视角,强调:我希望达成一个什么目标,但在达成过程中遇到了什么问题,我希望解决它,但面临着一些困难,不知道该怎么做才好。
而DeepSeek做深度思考的过程,就可以看做产品经理思考产品解决方案的过程。
再延展思考一下,除了直接描述目标、场景和要解决的问题外,从论文中还可以衍生出哪些提示词优化技巧?核心思路就是想办法激活模型在RL训练中学习到的奖励机制和链式推理能力。比如说:
1、分步式结构:任务分解+逻辑链路
举例:
需求:我需要写一篇关于气候变化对农业影响的科普文章。步骤:先解释气候变化的基本原理(控制在200字内);再按“问题→技术解决方案→案例”结构展开(需包含数据支撑);最后进行总结(避免专业术语)。注意:每一步的结论要自然衔接,读者是高中生。原理:
通过分步描述,匹配冷启动数据中的长链思维模式;要求“自然衔接”来触发RL训练中的格式奖励。
2、对比式结构:目标+对比优化方向
举例:
目标:生成一段吸引Z世代用户的短视频文案。优秀案例特点:1.多用梗图和网络热词2.节奏快,每句话不超过10个字3.高频使用表情符号(每句1个)需避免的问题:1.说教式口吻2.复杂长句3.与当前流行文化脱节原理:
使用"避免"类指令,直接关联RL训练中的语言一致性奖励;通过正负样本对比,强化模型对偏好分布的判断,类似论文中的拒绝采样逻辑。
3、反思式结构:观点+反思推演
举例:
观点:新能源车补贴退下降会导致销量下滑1.请列举支持该观点的3个经济学理论2.请找出3个可能推翻该观点的因素3.请同时对你的支持和反对回答复盘10次4.综合判断观点成立的概率和理由原理:
这种"验证-反驳"流程,会激活模型在数学推理任务中训练的反思行为;概率量化要求会触发RL训练中的数值精确性奖励。
上述方法提出的本质,就是遵循R1训练的基本原则:
通过明确步骤流程触发奖励格式最大化通过明确禁止条款让惩罚机制显性化在复杂任务中加入自检步骤,激活模型的反思能力DeepSeek与AI应用
DeepSeek再强大,也只是基础模型,简单和它对对话,体验一下推理反思带来的震撼效果,对普通人而言也就足够了。
但对业内人士而言,这项技术能否顺利落地,产生商业价值,才是最值得关注的。
那么,刨除成本优势和蒸馏能力不谈(其价值显而易见),DeepSeek这类更强调强推理能力,尤其在长CoT、数学和编码能力表现突出的模型,可以让哪些AI落地场景更受益呢?
首先能想到的,是对AI Agent智能的强化,尤其是在规划能力上。
我们都知道,当下很多智能体开发平台,实现智能的方式主要是工作流配上一些模型节点,本质上这还是一种低代码编程,开发出的Agent,并不具备真正的智能。
如上图所示,智能体的规划能力,在于能否清晰拆解目标,并根据环境反馈自我反思。
而类似DeepSeek R1这样具备深度推理能力的模型,能使AI Agent在规划阶段更好地理解任务的整体结构和各组成部分之间的关系。又由于其会自我反思,从中找到最优答案,也可以让Agent在进行子目标拆解时,自行评估不同方案的优缺点,从而选择最符合需求和资源限制的方案,提高执行效率和效果。
更进一步地想,这种基于深度强化学习的规划方式,甚至可以使AI自主发现人类没有预设到的优化策略,从而反过来帮助人类优化任务执行方法,实现双赢。
除此之外,推理过程中的反思内容可视化,可以让AI的输出结果具备可解释性,进而提升用户对AI产品的信任度。
大模型最令人诟病的,就是它的生成结果不可控,要么是泛泛而谈,要么是天马行空,其生成过程对用户而言是黑盒,这明显违背了尼尔森的十大可用性原则中的状态可见原则,即:系统应让用户时刻清楚当前发生了什么事,也就是快速的让用户了解自己处于何种状态、对过去发生、当前目标、以及对未来去向有所了解。
很多时候用户对模型的回答不满意,本质上就是这四种原因:
我知道你知道:你给的我早就知道,没什么厉害的。我不知道你知道:你说的是什么意思啊,看不懂。我知道你不知道:你是在瞎说吧,这明显是错的。我不知道你不知道:这回答貌似很厉害的样子,但真的是这样么?而将反思过程可视化,就能针对性缓解上述用户困惑:
1、针对“我知道你知道”(用户认为回答无新意)
这个问题的本质,是用户觉得AI的回答停留在常识层面,缺乏独特价值。但如果将隐藏的推理层次以“深度分析”的面板呈现出来,就会提升决策深度,帮助用户打开思路,发现非常规解法的可能。
2、针对"我不知道你知道"(用户看不懂回答)
导致这类问题的原因,是AI呈现信息的方式不符合用户认知水平。那如果在多轮反思中,包含专业术语的解释、推理步骤的示意,实际案例的呈现,全方位展示答案的产出过程,也就能更好帮助用户理解。
3、针对"我知道你不知道"(用户质疑回答错误)
这类问题是推理步骤外化可以解决的典型代表,由于缺乏验证路径,用户会对AI结果缺失可信度,那完全可以基于此标注每个结论的事实依据和推测概率,从正向和反向多个层次展示答案的输出过程,再高亮AI都觉得难以判断的部分(如"当前结论未考虑2023年新修订的XX法规,建议补充以下信息..."),就会全方位提升答案的信任感和可用性。
4、针对"我不知道你不知道"(用户怀疑潜在错误)
当缺乏判断依据时,呈现更丰富的信息,尤其是推理失误部分,反而能让用户感知到AI给出信息的严谨性,甚至有助于启发对未知部分的探索欲,从而给AI提供进一步补充信息,让接下来的反馈效果更好,达到人机互补的效果。
总结下来,让反思过程可视化,目的是暴露AI思考的范围和局限,一方面缓解对不确定性的焦虑,另一方面也能启发一部分对未知的探索欲,是一种新型人机协作方式,我觉得特别适合用在教学场景中。
DeepSeek的边界与局限性
最后再来聊一点我对DeepSeek的一些担忧。
直觉上讲,如果DeepSeek遵循的第一性原理是成本,那性能只是极度榨干算力下的涌现,并不是最终他们要达到的目标。如果这个逻辑成立,相比那些不计成本只追求模型效果的公司而言,他的发展会不会更慢?
当然,从另一个角度看,追求性价比的核心,在于提升“单位算力下的智能”,这反而需要更强的技术突破,这会形成“深度求索”这家公司的护城河,从而让他们更有余力带来更强大的模型效果。
再进一步想,DeepSeek这一波秀的,可能并不是模型本身,而是他们的工程优化能力,从更本质看,这才是决定商业化成败的关键。
从大模型行业的技术演进规律看,相比盲目堆算力,DeepSeek展现的"技术降本"路径,实际上代表着行业前沿方向。因为低成本训练可以让模型的迭代频率更高,其过程中产生的中间成果(优化算法、训练框架等),能衍生出比大模型本身更有商业价值的产品。当然,这对突破“算力管制”肯定也是利好。
第二点担心是,DeepSeek R1所采取的纯强化学习进行Post-Training的方法,更适合训练数学推理和代码编写模型,因为它们都有明确的奖励信号、推导流程和可验证的中间结果。那面对偏创意类的生成任务,是不是效果会差很多。
虽然我们看到的是,无论写文章、写诗还是模仿说话,DeepSeek的效果也都超预期,但这些是基于对R1-Zero进一步微调得来的(高质量的冷启动数据、多阶段训练),这种“打补丁”式的优化方法,会不会存在瓶颈?
也许借助蒸馏技术,可以把推理能力迁移到更多样的模型中,让别的模型帮助解决这类问题?也许可以把这项任务交给预训练模型,借助预训练模型的语言能力,为后训练提供良好起点:也许可以把监督学习和强化学习结合起来,让创意任务用监督学习进行预训练,再通过强化学习进一步优化模型生成能力?具体解法我不清楚,但相信已经有很多人在这条路上在持续探索着。
总结一下
DeepSeek为我们带来的,不只是性价比超高的模型,更是一种在有限条件下追求极致的态度,也是一种从本质出发思考问题的解题思路。
那这和我们每个人有什么关系呢?
未来会有更多企业尝试低成本训练自己的小模型;未来会有更多人希望将模型应用在自己的业务场景中;未来会有更多产品经理和开发者下场提供更好用的产品;AI在进化,人类也在成长,2025,与你共勉!
作者 | 申悦,前360产品总监、36氪产品负责人,目前AII in AI,疯狂钻研中。
来源:全域运营