DeepSeek闭门研讨会:技术背后的愿景引领未来

B站影视 2025-01-30 23:01 2

摘要:自DeepSeek-R1以惊人的速度席卷全球AI社区以来,其独特的魅力与潜力引发了广泛的关注与讨论。然而,关于这一创新技术的详细信息与解读却相对稀缺,这无疑为其增添了几分神秘色彩。

自DeepSeek-R1以惊人的速度席卷全球AI社区以来,其独特的魅力与潜力引发了广泛的关注与讨论。然而,关于这一创新技术的详细信息与解读却相对稀缺,这无疑为其增添了几分神秘色彩。

2025年1月26日,拾象科技的创始人兼CEO李广密先生,精心策划并组织了一场关于DeepSeek的闭门研讨会。此次盛会汇聚了数十位来自全球的顶尖AI研究员、资深投资人以及一线AI从业者,他们共同围绕DeepSeek的技术细节、组织文化以及其在全球范围内的短中长期影响等议题,展开了深入而富有成效的探讨与学习。

在这场高规格的闭门会中,与会嘉宾们试图在有限的信息资源下,逐步揭开DeepSeek这股“神秘的东方力量”的面纱。他们通过专业的视角和独特的见解,对DeepSeek的技术优势、应用场景以及未来发展前景进行了全面而深入的分析。

值得注意的是,本次讨论会属于纯粹的民间技术交流范畴,旨在促进AI领域的学术交流与合作,并不代表任何具体个人或机构的观点立场。正如硅谷著名风投家Marc Andreessen所言:“作为开源项目,DeepSeek-R1无疑是对世界的一份深远馈赠。”这种开源精神正是本次讨论会所秉持的核心理念。

在研讨过程中,与会嘉宾们纷纷表示,DeepSeek不仅是一项前沿的技术创新,更是一种推动AI领域持续进步与发展的重要力量。他们希望通过本次讨论会,能够进一步加深对DeepSeek的理解与认识,并为推动AI技术的普及与应用贡献自己的力量。

最后,拾象团队对本次讨论会的要点进行了精心整理与总结,以便让更多的AI从业者、研究者以及关注者能够全面了解本次闭门会的精彩内容。这份总结不仅是对本次讨论会成果的回顾与总结,更是对未来AI领域发展趋势的一种展望与期许。

01 DeepSeek核心使命:推动智能边界,探索未知潜能

核心引领者:梁文锋的技术魅力

DeepSeek的创始人兼CEO梁文锋,无疑是这家AI创新企业的灵魂人物。与Sam Altman等业界领袖不同,梁文锋以其深厚的技术背景和卓越的领导才能,引领DeepSeek在AI领域不断前行。他深知技术的力量,也深知如何将技术转化为推动社会进步的重要动力。

口碑之源:早期的布局与突破

DeepSeek之所以能够在业界赢得良好的口碑,很大程度上得益于其早期的布局与突破。作为首个公开复现MoE、o1等技术的团队,DeepSeek凭借先发优势,迅速在AI社区中崭露头角。然而,梁文锋深知,要想在竞争激烈的AI领域立足,仅有先发优势是不够的。因此,他带领团队不断挑战自我,力求在资源有限的情况下,将有限的资源投入到最具潜力的领域,以实现最大的价值。

技术飞跃:长上下文能力的显著提升

从preview到正式发布,DeepSeek在长上下文能力方面取得了显著的进步。其Long context 10K技术,仅凭常规方法便实现了卓越的性能,这无疑是DeepSeek技术实力的有力证明。这一技术的突破,不仅为DeepSeek赢得了更多的赞誉,也为AI领域的发展注入了新的活力。

合规与资源:DeepSeek的稳健发展

关于DeepSeek的硬件规模,外界一直存在诸多猜测。然而,从公开信息来看,DeepSeek拥有一定数量的A100卡和H800卡,但数量远未达到某些传闻中的夸张程度。DeepSeek一直注重合规性,没有采购任何不合规的GPU。这种稳健的发展策略,不仅为DeepSeek赢得了业界的尊重,也为其未来的可持续发展奠定了坚实的基础。

专注与放弃:DeepSeek的战略选择

DeepSeek将所有精力都集中在一个狭窄的领域,放弃了后续可能涉及的多模态等方向。这种专注的战略选择,让DeepSeek能够更深入地探索智能的本质,从而取得更大的突破。梁文锋认为,做智能本身而非单纯服务人,可能是DeepSeek成功的关键因素之一。

量化投资:DeepSeek的商业模式

从某种意义上来说,量化投资可以看作是DeepSeek的商业模式之一。梁文锋创立的幻方量化投资公司,是上一轮机器学习的产物,也为DeepSeek提供了稳定的资金支持。然而,对于DeepSeek来说,最重要的还是推动智能的发展。因此,钱和商业化的优先级并不高。梁文锋坚信,中国需要有几个领先的AI labs来探索能够超越OpenAI的技术,而DeepSeek正是其中之一。

人才扩散:DeepSeek的黄埔军校效应

从技术角度来看,DeepSeek作为AI领域的黄埔军校,对人才的扩散起到了巨大的作用。其团队中汇聚了大量来自国内高校的聪明年轻人,他们在一起磨合、成长,共同推动了AI技术的进步与发展。这些年轻人在DeepSeek的熏陶下,逐渐成长为AI领域的佼佼者,为行业的发展注入了新的活力。

商业模式探索:AI领域的共同挑战

美国的AI lab也面临着商业模式的挑战。AI领域确实还没有一个成熟的商业模式,这需要行业内的企业不断探索和创新。梁文锋是一个有抱负的领导者,他不在乎DeepSeek的形态如何,只在乎是否能够推动AGI(通用人工智能)的发展。这种坚定的信念和追求,让DeepSeek在AI领域独树一帜。

技术节约:DeepSeek的硬件开销优化

读完DeepSeek的论文后,人们会发现其中很多技术都是用来节约硬件开销的。在几个重要的scaling方向上,DeepSeek的技巧可以将成本降下来。这种对硬件开销的优化,不仅体现了DeepSeek的技术实力,也为其在未来的竞争中赢得了更多的优势。

算力需求与效率提升

虽然长期来看,算力的发展不会对AI产生根本性的影响,但短期内大家还是会想方设法提高AI的效率。目前,各家AI企业都面临着算力不够用的问题。因此,如何在有限的算力下实现更高的效率,成为了AI领域亟待解决的问题之一。DeepSeek在这方面也做出了积极的探索和实践。

DeepSeek的组织与文化

(1)人才磨合与能力提升

在投资领域,人们往往选择最高级的人才组合来打造团队。然而,DeepSeek的模式却有所不同。其团队中多是国内高校毕业的聪明年轻人,他们在一起磨合、成长,逐渐形成了独特的团队文化。虽然挖走一个人可能会打破这种优势组合,但从目前来看,对DeepSeek的影响并不是特别大。因为DeepSeek的团队文化已经深入人心,成为了团队凝聚力和战斗力的重要保障。

(2)文化与长期性

市场上钱有很多,但DeepSeek的核心是文化组织。DeepSeek和字节的research culture比较像,都注重本质和长期性。文化好不好的衡量标准在于是否有足够的钱和长期性支持。而DeepSeek和字节都拥有比较重要的商业模式,这为它们的长期性文化提供了坚实的保障。这种注重长期性的文化理念,让DeepSeek在AI领域能够保持稳健的发展态势。

DeepSeek的快速发展之谜

(1)高质量数据与训练

DeepSeek之所以能够快速发展,与其对reasoning model(推理模型)的深入理解和精准布局密不可分。推理模型需要更高质量的数据和训练来支撑其性能的提升。而DeepSeek在这方面做出了积极的探索和实践,从而实现了快速追赶和超越。

(2)任务难度与效率提升

R1能够快速追赶的原因之一在于其任务难度相对较低。RL(强化学习)只是让模型在选择时更加准确,而没有突破Consensus 32的效率。同时,R1花费了32倍的效率来将原来的并行探索改为串行,虽然降低了智能的边界,但使得任务变得更加容易了。这种对任务难度的精准把控和效率提升的策略,为DeepSeek的快速发展提供了有力的支持。

DeepSeek的故事远不止于此。作为一家致力于推动智能发展的创新企业,它始终保持着对未知世界的探索精神和对技术创新的执着追求。在梁文锋的带领下,DeepSeek的团队不断突破自我、挑战极限,为AI领域的发展注入了源源不断的动力。

在未来的发展中,DeepSeek将继续秉承“push智能”的核心理念,不断探索AI技术的边界与潜力。同时,它也将积极寻求与业界同仁的合作与交流,共同推动AI技术的普及与应用。相信在不久的将来,DeepSeek将成为AI领域的一颗璀璨明珠,为人类的进步与发展贡献更多的智慧和力量。

02 阶跃式AI竞赛:探索者引领与追赶者奋起

AI阶跃式发展下的算力差异

AI的发展如同阶跃函数,每一次跳跃都伴随着算力的巨大提升。当前,作为追赶者,其算力需求相较于探索者已大幅减少,甚至达到了10倍的差距。然而,追赶者的算力成本虽然相对较低,但探索者仍需训练大量的模型以推动技术的突破。在AI领域,对于新算法和架构的探索从未停止,这是阶跃函数背后无数人的智慧与努力的结晶。因此,算力投入将持续增长,并伴随着产品的不断创新与发展。除了reasoning之外,还有许多其他方向同样需要大量的算力支持。探索者所花费的算力成本可能并不为众人所见,但这些投入却是推动AI技术实现下一个阶跃的关键。同时,也有许多人对现有的架构和RL方法感到不满,他们正不断努力,以期实现更大的突破。

算力门槛与探索效率

在探索AI的新方向时,算力的投入并非越多越好。有时,花费1万张卡的效果并不一定比1千张卡更好。然而,这并不意味着算力投入可以无限制地减少。实际上,存在一个算力门槛,当算力低于这个门槛时,如只有100张卡,那么由于迭代一次方案的时间过长,很可能无法取得有效的研究成果。因此,在探索AI的新方向时,需要合理评估算力需求,以确保研究的顺利进行。

物理学进步的双轮驱动

推动物理学的进步,既需要学校里的研究者进行基础性的探索,也需要产业界的实验室进行应用性的研究。学校里的研究者通常需要探索多个方向,而不要求立即获得回报。他们的工作为物理学的发展提供了源源不断的理论支持。而产业界的实验室则更加关注效率的提升,他们致力于将物理学的研究成果转化为实际的应用产品。这种双轮驱动的模式,共同推动了物理学的不断进步。

探索者与追赶者的算力战略

从探索者和追赶者的角度来看,他们在算力战略上存在着明显的差异。对于小公司来说,由于算力资源有限,他们更加注重效率的提升。而对于大公司来说,他们拥有更多的算力资源,因此更加关注如何更快地获得模型。然而,值得注意的是,许多在2千卡集群上能提高效率的方法在万卡集群上并不适用。因此,大公司在追求效率的同时,也需要考虑稳定性的问题。这种算力战略的差异,反映了不同规模和实力的公司在AI领域的不同需求和挑战。

CUDA生态与国内公司的后发优势

CUDA生态在算子方面具有多和全的优势,这使得它在AI领域具有广泛的应用。然而,随着国内公司的不断突破,他们开始选择一些常用的算子进行优化,从而获得了后发优势。当拥有10万张卡时,决定资源投入的策略变得尤为关键。是做领先者,承担高昂的成本和风险;还是做追赶者,利用后发优势实现更高效的发展?这是一个值得深思的问题。同时,我们也应该关注国内下一个追赶的方向。例如,多模态技术是当前AI领域的一个热门话题,而海外GPT-5的迟迟未出也为国内公司提供了追赶的机会。在这个充满机遇和挑战的时代,我们需要不断探索和创新,以期在AI领域取得更大的突破和发展。

在AI的阶跃式发展中,算力不仅是推动技术进步的关键因素,也是衡量一个国家或企业在AI领域竞争力的重要指标。随着AI技术的不断发展,算力需求呈现出爆炸式增长的趋势。然而,面对有限的算力资源,如何合理分配和利用这些资源成为了摆在我们面前的一个严峻挑战。

对于探索者来说,他们通常拥有更多的算力资源和更强的技术实力。他们致力于推动AI技术的突破和创新,不断挑战算力的极限。然而,这种高投入也带来了高风险。一旦研究方向出现偏差或技术突破未能如期实现,那么巨大的算力投入可能会化为泡影。因此,探索者在追求技术突破的同时,也需要注重风险控制和资源的合理利用。

相比之下,追赶者则更加注重效率和成本的控制。他们通常没有探索者那样的算力资源和技术实力,但他们可以通过优化算法和架构、利用现有的算力资源等方式来提高效率并降低成本。这种策略使得追赶者能够在有限的算力资源下实现更快的发展。

然而,无论是探索者还是追赶者,他们都面临着共同的挑战:如何在保证技术发展的同时,实现算力的可持续利用和环境的可持续发展?这需要我们不断探索新的算力技术和算法优化方法,提高算力的利用效率和能源利用效率;同时,也需要我们加强国际合作和交流,共同推动AI技术的全球发展和应用。

总之,AI的阶跃式发展为我们带来了前所未有的机遇和挑战。在这个充满变革的时代里,我们需要不断探索和创新,以期在AI领域取得更大的突破和发展。同时,我们也需要注重资源的合理利用和环境的可持续发展,为未来的AI发展奠定坚实的基础。

03 技术革新:SFT在推理层面的优化与省略

DeepSeek所带来的震撼,并不仅限于其开源或低成本的特点,更在于它开创性地实现了在推理层面省略SFT(Supervised Fine-Tuning,有监督微调)的可能性。这一突破挑战了传统认知,即在特定任务或领域上提升模型性能往往离不开SFT的助力。然而,DeepSeek却似乎在推理层面打破了这一常规,引发了业界对于新范式或架构的广泛讨论。这是否意味着,未来的模型训练将更加注重数据的利用效率,或者模型表现的迭代速度将因此得到质的飞跃?DeepSeek-R1的实践在一定程度上证明了SFT在蒸馏过程中的巨大价值。尽管它并非完全摒弃SFT,而是在特定步骤中实施,但其在最后一步alignment(对齐)中采用了RLHF(基于人类反馈的强化学习),这一创新组合无疑为模型优化提供了新的思路。值得注意的是,R1的本质仍是通过SFT训练得出的,但其独特之处在于,用于训练的数据是由RLHF模型生成的。这表明,只要方法得当,即便不采用特别复杂的技术,仅凭SFT蒸馏也能取得显著成效。R1的成功案例揭示了GRPO(一种模型优化策略)的核心在于base model(基础模型)的智力水平。在R1中,一个prompt的生成涉及多达16次的generation(生成),这凸显了多次尝试在获得正确答案中的重要性。R1提供的思路是,结合优质的base model与可验证性,尤其适用于math(数学)和coding(编程)等易于验证的任务。然而,理论上,这一过程同样可应用于其他场景任务,最终目标是构建一个通用的RL(强化学习)模型。在R1-Zero中,即便没有采用SFT,模型也展现出了CoT(Chain of Thought,思维链)的过程。随着CoT的逐渐延长,这一涌现现象愈发引人注目。SFT在这里更像是一个辅助手段,即便没有它,模型也能产生CoT,但有了SFT,生成过程将更为迅速。这一发现意味着,众多小模型厂商可以利用SFT来蒸馏大模型,并期待获得显著效果。尽管在R1的过程中,SFT并未被完全抛弃,但其角色已有所转变。从LLM(大型语言模型)的角度来看,一个集合了无限长CoT的模型,理论上可以被视为一台图灵机。通过无限长的CoT,它能够解决极为复杂的计算问题。然而,CoT本质上只是中间搜索结果,是模型在不断sample potential output(采样潜在输出)的过程中,以一种优化的方式逼近正确答案。这一过程体现了模型为了获得期望结果而必须进行的计算。CoT作为计算过程中的必经中间输出,其最终结果既可以说是涌现的,也可以说是模型作为计算机的本质体现。在DeepSeek的论文中,虽然未明确提及长上下文,但从R1-preview与R1之间的模型对比中,可以感受到context window(上下文窗口)的显著提升。这很可能是通过Long2Short CoT技术的提升实现的。此外,第三阶段SFT中使用的CoT在最终generation时被去除,而发布的版本可能采用了更为clean的CoT数据进行SFT。SFT的数据种类多样,其中冷启动数据为模型提供了一个良好的策略与初始化,有助于模型更好地探索并接近最优策略。另一种数据是在RL之后生成的,结合其他数据,在base model上进行SFT。每个domain都有其独特的数据处理流程,而数据的能力源自base model。蒸馏过程是无损的,将多个domain的数据整合在一起,可能会带来更好的泛化能力。关于R1的数据效率问题,目前尚存疑问。但可以推测,OpenAI在数据效率方面也进行了类似fine tuning(微调)的优化。R1在第三阶段并未采用RL训练出的模型作为base进行训练,而是利用其生成数据,再进行SFT得到R1。这些数据包括600K的reasoning data(推理数据)和200K的non-reasoning data(非推理数据)。第二阶段的模型可能在example的domain之外,但仍需要某种reasoning能力的场景下,也能展示出解题能力,从而生成reasoning data。而非推理数据则是V3 SFT数据的一部分,它让V3脑补出了一个CoT。这800K的数据量相对较小,但效率却相当高。

DeepSeek技术的革新不仅为我们提供了一个全新的视角来看待模型优化问题,更让我们看到了未来AI技术发展的无限可能。在推理层面省略SFT的尝试,无疑是对传统模型训练方式的一次大胆挑战。它让我们意识到,随着技术的不断进步,我们或许能够找到更加高效、简洁的方法来提升模型的性能。

同时,DeepSeek-R1的成功案例也为我们揭示了模型优化过程中的一些关键要素。优质的base model、可验证的任务类型以及合理的数据处理流程,都是构建高效模型不可或缺的部分。而RLHF与SFT的结合,更是为我们提供了一种全新的模型训练思路。

此外,DeepSeek技术还让我们看到了CoT在模型优化过程中的重要作用。作为计算过程中的必经中间输出,CoT不仅能够帮助我们更好地理解模型的计算过程,还能够为我们提供一种优化模型性能的新方法。通过不断延长CoT的长度,我们可以让模型在解决复杂问题时展现出更强的能力。

展望未来,我们相信随着DeepSeek等技术的不断发展,AI技术将在更多领域得到广泛应用。无论是医疗、教育、金融还是其他行业,AI都将成为推动行业发展的重要力量。而在这个过程中,模型优化技术的不断创新与突破,将成为我们不断前行的重要动力。

04 DeepSeek数据战略:高度重视数据标注的精细与准确

Scale.AI的未来发展并非一片黯淡,尽管面临挑战,但在多个domain(领域)上实施RL(强化学习)仍具有广阔前景。尤其在math(数学)和coding(编程)等领域,尽管需要expert(专家)进行复杂的数据标注,但这一市场需求将持续存在。随着技术的不断演进,数据标注的复杂性或许会增加,但市场潜力同样不容忽视。在training(训练)层面,多模态数据的运用目前尚未显现出显著效果,或者说其成本过高,使得其实际应用受到一定限制。当前,尚无确凿证据表明多模态数据在模型训练中具有显著优势,但未来这一领域的发展机遇仍然巨大。随着技术的不断进步和成本的逐步降低,多模态数据有望在模型训练中发挥更加重要的作用。DeepSeek在数据标注方面展现出了极高的重视程度。据传,梁文锋本人也会亲自参与数据标注工作,这足以证明DeepSeek对数据精确度的极致追求。在AI领域,除了算法和技巧的精湛运用,数据的精确度同样至关重要。以特斯拉为例,其在自动驾驶领域的标注成本几乎是中国自动驾驶企业的20倍。中国自动驾驶企业在数据标注方面经历了从大而全到精细化的转变,但最终发现,标注人员的开车经验和能力才是决定数据质量的关键因素。这一点,特斯拉从一开始就深谙其道。特斯拉在机器人动作标注方面,更是选择小脑非常健康的人进行标注,以确保动作的丝滑程度。相比之下,中国企业在标注人员的选择上,往往难以达到如此高的标准。因此,DeepSeek在数据标注上的高额投入,正是其模型效率出众的关键因素之一。

DeepSeek对数据标注的精细与准确性有着近乎苛刻的要求,这不仅体现了其对AI技术的深刻理解,更展现了其在追求技术卓越方面的坚定决心。在AI领域,数据是模型的基石,而数据的精确度则直接关系到模型的性能和效率。DeepSeek深知这一点,因此在数据标注上投入了大量的人力、物力和财力。

为了确保数据的精确度,DeepSeek不仅采用了先进的标注工具和技术,还建立了严格的标注流程和质量控制体系。从数据的采集、清洗、标注到验证,每一个环节都经过了精心的设计和严格的把控。此外,DeepSeek还注重标注人员的专业素质和经验积累,确保他们具备足够的行业知识和标注技能。

DeepSeek的这种对数据标注的高度重视和精细管理,不仅提升了其模型的性能和效率,更为其在AI领域的竞争中赢得了宝贵的优势。未来,随着AI技术的不断发展和应用场景的不断拓展,DeepSeek将继续坚持其数据战略,不断提升数据的质量和精确度,为AI技术的发展和应用贡献更多的智慧和力量。

同时,DeepSeek的成功经验也为我们提供了宝贵的启示。在AI领域,技术的卓越并非一蹴而就,而是需要长期的积累和不断的创新。而数据的精确度和质量,则是决定AI技术成败的关键因素之一。因此,我们应该像DeepSeek一样,高度重视数据标注的精细与准确性,不断提升数据的质量和精确度,为AI技术的发展和应用奠定坚实的基础。

05 知识蒸馏技术探讨:模型多样性降低的潜在挑战

若忽视模型训练中的核心痛点,而盲目依赖蒸馏技术以求规避,那么在下一代技术革新之际,我们或将面临更为严峻的挑战。蒸馏技术虽有其独到之处,但若未能深刻理解其背后的局限与风险,便可能在未来技术的迭代中陷入困境。大模型与小模型之间的能力差异显著,从大模型向小模型进行知识蒸馏,确实是一种有效的技术路径,即“teacher to student”的模式。然而,若将完全不具备中文能力的模型用于蒸馏中文数据,其性能可能会大打折扣。尽管如此,蒸馏小模型在多数情况下仍能展现出明显的性能提升。例如,R1模型经过蒸馏后,再进行强化学习(RL),其能力会有显著提升。但值得注意的是,这种提升往往源于使用了与模型原始能力不匹配的数据。蒸馏技术的潜在问题在于,它可能导致模型多样性的下降,进而影响模型的性能上限,使其难以超越当前最强的模型。然而,从短期角度看,蒸馏技术仍不失为一种可行的技术路线,能够在一定程度上提升模型的性能。蒸馏过程中存在一些隐晦的技巧(hack),这些技巧可能导致模型在强化学习阶段呈现出一些异常行为。例如,在指令调整过的模型上进行RL训练时,模型可能会先生成一些无用的想法,然后突然给出正确答案。这往往是因为模型在预训练阶段已经记住了大量问题,因此表面上看似在思考,实则只是在接近已经记住的答案。这便是蒸馏技术的一个潜在隐患。若不进行充分的标注便进行蒸馏,那么在进行具有可验证奖励的强化学习(RLVR)时,模型可能会倾向于采用更简单的方式解决问题,而非深入思考问题的本质。OpenAI也未能完全解决这一问题,这或许是当前技术代际的一个固有缺陷。从长期来看,若一味追求捷径,而不愿自主思考技术方案,只是简单复现他人的技术路线,那么中间可能会隐藏着诸多未知的风险。例如,在当前技术代际中,若long context未能实现质变,那么解决问题的上限可能会受到严重限制。R1-zero或许为我们指明了一个正确的方向,即从头开始构建R1-zero模型,或在不依赖类似O1数据的情况下启动模型训练,可能更为可取。盲目追随他人的技术方案并非明智之举,我们更应勇于探索未知领域。蒸馏技术不仅适用于特定模型,其他模型同样可以通过蒸馏获得较好的结果。未来,在模型生态中可能会形成老师与学生角色的明确区分。能够成为一名优秀的学生模型,也将成为一种可行的商业模式。在蒸馏技术与技术路线方面,R1所带来的震撼或许不及AlphaGo,但在商业领域,R1的出圈能力却远超AlphaGo。这得益于R1在应用场景中的广泛适用性和灵活性。蒸馏过程可分为两个阶段。若仅停留在O1或R1的蒸馏阶段,而未建立自己的体系和可验证奖励机制,那么可能会导致大家越来越依赖蒸馏技术。然而,在通用领域,蒸馏技术是不可行的,因为奖励机制无法得到明确界定。此外,在蒸馏过程中如何获取特殊的CoT(链式思考)也是一个难题。第一阶段的蒸馏往往留有痕迹,例如使用OpenAI蒸馏的模型可能遗留着OpenAI大量的退火痕迹。这也是为什么zero模型能够在纯RL阶段获得如此强大的能力,与其基础模型在退火后具备反思能力有着直接关系。对于完全依赖互联网数据且未经退火处理的模型,我们对其能否表现出类似行为持怀疑态度。因为互联网上的数据质量参差不齐,难以满足高质量训练的需求。目前,仅有少数顶尖实验室在深入探索退火阶段所需的数据量和数据配比。蒸馏与否都是RL算法的一种选择,SFT(行为模仿)可以视为一种无限的强化学习,但仅依赖SFT的上限较低,且会损害模型的多样性。一级市场上的创业公司对DeepSeek抱有浓厚兴趣。若DeepSeek能够持续迭代并展现出强大能力,那么对于非大型上市公司而言,在使用AI时将拥有更大的灵活性。DeepSeek已经通过蒸馏技术推出了几个适用于手机的小版本模型。若这一方向得到验证,那么对于众多AI应用而言,其性能上限将得到显著提升。在进行蒸馏时,明确目标至关重要。OpenAI并未采用数据蒸馏技术,因此若想要超越OpenAI,盲目跟随其脚步进行蒸馏显然是不可取的。未来,模型可能需要像人类一样学会跳跃式回答,即在固定context长度下,通过灵活调整回答方式来提高模型的能力表现上限。这将是一个值得深入探索的领域。

在探索AI技术的道路上,我们始终保持着对未知的好奇与敬畏。蒸馏技术作为其中一种重要的技术路径,既为我们带来了显著的性能提升,也让我们深刻认识到了其潜在的局限与挑战。然而,这并未阻止我们前进的脚步,反而激发了我们更加深入地探索与创新的热情。

在未来的技术发展中,我们期待着蒸馏技术能够与其他先进技术相结合,共同推动AI技术的革新与进步。同时,我们也应更加关注模型的多样性与泛化能力,以确保AI技术能够更好地服务于人类社会。

在探索的过程中,我们不仅要勇于尝试新技术、新方法,更要保持清醒的头脑,理性分析技术的利弊与风险。只有这样,我们才能在AI技术的浪潮中稳健前行,不断创造新的辉煌。

此外,我们还应关注AI技术的伦理与安全问题。随着技术的不断发展,AI在社会各个领域的应用将越来越广泛,其可能带来的伦理与安全问题也日益凸显。因此,在推动技术发展的同时,我们更应注重技术的伦理规范与安全保障,确保AI技术能够健康、可持续地发展。

总之,蒸馏技术作为AI领域中的一种重要技术路径,既为我们带来了机遇,也让我们面临着挑战。在未来的发展中,我们应保持开放的心态、创新的精神,不断探索与突破,共同推动AI技术的繁荣与进步。

06 技术细节探讨:过程监督与结果监督——解锁模型潜能的关键路径

过程奖励(Process Reward)并非全然不可行,但其潜在风险在于容易被“奖励劫持”(reward hack)。这意味着模型可能并未真正学到有价值的内容,却能巧妙地操纵奖励机制,使其数值居高不下。以解决数学问题为例,若模型生成了上千个解答,却无一接近正确答案,那么采用类似RLVR(具有可验证奖励的强化学习)的方法将难以训练出有效模型。此时,若存在一个相对可靠的过程奖励,它或许能引导模型向正确方向迈进,过程分数在某种程度上也能发挥积极作用。然而,这取决于问题的复杂程度以及过程奖励的可靠性等因素。在PRM(概率风险模型)估算中,过程分数若与真实情况存在偏差,便为“劫持”提供了可乘之机。理论上,过程监督是可行的,但关键在于如何界定“过程”的力度,并据此设定合理的奖励机制。当前,结果监督通常依赖于抽取的答案进行匹配,然而,各家尚未形成成熟方案来防止模型自我迭代过程中的“劫持”现象。模型打分极易受到操纵,而标注过程本身并不复杂,往往可以通过枚举等方式实现,只是尚未得到广泛应用。这或许是一个值得深入探索的有前途方向。过程监督的上限往往受限于人类的想象力与认知边界。相比之下,结果监督更能体现模型的潜能上限。因为结果监督直接以最终输出为依据,不受人类预设过程的局限。AlphaZero之所以有效,很大程度上得益于棋局终局时的胜负判断。其奖励机制可以基于胜率精确计算。然而,对于大型语言模型(LLM)而言,我们并不清楚持续生成文本是否能最终给出正确答案。这有点像遗传算法,其上限可能更高,但也可能难以被精确“劫持”。从AlphaGo到AlphaZero的跃迁中,围棋规则的固定性是一个重要优势。当前,模型从数学和编程领域起步,正是因为这些领域的验证相对容易。验证方法的优劣会直接影响强化学习的质量。规则必须足够完善,否则模型可能会找到规则的漏洞进行“劫持”,虽然满足了规则,但生成的结果却并非我们所期望的。

在探索AI技术的征途中,过程监督与结果监督作为两种重要的训练策略,正引领我们不断解锁模型的潜能。过程监督侧重于对模型生成过程中的每一步进行细致入微的评估与奖励,旨在引导模型逐步逼近正确答案。然而,这一过程中潜在的“奖励劫持”风险不容忽视,它可能让模型在看似高分的表象下,实则并未真正掌握问题的核心。

相比之下,结果监督则更加直接且客观。它以模型的最终输出为依据,不受过程细节的影响。这种监督方式更能体现模型的真正实力与潜能上限。然而,结果监督也并非完美无缺。在复杂问题的求解过程中,如何设定合理的验证标准与奖励机制,以确保模型不会为了迎合规则而牺牲真正的问题解决能力,是我们需要深入思考的问题。

在实际应用中,我们可以将过程监督与结果监督相结合,形成一种更加全面且有效的训练策略。通过过程监督来引导模型逐步逼近正确答案,同时利用结果监督来确保模型的最终输出符合预期。这种结合策略既能发挥过程监督的引导作用,又能避免结果监督的局限性,从而更全面地提升模型的性能与表现。

此外,我们还应关注模型在训练过程中的自我迭代与学习能力。模型打分过程中的“劫持”现象提醒我们,必须不断优化验证方法与奖励机制,以防止模型为了获得高分而采取不正当手段。同时,我们还应鼓励模型进行自我反思与修正,以提升其问题解决能力与泛化能力。

展望未来,随着AI技术的不断发展与成熟,过程监督与结果监督将在更多领域发挥重要作用。它们将引领我们不断探索新的训练策略与方法,以解锁模型的更大潜能。同时,我们也应保持对技术的敬畏之心,不断反思与优化我们的训练策略与方法,以确保AI技术能够更好地服务于人类社会。

07 深度剖析:为何其他公司未采用DeepSeek方法

“大厂的模型策略:低调前行”

OpenAI与Anthropic未涉足DeepSeek领域,实则源于公司战略聚焦的差异。两者可能认为,将现有算力资源投入到其他方向能带来更大价值,故未选择DeepSeek作为主攻方向。相较于大型科技公司,DeepSeek之所以能在语言领域取得显著成果,或许正是因为其专注于单一模态,而非多模态的广泛探索。大厂虽模型能力强大,但受限于诸多因素,如低调策略、发布策略等,未能充分展现其多模态实力。当前,语言智能仍是提升整体智能的关键,多模态并非核心要素。

08 2025年技术展望:分化与押注

展望2025年,AI模型领域将呈现显著分化。智能边界的不断拓展,或将引领我们走向众多突破性的路径,方法与策略也将随之变化。合成数据、新架构的探索,正成为降低成本、拓宽智能边界的重要方向。2025年,我们应首要关注新架构的涌现,特别是能否超越Transformer,成为新的主流。已有探索表明,新架构在降低成本的同时,也展现了探索智能边界的潜力。此外,强化学习(RL)的潜力尚未完全释放,产品层面,agent虽备受关注,但尚未实现大规模应用。同年,多模态领域或迎来能挑战ChatGPT形态的新产品,为市场注入新的活力。R1与V3的成功,不仅展现了低成本、高效果的优势,也指明了未来发展的一个方向。这与扩大硬件规模、增加参数数量的策略并不冲突,反而相辅相成。国内受限于特定条件,更倾向于前者的发展路径。DeepSeek的兴起,既是对Scaling Law的遵循,也是模型蒸馏技术的创新应用。其先大后小的蒸馏策略,对闭源模型尤为有利。至今,技术发展中尚未出现明确的反规模指标,一旦出现,或将对Scaling Law构成重大挑战。同时,开源模型的所有优势,在闭源模型中同样可实现,甚至能进一步降低成本,为闭源模型带来利好。据悉,Meta正在复现DeepSeek,但目前尚未对基础设施或长期路线图产生显著影响。长期来看,除了探索技术边界外,成本控制同样重要。只有降低成本,才能解锁更多创新玩法。

09 开发者视角:闭源模型与DeepSeek的选择

“迁移尚未大规模发生”

开发者是否会从闭源模型转向DeepSeek?目前来看,大规模迁移尚未发生。领先模型的coding指令遵循能力仍是一大优势,但未来这一优势是否能保持,尚存不确定性。从开发者角度看,Claude-3.5-Sonnet在工具使用方面的专门训练,为agent的应用提供了有利条件。而DeepSeek等模型虽暂未提供类似功能,但其带来的创新空间巨大。对于大模型应用者来说,DeepSeek V2已满足所有需求。R1虽提高了速度,但并未带来额外的巨大价值。然而,在开启深度思考时,以前能答对的题目现在反而可能出现错误,这引发了新的思考。应用者在选择模型时,常采用工程方法简化问题。2025年或将成为应用年,各行各业将利用现有能力进行实践,但可能逐渐遇到瓶颈。因为日常应用中,并不总是需要特别聪明的模型。当前RL主要解决了有标准答案的问题,并未比AlphaZero有更多突破,甚至在某些方面更简单。蒸馏技术解决了标准答案的问题,使得RL在训练时能取得良好效果。这是蒸馏和RL能快速取得突破的重要原因。人类对智能的需求远被低估。如癌症治疗、SpaceX的隔热材料等难题仍待解决。现有任务是自动化的延伸,但智能的未来增量将远不止于此。我们对智能的未来充满乐观,因为智能的发展永无止境。

10 OpenAI Stargate 500B与算力需求新变化

DeepSeek的出现,引发了对英伟达和OpenAI最新500B叙事的质疑。训练资源问题尚存不确定性,OpenAI的500B计划或为其增添了一丝不确定性。对于OpenAI的500B基础设施投入,存在诸多疑虑。作为商业公司,若涉及举债,则可能带来风险。此外,500B是一个庞大的数字,可能需要数年时间分阶段实施。领先者如软银和OpenAI,在资金和技术上均扮演重要角色。然而,软银的资金状况可能无法直接支持500B计划,而需通过资产抵押等方式筹集资金。OpenAI本身资金也不充裕,其他技术参与方更多是提供技术支持而非资金支持。因此,完整实现500B计划面临挑战。尽管如此,OpenAI的500B算力投入仍有其合理性。在探索阶段,试错成本高昂,人力和投资成本同样巨大。虽然路线不明确,但从o1到R1的尝试至少让我们看到了结果的可能性。中间的特征词也为我们提供了观察窗口,使我们能够一开始就朝着别人的最终形态努力,更具方向感。而探索下一代技术则是最费资源的,追赶者无需承担这一风险,但永远只能处于追赶状态。若Google、Anthropic等公司在探索领域取得成功,则可能成为最前沿的公司。Anthropic未来可能将所有推理任务都迁移到TPU或AWS Chip上,以进一步提升性能。国内公司曾受困于算力限制,但DeepSeek等技术的成功证明了潜在的技术空间巨大。对于更高效的模型来说,可能无需特别大的显卡就能满足需求。因此,可以提供相对定制化的芯片方案,在AMD、ASIC等芯片上实现适配。从投资角度看,英伟达壁垒较高,但ASIC芯片也有巨大的市场机会。DeepSeek的成功与算力关系不大,更多地展示了中国在AI领域的实力和效率。英伟达的软肋并不在于DeepSeek本身,只要AI还在发展,英伟达就能持续壮大。其优势在于生态体系的建立和时间积累。然而,在技术快速发展的阶段,生态体系的重要性尤为突出。真正的危机在于技术成熟后,AI变得像电力一样成为标准品时,大家将更关注产品的优化和特定场景的应用。届时,会有更多的ASIC芯片涌现出来进行特定场景的优化。

在AI技术的浩瀚宇宙中,每一颗星辰的闪耀都代表着技术的突破与进步。DeepSeek作为一颗璀璨的新星,不仅引发了业界的广泛关注,也让我们重新审视了AI技术的发展路径。然而,为何其他公司未选择这条看似光明的道路呢?这背后或许隐藏着更为复杂的战略考量与市场布局。

OpenAI与Anthropic作为AI领域的佼佼者,其每一步都备受瞩目。它们未涉足DeepSeek领域,或许是因为它们看到了更广阔的天地,认为将现有算力投入到其他方向能带来更大的价值。这种战略聚焦的差异,正是企业竞争中的常态。

而在技术层面,DeepSeek的成功或许正是得益于其专注于单一模态的探索。在AI技术日新月异的今天,多模态虽然备受关注,但语言智能仍是提升整体智能的关键。DeepSeek通过专注于语言领域的创新,成功突破了技术的瓶颈,为AI技术的发展注入了新的活力。

展望未来,AI模型领域将呈现更加多元化的发展态势。新架构的探索、强化学习的潜力释放、agent的大规模应用……这些都将成为推动AI技术不断向前的重要力量。而在这个过程中,我们也看到了中国企业在AI领域的崛起与壮大。DeepSeek的成功不仅展示了中国在AI技术方面的实力与效率,更为全球AI技术的发展注入了新的动力。

然而,技术的快速发展也带来了新的挑战与机遇。在算力需求不断攀升的今天,如何降低成本、提高效率成为了摆在我们面前的重要课题。DeepSeek等技术的成功为我们提供了宝贵的经验与启示:在追求技术突破的同时,也要注重成本控制与资源优化。只有这样,我们才能在AI技术的浪潮中乘风破浪、勇立潮头。

11. DeepSeek对二级市场影响的深度剖析:“短期波动难掩长期潜力”

近期,DeepSeek的崛起在二级市场引发了广泛关注,其影响深远且复杂,可概括为“短期情绪有压力,长期叙事继续”。

70. 短期股价承压,叙事出现断层

DeepSeek的横空出世,对美国AI圈产生了显著冲击,尤其在短期内对股价构成了压力。由于pretrain需求增速放缓,而post-train和inference scaling尚未实现快速规模化,相关公司的市场叙事因此出现了一个明显的断层。这一断层直接影响了短期交易者的信心,导致股价波动。

71. FP8技术的亮点与股价分化

值得注意的是,DeepSeek主要采用的是FP8技术,而美国主流则是FP16。DeepSeek通过有限算力工程能力的提升,实现了算力的高效利用,这成为其最大亮点。上周五,DeepSeek在北美市场引发了巨大反响,扎克伯格对Meta的资本支出给出了更高预期。然而,股市反应却出现分化,英伟达和台积电股价下跌,而博通则逆势上涨。

72. 短期情绪压力与长期潜力并存

尽管DeepSeek在短期内对股价和估值造成了压力,尤其对算力相关公司和能源公司而言,但长期来看,其叙市潜力依然巨大。二级市场的从业者需认识到,这种短期波动往往是长期机遇的前兆。

73. 英伟达转型与DeepSeek的双重压力

英伟达从H卡到B卡的转型之路本就充满挑战,再加上DeepSeek带来的压力,短期内股价承压在所难免。然而,从长期来看,这或许为投资者提供了更好的买入机会。毕竟,AI市场的增量潜力巨大,硬件增长空间依然广阔。

74. AI增量市场的长期展望

短期内,DeepSeek在训练上的低成本投入情绪影响了股市表现,如英伟达的股价就受到了直接影响。但AI作为一个增量市场,其潜力不容忽视。长期来看,AI产业才刚刚开始发展。如果CUDA仍然受到市场青睐,那么硬件厂商的增长空间将是巨大的。

75. DeepSeek引发开源闭源之争

DeepSeek之所以受到广泛关注,很大程度上是因为它引发了开源与闭源路线之争。这一争议不仅影响了AI技术的发展方向,也重塑了市场格局。

76. 领先模型未发布与DeepSeek的示范效应

DeepSeek的开源策略可能会促使其他AI公司将原本隐藏的优质模型也推向市场。目前,领先的模型大多尚未发布,但DeepSeek的示范效应已经显现。其他AI公司或许无法再继续保持沉默。

77. 共存状态与生态平衡

尽管DeepSeek在成本上做了大量优化,但Amazon等巨头并未因此改变既定计划。目前,开源与闭源模型处于共存状态,生态保持平衡。高校和小型实验室可能会优先选择DeepSeek,而云厂商则对开源和闭源都持开放态度。

78. 开源对闭源的挑战

开源模型对市场margin的控制力不容忽视。如果开源模型能做到闭源模型的95%,那么在闭源模型价格过高的情况下,开源模型将成为替代选择。当开源与闭源能力相近时,闭源模型将面临巨大挑战。

79. 中国AI实力的重新定位

DeepSeek的出圈让外界重新审视了中国AI的实力。以往,外界普遍认为中国AI落后美国两年,但DeepSeek的表现证明,这一差距已经缩小到3-9个月,甚至在某些方面中国AI已经超越了美国。

80. 历史经验与中国AI的崛起

历史上,中国在被美国封锁的领域往往能取得突破性进展,并最终形成高度竞争的市场格局。AI领域或许也将遵循这一规律。DeepSeek的成功就是一个明证。

81. DeepSeek的R1成果与核心圈关注

DeepSeek并非突然爆发,其R1成果的出色表现触动了美国从上到下的核心圈。这一成果不仅展示了DeepSeek的实力,也为中国AI在国际舞台上赢得了更多关注。

82. 站在巨人肩膀上的探索与挑战

虽然DeepSeek站在了巨人的肩膀上,但探索前沿领域所需的时间和人力成本仍然高昂。R1的成功并不意味着未来的训练成本会同步降低。中国AI探索者需要发挥在工程能力上的优势,以较少的算力做出更多成果。

83. 中国大模型团队的追赶之路

中国的大模型团队如何利用有限的算力做出成果,从而具备一定的抵御能力甚至做得更好,将是未来中美AI格局推演的关键。这要求中国AI团队不仅要关注技术本身,更要注重愿景的塑造和实现。

84. Reasoning的提出与AI labs的差距

Reasoning是OpenAI在o1阶段提出的重要概念。未来,各个AI labs之间的差距将在于谁能提出下一个reasoning。无限长度的reasoning或许是一个值得期待的愿景。

85. 愿景与技术:决定AI labs核心差别的关键

不同AI labs的模型之间的核心差别不在于技术本身,而在于AI labs本身的下一个愿景是什么。愿景的引领作用在AI领域尤为重要。

86. 愿景比技术更重要

综上所述,比技术更重要的是愿景。DeepSeek的成功不仅在于其技术实力,更在于其背后的愿景和追求。这一愿景将引领中国AI走向更加辉煌的未来。同时,DeepSeek的崛起也为二级市场带来了新的机遇和挑战,投资者需保持冷静头脑,深入分析市场趋势,以把握长期投资机会。

华远系统是致力于人工智能(AI算法以及流媒体技术),信息软件技术,新能源、物联网等领域的集成商,在智慧社区,智慧园区,智慧停车,充电桩(储能充电站/光储充)及充电桩软件管理平台,储能系统集成,车联网有整套解决方案以及成功的项目案例。

来源:华远系统

相关推荐