摘要:•DeepSeek预训练成本并非远低于GPT-4,其预训练性能提升约20%-30%,主要得益于对计算效率的极致追求,绕过CUDA,直接进行P层面的编程,而非自媒体宣传的几百倍。
•DeepSeek R1,在未进行市场投放的情况下,即成为中美App Store总榜第一名,超越ChatGPT,展现了其强大的口碑和影响力。
•DeepSeek V3对标GPT-4,R1对标GPT-4.0的O1,在数学、代码、通识、日常问答等方面表现出色,具备COT自思考能力和完善的推理能力。
•DeepSeek预训练成本并非远低于GPT-4,其预训练性能提升约20%-30%,主要得益于对计算效率的极致追求,绕过CUDA,直接进行P层面的编程,而非自媒体宣传的几百倍。
•DeepSeek通过强化学习替代了传统的可标注数据,降低了数据成本,但其自推理能力在专业领域知识应用上仍存在局限,需要进一步加强。
•DeepSeek的开源将加速国内大厂技术进展,降低中小企业进入大模型领域的成本,但同时也对大厂的商业模式和技术路线带来挑战,迫使大厂进行转型。
•DeepSeek的预推理技术,使推理速度提升,例如,一个token的响应时间可达15毫秒,显著提升了推理效率。
•DeepSeek的出现,将加速国内大模型技术发展,缩短与国际领先水平的差距,并可能催生新的服务型公司和市场格局变化,尤其在电商推荐等领域。
Q&ADeepSeek R1的横空出世对中美市场的影响如何?国内头部大厂如何评价其关键成本及对AI市场的影响?首先,非常感谢大家在大年初二的晚上接入我们的电话会。今年春节有两个话题在自媒体上特别火。第一个是DeepSeek R1的横空出世,引发了中美两国的广泛关注。在没有市场投放的情况下,它成为中美App Store总榜的第一名,超越了OpenAI的ChatGPT,展现了其口碑和广泛影响力。第二个是史上最强春节档的爆火。这里也先打个广告,过两天我们会开一个关于春节档的电话会议,欢迎各位朋友参加。回到今天的主题,经过一周多的酝酿,相信大家对DeepSeek已经有了初步了解。我身边的很多朋友在春节期间加班加点学习相关论文和观点。今天这场会议,我们特别邀请了国内头部大厂的专家老师,与大家进行闭门交流,希望从大厂内部专家的思考和分析角度,为大家提供一些独特视角。会议开始,我们先请专家老师做一个开场分享,包括大厂内部对DeepSeek的客观评价,例如关键成本的降低程度,以及对国内AI B端和C端市场的影响等。老师,时间交给您。没问题。各位晚上好。我先从两个部分开始,一个是我个人的从业背景,另一个是从DeepSeek最近的V3和R1模型做一个介绍。简单介绍一下我的日常工作。我们大厂的工作模式基本是中台模式,这种模式从阿里早期的大中台概念开始就被广泛采用。我们中台的角色是先与模型研究团队对接,了解模型的能力,包括并发能力、响应速度等。同时,我们也负责基于AI能力的应用落地。从2024年开始,相关应用进入爆发期,但业内相关人才仍然稀缺,因此中台需要向团队说明AI的实际能力,避免凭空想象。中台的定位是技术与市场的结合体,既需要了解AI技术能力,也需要掌握市场情况和产品规划策略。同时,中台还负责资源分配,包括agent、RAG以及推理资源的统一管理,以实现资源效率最大化。关于B端业务,目前国内大模型API的选择较少,主要集中在创业公司“六小虎”“六小龙”以及BAT、字节等大厂。这些公司的API能力是基于自身大模型研发和业务推进逐步开放的。在大模型时代,多数公司的B端能力通常比C端晚一个技术阶段,必须在C端或研究阶段成熟后,B端才会有结果。这与云服务或推荐机器学习时代有所不同。再回到DeepSeek。其实,DeepSeek早在2024年5月就发布了V2及V2.5,当时的能力已接近国内最优秀的开源大模型天问70B、72B。然而,由于参数量高达210B至220B,尽管能力接近,但因参数量过大,未能引发热度。最近的V3和R1版本表现非常优秀。V3对标GPT-4,以通用能力和通识能力为代表;R1对标GPT-4.0的O1,具备COT自思考能力和完善的推理能力。在数学、代码、通识、日常问答等方面,DeepSeek的表现确实非常出色。关于预训练效率,首先,从量化指标来看,DeepSeek的成本并没有比GPT-4或Llama低得那么夸张。V3使用了14万亿tokens,大约是GPT-4的三分之二。GPT-4训练时使用了1万块A100,预训练20天;而DeepSeek V3使用了2000多块H800,预训练52天。从算力和电量消耗来看,DeepSeek的预训练性能提升约为20%至30%,远非自媒体所称的几倍甚至几百倍。此外,DeepSeek的研发背景与其母公司幻方的量化交易业务密切相关。幻方作为量化交易公司,其技术优势在于对计算效率的极致追求,就像纽交所的交易员争相将网线插到服务器上以减少信号延迟一样,这种背景也为DeepSeek的研发提供了独特的技术支持。所以幻方确实非常注重底层IT效率的问题,他们一直在C++和汇编方面积累了大量人才。在第二个层面,DeepSeek的训练效率较高,是因为他们绕过了CUDA,直接进行了P层面的编程。可以理解为直接操控英伟达的底层线程,因此效率高是合理的,这也是他们的技术优势。但这种优势或效率节省显然不能算入DeepSeek的开源框架中,因为其他人无法使用。关于预训练的基本量化问题以及网上热议的信息,进一步探讨到预训练的技术问题,这是业内最关注的点之一。DeepSeek通过强化学习替代了可标注数据。我可以解释一下,可标注数据通常是通过人工标注完成的,比如标注一段对话是男性说的,或者标注某条信息是法律问题或胜诉案例等。而DeepSeek为了节约成本,使用了H800,耗时52天完成预训练。从A100和H800的算力及电量消耗来看,这并非所谓的“几十分之一”的提升。即使折算后,预训练性能的提升也仅在20%-30%左右,而非自媒体所宣称的几百倍夸张提升。预训练的另一个关键点是,幻方作为一家量化交易公司,非常注重底层IT效率。他们在C++和汇编方面的积累,使得DeepSeek能够绕过CUDA,直接操控英伟达底层线程,从而实现高效训练。这种效率提升是合理的,但不能算入DeepSeek的开源框架中,因为其他用户无法复用。在预训练技术上,DeepSeek通过强化学习替代了传统的可标注数据环节。他们认为社会中的所有事物之间存在交集,可以通过相互验证进行学习。通过强化学习,模型能够自主推理事物之间的关联,从而学到新的知识。这种方法虽然需要更长的训练时间,但对算力的需求较低,是一种技术创新。关于成本问题,有人提到DeepSeek的训练成本仅为几百万美金,比国内外大厂低很多。这主要是因为DeepSeek的公开版本没有使用大量专业数据,也没有花费巨资购买数据。国内大厂通常在数据购买上投入巨大,而DeepSeek的开源版本则省去了这部分成本。因此,不能简单地将其与其他公司进行直接对比。在推理环节,DeepSeek的表现也非常出色。以国内常用的20B蒸馏模型为例,一个token的响应时间通常为20毫秒,而DeepSeek可以做到15毫秒。这得益于其创新的预推理技术。传统模型需要逐步推理每个token,而DeepSeek能够提前预测三到五个token,并基于自思考能力生成后续内容。如果预测命中,就能减少大量计算,从而提升推理效率。
如果我们回溯到V3版本,可以结合其技术特点来看。V3版本的推理速度较快,预训练所需的数据量相对较少,因为它具备自学习能力,不需要过多标准化的数据输入,数据量可以适当降低。尽管如此,在60B以上的版本中,其输出的理解力和准确性已经达到了业内一流水平,包括国际上的认可。这一点是没有争议的。这也是DeepSeek目前取得突破并引发高度关注的原因之一。它包含了多个技术关键点,并且在某些方面实现了不依赖GPT-4或OpenAI思路的创新突破,这得到了广泛认可。目前,DeepSeek在国内的应用也逐渐展开。例如,字节系的扣子平台(Agent平台)已经接入了DeepSeek的底模。在开发Agent时,可以使用DeepSeek作为基础的大模型。我个人在评估DeepSeek技术能力时,发现其自推理的技术特性对推荐系统非常友好。比如,在电商领域,通过用户的购买路径,大模型可以快速推导出最佳路径和最合适的推荐方案。国内的一些大厂和电商公司在春节期间也加班研究这一技术的应用场景。尽管如此,DeepSeek的技术也存在不足。其自推理能力在专业领域知识的应用上存在局限。例如,在数学领域,DeepSeek论文中提到的最优解路径并不完全适用于国内数理化考试,因为考试需要符合教学大纲才能得分。这与电商领域的最短购买路径最优的逻辑正好相反。因此,在教育领域使用DeepSeek时,仍需进行标注和后续精调。这种垂直场景的能力需要进一步加强,这是DeepSeek自身的一个局限性。从市场角度来看,DeepSeek的开源将加速国内大厂的技术进展。例如,快手虽然在通用大模型能力上不占优势,但可以基于DeepSeek快速补齐其大模型矩阵能力。而字节跳动在研究COT技术或达到O1水平时投入了大量资源,向O3进展的成本更高。DeepSeek的开源有助于这些公司降低成本,从而将更多精力投入到产品应用和市场规划中。此外,对于没有基座大模型自主研发能力的公司,例如长城汽车、比亚迪等,他们目前可能依赖国内头部云服务公司合作。未来,这些公司如果具备一定实力和团队,也可以自主组建大模型能力。例如,OPPO已经收购了大模型公司。这种趋势将吸引更多中型和大型公司入局大模型应用,并结合自身产品进行创新。
比如说真的要去标数据了,因为我刚才提到了,像教育这种如果不标注的话,DeepSeek开源是不会帮你解决的。那么就会产生新的数据要求、算力要求以及技术服务的要求。大模型需要更聪明、更适配自己的应用。那么这些问题又不是中小公司能够解决的,因为相关人才非常稀缺。这也是对国内市场的一种影响。但是反过来说,DeepSeek有一个好处,就是国内有一个社区或者技术池子,可以不断迭代和进步。我觉得国内的开源氛围并不差。所以很多事情我们不需要总是看OpenAI或者Cloud等大模型,也不需要总想着自己还差几个月。反而可以明确现在与OpenAI的差距,比如与O3的差距,然后设定目标。在DeepSeek开源的基础上,我们可以开展很多研究。这种方式其实是可行的,也影响了我们如何看待国外技术发展以及国内技术与国外技术的关联。如果一些头部公司有足够的人才资源,他们甚至可以参考DeepSeek绕过CUDA汇编层的PTX对GPU芯片的利用,从而提升利用率和计算效率。这些内容如果是有实力的公司,也可以去参考。DeepSeek虽然没有将这部分完全开源,但它确实提到了为什么计算成本低。显然,有些自媒体对此的解读并不专业。未来的情况还涉及几个点。第一个是COT(Chain of Thought)技术。如果没有DeepSeek出现,像OpenAI的COT并不开源,包括国内一些开源大模型,比如通义千问,也没有详细说明COT的实现。如果没有DeepSeek的出现,自推理能力可能在很长一段时间内会成为国内大厂的护城河,也会是国内与国外头部公司之间始终无法缩小的差距。比如我们做到O1时,国外可能已经做到O3,等我们做到O2时,国外可能已经到O4甚至O5了。但现在的情况是,DeepSeek直接在国内普及了自推理能力。未来,自推理的上限是什么?其实就是让模型具备更高的思考能力,而思考能力的极致是模型开始具备规划能力。举个例子,比如高中的数理化题,国内基于大模型的教育应用目前都在吹嘘,但从业内来看,数理化的大题国内所有大模型都解不出来,因为这些题目需要构建实验,而目前的大模型根本没有构建实验的能力,也就是没有自规划能力。如果自推理能力发展到极致,会产生质变,模型将具备规划能力、设计能力和分步骤解决问题的能力。这样一来,我们不仅不再依赖国外,也不再只是追赶国外,而是让大模型真正具备思考能力和设计能力。目前来说,大模型的能力还停留在枚举阶段,只是看枚举的优劣。基本上情况就是这样。我从DeepSeek的特点、对行业的影响出发,做了一些发散讨论。如果在座的各位有其他问题,我们可以再沟通。
怎么看大厂的应对?比如最近有没有一些动作,未来的技术路径、组织架构以及投入方向等,大厂会不会基于DeepSeek R1模型有新的举措?其实在大厂内部至少可以分为两类。第一类,比如百度,其CEO已经明确表示闭源模型是未来,API一定要靠闭源推动,由大厂主导。这类公司面对DeepSeek这样的优秀开源项目,会受到较大影响。因为大厂作为大型航母,转型非常困难。他们的很多工作和规划都是基于闭源大模型的前提下进行的。在这种情况下,他们可能需要硬着陆或硬转型。在管理上,这会带来很大的挑战。比如B端模型,他们原本是通过自推自己的大模型API来盈利。未来,DeepSeek和他们的大模型可能会五五开,同时输出两种模型能力,但价格肯定不同。DeepSeek是开源的,成本更低,因此用户会优先选择DeepSeek的基础API,只需支付算力费用。这会导致利润下降。总的来说,这种技术壁垒的打破对大厂的转型提出了很高的要求。
所以,为什么我们这些大厂会低价出售API,甚至亏本出售?因为我们认为出售闭源大模型的API这件事与工业制造类似。只要我们不频繁进行大规模操作,比如花费几十天时间、使用几万块卡重新训练大模型,那么它就像工业设计和工业制造一样,API可以持续出售。一两年后,我们就能实现盈利,尽管前期需要投入购买数据的成本。现在,这种模式会带来较大的影响。我刚才提到的弊端是,大家需要转型,变成依靠出售DeepSeek服务的模式。我们可能会免费提供服务,仅收取少量算力费用。但我们需要向用户说明,未来如果应用范围扩大,需要进行精调、数据标注、模型升级等操作时,可以来找我们。这种情况下,大厂的利润不一定会被压缩,但需要投入新的资源,包括人力和物力,去研究DeepSeek,并安排人员进行相应的维护。比如,像百度文心、字节豆包等,它们目前的精调业务都是基于自身的大模型。未来,它们肯定需要分配资源支持DeepSeek模型的再训练等工作,否则这些服务可能会被其他厂商抢占。这是对大厂的第一类影响。第二类影响主要体现在C端。在C端,不会出现刚才提到的那种问题。大厂在C端可以分为两类:一类是坚定的,另一类是不确定的。不确定的那类,比如字节的扣子,它接入了多种大模型,因此受到的影响较小,仅赚取中间商的技术服务差价。B端的情况基本如此,而C端则是完全不同的格局。在C端,比如我观察到的情况是,使用京东时,二三年年末到二四年春节期间,京东的AI功能逐渐消失了。这可能是因为京东评估后认为AI功能不适合电商场景,所以选择放弃。但现在来看,DeepSeek直接降低了整体成本。刚才我提到的技术特点表明,电商推荐等场景非常适合DeepSeek开创的预训练模式,即基于强化学习的无标注模式。未来,大型电商平台以及其他基于推荐的场景可能会迅速采用DeepSeek技术。五年前是全民推荐算法的时代,但当时很多公司并未被大模型渗透。现在,许多公司可能会基于DeepSeek快速实现AI化转型,尤其是在未来半年内,可能会出现大量基于大模型的自有业务。此外,C端的各种APP可能会出现一些我们现在还未预料到的变化。这可能会催生许多服务型公司,帮助C端用户具备AI能力。这些公司可能基于DeepSeek技术,为地方性团购、打车等APP提供定制化AI解决方案。这种模式不限于百度、阿里云、火山等直接赋能的公司,也可能包括一些技术服务公司,为客户提供类似IT解决方案的小型AI方案。最后,从宏观角度来看,市场格局也会发生变化。比如,除了Kimi和知乎等较为优秀的公司外,一些创业型大模型公司主要提供技术解决方案,参与投标或竞标,但缺乏实体业务。未来,像天翼云、华为等公司在这方面的能力可能会快速增强,这些创业公司的优势将不再明显。甚至像软通动力、中力等传统IT外包公司也可能具备大模型解决方案的能力,能够承接地方性银行等项目。这将导致整体市场格局的变化。所以,DeepSeek的影响确实非常大。
这个点其实是这样的,简单总结一下,就是DeepSeek在推动这个过程。从V1开始,它并没有公开,V2到V3是其计划步骤的一部分,中间还包含了V2.5。在这个路径上,它主要提升了模型的理解力、基本参数量以及数据量。从技术路径和目前公开的论文及相关项目代码来看,他们在OpenAI推出COT技术并取得明显效果后,快速认可了这一方向,并额外投入人力和研究资源来实现这一目标。不过,他们的实现方式是基于自身的技术路线。当OpenAI实现OE时,也就是对应DeepSeek的R1版本,OpenAI使用了两大类海量数据:一类是人工标注数据,包括人类的脑筋急转弯;另一类是AI生成的数据。客观来说,人和AI对话时,AI生成的信息训练价值较低,但OpenAI对COT技术的思路非常明确,通过将AI生成的对话串联起来,模拟AI的思考过程,并将其融入预训练中,从而赋予模型推理能力。这是OpenAI的实现方式。而在R1版本中,DeepSeek的实现方式是基于其模型的比对能力,通过反复推理和比找到最高效、最正确的思路,并将这一过程具体化,融入模型的推理过程。这是R1和V3的主要区别。虽然思路和时间点与OpenAI类似,但实现方式不同。
您的意思是,从V3跃迁到R1的技术路径是与之前一脉相承的,并且是公开的,开源后大家都可以学习,对吗?尤其是在R1版本上,影响力非常大。OpenAI认为这是其未来一年的核心竞争力,但却被一个开源项目直接打破了。这也是OpenAI CEO奥特曼最关注的点,他们并不在意自媒体成本等问题。
过完春节后,Gemini Pro和Gemini Pro两个多模态模型发布,这是否也会是类似的跃迁?后续的Gemini模型并不是跃迁,而是多模态能力的体现。根据我的评估,这对市场的影响会非常大,但对技术圈的影响相对较小。市场影响大是因为国内目前没有公司能够低成本实现多模态技术。多模态分为两类:基础型多模态,如文生图(输入文字,输出图片);高级型多模态,如生成的图片中包含文字。目前国内的基础型多模态技术基本被大厂垄断,因为研究难度较高,连文生文都未完全解决,更不用说文生图了。大厂的商业模式是服务全社会,比如画漫画、广告等,因此购买了大量图片进行训练,训练成本非常高。如果出现一个开源的文生图或多模态大模型,将直接颠覆这一商业模式。比如,一个漫画出版社可以用自己的素材训练模型,低成本实现符合业务需求的大模型,而无需购买大厂的API服务。这将大幅降低成本,改变现有的商业模式。
所以它对市场的影响很大,那不应该跟R1比。R1的能力其实是在推理过程中加入了自我思考,比如我给用户一个答案后,再反思一下,这个答案对吗?这样想对吗?这是R1的跃迁。但像多模态技术,对市场的影响更大。专家还有最后一个问题,这两天有很多新闻提到,比如美国海军、意大利的一些部门,包括美国的一些公司,认为像Deepfake这种技术,如果来自于一个非民主国家的大模型,他们号召大家不要使用。在您看来,中国的大模型如何才能在全世界范围内实现良好的部署?需要做哪些事情?这里其实有两个点。第一个点是,很多部门提到不要使用某些大模型,但其实这与开源项目是不同的。开源项目,比如我们开发一个网站或APP,包括数据库,都是可以通过源代码追溯的。但大模型则不同,它是由公司在背后提供服务的。以美国为例,根据现有法律,用户使用某项服务时,背后是什么模型提供支持,只要不违反美国法规,似乎没有权限直接查明。因此,这是第一个点。第二个点是关于社区的开源协议问题。比如Deepseek,如果它确实想专注于开源项目,可以采取一些措施。前提是OpenAI等公司不要临时出台法案干扰。如果Deepseek选择单独走开源路线,欧洲许多国家,包括英国、法国以及美国,都有针对开源的保护条例。Deepseek的母公司可以注册一家新公司,专门维护开源项目,并在海外设立实体,只做开源项目。从技术能力和开源能力来看,这对外输出是没有问题的。当然,这意味着商业化会变得困难,除非再设立一家技术服务公司,为客户优化或服务开源项目。这种运作方式会比较麻烦,但如果承诺专注于开源项目,也是可行的。除非像川普这样,随时签署法案改变规则。
顺着刚才那位投资者的提问,我想了解一下,最近OpenAI提到Deepseek可能违规使用了它的一些数据或参数。我理解这可能与蒸馏技术有关。未来,像OpenAI这样的厂商是否会关闭蒸馏的权限?业内对此怎么看?蒸馏技术其实有两种。OpenAI提到的这种是比较恶劣的方式。他们所谓的蒸馏,是指在训练过程中,用自己的AI不断提问,然后将输出的内容作为训练数据。这是他们所指的蒸馏方式。而另一种蒸馏方式是业内普遍认可的,比如Deepseek推出的基于通义千问的蒸馏版本,甚至还有1.5B的版本。OpenAI最初也没有意识到自己的模型会如此强大。他们在蒸馏自己的基础大模型(约620多B)时,尝试将其蒸馏成70B或20B的小模型用于市场,结果发现蒸馏后的子模型(student)比基础大模型更精准。因此,Deepseek在模型层面和合规层面进行了许多努力,确保蒸馏过程是合规的。至于OpenAI提到的Deepseek使用其数据的问题,这种方式确实不被业内认可。但这对Deepseek在国内的受众和受欢迎程度不会有影响。因为数据问题对于任何公司来说,尤其是中型公司,在使用Deepseek时,仍需用自己的数据进行二次精调。在这个环节,是否拥有更广泛的数据并不重要,只要模型的基本理解力足够即可。此外,OpenAI很难提供完全准确的证据。类似的情况在一年多前他们指控字节跳动时也不了了之。Deepseek的模型发展到现在,即使完全与OpenAI断开联系,也不会影响其后续发展。每个企业或用户在使用时,仍需用自己的行业数据或垂直领域数据进行精调。因此,即使未来没有任何蒸馏技术,Deepseek的使用也不会受到影响。
我还想问一下,刚才我们聊到DeepSeek在算例上的问题。我看到最近有很多其他团队在复现,不知道我们大厂内部有没有做相关的复现?如果做复现的话,所需的算例大概是多少?这个事情上,我们的复现一定会比它的算力需求更高一些。我在开头提到过,它的算例,尤其是一些自媒体传得比较离谱的,比如“拉满百分之几”这种说法,确实不现实。第一个点是,国内拥有H800的公司并不多。如果我们去复现,大概情况是,我们希望能与它进行对比,比如与Cloud、Llama、OpenAI的GPT-4进行对比,因此我们尽量将时间控制在20天左右。大家都是20天的周期,所以如果用H100的话,也需要五六千块的规模,与用1万块H100没有太大区别。这里有两个点需要澄清。第一,我们绝对不会认为DeepSeek存在剽窃问题,因为没有证据。我们认为它在CUDA下一层的PTX层面的优化确实有效果。像幻方这样的量化公司,在这个层面进行优化是合理的,因为他们一直在这些层面进行深度技术调整。第二,我们在同等参数的情况下进行直接对比时,刚才提到的数值并非凭空而来。如果我们在同等参数下,想在20天内完成预训练,所有环境都差不多的情况下,比5000块的算力需求要少一些,大概少20%左右,约22%-23%。也就是说,如果用6000块H100,在20天内完成预训练,与GPT-4用1万片A100的效率是相近的。如果我们做两个推断:一个是它能够深度控制GPU的线程;另一个是通过缩小tokens的规模。因为DeepSeek没有开源它的训练数据,而我们使用的训练数据,比如文心一言或通一千问的数据集,比它的规模更大,所以我们需要更多的算力。如果适当减少一些数据,比如抛弃部分行业数据,并压缩预训练tokens的规模,确实可以节约20%-30%的预训练成本。在DeepSeek 2.5和DeepSeek 3的版本中,我们都做过类似的尝试,因此我们认为自媒体的说法过于夸张,20%-30%的节约是可以认可的。
这个20%-30%的节约是否也考虑了算力卡的换算?比如DeepSeek用的是H800还是A700,是否需要考虑大家使用相同的算力卡?算力卡的换算是需要考虑的。我们大厂在GPU集群的利用率上并不逊色于DeepSeek。在卡的换算、预训练tokens的折算上,我们都进行了综合考虑。由于我们无法获取DeepSeek的数据,只能构建一个相近的数据集进行测试。token的构建、训练时长的折算等都被纳入考量。但我们无法复现的是它在底层PTX编程方面的能力,这确实是我们无法实现的。因此,在我们能够复现的场景中,DeepSeek的预训练效率已经比国内大多数模型高出20%以上,甚至更多。具体数值不便公开,但至少是20%以上。如果国内某些大模型预训练做得不与DeepSeek的差距会更加明显。此外,如果考虑到DeepSeek在CPU汇编层级的优化能力,它确实可以比国内所有大厂在训练同水平的通识型模型时,降低至少30%的成本。这一比例只会更高,不会更低,但绝对不是1%的水平。
这里可以分享两个方面。首先,有些事情可以由DeepSeek自己完成,但也有一些公司可以基于DeepSeek,加上自己的数据,进行简单调试后实现目标。我将这两种情况都包含进来。第一个领域是AI教育。我几年前曾参与过AI教育的商业化,可以简单总结一下:DeepSeek的能力可能会在春节后一两个月内催生出一批国内的AI教育公司。目前国内AI教育主要依赖题库和讲解功能,大模型的能力主要用于讲解。例如,讯飞有1.15亿道题,学生的作业基本不会超出题库范围,因此需要大模型加强讲解能力。R1逻辑能力强,只需将题库中的题目和答案输入,它就能快速变身为AI老师。原来大厂依靠题库资源和COT能力卡位,但DeepSeek直接降低了门槛。教育是第一个场景。第二个领域是电商。第三个领域是多模态应用,比如文生图、建筑设计、装修效果图等。这次可能真的会出现AI替代设计师的情况。几年前的尝试有些虚,但这次很多4A公司拥有大量素材,可以基于DeepSeek的多模态能力构建强大的AI辅助工具。此外,R1在公司写作、工作报告、论文等领域也有很大潜力。原来像文心一言4等模型在口吻和笔锋上表现出色,但R1通过降低自推理的成本,非常适合写报告和总结。它的特点是每说一句话都会给出解释,非常适合这些场景。最后,各个垂直领域也都有可能应用R1,比如医疗辅助和音乐生成等。以医疗为例,R1可以解释为什么认为某个病症是特定疾病,并推理出依据。音乐领域也是类似的逻辑,它可以解释曲风和曲调的判断依据。这些都是R1能力的潜在应用方向。
其实短期内对算力的需求,我认为是一个增值增长式的需求。我可以简单分享一下,比如说这些头部的大厂,包括创业六小虎,他们的战略目标已经确定,这种目标不可能轻易改变。而且他们的战略目标短期内不会受到DeepSeek的影响。以字节为例,大豆包这个C端产品是大家最熟悉的。他们认为这是产品功能的竞争,而不是模型能力的竞争,通过更优秀、更完善的产品功能去占领市场。因此,这类公司在短期内的算力需求变化不大。他们已经有一条堆产品功能的路线,需要更多的GPU来支持,这种需求是稳定的。短期内的小幅增长主要体现在一些特定的场景,比如微软和中科院或清华联合开发的V大的Max数学模型。这个模型基于千问的开源模型进行了一次精调,虽然精调时使用的GPU数量很少,但这也是一种需求。DeepSeek未来可能带来无限的想象空间,使企业能够接入大模型的能力。比如一家企业需要十块GPU,另一家需要八块,累积起来也可能达到几千甚至上万的需求量。但总体来看,这种增长并不是大规模的,因此短期内是一个小幅增长。从长期来看,DeepSeek对整个GPU需求会有推动作用。虽然网上有观点认为英伟达的GPU不再是刚需,但我认为现在下这样的结论为时尚早。长期来看,DeepSeek的应用会带来更专业的需求,比如更多的数据标注、更大的数据量、更复杂的精调以及后续的模型优化和再训练。这些需求将推动社会和企业服务水平,甚至C端服务水平进入下一个大模型时代,而不是停留在当前阶段。DeepSeek解决了很多问题,比如API的购买和数据安全问题,这将快速推动大模型的市场化和成熟。半年后,很多公司租用或购买GPU可能会成为常态。此外,DeepSeek的技术特点决定了它需要更长时间的训练,而不是并行更多的GPU卡。因为它可以通过不需要答案的强化学习进行预训练。因此,国产GPU卡也可以成为一种选择。对于一些初入局的公司或需要大模型能力但没有深度绑定的公司来说,性价比高、开箱即用的方案,比如寒武纪提供的售后服务,可能是更好的选择。这些公司没有明显的品牌偏因此可以接受多种方案。同时,开源模型的普及也会推动市场化结构的变化。因此,我认为算力的需求反而会增加,且不再局限于某些特定的云服务平台,比如阿里云或火山引擎。未来的选择会更加多样化。
来源:全产业链研究