DeepSeek,让Open的AI子弹飞一会

B站影视 2025-02-03 23:04 3

摘要:DeepSeek,开源、低价、展示思维链。其中开源、低价、测评数据是硬性指标,而R1展示思维链是其能在C端爆火的重要原因;对普通消费者而言,其思考过程甚至比输出结果更有趣,更像个人。从结果上看,DAU很快超2000万,持续霸榜全球各地区应用第一名,是各界对其的

1、DeepSeek,开源、低价、展示思维链。其中开源、低价、测评数据是硬性指标,而R1展示思维链是其能在C端爆火的重要原因;对普通消费者而言,其思考过程甚至比输出结果更有趣,更像个人。从结果上看,DAU很快超2000万,持续霸榜全球各地区应用第一名,是各界对其的认可。

2、中美AI竞赛/对抗。美意图打造单级AI,构建新时代的AI霸权。拜登政府在掌权最后一个月连续出台制裁,包括AI三级国家分类、更严苛的芯片管控。特朗普政府上台后推出星际之门,希望将算力留在美国本土。一套组合拳,本质上是意图通过算力分配权影响国际关系。DeepSeek通过算法架构优化降低对算力的过分依赖,同时开源打造生态缩小差距。中国大陆AI产业的供给瓶颈仍集中在晶圆制造环节,仅对比T的12万N3与S的3万N+2,其晶体管个数差距在12.7倍。

3、算力的总需求增长还远远没有结束,但影响算力需求结构以及新结构下的供给壁垒。普通老百姓才刚刚开始使用DeepSeek/豆包等AI模型去替代搜索和人工助理,算力需求的增长都不用计算,从产业阶段来看类似于2000年初刚开始用百度。但需求的结构会调整,从各种架构模型的预训练算力需求转向能够C端落地的推理需求,高投入做预训练的玩家已越来越集中。在推理需求中,能参与的玩家明显变多,短短几天宣布接入DeepSeek的芯片包括AMD、昇腾、海光等。

4、DeepSeek本地部署加速端侧AI推广落地。1.5B、7B、14B、32B、70B 是蒸馏后的小模型,671B是基础大模型,其中1.5B无需显卡,14B需RTX 4090,32B/70B以上模型需求多张A100。此外,借助AnythingLLM搭建DeepSeek本地知识库,可上传私有文档,并针对性问答整理。

5、DeepSeek的子弹仍在继续飞,在乎什么就会看到什么。这颗子弹的威力在于“中国的开源、低价、展示思维链的AI大模型做到了全球应用榜第一”。CSP云厂看到了低价与应用榜第一,纷纷接入,并加大投入。政客看到了中国,诋毁与制裁。OpenAI看到了开源,奥特曼在频繁反思“ClosedAI”。AMD、昇腾、海光等非NV芯片看到了算力市场的裂缝,靠DeepSeek小公司无力支撑的算力需求打开了市场。AI应用放弃基座模型自研,探索垂类市场。端侧硬件企业最喜欢开源的软件系统。PC在研究如何本地部署,及其效果。

我们看到了投资机会,因为DeepSeek“什么都没有”,所以他什么都有,都来“帮”他。

【纪要·DeepSeek假期进展及投资逻辑全梳理:看好中国AI,看好应用

一、DeepSeek重要事件及节点梳理

1月20日,DeepSeek正式发布 DeepSeek-R1 模型,并同步开源模型权重。这是继此前发布DeepSeek-V3大模型以来的最新重要模型发布,得到国内外大模型产业及媒体的广泛关注。R1模型核心特点及重要事实:

1、DeepSeek-R1 的最大亮点在于其训练方法,首次完全通过强化学习(RL)训练大型语言模型,无需依赖监督微调(SFT)或人工标注数据,这一突破验证了仅通过奖励信号,模型也能发展出强大的推理能力。这一方式被认为是R1模型的主要创新之一。

2、主流模型评测集得分:AIME 2024:79.8%(OpenAI o1:79.2%),MATH-500:97.3%(OpenAI o1:96.4%),Codeforces 评分:2029(OpenAI o1:2061),MMLU:90.8%(OpenAI o1:91.8%)。

3、广为讨论的DeepSeek V3约 600 万美元左右成本仅指预训练过程中 GPU 的花费,只是模型总成本的一部分,普遍认为并不包括与前期研究和架构、算法和实验相关的成本。但R1的API定价的确显著低于O1:DeepSeek-R1 采用 MIT 许可协议(使用、复制、修改、分发),完全开源,并提供了六个蒸馏版本(1.5B 至 70B),适合不同规模的开发者使用。这背后可能也有不同规模、不同阶段的定价策略的原因。

API 定价:每百万输入 tokens:1 元(缓存命中)/ 4 元(缓存未命中)。输出 tokens:16 元。与 OpenAI o1 相比,API 调用成本显著降低。

需要关注的是,实际上DeepSeek历来的标签就是工程创新带来的成本下降,包括前期DeepSeek V2的MOE架构,以及V3在例如通信重叠、FP8混合精度框架、MLA等领域的创新。但在V2及V3阶段,市场并没有给予广泛关注。我们认为这一阶段对于R1的广泛关注,更主要的原因是在于产业进展到了这个阶段。

4、一个很重要的事实:DeepSeek自1月27日以来登顶美国、中国的APP榜单,截止最新数据,DeepSeek登顶并持续保持美国、中国应用总榜和效率榜。

5、这也引发了对于开源的讨论:虽然 DeepSeek 已经发布了其 R1 模型背后的“权重”,即数值参数,供公众免费使用、下载和修改,但它没有发布该模型背后的训练数据。Hugging Face其社区已经基于 DeepSeek 的 R1 模型创建了 617 个模型,下载量超过 300 万次。但开源模型接近甚至超过闭源模型是贯穿2024年全年的发展趋势,DeepSeek也认为,开源是促进模型创新的重要原因之一。

二、假期一些主要人工智能相关企业的评价

假期,美国科技巨头的股价出现了较大的波动,在1/24-1/31日期间:

英伟达:-18.44%

苹果:+5.52%

meta:+8.29%

亚马逊:0.96%

Google:+3.05%

Applovin:1.95%

微软:-7.09%

来自meta的业绩交流会

Mark Zuckerberg:

鉴于最近的一些新闻,比如来自中国的新竞争对手 DeepSeek,我们认为全球将会出现开源标准。从美国自身利益出发,让美国标准成为全球开源标准非常重要。

我们很重视这一点,希望打造出全球用户都在使用的人工智能系统。近期的这些动态更加坚定了我们的信念,让我们确信这是正确的发展方向。

......

他们做了很多创新,我们仍在研究。其中一些技术进步,我们希望能应用到自己的系统中。这就是行业发展的规律,无论竞争对手来自哪个国家。每一家新公司的技术突破和产品发布,都会带来新的理念,整个行业都会从中学习。这就是科技行业的发展模式。

现在就断言这对基础设施投资、资本支出等方面有什么确切影响,还为时尚早。当前有很多趋势同时在发生。

关于计算基础设施的使用,一直存在争议:有多少计算资源将用于预训练,又有多少用于推理。随着推理阶段的计算投入增加,智能水平和服务质量得以提升,推理模型越来越受重视。在 DeepSeek 出现之前,很多研究机构,包括我们自己,就已经在思考这个问题,并且认为计算资源的最大投入方向很可能不再是预训练。但这并不意味着我们需要的计算资源会减少。因为新的趋势是,在推理阶段投入更多计算资源,可以提升智能水平和服务质量。这意味着,作为一家拥有强大商业模式的公司,我们有优势为用户提供更高质量的服务,而那些商业模式不够强大的公司可能难以持续做到这一点。

另外,当我们打造 Meta AI,将人工智能融入信息流、广告产品等业务时,我们服务的用户多达数十亿。这和训练一个模型,且该模型不考虑用户数量的情况不同。服务大量用户的成本很高,但也正因为如此,我们能获得规模优势。

目前还很难判断这些因素综合起来会产生什么影响。行业发展迅速,几乎每个有创新成果的公司都值得我们学习,不只是最近发布产品的公司。我们会将学到的知识应用到实际工作中,同时也为行业贡献自己的创新成果。长期来看,大力投资资本支出和基础设施仍将是我们的战略优势。

虽然未来可能会有不同的情况,但现在下结论还为时过早。目前,我坚信构建强大的基础设施,不仅有助于提升服务质量,还能满足我们的大规模业务需求,是我们的一大优势。

来自微软业绩交流会

Satya Nadella:

今天,DeepSeek 的 R1 模型通过 Foundry 和 GitHub 上的模型目录发布,具备自动红队测试、内容安全集成和安全扫描功能。

......

在我的发言中提到,从某种意义上讲,人工智能领域的发展和常规计算周期的发展并无不同,都是在不断突破,追求更高的发展水平。摩尔定律正以更快的速度发挥作用,在此基础上,人工智能的扩展定律,包括预训练和推理计算方面,也在不断强化,而这一切都离不开软件的支持。正如我在发言中提到的,基于软件优化,推理计算每一轮都能实现 10 倍的性能提升,这是我们长期观察得出的结论。

DeepSeek 确实带来了一些真正的创新,其中部分成果和 OpenAI 在 o1 模型中的发现类似。显然,这些创新成果将逐渐普及并得到广泛应用。任何软件周期发展的最大受益者都是客户,毕竟,从客户端 - 服务器模式到云计算的发展历程中,我们得到的重要启示是:更多人购买了服务器,只不过这些服务器是以云计算的形式存在。所以,当token价格下降,推理计算成本降低时,意味着人们能够消费更多的人工智能服务,也会有更多的应用程序被开发出来。

有趣的是,如今在 2025 年初,我们能够在个人电脑上运行那些曾经需要强大云计算基础设施支持的模型,这在过去是难以想象的。这样的优化意味着人工智能将变得更加普及。因此,对于像我们这样的超大规模云服务提供商和个人电脑平台供应商而言,这无疑是个好消息。

其他云服务企业及AI应用部署DeepSeek-R1

英伟达,已经在NVIDIA NIM正式搭载完整版DeepSeek-R1。同一天亚马逊跟进,其他头部AI应用,包括Perplexity,Cursor和Windsurf,也都在批量接入DeepSeek。微软在亚马逊、英伟达前率先把DeepSeek-R1部署在了云服务Azure上。

中国电信天翼云已经上架DeepSeek,其通过多平台支持DeepSeek-R1应用和提供全方位的DeepSeek-R1部署、推理及微调服务,为用户提供更便捷、更高效的智能服务。

秘塔AI搜索融合DeepSeek-R1,实现国产最强推理+全网实时搜索+高质量知识库,提升用户体验,包括深度理解、复杂查询处理能力,学术科研党受益,已上线网页版。

百度智能云上线了DeepSeek V3和R1两个版本。

三、观点重申:看好中国AI,看好AI应用

1、关于DeepSeek的一些结论:1、工程上的优化是DeepSeek得以实现成本降低的核心原因;2、基座模型仍然重要,但市场当前对于基座模型的进展节奏没有一致预期;3、短期应用的渗透不仅得到了几乎所有科技大厂的认可,也事实上正在快速推进中。

2、DeepSeek的性能和定价策略,使得其直接成为OpenAI 的有力竞争者,可能阶段性改变 AI 大模型的竞争格局。尤其是其完全开源的特点,以及显著低于竞品价格的特点,将有望加速国产应用开发及推广。应用层面,类似O系列模型,DeepSeek-R1 能够高效解决复杂数学问题,适用于教育、科研等领域,值得关注。

3、DeepSeek集中代表了算法创新带来的模型优化是具有空间的,在底座模型当前并没有显著代际提升的背景下,算法创新将有望加速缩小国内模型和海外模型的差距,但这一现象暂时也没有办法证明未来对于训练环节算力需求将下降,近期我们看到海外头部大模型厂商的资本开支计划进一步加大,也是证明。

4、Agent(或者就称AI应用)及端侧是2025年AI的重要投资方向,我们前期发布行业深度报告,持续强调Agent的投资机会。伴随着部署模型及推理的成本下降,将有望推动AI应用的渗透普及,看好AI应用于2025年从逻辑走向落地。R1的精简版本可以在高端工作站上本地运行,意味着小而美的端侧模型有望在较短的时间内得到普及,这有利于AI智能终端。

5、很重要的一点,中国模型在追赶海外头部模型上取得了显著进展,整体有助于中国AI科技企业的估值提升。

来源:小柯要加油

相关推荐