深度求索(DeepSeek)的新模型V3.2-Exp将API价格降低一半

B站影视 日本电影 2025-09-30 10:25 1

摘要:该公司发布了其最新的实验性大型语言模型(LLM)DeepSeek-V3.2-Exp,其基准测试结果基本与前代产品DeepSeek-3.1-Terminus持平或略有提升,但更重要的是,通过DeepSeek的应用程序编程接口(API)使用时,成本降低了50%,每

深度求索(DeepSeek)持续拓展生成式人工智能的前沿领域……在本次更新中,重点体现在成本优势方面。

该公司发布了其最新的实验性大型语言模型(LLM)DeepSeek-V3.2-Exp,其基准测试结果基本与前代产品DeepSeek-3.1-Terminus持平或略有提升,但更重要的是,通过DeepSeek的应用程序编程接口(API)使用时,成本降低了50%,每百万输入 tokens仅需0.028美元——即使接近128,000 tokens的上下文限制(约相当于300-400页的信息量),也能保持较低成本。

它可通过深度求索(DeepSeek)的第一方API获取,其代码也可在Hugging Face和GitHub上以开源、企业友好的MIT许可证下载。

这家公司是如何做到的?继续阅读以找出答案。

如前所述,深度求索(DeepSeek)宣布大幅降低API定价。对于一百万 tokens,输入缓存命中的费用为0.028美元,缓存未命中为0.28美元,输出为0.42美元。

相比之下,在早期的V3.1-Terminus定价下,这三项费用分别为0.07美元、0.56美元和1.68美元。

深度求索(DeepSeek)已通过单独的API暂时保留了Terminus的可用性,直至10月15日,这让开发者能够直接对比这两个模型,但此后Terminus将被停用——这是一个仅在一周前发布、寿命短暂的模型。

不过,通过API,DeepSeek V3.2-Exp似乎是开发者可以选择的最便宜的选项之一,尽管OpenAI的GPT-5 Nano仍轻松占据最实惠的榜首。下面来看看它与其他主流模型的对比:

提供商模型(廉价/入门级)输入价格(每百万 tokens)输出价格(每100万 tokens)备注/注意事项深度求索V3.2-Exp0.28美元 / 0.028美元 缓存输入

开放人工智能GPT-5 Nano$0.05 / $0.005 缓存输入

谷歌Gemini 2.5 闪电精简版0.1美元。
无可用的缓存输入价格AnthropicClaude Haiku 3.50.80美元/0.08美元(缓存输入)

xAIGrok-4 快速非推理$0.20 / $0.05(缓存输入)

V3.2-Exp的核心是深度求索稀疏注意力(DeepSeek Sparse Attention,简称DSA),该公司今日也在Github上发布了一份技术报告对其进行了阐述。

传统的密集注意力机制会计算序列中每个标记与其他所有标记之间的交互,其计算量与序列长度成二次方增长。随着标记数量的增加,这会导致内存使用量和计算需求迅速上升,从而带来高昂的成本和缓慢的推理速度。

大多数大型语言模型采用“密集型”自注意力机制,该机制会将输入中的每个标记与其他所有标记进行比较。因此,如果你的提示词长度翻倍,模型处理所有这些标记间交互所需的工作量会不止翻倍。这会增加GPU的运行时间和能源成本,这一点体现在API的每百万标记定价中。在预填充阶段,计算量大致随上下文长度的平方增长,而在解码阶段至少呈线性增长。因此,较长的序列(数万个甚至超过10万个标记)会导致成本的增长速度远快于仅从标记数量本身所推测的速度。

DSA通过使用“闪电索引器”来解决这个问题,只选择最相关的标记用于注意力机制。

这在保持响应质量几乎不变的同时,降低了计算负载。

通过降低长上下文长度下每个token的计算负担,V3.2-Exp使成本曲线更加平缓且低得多。

这使得运行长上下文工作负载(如文档级摘要、具有长历史的多轮对话或代码分析)变得更加实用且经济实惠,而不会面临推理成本的失控增长。

除了架构上的变化,DeepSeek-V3.2-Exp还在训练后过程中进行了改进。该公司采用了两步法:专家蒸馏和强化学习。

专家提炼始于为数学、竞争性编程、逻辑推理、智能体编码和智能体搜索训练单独的模型。这些从相同基础检查点微调而来的专家模型,通过大规模训练得到强化,以生成特定领域的数据。然后,这些数据被提炼回最终的检查点,确保整合后的模型既能从专家知识中获益,又能保持通用性。

强化学习阶段标志着一个重大转变。与此前DeepSeek模型采用的多阶段方法不同,推理、智能体和人类对齐训练通过组相对策略优化(GRPO)被整合到单一的强化学习阶段中。这一统一流程在平衡各领域性能的同时,避免了多阶段流程常出现的“灾难性遗忘”问题。

奖励设计融合了基于规则的结果信号、长度惩罚、语言一致性检查,以及由特定任务评分标准引导的生成式奖励模型。实验结果表明,经过蒸馏和强化的模型表现几乎与领域专家相当,在强化学习训练后,差距被有效缩小。

基准测试证实,这种权衡达到了预期效果。在广泛使用的公开评估中,V3.2-Exp的表现与V3.1-Terminus相当,在推理、编程和问答等领域的差异微乎其微。

尽管在一些推理密集型任务(如GPQA-Diamond和“人类终极考试”)中,得分略有下降,但该模型在效率上的提升以及在其他方面的稳定表现表明,这种稀疏化方法并未显著削弱其能力。

MMLU-Pro稳定在85.0,2025年AIME小幅提升至89.3,而GPQA-Diamond则从80.7降至79.9。编程和智能体基准测试也呈现出类似的情况,Codeforces评分从2046升至2121,BrowseComp从38.5提升至40.1。

这种平衡体现了设计上的权衡。通过只选择一部分可能的令牌进行注意力计算,DSA显著降低了计算成本。推理成本对比显示,在长上下文运行时,V3.2-Exp每百万令牌的成本不到V3.1-Terminus的一半。

秉持公司的开放理念,深度求索(DeepSeek)已在Hugging Face上发布了V3.2-Exp模型权重,该模型遵循MIT许可证。研究人员和企业可自由下载、修改并部署该模型用于商业用途。

此次发布还附带了开源内核:用于研究原型设计的TileLang,以及用于高性能推理的CUDA/FlashMLA内核。SGLang背后的团队LMSYS Org还宣布,其框架现已正式支持V3.2版本,该版本配备了优化的稀疏注意力内核、动态键值缓存,并能扩展至128,000个token。vLLM也提供了首日支持。

对于本地部署,深度求索(DeepSeek)提供了更新后的演示代码,以及与NVIDIA H200、AMD MI350和神经网络处理器(NPU)兼容的Docker镜像。该模型拥有6850亿参数,支持包括BF16、FP8和FP32在内的多种张量类型。

DeepSeek发布V3.1-Terminus仅一周后,便推出了V3.2-Exp版本,V3.1-Terminus是对其V3.1模型的优化版本。Terminus旨在回应用户反馈,改进基于工具的推理能力,并减少语言混合错误,例如在英文回应中插入中文词汇。

据VentureBeat报道,Terminus基于2024年12月推出的V3系列构建而成,该系列将深度求索(DeepSeek)的模型定位为其推理能力更强的R1系列的多功能、高性价比替代方案。R1在结构化逻辑、数学和多步骤推理方面表现出色,但速度较慢且成本更高。相比之下,V3模型专为通用应用场景打造,例如写作、摘要生成、面向客户的聊天以及基础编码等。

借助V3.2-Exp版本,深度求索(DeepSeek)在保持MIT许可证和开源发布模式不变的情况下,通过稀疏注意力机制实现了架构层面的创新叠加。

对于企业——尤其是美国的企业而言,深度求索(DeepSeek)的API所带来的成本节约颇具吸引力,但在采用之前还有其他需要考虑的因素。

数据安全与合规性:使用深度求索(DeepSeek)的托管API意味着数据会流经一家总部位于香港的公司运营的服务器。拥有敏感客户数据的企业、受监管行业或有严格合规框架的企业(例如医疗、金融、国防领域)需要仔细评估其法律和治理影响。自托管开源权重可能会降低这些风险,但这会将基础设施和维护责任转移到内部。性能与控制的权衡:该API提供即时访问,成本和扩展能力可预测。自托管能提供最大程度的控制(尤其是在数据驻留和延迟方面),但需要大量工程资源和GPU支持。决策者必须在采用速度和运营开销之间进行权衡。供应商多元化:鉴于许多美国企业已经依赖OpenAI、Anthropic或谷歌,深度求索(DeepSeek)的开源模式为避免供应商锁定提供了一种对冲手段。不过,整合来自中国供应商的模型可能会引发董事会或安全主管的质疑。总体拥有成本:虽然API的每token成本更低,但对于有稳定高容量工作负载的企业而言,通过在自有基础设施上或通过可信第三方主机运行开源模型,可能会发现长期节省成本的效果。不过,基于该模型的架构,即便是运行新版DeepSeek V3.2-Exp的企业,在自有服务器和硬件上处理较长token数量的输入时,成本仍应显著更低。选择取决于规模、工作负载的可预测性以及对内部运营的需求。

对于评估深度求索(DeepSeek)的美国决策者而言,其考量不仅关乎API定价,还涉及将成本可负担性与风险承受能力、监管要求及基础设施战略相协调。

DeepSeek-V3.2-Exp展示了开源参与者如何在推动前沿规模模型发展的同时,解决成本和部署方面的实际挑战。

通过引入稀疏注意力机制、降低API价格、将强化学习整合到统一阶段,以及通过Hugging Face和GitHub的发布保持完全透明,深度求索(DeepSeek)既提供了一个研究测试平台,也提供了一个可行的企业级选择。

在官方发布的生态系统中加入SGLang和vLLM等框架,这表明深度求索(DeepSeek)正在促进广泛的社区整合,而非限制分发。

与此同时,V3.2-Exp的实验性质为迭代留下了空间。内部评估显示出了令人期待的结果,但深度求索(DeepSeek)承认,其正在实际场景中积极测试该架构,以发现任何局限性。

这种实验性架构能否成为更广泛的V3.3或V4版本发布的基础,还有待观察。但就目前而言,V3.2-Exp的推出表明了深度求索(DeepSeek)在全球人工智能领域保持存在感和竞争力的决心。

来源:任夏

相关推荐