突发!DeepSeek 开源新版 V3,再次震惊国外

B站影视 欧美电影 2025-03-25 08:38 2

摘要:昨晚,国内著名大模型平台 DeepSeek 悄然开源了 V3 模型的最新版本 0324。与以往不同,此次 DeepSeek 极为低调,国内公众号与国外社交平台均未进行任何宣传,仅是默默将模型上传至 huggingface。

昨晚,国内著名大模型平台 DeepSeek 悄然开源了 V3 模型的最新版本 0324。与以往不同,此次 DeepSeek 极为低调,国内公众号与国外社交平台均未进行任何宣传,仅是默默将模型上传至 huggingface。

尽管发布过程低调,但这一动作迅速引起了国外网友的关注。经国外网友测试,V3-0324 的代码能力成为其最大亮点之一。只需简单的文本提示,它就能快速开发各种网站和 App,该能力可与目前全球最强的闭源代码模型 Claude 3.7 Sonnet 思维链版本相媲美。更具优势的是,V3-0324 不仅开源免费,推理效率还更快。

有网友分享称,新版 V3 在不到 60 秒的时间内解开了一道密码谜题,而 Sonnet 3.7 花费了大约 5 分钟却未能成功。还有网友一次性让 V3-0324 开发了一个网站,生成 800 多行代码且未出现任何错误,对其评价为 “免费、开源、超级快”,并认为开源模型正促使大公司构建成本更低、性能更优的模型。甚至有网友用 V3-0324 仅通过一个提示就完成了一个登陆页面的编码,惊叹 “我们正在与未来对话”,对其代码能力赞誉有加。

开源地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

V3 技术亮点回顾

V3 是一个拥有 6710 亿参数的专家混合模型(Moe),其中 370 亿参数处于激活状态。传统大模型多采用密集神经网络结构,处理每个输入 token 都需激活全部参数,导致算力消耗巨大。而在传统混合专家模型中,不平衡的专家负载常引发路由崩溃,就像交通拥堵使道路瘫痪,阻碍数据传递,降低计算效率。常规依赖辅助损失平衡负载的方法,辅助损失设置过大又会损害模型性能。

DeepSeek 对 V3 进行创新,提出辅助损失免费的负载均衡策略,引入 “偏差项”。在模型训练时,为每个专家赋予偏差项并添加到亲和力分数以决定 top-K 路由。模型持续监测训练数据中专家负载,负载过重则减小偏差项,过轻则增加,以此动态调整,有效平衡专家负载,提升模型性能。此外,V3 采用节点受限的路由机制限制通信成本,确保每个输入最多发送到预设数量节点,减少跨节点通信流量,提高训练效率,使模型在保持高效计算 - 通信重叠的同时,可扩展到更多节点和专家。

根据国外开源评测平台 kcores-llm-arena 对 V3-0324 的最新测试数据,其代码能力达到 328.3 分,超过了普通版的 Claude 3.7 Sonnet(322.3),可与 334.8 分的思维链版本比肩。

有网友分析,V3-0324 很可能是去年年底发布的 DeepSeek V3 的迭代更新,如同 OpenAI 持续更新 GPT-4 却未改变模型编号。并且,DeepSeek V3 在许多创意写作任务中比 R1 更具优势,因其速度更快,能让用户更快速地进行多次迭代。虽然存在幻觉和准确性不足的问题,但鉴于人类会对文本进行编辑和审核,这一缺陷影响有限。

DeepSeek V3 自发布以来,已在多个领域展现出强大实力。在数学竞赛(如 AIME 2024、MATH)和全国高中数学联赛(CNMO 2024)中,大幅超越其他所有开源闭源模型;在中文能力方面,与 Qwen2.5 - 72B 在教育类测评 C - Eval 和代词消歧等评测集上表现相近,在事实知识 C - SimpleQA 上更为领先。其训练成本也非常低,仅使用 2048 个 H800 GPU,总训练 GPU 卡时为 2788 千小时(预训练为 2664 千小时),平均每个 GPU 为 1361 小时,约合 56.7 天,远低于同类模型。

此次 V3-0324 版本的开源,无疑将为全球 AI 开发者提供更强大且低成本的工具,推动 AI 技术在更多领域的创新应用与发展,后续其在实际应用中的表现值得持续关注。

来源:人工智能学家

相关推荐