DeepseekV3:开源大模型的“新里程碑”还是“过度宣传”?

B站影视 2024-12-31 17:25 2

摘要:近年来,人工智能技术的快速发展催生了许多关于“大模型革命”的讨论。尤其是在开源领域,越来越多的模型声称能够媲美甚至超越OpenAI的GPT-4o或Google的Gemini系列等商用模型。最近,DeepseekV3的发布再次引发了广泛关注。这款拥有6710亿参

资料图。本文为新经济学家智库专稿,转载请注明来源。

本账号接受投稿,投稿邮箱:jingjixuejiaquan@126.com

晶恒

新经济学家智库特约研究员

一场关于开源AI的热议随着DeepseekV3的推出而达到了顶峰。

近年来,人工智能技术的快速发展催生了许多关于“大模型革命”的讨论。尤其是在开源领域,越来越多的模型声称能够媲美甚至超越OpenAI的GPT-4o或Google的Gemini系列等商用模型。最近,DeepseekV3的发布再次引发了广泛关注。这款拥有6710亿参数的开源大模型以其低成本、高性能的特点迅速成为焦点,甚至被誉为“2024年最佳开源大模型”。

然而,在这些令人兴奋的宣传背后,是否隐藏着技术和商业上的盲点?DeepseekV3是否真的能成为开源AI的新里程碑?本文将从技术特性、争议焦点、评测基准和未来前景等方面展开深入分析。

技术亮点:DeepseekV3的核心特性

DeepseekV3的技术参数无疑令人瞩目,其采用的混合专家(MixtureofExperts,MoE)架构是其最大的亮点之一。MoE架构允许模型在推理过程中仅激活部分参数,从而在保持模型规模的同时优化计算效率。据公开资料,DeepseekV3的总参数量高达6710亿个,但在推理过程中仅激活约370亿个核心参数。这种设计不仅降低了推理成本,还提升了模型的运行速度,使其在每秒处理token的数量上达到了60个,比上一代提升了3倍。

此外,DeepseekV3的训练数据规模和性价比也令人印象深刻。据称,其训练数据量达到了14.8万亿个token,而训练成本仅为557.6万美元。这一成本远低于行业平均水平,尤其是考虑到其只使用了278.8万个H800GPU小时完成训练。若这一数据属实,则表明DeepseekV3在资源调度和优化策略上取得了重大突破。

在性能表现上,使用LiveBench基准进行的全面性能评估显示,Deepseek V3 的全球平均得分为 60.4,分布在“逻辑推理”“编程编码”“数学”“数据分析”“语言技能”“遵循指令”六个关键领域。DeepseekV3在STEM(科学、技术、工程和数学)领域表现尤为突出:其在指令遵循获得80.9分,表现出对于需要精确执行的复杂任务高度有效;数学获得60.0分,表示其扎实的数学实力,可以为技术计算和解决问题提供可靠支撑;编程获得63.4分,其表现优于包括GPT-4o-2024-05-13、o1-mini等专有模型在内的绝大多数开闭源模型。

然而,DeepseekV3逻辑推理得分仅为50.0分,表明该模型在需要批判性思维和解决问题的任务中面临挑战。Reddit用户的反馈突出了其推理模块的问题,特别是在常识推理场景中。这显示出DeepseekV3一定的短板。

争议焦点:成本与性能的可验证性

尽管DeepseekV3的技术参数和成本数据看似令人信服,但其可验证性仍然引发了广泛质疑。训练一个拥有6710亿参数的大模型通常需要巨大的硬件资源、电力消耗、数据使用和人力投入,例如,有报道称Meta投资超过5亿美元来训练Llama3。DeepseekV3的训练成本仅为557.6万美元,这一数字是否合理?目前尚未有更详实的官方数据或第三方验证来支撑这一说法。OpenAI的创始成员Andrej Karpathy在社交媒体X上评论说:“DeepSeek今天通过发布一个前沿级别大型语言模型的开放权重,让这一切看起来轻而易举,该模型在一个笑话般的预算下训练(2048块GPU,2个月,600万美元)。”这表明业内专家既对 DeepSeek成就的肯定,又对其成本的可行性委婉提出了质疑。

此外,DeepseekV3的MoE架构虽然在理论上能够降低推理开销,但其工程实现相对复杂,尤其是在路由机制和并行计算优化方面。MoE架构的核心在于通过智能路由将任务分配给不同的专家模块,从而提高效率。然而,这种架构的实现需要高度成熟的分布式计算框架和优化算法,而DeepseekV3是否真正解决了这些技术难题,目前尚无明确证据。

另一个争议点在于DeepseekV3的性能评测基准。DeepSeek V3声称使用LiveBench进行了性能评估,并得出了60.4的全球平均分,但到目前为止还缺乏更多独立的、全面的评估来验证以上得分结果。此外,部分开源社区成员对其指令遵循高分(80.9分)提出质疑,认为这可能与微调策略和测试集选择有关,而非模型本身的通用能力。不过在这一点上,中国科技新闻学会元宇宙科技传播专委会主任杨溟表示,微调策略和测试集选择确实可能影响这个分数,但这并不一定意味着结果无效。许多模型评测都会针对特定任务进行优化。而且,DeepseekV3在一些标准基准如MMLU、BBH上的优秀表现也不应被忽视。未来,随着更多的第三方评测和同行评议的出现,DeepSeek V3的准确评估将会浮出水面。

应用前景:高本地门槛与潜在突破

DeepSeek V3的”开源即未来”愿景确实令人兴奋,体现了其对开放技术和共享创新的承诺。然而,这一愿景在实际应用中面也临着本地部署硬件要求高的问题。DeepSeek V3全精度推理需要1.5TB内存,这意味着要运行完整版的DeepSeek V3,需要配备多台高端服务器或专业级GPU工作站。对于大型科技公司或顶尖研究机构来说,这可能不是问题,但对于资源有限的中小型企业、初创公司或普通研究团队而言,这无疑构成了一个大门槛。这种情况可能会导致“开源但难以接近”的悖论,即模型在技术上是开放的,但在实践中却难以被广泛采用。

对于希望在自己的基础设施上运行模型,以保护数据隐私或满足特定性能需求的机构来说,这种硬件要求可能会迫使他们转向硬件需求较低的其他开源模型。为此DeepSeek团队尽力采取不同规模和优化版本的模型来缓解这一问题。这可能包括量化模型和针对特定任务优化的版本,这些版本可能会降低硬件要求,使更多用户能够本地部署和使用DeepSeek V3。硬件需求是一个需要持续关注和改进的领域。随着大语言模型技术的不断发展,提高模型效率、降低资源需求将成为推动”开源即未来”理念真正实现的关键因素。

对于隐私或特点需求不敏感的中小型企业而言,API可能是更实际的选择。DeepSeek提供了与OpenAI兼容的API,使无法满足硬件要求的用户可以接入而无需本地部署,特别是DeepSeek的API价格,据报道其价格比其他领先模型如GPT-4和Claude3.5 Sonnet低数十倍。这种开源性质和较低的使用成本可能会抵消部分障碍。

专家观点:开源模型的未来之路

专家普遍认为,DeepseekV3的出现标志着开源大模型技术的持续演进,DeepSeek团队在开发DeepSeek-V3模型时,提出了DeepSeekMoE改进架构,旨在实现“终极专家专业化”。他们引入了细粒度专家分割和共享专家隔离两种策略,以提高专家的专业化程度和模型的参数效率。但其“击败”或“取代”成熟商用模型的说法尚显夸张。杨溟指出,MoE架构的潜力巨大,但要实现全面的多任务平衡和高效推理,仍需在路由机制和分布式训练框架上进行更多优化。

此外,强化学习和在线微调可能是未来改进的关键方向。通过引入更智能的路由策略和持续学习机制,DeepseekV3或许能够在逻辑推理和语言理解能力上实现突破。例如,结合强化学习的路由策略可以动态调整专家模块的分配,从而提高模型在复杂任务上的表现。

与此同时,开源社区的力量也不容忽视。DeepseekV3的开源许可为开发者提供了广泛的参与机会,这可能加速其技术迭代和性能优化。然而,社区驱动的开发模式也可能带来不一致性和安全性问题,这需要开发者和用户在使用时保持警惕。

未来,如果在自动驾驶、医疗和金融服务等高风险场景中加以应用,DeepseekV3的一致性、安全性和合规性仍需进一步验证。这些领域对模型的要求不仅包括高性能,还包括极高的可靠性和透明性。阿里云智能集团副总裁、新金融行业总经理张翅指出,金融级AI系统不仅需要在技术层面上高度先进,还需要在安全性、可靠性、可扩展性和合规性等方面达到金融行业的高标准。全国信息安全标准化技术委员会在《人工智能安全标准化白皮书》中强调,在实时性较高的应用场景(如自动驾驶)中,算法模型的可用性和准确性尤为重要。DeepseekV3若想在这些领域取得突破,也还是需还有不短的路要走。

结语:理性看待DeepseekV3的“革命性”标签

DeepseekV3的问世无疑为开源大模型生态注入了新的活力。其在STEM领域的突出表现和开源许可的灵活性为我们又提供了一个更新的选择。然而,要全面超越GPT-4o或其他专有模型,DeepseekV3仍需在逻辑推理、语言理解和多任务平衡等方面进一步提升。

对于开发者和研究者而言,理性选择、持续跟踪更新,并结合实际测试与多方评估,才是应对大模型技术浪潮的最佳策略。未来,我们期待DeepseekV3在社区贡献和技术迭代的推动下,找到性能与易用性之间的最佳平衡点,为开源AI的繁荣做出更多贡献。

入群可参加全年至少12场精彩闭门研讨

来源:经济学Economics

相关推荐