摘要:近日,DeepSeek R1模型完成小版本升级,推出全新DeepSeek-R1-0528,思考更深、推理更强。它以DeepSeek V3 Base模型为基座,在后续训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力,在数学、编程与通用逻辑等多个领域表
近日,DeepSeek R1模型完成小版本升级,推出全新DeepSeek-R1-0528,思考更深、推理更强。它以DeepSeek V3 Base模型为基座,在后续训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力,在数学、编程与通用逻辑等多个领域表现不错。新版模型的幻觉率显著降低,新增支持Function Calling,得到开发者的广泛关注。此次更新所涉及的诸多进化方向和全新模型理念,也给大模型技术的发展带来了更多启示。
启示一
思维链蒸馏“以大带小”
小模型推理能力可媲美大模型
新版DeepSeek R1显著提升了模型的思维深度与推理能力。值得关注的是,通过蒸馏DeepSeek-R1-0528的思维链后训练Qwen3-8B Base得到的DeepSeek-R1-0528-Qwen3-8B模型,在数学测试AIME 2024中仅次于DeepSeek-R1-0528,超越Qwen3-8B(+10.0%),与Qwen3-235B相当。
图源:DeepSeek官网
这一结果验证了通过蒸馏大模型的思维链提升小模型推理能力的有效路径。DeepSeek在官方公告中指出,DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。
对于学术界推理模型研究而言,思维链通过展示模型中间推理步骤,使模型决策过程更加透明,能够为大模型的可解释性研究提供重要参考。研究人员可以通过思维链深入剖析模型如何理解问题、构建推理逻辑以及推导结论的完整过程,进而推动理论创新,开发出更先进、更高效的模型架构。
对于工业界而言,以大模型的思维链来指导小模型的训练,可以推动小模型开发的降本增效。通过强化学习思维链蒸馏,小模型能够涌现出自我验证、自我思考的长思维链能力与泛化能力。企业可以利用低成本的小模型,构建各类高推理需求的AI应用,降低AI应用开发门槛和成本。
启示二
工具调用“合纵连横”
拓展模型能力边界
新版DeepSeek R1支持工具调用,API增加了对Function Calling的支持,使模型能够更有效地响应复杂需求,在深度推理拆解用户意图后,精准地调用外部工具完成各类任务,为企业和开发者构建强大的AI Agent提供了核心支撑。
图源:DeepSeek官网
同时,新版DeepSeek R1将工具调用限定在thinking(思维链)之外,保证大模型推理过程不会受外部工具的执行结果干扰,做到对模型能力边界的精准控制,既能保留思维链的完整性,又拓展了模型的实用价值,有助于满足敏感领域的合规要求。例如,在金融场景中,模型可通过工具调用安全获取实时市场数据,同时,思维链的可追溯性能够为模型决策提供解释依据。
工具调用已经成为拓展大模型能力边界,让AI触达更多应用场景的重要路径。通过工具调用,模型能够突破自身能力和训练数据的限制,实现能力的横向拓展。例如接入专业知识图谱完成跨领域知识融合,提升模型在垂直场景下的处理深度与广度。
基于工具调用能力,模型还可以根据应用场景需求,智能筛选最优工具组合,更加灵活应对各类差异化需求。此外,工具调用还能促进模型间的协同进化,不同功能的模型可通过标准化接口实现能力互补,形成更强大的智能体生态,推动人工智能向更开放、更协同的方向发展。
启示三
开源模型“看齐”闭源模型
促进AI生态开放繁荣
新版DeepSeek R1还针对“幻觉”问题进行了优化,在改写润色、总结摘要等场景中的幻觉率降低了45-50%。在代码生成、逻辑推理等核心能力方面,新版DeepSeek R1的性能直逼OpenAI o3高版本模型。不久前开源的通义千问Qwen3模型,也在性能上超越了OpenAI o1等顶尖模型。开源模型和闭源模型之间的差距快速缩小,为行业带来更加灵活、更加多样的选择。
随着开源模型性能不断提升,给企业以低成本、低门槛应用AI技术提供了有利条件。企业无需支付高昂授权费用,即可基于开源模型进行定制化开发,快速训练符合自身业务需求的垂类模型并搭建相关解决方案,加速AI技术融入业务流程,实现各行业落地。
推动人工智能向更开放、更协同的方向发展。
深挖数据价值,加速拥抱大模型
当前,人工智能技术加速向产业纵深渗透,应用成本显著下降,企业部署大模型的门槛持续降低。在此趋势下,如何深度挖掘各行业领域长期沉淀的海量数据价值,转化为训练各垂类推理模型、小模型的核心要素,成为产业数智化转型升级的关键命题。
模型训练对数据的要求既要“量”,更要“质”,需要依托安全可信的流通环境实现高质量数据的开发和利用。北电数智推出的AI可信数据服务,覆盖数据存储、开发、可信使用、流通、托管全链条的可信数据产品和服务体系,能够促进金融、医疗、工业、科研等领域的高质量专业数据流通。其中,为助力企业数据高价值使用,北电数智的知识工程服务可助力企业将杂乱无章的数据转化为结构化的高质量资源,用于后续模型训练及推理,以结构化、显性化、人类可理解的知识表示和推理机制约束模型行为,有效支撑大模型可解释性,降低大模型训练过程中的“黑箱”效应;合成数据服务则利用大模型的生成高质量数据,填补数据缺口,从多维度解决高质量数据资源短缺问题,推动推动大模型创新。
从思维链蒸馏提升小模型推理性能,到工具调用拓展模型能力边界,AI模型呈现出更强大、更多元、更灵活的发展趋势。无论是个人开发者还是企业用户,都可以根据不同任务需求,灵活选择合适的模型和外部工具,定制个性化AI Agent应用,加速AI在垂直领域的深度渗透与场景落地,推动AI生态更开发、更繁荣。
来源:北电数智