DeepSeek-R1升级和开源背后

摘要：电子发烧友网报道（文/李弯弯）日前，DeepSeek官方宣布DeepSeek-R1模型已完成小版本试升级，当前版本为DeepSeek-R1-0528。次日，DeepSeek-R1-0528正式在Hugging Face平台开源。用户可通过官方网页、App、小程

电子发烧友网报道（文/李弯弯）日前，DeepSeek官方宣布DeepSeek-R1模型已完成小版本试升级，当前版本为DeepSeek-R1-0528。次日，DeepSeek-R1-0528正式在Hugging Face平台开源。用户可通过官方网页、App、小程序进入对话界面后，开启“深度思考”功能体验最新版本。API也已同步更新，调用方式不变。

DeepSeek-R1-0528仍然以2024年12月发布的DeepSeek V3 Base模型为基座，通过在后训练过程中投入更多算力，显著提升了模型的思维深度与推理能力。

官方称，在数学、编程与通用逻辑等多个基准测评中，DeepSeek-R1-0528取得了当前国内所有模型中首屈一指的优异成绩，并且在整体表现上接近其他国际顶尖模型，如OpenAI的o3 高版本与o4 mini模型、Google的Gemini-2.5-Pro等。

在编程能力方面，DeepSeek-R1-0528能力的提升最为显著。知名代码测试平台Live CodeBench显示，新版本性能可以媲美OpenAIo3模型的高版本。据测试者反馈，DeepSeek-R1-0528能够一次性生成超千行无Bug代码，且在HTML/CSS/JS动态交互实现（如天气卡片动画、数据可视化）中更加精准。另外，在模拟物理碰撞的编程任务中，其表现优于一些其他模型。它还能用Python 编写将Word文档中的图片提取到固定路径的小程序，在短时间内完成任务。

在复杂推理任务中，DeepSeek-R1-0528的表现也有显著提升。在AIME 2025测试中，新版模型的准确率从旧版的70%提升至87.5%。这一提升得益于模型在解题过程中进行了更为详尽和深入的思考，旧版模型平均每题使用12K tokens，而新版模型平均每题使用 23K tokens。此外，它还能正确回答“9.9 - 9.11 = ?”这类难倒其他顶流大模型的数字新难题。

在创意写作能力上，DeepSeek-R1-0528 输出的文本更加自然，结构更有层次感，展现出了独特的推理风格，不仅速度很快，而且进行了充分的思考。在旧版R1的基础上，DeepSeek-R1-0528 针对议论文、小说、散文等文体进行了进一步优化，能够输出篇幅更长、结构内容更完整的长篇作品，同时呈现出更加贴近人类偏好的写作风格。

在其他能力方面，如幻觉改善，DeepSeek-R1-0528针对幻觉问题进行了优化。与旧版相比，更新后的模型在改写润色、总结摘要、阅读理解等场景中，幻觉率降低了45~50%左右，能够有效地提供更为准确、可靠的结果。

此外，DeepSeek-R1-0528 还支持工具调用功能，尽管不支持在 thinking 中进行工具调用，但在Tau-Bench测评中表现良好，与OpenAI o1-high相当。API方面，DeepSeek-R1-0528已同步更新，接口与调用方式保持不变，但增加了Function Calling 和JsonOutput的支持。

目前，百度智能云千帆大模型平台正式上架了DeepSeek最新的R1-0528大模型。千帆模型开发平台同步支持DeepSeek-R1最新版的批量推理、模型评估、推理日志挖掘分析以及模型蒸馏功能，全流程工具链支持企业构建自己的专属大模型；千帆应用开发平台上的企业级RAG、Agent、工作流、百度AI搜索组件等功能也完成对DeepSeek新模型全链路接入，支持企业基于DeepSeek-R1-0528定制专属应用。文小言App也全面接入了DeepSeek最新模型。

腾讯旗下元宝、ima、搜狗输入法、QQ浏览器等多款产品也已接入了 DeepSeek R1-0528版本。用户打开元宝（电脑版、网页版可抢先体验）、ima、搜狗输入法（Windows版侧边栏）、QQ浏览器，选择DeepSeek模型R1深度思考，即可免费不限量使用。

近些年，全球大模型技术能力持续突破，原生多模态大模型成为技术演进的重要方向，通过打通视觉、音频、3D等模态数据，实现端到端输入输出。例如，百度文心大模型4.5系列实现了文本、图像和视频的混合训练，显著提升了多模态理解能力。

基于长思维链的“慢思考”技术成为提升模型逻辑推理能力的关键。例如，OpenAI的o1模型通过强化学习和思维链技术，在STEM领域的推理能力显著增强，并具备自我反思与错误修正能力。

模型参数量呈指数级增长，例如从GPT-2的15亿参数跃升到GPT-4的数千亿参数。同时，训练数据集规模每八个月翻一番，推动了模型性能的持续提升。

目前全球各大模型呈现多元化竞争态势，国内外模型在不同唯独展开激烈竞争。从技术能力上来看，在国外，OpenAI的GPT系列（如GPT - 4）通过大规模训练和计算资源，在生成文本和理解语言方面表现出色，具备强大的语言理解和生成能力，在复杂的文本生成和学术研究领域占据优势。Google的Gemini系列结合了Google Brain和DeepMind技术，追求极致的多模态和推理性能，在多模态支持方面具备最全面的能力，如原生支持文本、图像、音频、视频和代码等多种模态输入输出。

在国内，DeepSeek通过创新的算法优化和高效的资源利用，提供了具备竞争力的选择。其DeepSeek - R1模型在推理速度和计算资源消耗方面具有显著优势，在推理能力、编程表现及交互体验方面实现显著突破，在数学、编程与通用逻辑等多个基准测评中取得了国内领先的成绩。百度的文心大模型在自然语言处理、知识图谱构建等方面技术成熟，广泛应用于智能搜索、智能写作、智能客服等领域。商汤科技专注于计算机视觉和深度学习技术，在图像识别、视频分析等方面的技术实力强劲，其大模型在智能安防、智慧城市等领域有广泛应用。

从应用场景上来看，国外GPT - 4适用于跨国智库咨询、新药研发分子关系推理等场景。摩根士丹利使用GPT - 4.5生成投行报告，分析师效率提升70%。Gemini系列适用于跨境电商客服、全球舆情监控等场景，沃尔玛定制Gemini客服系统，支持50种语言实时翻译。

国内DeepSeek在智能客服、医疗健康等领域具有强大潜力。文心一言深度绑定政企市场，覆盖98%部委合规标准，在国企流程自动化、医疗病历结构化分析等场景有应用，如国家卫健委疫情政策解读报告生成。通义千问在电商场景表现突出，是电商场景霸主，在直播脚本生成、竞品舆情分析准确率超90%，如天猫双11自动生成百万级个性化商品描述。

从生态方面来看，国外OpenAI凭借其强大的语言理解和生成能力，吸引了全球的开发者和企业。Google依托谷歌TPU算力垄断和搜索数据优势，推动Gemini系列的发展。

国内百度汇聚了大量高端人才，平台技术发展全面且快速，文心大模型在内部和外部应用方面双向发力，积累了较多行业应用案例。阿里电商生态加持通义千问，使其与阿里云无缝集成，可一键调用云计算、支付、物流接口。腾讯整合微信、游戏生态，调用微信社交语料，生成“网感”最强内容，在游戏NPC交互方面，实时生成剧情对话，玩家留存率提升25%。

可以预见，随着产业链技术的不断成熟，大模型将在更多行业得到广泛应用，推动各行业的智能化发展。随着生成式模型在图像、视频侧的处理能力提升，叠加推理优化带来的降本，AI超级应用有望出现，改变人机交互方式。从市场趋势来看，全球大模型行业市场规模将持续扩大，头部企业将巩固地位，新兴企业将寻求突破。开源社区、合作伙伴和应用开发者将成为生态竞争的关键。完善的生态系统将增强用户粘性，促进技术创新。

来源：地球村新讯

标签： gemini gpt 文心开源 deepseek

本文地址：http://news.43b.com.cn/a/457247.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!