摘要:电子发烧友网报道(文/李弯弯)日前,DeepSeek官方宣布DeepSeek-R1模型已完成小版本试升级,当前版本为DeepSeek-R1-0528。次日,DeepSeek-R1-0528正式在Hugging Face平台开源。用户可通过官方网页、App、小程
电子发烧友网报道(文/李弯弯)日前,DeepSeek官方宣布DeepSeek-R1模型已完成小版本试升级,当前版本为DeepSeek-R1-0528。次日,DeepSeek-R1-0528正式在Hugging Face平台开源。用户可通过官方网页、App、小程序进入对话界面后,开启“深度思考”功能体验最新版本。API也已同步更新,调用方式不变。
DeepSeek-R1-0528仍然以2024年12月发布的DeepSeek V3 Base模型为基座,通过在后训练过程中投入更多算力,显著提升了模型的思维深度与推理能力。
官方称,在数学、编程与通用逻辑等多个基准测评中,DeepSeek-R1-0528取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上接近其他国际顶尖模型,如OpenAI的o3 高版本与o4 mini模型、Google的Gemini-2.5-Pro等。
在编程能力方面,DeepSeek-R1-0528能力的提升最为显著。知名代码测试平台Live CodeBench显示,新版本性能可以媲美OpenAIo3模型的高版本。据测试者反馈,DeepSeek-R1-0528能够一次性生成超千行无Bug代码,且在HTML/CSS/JS动态交互实现(如天气卡片动画、数据可视化)中更加精准。另外,在模拟物理碰撞的编程任务中,其表现优于一些其他模型。它还能用Python 编写将Word文档中的图片提取到固定路径的小程序,在短时间内完成任务。
在复杂推理任务中,DeepSeek-R1-0528的表现也有显著提升。在AIME 2025测试中,新版模型的准确率从旧版的70%提升至87.5%。这一提升得益于模型在解题过程中进行了更为详尽和深入的思考,旧版模型平均每题使用12K tokens,而新版模型平均每题使用 23K tokens。此外,它还能正确回答“9.9 - 9.11 = ?”这类难倒其他顶流大模型的数字新难题。
在创意写作能力上,DeepSeek-R1-0528 输出的文本更加自然,结构更有层次感,展现出了独特的推理风格,不仅速度很快,而且进行了充分的思考。在旧版R1的基础上,DeepSeek-R1-0528 针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。
在其他能力方面,如幻觉改善,DeepSeek-R1-0528针对幻觉问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45~50%左右,能够有效地提供更为准确、可靠的结果。
此外,DeepSeek-R1-0528 还支持工具调用功能,尽管不支持在 thinking 中进行工具调用,但在Tau-Bench测评中表现良好,与OpenAI o1-high相当。API方面,DeepSeek-R1-0528已同步更新,接口与调用方式保持不变,但增加了Function Calling 和JsonOutput的支持。
目前,百度智能云千帆大模型平台正式上架了DeepSeek最新的R1-0528大模型。千帆模型开发平台同步支持DeepSeek-R1最新版的批量推理、模型评估、推理日志挖掘分析以及模型蒸馏功能,全流程工具链支持企业构建自己的专属大模型;千帆应用开发平台上的企业级RAG、Agent、工作流、百度AI搜索组件等功能也完成对DeepSeek新模型全链路接入,支持企业基于DeepSeek-R1-0528定制专属应用。文小言App也全面接入了DeepSeek最新模型。
腾讯旗下元宝、ima、搜狗输入法、QQ浏览器等多款产品也已接入了 DeepSeek R1-0528版本。用户打开元宝(电脑版、网页版可抢先体验)、ima、搜狗输入法(Windows版侧边栏)、QQ浏览器,选择DeepSeek模型R1深度思考,即可免费不限量使用。
近些年,全球大模型技术能力持续突破,原生多模态大模型成为技术演进的重要方向,通过打通视觉、音频、3D等模态数据,实现端到端输入输出。例如,百度文心大模型4.5系列实现了文本、图像和视频的混合训练,显著提升了多模态理解能力。
基于长思维链的“慢思考”技术成为提升模型逻辑推理能力的关键。例如,OpenAI的o1模型通过强化学习和思维链技术,在STEM领域的推理能力显著增强,并具备自我反思与错误修正能力。
模型参数量呈指数级增长,例如从GPT-2的15亿参数跃升到GPT-4的数千亿参数。同时,训练数据集规模每八个月翻一番,推动了模型性能的持续提升。
目前全球各大模型呈现多元化竞争态势,国内外模型在不同唯独展开激烈竞争。从技术能力上来看,在国外,OpenAI的GPT系列(如GPT - 4)通过大规模训练和计算资源,在生成文本和理解语言方面表现出色,具备强大的语言理解和生成能力,在复杂的文本生成和学术研究领域占据优势。Google的Gemini系列结合了Google Brain和DeepMind技术,追求极致的多模态和推理性能,在多模态支持方面具备最全面的能力,如原生支持文本、图像、音频、视频和代码等多种模态输入输出。
在国内,DeepSeek通过创新的算法优化和高效的资源利用,提供了具备竞争力的选择。其DeepSeek - R1模型在推理速度和计算资源消耗方面具有显著优势,在推理能力、编程表现及交互体验方面实现显著突破,在数学、编程与通用逻辑等多个基准测评中取得了国内领先的成绩。百度的文心大模型在自然语言处理、知识图谱构建等方面技术成熟,广泛应用于智能搜索、智能写作、智能客服等领域。商汤科技专注于计算机视觉和深度学习技术,在图像识别、视频分析等方面的技术实力强劲,其大模型在智能安防、智慧城市等领域有广泛应用。
从应用场景上来看,国外GPT - 4适用于跨国智库咨询、新药研发分子关系推理等场景。摩根士丹利使用GPT - 4.5生成投行报告,分析师效率提升70%。Gemini系列适用于跨境电商客服、全球舆情监控等场景,沃尔玛定制Gemini客服系统,支持50种语言实时翻译。
国内DeepSeek在智能客服、医疗健康等领域具有强大潜力。文心一言深度绑定政企市场,覆盖98%部委合规标准,在国企流程自动化、医疗病历结构化分析等场景有应用,如国家卫健委疫情政策解读报告生成。通义千问在电商场景表现突出,是电商场景霸主,在直播脚本生成、竞品舆情分析准确率超90%,如天猫双11自动生成百万级个性化商品描述。
从生态方面来看,国外OpenAI凭借其强大的语言理解和生成能力,吸引了全球的开发者和企业。Google依托谷歌TPU算力垄断和搜索数据优势,推动Gemini系列的发展。
国内百度汇聚了大量高端人才,平台技术发展全面且快速,文心大模型在内部和外部应用方面双向发力,积累了较多行业应用案例。阿里电商生态加持通义千问,使其与阿里云无缝集成,可一键调用云计算、支付、物流接口。腾讯整合微信、游戏生态,调用微信社交语料,生成“网感”最强内容,在游戏NPC交互方面,实时生成剧情对话,玩家留存率提升25%。
可以预见,随着产业链技术的不断成熟,大模型将在更多行业得到广泛应用,推动各行业的智能化发展。随着生成式模型在图像、视频侧的处理能力提升,叠加推理优化带来的降本,AI超级应用有望出现,改变人机交互方式。从市场趋势来看,全球大模型行业市场规模将持续扩大,头部企业将巩固地位,新兴企业将寻求突破。开源社区、合作伙伴和应用开发者将成为生态竞争的关键。完善的生态系统将增强用户粘性,促进技术创新。
来源:地球村新讯