MiniMax-M1:让AI推理不再昂贵的革命性突破
这项由MiniMax公司研究团队发表于2025年6月的突破性研究,介绍了世界首个开源的大规模混合注意力推理模型MiniMax-M1。这份发表在arXiv平台的论文(编号:arXiv:2506.13585v1),为有兴趣深入了解的读者提供了完整的技术细节和实验数
这项由MiniMax公司研究团队发表于2025年6月的突破性研究,介绍了世界首个开源的大规模混合注意力推理模型MiniMax-M1。这份发表在arXiv平台的论文(编号:arXiv:2506.13585v1),为有兴趣深入了解的读者提供了完整的技术细节和实验数
在人工智能的世界里,有一个非常重要的发现正在改变我们对AI推理能力的理解。这项由微软研究院牵头,联合香港大学、华中科技大学、北京大学和清华大学的研究团队于2025年6月发表的突破性研究,为我们揭示了如何让AI模型在进行复杂推理时变得更加高效。感兴趣的读者可以通
OpenAI 正式发布了其最新模型OpenAI o3-pro,这是其旗舰模型 o3 的专业增强版。o3-pro 专为需要“更长时间思考”的复杂任务而设计,其核心亮点在于极致的可靠性和准确性,尤其在数学、科学和编程等专业领域表现卓越。根据OpenAI引入的全新“
大模型的推理能力在近年来取得了显著进步,但这些进步背后的机制我们却知之甚少。来自阿里巴巴Qwen团队和清华大学LeapLab的研究人员在2025年6月的最新研究中,通过探索一个全新视角——词元(token)熵模式,揭示了强化学习在提升大模型推理能力过程中的工作
近日,由荷兰格罗宁根大学的Jirui Qi和Arianna Bisazza,哈佛大学的Shan Chen和Zidi Xiong,阿姆斯特丹大学的Raquel Fernández,以及麻省总医院和波士顿儿童医院的Danielle S. Bitterman联合发表
2025年,人工智能在学术领域的应用迎来了新的突破。DeepSeek发布的最新版本模型——DeepSeek-R1-0528,在数学推理、代码生成等关键领域实现了飞跃式提升。该模型不仅在AIME 2025测试中准确率从70%飙升至87.5%,其推理深度也翻倍增长
o1在AIME测试中的表现与训练计算资源的关系但推理算力一旦摸到天花板,增长速度可能就会从「几个月翻10倍」掉到「每年翻4倍」。如果推理训练和整体前沿算力差距只有几个数量级(如小于三个数量级),估计一年内增速就得放缓。推理真能Scaling吗?现实没那么简单。
日前,国内领先的大模型公司深度求索(DeepSeek)近日宣布,其旗舰模型DeepSeek R1已完成一次重要更新,新版命名为“DeepSeek-R1-0528”。此次升级在多个关键维度上实现了显著优化,尤其是在模型的推理深度、逻辑能力及内容生成质量方面,标志
DeepSeek R1模型近期迎来了其发展历程中的又一重要里程碑,全新版本DeepSeek-R1-0528正式亮相。此次迭代通过深度优化训练流程,显著增强了模型的逻辑推理与深度思考能力,使其在多个测试场景中均展现出了前所未有的高水平表现。
近日,DeepSeek R1模型迎来重要升级,最新版本DeepSeek-R1-0528正式发布。此次更新通过强化后训练过程,显著提升了模型的思维深度与推理能力,在多个领域展现出更优异的性能。
近日,DeepSeek R1模型迎来重要升级,最新版本DeepSeek-R1-0528正式发布。此次更新通过强化后训练过程,显著提升了模型的思维深度与推理能力,在多个领域展现出更优异的性能。
昨日,深度求索公司宣布其DeepSeek R1模型已完成最新的小版本迭代,新版本被命名为DeepSeek-R1-0528。用户现在可以通过官方网站、App以及小程序进入对话界面,并启用“深度思考”功能,来体验这一最新版本。同时,API接口也已同步更新,且调用方
据DeepSeek官方公众号透露,DeepSeek R1 模型已完成小版本升级,当前版本为 DeepSeek-R1-0528。用户通过官方网站、APP 或小程序进入对话界面后,开启“深度思考”功能即可体验最新版本。API 也已同步更新,调用方式不变。
DeepSeek R1 模型昨日宣布完成小版本升级,当前版本为 DeepSeek-R1-0528。用户通过官方网站、App 或小程序进入对话界面后,开启“深度思考”功能即可体验最新版本。API 也已同步更新,调用方式不变。
通过“串行分组 + 衰减奖励”的设计,在保证推理准确性的前提下,让模型学会提前终止思考,推理提速60%,生成更精确有用的答案。
北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。研究探索了在参数量大幅减少的情况下,模型在特定任务上实
北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。研究探索了在参数量大幅减少的情况下,模型在特定任务上实
引言:1987年,当王杰在台湾忠孝东路的出租屋里写下《安妮》时,他兜里只剩15块台币。这个被唱片公司嫌弃“嗓子太哑”的穷小子,用一首歌撕裂了华语乐坛的甜美假象——原来最痛的情歌,不是“我爱你你却爱他”,而是“我想你,可你早已不在人间”。
在包括AIME在内的多项AI基准测试中,这款中等参数模型碾压了满血版671B DeepSeek-R1,性能与阿里刚刚发布的Qwen3-235B-A22B持平。
2025年4月29日,Qwen3系列模型开源,Qwen3-235B-A22B模型得分超过DeepSeek R1 671B 模型。但当时模型具体技术细节尚未透露,秘诀不得而知。