大模型掌握人类空间思考能力！三阶段训练框架学会“边画边想”，5个基准平均提升18.4%

摘要：AntResearchNLP团队投稿量子位 | 公众号 QbitAI“边看边画，边画边想”，让大模型掌握空间思考能力，结果直接实现空间推理任务新SOTA。来自蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。

AntResearchNLP团队投稿量子位 | 公众号 QbitAI“边看边画，边画边想”，让大模型掌握空间思考能力，结果直接实现空间推理任务新SOTA。来自蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。

△系统性的跨帧对象追踪示例本研究聚焦于空间推理任务，通过“Drawing to Reason in Space”范式，将绘图操作与多模态推理深度融合，使模型在视觉空间中“边画边想”，更有效地理解和推理复杂的时空关系，显著提升了大模型空间感知能力及推理的可解释性与可控性。该范式为机器人导航、虚拟助手等领域的空间智能奠定了基础，未来将继续推动多模态推理向通用性与高效性发展。该工作的第一作者为中科院自动化所博士生吴俊飞，目前于蚂蚁技术研究院实习，蚂蚁技术研究院副研究员关健为共同第一作者。论文地址： https://arxiv.org/abs/2506.09965代码仓库： https://github.com/AntResearchNLP/ViLaSR科技前沿进展每日见原标题：《大模型掌握人类空间思考能力！三阶段训练框架学会“边画边想”，5个基准平均提升18.4%》

来源：晋城教育

标签：训练模型推理香港中文大学吴俊

本文地址：http://news.43b.com.cn/a/627317.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!