中国团队让AI拥有“视觉想象力”,像人类一样脑补画面来思考

B站影视 韩国电影 2025-05-31 08:19 1

摘要:图8: 在DPG-Bench上的表现中间视觉思维生成对视觉生成任务的显著效益实验结果表明,TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 两个基准上都始终优于基线模型 Anole-7b。在 GenEval 上,TwGI-Anole

在人类的认知过程中,视觉思维(Visual Thinking)扮演着不可替代的核心角色,这一现象贯穿于各个专业领域和日常生活的方方面面。图8: 在DPG-Bench上的表现中间视觉思维生成对视觉生成任务的显著效益实验结果表明,TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 两个基准上都始终优于基线模型 Anole-7b。在 GenEval 上,TwGI-Anole-7b-Obj 在「双对象」类别中取得了显著提升(0.57 vs. 0.38,相对提升 50%),表明其在处理涉及多个实体的复杂提示时具备了更强的能力。在位置和颜色属性对齐方面也显示出显著改进,体现了在精确空间和视觉构图推理方面的更强能力。在 DPGBench 上,TwGI-Anole-7b-Obj 在「实体」、「属性」和「关系」类别中都取得了实质性进步,总体分数从 58.32 提升至 68.44(相对提升 17.3%),反映出其在细粒度视觉语义理解方面的增强能力。这些改进验证了我们的假设:将视觉任务分解为中间子目标使得大语言模型能够更系统地推理并生成更高质量的输出。原生多模态长思维过程使模型能够纠正和完善自身的视觉假设视觉思维自我批判的实验结果证明了让模型反思和修正自身视觉输出的有效性。TwGI-Anole-7b-Crit. 模型在自我批判步骤后性能显著提升:GenEval 总分从 0.45 提升至 0.48,DPGBench 分数从 62.83 提升至 67.14。这表明模型具备了内省分析生成图像的能力——通过基于视觉反馈的文本推理链,能够识别不匹配、幻觉或遗漏的元素,并随后进行纠正。这种视觉反馈循环的有效性反映了一种模态间协同效应,其中视觉和文本模态相互迭代指导,形成了真正的多模态智能推理机制。这些结果共同验证:在推理链中主动「画草图」或「打草稿」,不仅让模型生成质量更高、更可控,也带来了深度理解与纠错能力。未来展望Thinking with Generated Images 的能力未来有望推动 AI 在需要空间想象和动态规划的领域实现突破:创造性设计:模型可逐步生成并迭代建筑草图,同时用文本记录调整理由(如「将窗户东移以优化采光」)。科学发现:通过生成分子结构的中间假设图像,辅助生物学家验证药物结合路径。战术规划:让 AI 篮球员「脑补」生成不同战术配合的场上演示图像,可视化球员跑位路线和防守破解策略。《孙子兵法》说:「多算胜,少算不胜,而况于无算乎?」在文本时代,深思靠文字组成的思维链;在多模态时代,深思就需要通过多模态内容的耦合,不仅要会观察、调用工具,还要学会想象、反思、脑补。Thinking with Generated Images 正在把这种能力「写进」模型本身,让 AI 获得人类的视觉想象力。它不只是性能指标的上涨,而是推理范式的突破;它不只是会画画,而是把「画画」变成了思考的肌肉记忆;它不只是一次概念验证,更是给未来「多模态 AGI」铺了条高速公路。当机器从「看图说话」升级到「无图脑补」,真正的多模态推理时代,已敲响开场锣鼓,让我们拭目以待。© THE END转载请联系本公众号获得授权原标题:《中国团队让AI拥有「视觉想象力」,像人类一样脑补画面来思考》

来源:miniappbb2525efcf084

相关推荐