首创像素空间推理,7B模型领先GPT-4o,让AI能像人一样眼脑并用 然而,当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息,在高清图像中的微小物体、视频里的动态细节等场景中,常常因缺乏直接视觉操作能力而「视而不见」。 模型 推理 内在激励 vlm 眼脑 2025-06-09 17:49 3