眼脑

首创像素空间推理，7B模型领先GPT-4o，让AI能像人一样眼脑并用

然而，当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息，在高清图像中的微小物体、视频里的动态细节等场景中，常常因缺乏直接视觉操作能力而「视而不见」。