摘要:11月18日,昆仑万维正式发布Skywork R1V4-Lite,一款集成视觉操作、推理与规划的轻量级多模态智能体。它不仅能进行深度推理,还在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。
11月18日,昆仑万维正式发布Skywork R1V4-Lite,一款集成视觉操作、推理与规划的轻量级多模态智能体。它不仅能进行深度推理,还在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。
与传统只能“看图回答”的模型不同,Skywork R1V4-Lite能够在真实场景中随手拍照即可完成复杂任务:自动旋转图像判断空间位置、多次放大读取模糊文字、绘制辅助线验证几何关系、跨模态搜索定位真实地点……这些过去只有在大型模型或专用Agent系统中才能实现的能力,如今在轻量多模态智能体Skywork R1V4-Lite中即可完成。
这意味着用户不需要设计提示词,不需要提供额外信息,只需拍一张图,Skywork R1V4-Lite就能自己观察、操作、推理并给出答案。从感知到行动,从推理到验证,Skywork R1V4-Lite让“即时多模态洞察”成为现实,为多模态智能体从封闭推理迈向开放式交互提供了新的技术路径。
Skywork R1V4-Lite使用地址:
Skywork API平台:
.ai/
Skywork API接口文档:
Novita AI:
在多个权威视觉与感知基准上,Skywork R1V4-Lite展现出超过预期的竞争力:在8个多模态理解基准评测上整体领先Gemini 2.5 Flash,其中5个任务上超过Gemini 2.5 Pro的水平。
这证实了“图像操作 × 深度推理”训练范式的有效性,并展现出极强的scaling潜力:即便是小模型,也能逼近顶级闭源模型的表现。
01核心优势一:随手拍解题,即时理解的主动视觉操作
Skywork R1V4-Lite在推理过程中并非被动“看图回答”,而是具备主动式图像操作能力:在遇到视角受限或信息不足的场景时,模型会自动执行裁切(Crop)、放大(Zoom)、旋转(Rotate)、区域定位等操作,构建一条透明且可回溯的“视觉行动链”。
让我们以"看图猜位置"为例展示这一能力。
当任务涉及地点判断时,R1V4-Lite不会停留在表层识别,而是自动裁切关键区域(如建筑物、店招、道路纹理)再分别调用图像搜索与文本搜索,并将结果进行语义比对,必要时对新区域再次裁切验证。
当模型需要在真实世界信息中做判断时,它会主动定位关键线索,以避免“误解场景”或“走错方向”。R1V4-Lite不仅能够通过自动裁切与搜索交叉比对进行定位,还能够进一步放大店招与建筑立面纹理,最终锁定以下图片是天津市南开区·天大设计院。
这类任务本质上是“小模型挑战大场景”,但R1V4-Lite的主动视觉策略让它能稳健地完成复杂的现实世界定位。可以看到在上述任务中,R1V4-Lite先裁剪放大出带有招牌的大楼,再对大楼进行图片搜索,得到这栋楼对应的是天津大学设计院。最后文本搜索,确认天津大学设计院的地理位置。
当R1V4-Lite遇见旋转、倒置或视角混乱的图像时,它会主动进行几何修复。我们输入一张倒转的图片,R1V4-Lite能够对输入图像进行旋转与结构重建分析。
R1V4-Lite的分析过程展现出,要真正理解图像中的空间关系,仅靠像素识别远远不够,必须先“把图像变回正常视角”。正如图中所示:
原始倒置图像:机器人在画面右侧
自动旋转校正后:机器人应在左侧
模型进一步判断:机器人使用右手牵着孩子的右手
R1V4-Lite展现出物理逻辑理解力:它先对图像进行几何校正,再基于正确视角进行空间关系推理。
当任务要求极高精度时,R1V4-Lite会进一步主动进行微观级操作:放大区域、生成参考线、构建辅助判断策略。对于需要“精密判断”的任务,模型不会直接给答案,而是会先构建辅助工具来确保结果严谨可靠。
我们再让R1V4-Lite执行辅助线验证几何关系任务:在“吸管与笔是否平行”任务中,模型主动画辅助线,并严格确认它们平行:
在这些任务中,模型会主动进行多步裁剪放大的图像操作,找到对应的图片区域,使推理结果具备可解释性与严谨性。这一过程完整展示了R1V4-Lite的视觉行动力:模型不再“被动看图”,而是在复杂场景中主动探索、验证、修正与整合,实现真正意义上的「边观察、边思考、边行动」。
02核心优势二:多模态深度研究,领先的轻量级搜索增强能力Skywork R1V4-Lite也支持接入联网搜索功能,在联网搜索下会自动触发深度研究能力:
通过构建推理脚手架,与外部世界进行搜索、检索、比对等主动交互。触发搜索、检索、比对等多种外部资源交互,将搜索结果与视觉推理深度融合,形成“搜索—推理—验证”的闭环。模型由此获得跨模态、跨资源的知识扩展能力,推理边界显著拉宽。
从结果上看,R1V4-Lite在多模态DeepResearch类任务中展现出了领先趋势:在mm-search上以66分超过Gemini 2.5 Flash的64.9分,在FVQA上以67分显著领先Gemini 2.5 Flash的60.8分。这一系列结果强有力地验证了「图像操作 × 深度推理交织训练」范式的有效性。
面对复杂问题,R1V4-Lite能够进行多轮推理与信息整合。
在以下任务处理中,由于题目的复杂性,R1V4-Lite自主进行了长达8轮的人机协同推理与工具调用,通过持续的自主执行8轮交替推理与工具调用,最终生成了精准且有依据的答案。
R1V4-Lite处理生态学认知任务:当输入一张拍摄自伊比利亚半岛的鸟类图片时,R1V4-Lite自动识别出其为红颈夜鹰(Red-necked Nightjar, Caprimulgus ruficollis)。模型进一步生成结构化描述,说明其体长、分布区域及夜行习性。这一过程体现出模型在视觉识别与生物分类知识上的深度融合能力。
R1V4-Lite 不仅在学术、法律、生态与医学场景中展现出强大的多模态深度推理能力,在电商智能与内容理解方面同样表现卓越。 r1v4-lite在复杂的图片输入下,找到了商品来源并给出了详细的商品介绍。这种能力可直接应用于智能导购、图搜找同款、跨平台商品比价等典型电商场景。
R1V4-planner-lite可以支持真正意义上的主动式多模态 Agentic 规划,首次让视觉输入能够直接驱动任务链规划,将推理链扩展为可执行链。
从一张图像出发,Planner能够自动构建一条可执行的多轮任务链(task chain),并完成:
任务分解(Task Decomposition)
工具选择(Tool Selection)
参数生成(Parameter Generation)
执行顺序规划(Execution Ordering)
这意味着模型首次从传统的 “看图回答” → “看图行动”,具备了由视觉驱动的行动规划能力。
在此基础上,R1V4-Planner-Lite将规划能力扩展到系统级(system-level planning):模型会综合用户意图、上下文、可用工具与任务依赖关系(dependency graph),自动生成结构化的执行方案,并以高度可解释的形式给出每一步的工具、参数与目的。这为Agentic智能提供了可控性、透明度和稳定性。
例如,我们可以看到R1V4-planner-lite给出了如何完成搜索该动漫的plan,对应到每一个工具和参数。
Plan模式同样适用于纯文本输入。当用户提到想去26年1月想去三亚旅游的时候,R1V4-planner-lite也可以很好地帮用户制定计划和推荐行程。
Skywork R1V4-Lite并非传统意义上的“小模型”。它是业界首个在轻量级架构下同时实现:图像操作(Crop / Zoom / Rotate)、深度推理(Long-form Reasoning)和任务规划(Agentic Planning)三能力统一的多模态智能体。
在极小参数规模下,Skywork R1V4-Lite依然能进行端到端的深度思考与主动执行,实现从 “视觉输入” 一直推到 “任务完成” 的完整能力链。
Skywork R1V4-Lite在模型规模、推理速度与吞吐效率之间实现了极佳工程平衡。这意味着它不仅适合工程落地,也能支撑极高的并发和实时性要求,是移动端、应用内推理和高 QPS 产品的更优选项。
通过更高效的模型优化与继承Qwen3 A3B轻量架构设计,它在真实生产环境中展现出远超同体量模型的性能表现:
1. 响应速度(Latency)
- 约为Gemini 2.5 Pro的1/19
- 约为Gemini 2.5 Flash的1/5
2. Token 吞吐(TPS)
- 为Gemini 2.5 Pro/Flash的约2倍
3. 端到端完成速度:依托更强的推理压缩能力与极低的工具调用轮次,在工具调用与长推理任务(端到端使用工具),R1V4-Lite实现了:
- 比Gemini 2.5 Pro快2.9×
- 比Gemini 2.5 Flash快1.7×
凭借低延迟×高吞吐×极低成本的组合优势,R1V4-Lite完美适用于:
实时问答
视觉检索
多模态工具调用
高并发的在线生产场景
R1V4-Lite的发布证明了——小模型也能很强,小模型也能很快,小模型也能多模态。
05展望R1V4-Lite的成功不仅来自工程优化,更源自其背后的多模态新范式:图像操作×深度推理交织训练。这一训练路线让轻量模型具备跨模态推理、主动图像操作、任务规划与搜索增强的统一能力,展示了轻量多模态智能体的全新可能性。这一结果进一步说明:能力密度比参数规模更重要,小模型也能逼近闭源模型的真实表现。随着更大容量与更强结构进一步加入该范式,其scaling潜力将持续释放。目前,Skywork R1V4-Pro也即将准备发布。未来,昆仑万维旗下Skywork将沿着 “Multimodal Reasoning×Agentic Intelligence×Tool Augmentation” 路线继续前进,让模型不仅理解世界,还能更有效地与世界信息交互,并在真实任务中产生实际价值。来源:动态宝