百度ERNIE-4.5-VL用28B参数3B激活,比肩Gemini-2.5-Pro和GPT-5-High

B站影视 内地电影 2025-11-14 17:34 1

摘要:百度开源了ERNIE-4.5-VL-28B-A3B-Thinking视觉模型,用用28B参数3B激活,达到了接近SOTA的水平,比肩Gemini-2.5-Pro和GPT-5-High。

百度开源了ERNIE-4.5-VL-28B-A3B-Thinking视觉模型,用用28B参数3B激活,达到了接近SOTA的水平,比肩Gemini-2.5-Pro和GPT-5-High。

一个仅需激活3B参数的轻量级模型,在多项多模态权威基准测试中,其性能表现已能与业界顶级的千亿参数旗舰模型并驾齐驱。

ERNIE-4.5-VL-28B-A3B-Thinking,代表了多模态智能领域在计算效率与高阶认知能力融合方向上的一次重要探索。

展示了一种构建高级多模态智能体的新范式,让模型学会了像人类一样,带着图像去思考。

智能的本质是高效的专家调用

人类的智慧并非来源于大脑在处理任何问题时都进行全局的,耗尽所有能量的满负荷运转。

恰恰相反,我们的大脑是由高度专业化的区域构成的。

当我们欣赏一幅画时,视觉皮层被高度激活;当我们聆听一段音乐时,听觉皮层则成为主角。

这种专家系统的协同工作模式,保证了大脑在处理复杂信息时的高效率与低能耗。

ERNIE-4.5-VL-28B-A3B-Thinking的设计哲学与此不谋而合。

其名称中的28B代表模型拥有280亿的总参数规模,这是一个庞大的知识库。

但其核心亮点在于,模型在执行具体任务时,仅需激活约30亿参数。

ERNIE-4.5-VL在保持庞大知识储备的同时,实现了极高的推理效率。

它不必在每次运算时都背负全部280亿参数的沉重负担,显著降低了计算资源的需求。这使得在更广泛的,甚至是资源受限的场景中部署高性能的多模态模型成为可能。

模型能力的飞跃,得益于一个扩展的中期训练阶段。

在这一阶段,研发团队为模型喂养了规模庞大且高度多样化的高质量视觉-语言推理数据。

这批数据不仅仅是简单的图片-标签对,而是包含了复杂的场景描述,逻辑关系,因果推理和多步指令的语料。

这个过程好比一个孩子从阅读简单的绘本,进阶到开始理解带有复杂情节和人物关系的侦探小说。

模型的表征能力因此得到显著增强,更深刻地理解了视觉世界与人类语言之间的语义对齐。

它不再是机械地将图像中的像素块对应到某个单词,而是开始理解图像中的故事和逻辑,为完成细粒度的视觉-文本推理任务打下了坚实的基础。

稳定与效率是模型训练的两翼

训练一个庞大而复杂的MoE模型,如同指挥一个由众多顶尖专家组成的交响乐团。

每一位专家(即模型的一个专家网络)都有自己的专长和个性,如何让他们在演奏中和谐共鸣,而不是各自为政,产生混乱的噪音,是一个巨大的挑战。

尤其是在引入强化学习这种高度动态的训练方法时,训练过程非常容易变得不稳定。

ERNIE-4.5-VL-28B-A3B-Thinking为此引入了先进的多模态强化学习技术,并结合了GSPO与IcePop两种策略。

这里的强化学习,可以理解为一种试错学习机制。

模型在完成可验证对错的任务时,会得到奖励或惩罚信号。

例如,正确识别出电路图中的电阻值会得到奖励,反之则会受到惩罚。通过不断地试错和调整,模型会逐渐学会达成目标的最佳策略。

GSPO与IcePop策略的核心作用,就是为这个试错过程提供一个稳定而高效的框架。

它们像两位经验丰富的指挥家,一方面通过精妙的调度,确保各个专家网络在训练中能够各司其职,稳定地提升自己的专业能力,避免某些专家过于激进或懒惰,从而导致整个乐团的崩溃。

另一方面,它们引入了动态难度采样机制。

这相当于为模型量身定制了一套从易到难的练习曲。

在训练初期,模型会接触一些相对简单的任务,建立基础的认知能力和自信心。

随着模型能力的提升,系统会动态地引入更具挑战性的复杂任务,促使模型不断突破认知边界,向更高层次的推理能力迈进。

这个过程显著提升了学习效率,避免了模型在过难或过易的任务上浪费宝贵的训练资源。

此外,针对社区的广泛反馈与实际应用需求,模型在视觉定位(Grounding)能力上进行了全面增强。

视觉定位是指将语言指令(例如,那个穿着红色裙子的女孩)与图像中的特定区域精准地对应起来。

通过优化,现在这项功能变得更易于调用且结果更为可靠。

同时,模型的指令理解与执行能力也得到了优化,它能更准确地理解用户的意图,即使是复杂或带有附加条件的指令也能很好地完成。

思考,从拥有主动探索世界的能力开始

ERNIE-4.5-VL-28B-A3B-Thinking最具革新性的能力之一,是它全新的Think with Image(带着图像思考)模式。

传统的多模态模型在处理图像时,通常是被动接收。

它们就像一个只能通过一张固定照片来破案的侦探,无论照片多么模糊,细节多么微小,都只能基于这唯一的信息源进行猜测。

而Think with Image模式赋予了模型主动探索视觉世界的能力。

它不再受限于单次、静态的图像输入。当面对一张信息量丰富的复杂图像,并被问及一个关于其中微小细节的问题时,模型可以像人类一样,自主地调用工具箱中的放大镜——图像放大工具(image zoom-in tool)。

在识别蓝底标牌文字的案例中,用户的提问是在人行道旁墙上的蓝底标牌上写的是什么?。

模型在接收到指令后,首先对整张图像进行全局分析,定位到用户所指的蓝色标牌。

它判断出,在原始分辨率下,标牌上的文字非常模糊,难以准确识别。

此时,模型没有草率地给出一个猜测的答案,而是启动了思考过程。

它自主决策,调用图像放大工具,对标牌所在区域进行局部放大,获得了一张高分辨率的细节图。

在这张清晰的局部图中,模型轻松识别出HOTEL BUZA的字样,并给出了准确的回答。

这个过程看似简单,却蕴含着深刻的认知飞跃。

它标志着模型从一个被动的图像观看者,转变为一个主动的视觉探索者。

这种能力让模型能够处理更加细粒度的视觉任务,从海量细节中攫取关键信息,完成深层次的视觉理解。

更进一步,当模型自身的知识库不足以解答用户的问题时,它还能够求助于外部世界。

通过强大的工具调用能力,模型可以即时使用图像检索等工具,接入互联网这个无穷无尽的知识海洋。

在识别毛绒玩具的案例中,用户上传了一张黄色卡通小鸡的图片。

这个形象并非世界闻名的卡通角色,很可能并未包含在模型的训练数据中。

模型在检索内部知识库后,判断无法给出高置信度的答案。

于是,它再次启动了主动探索的机制,自主调用图像搜索工具,将这张图片作为线索在网络上进行检索。

搜索引擎返回了大量相似的图片以及相关的商品信息和网页。

模型会对这些信息进行分析,对比候选结果的外观特征,阅读相关的文字描述,最终从MINISO(名创优品)和毛绒玩偶等上下文中,准确推断出这个角色是Dundun。

这一系列操作——判断自身知识局限,选择并调用外部工具,分析检索结果,最终整合信息并得出结论——构成了一个完整且连贯的多步推理链条。

这让模型能够覆盖更广泛的长尾视觉知识,不再仅仅局限于其训练数据所构成的已知世界。

这些能力的融合,共同构成了构建高级多模态智能体的核心基础。

模型不再是一个孤立的大脑,而是一个能够感知,思考,并主动与数字世界互动的智能体。

实践是检验能力的唯一标准

ERNIE-4.5-VL-28B-A3B-Thinking在多个核心能力维度上,都通过具体案例展示了其卓越的性能。

在视觉推理方面,模型展现了强大的逻辑分析与信息整合能力。

当面对一张展示每周不同时段客流强度的高峰提示图表时,用户的需求是在2025年11月8日至12日期间,找到一个避开高峰时段与高峰日的最佳来访时间。

模型的推理过程是严谨而多步的。

首先,它需要具备基础的日历知识,将2025年11月8日至12日这个时间段准确地对应到具体的星期(周六,周日,周一,周二,周三)。

接着,它对图表进行结构化解析,识别出图表的横轴代表星期,纵轴代表时间段,而不同的颜色代表不同的客流强度。

模型准确地从图例中解读出绿色或浅色区域代表低客流时段。

通过扫描图表,它定位到每天的12:00至14:00是客流低谷。

最后,它结合日期信息与通常的业务规律(例如周末可能人更多),进行逻辑匹配和权衡,最终输出一个清晰,完整,且具有极高操作性的时间建议。这个过程已经非常接近一个经验丰富的人类助理的分析水平。

在更考验抽象思维的STEM(科学,技术,工程和数学)推理领域,模型同样表现出色。

一个经典的桥式电路等效电阻问题,对于没有物理学背景的人或模型来说,是极具挑战性的。

因为它无法通过简单的串并联规则进行化简,必须运用更底层的物理定律。

模型在接收到电路图后,首先展现了对电路拓扑结构的深刻理解,准确识别出这是一个无法直接化简的电桥结构。

随后,它启动了基于物理定律的分析模式。它知道需要应用欧姆定律与基尔霍夫电流定律。

模型有条不紊地设定了各个支路的电流变量,根据基尔霍夫电流定律(流入节点的电流等于流出节点的电流)写出节点方程,再结合欧姆定律(电压等于电流乘以电阻)列出电压回路方程。

通过求解这个方程组,它最终得出了正确结果 R = 7/5 Ω,并且还进行了正确性检验。整个推理过程逻辑严谨,步骤清晰,宛如一本教科书式的解题示范。

视觉定位能力的提升则在工业级的应用场景中展现了巨大价值。

在一个包含多个人物的超现实场景图像中,用户的指令非常具体:图中有多少个穿西服的人,请用JSON格式输出以上物体的坐标和bbox_2d位置。

模型严格遵循了指令的每一个细节。

它准确地检测出了所有穿着西装的人物,没有遗漏也没有误报。

更重要的是,它将每一个检测到的目标都用一个边界框(bounding box)精确地框选出来,并以JSON(JavaScript对象表示法)这种结构化的数据格式,输出了每个边界框的精确数值坐标。

这个案例不仅体现了模型强大的视觉检测与定位能力,更体现了其高度的指令遵循性,能够将非结构化的视觉信息,按照用户的要求,转换为结构化的,可供机器直接读取和使用的数据。

对于动态的视频内容,模型的理解能力也达到了新的高度。

在一个视频理解任务中,模型被要求完成两项工作。首先,它需要提取视频中出现的所有字幕文本,并附上其对应的时间戳。

模型精准地完成了这项任务,展现了其在时间序列上的文字识别能力。

随后,当被问及视频中哪些片段是在桥上拍摄的时,任务的难度上升了。

这需要模型理解桥这个概念,并在连续的视频帧中识别出桥梁的视觉特征,如桥身结构,栏杆,以及独特的拍摄视角和光照条件。

模型通过分析这些复杂的视觉线索,准确地指出了视频中约17秒,37秒以及47秒的三个片段符合在桥上拍摄的描述。

这证明了ERNIE-4.5-VL-28B-A3B-Thinking具备出色的时间感知,事件定位以及时空场景理解的综合能力,使其能够对动态视觉信息进行准确且可解释的分析。

这些案例共同描绘了ERNIE-4.5-VL-28B-A3B-Thinking的能力图谱。

它不再是一个简单的问答机器,而是一个具备多步推理,跨模态理解,工具使用和主动探索能力的强大认知引擎。

从模型到应用,开放的生态是关键

一个模型的价值,最终体现在它能否被广大开发者和研究人员方便地使用,并在此基础上构建出创新的应用。

ERNIE-4.5-VL-28B-A3B-Thinking在发布时,就提供了全面而友好的开源工具链支持。

对于希望快速上手体验的开发者,可以通过主流的transformers库进行推理。

官方提供的示例代码清晰地展示了从加载模型,预处理图像和文本,到生成结果的全过程。

import torchfrom transformers import AutoProcessor, AutoTokenizer, AutoModelForCausalLMmodel_path = 'baidu/ERNIE-4.5-VL-28B-A3B-Thinking'model = AutoModelForCausalLM.from_pretrained( model_path, device_map="auto", dtype=torch.bfloat16, trust_remote_code=True)processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)model.add_image_preprocess(processor)messages = [ { "role": "user", "content": [ { "type": "text", "text": "What color clothes is the girl in the picture wearing?" }, { "type": "image_url", "image_url": { "url": "https://paddlenlp.bj.bcebos.com/datasets/paddlemix/demo_images/example1.jpg" } }, ] },]text = processor.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True,)image_inputs, video_inputs = processor.process_vision_info(messages)inputs = processor( text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt",)device = next(model.parameters).deviceinputs = inputs.to(device)generated_ids = model.generate( inputs=inputs['input_ids'].to(device), **inputs, max_new_tokens=1024, use_cache=False )output_text = processor.decode(generated_ids[0][len(inputs['input_ids'][0]):])print(output_text)

对于追求极致推理性能和高吞吐量的生产环境部署,可以使用vLLM或FastDeploy等业界领先的推理服务框架。

例如,通过一条简单的vLLM命令,就可以将模型部署为一个高性能的服务。

其中--reasoning-parser和--tool-call-parser等参数的加入,使得模型在服务化部署时依然能够保有其强大的工具调用和复杂推理能力。

# 使用vLLM运行vllm serve baidu/ERNIE-4.5-VL-28B-A3B-Thinking --trust-remote-code \ --reasoning-parser ernie45 \ --tool-call-parser ernie45 \ --enable-auto-tool-choice# 使用FastDeploy运行fastdeploy serve --model baidu/ERNIE-4.5-VL-28B-A3B-Thinking \ --max-model-len 131072 \ --max-num-seqs 32 \ --port 8180 \ --quantization wint8 \ --reasoning-parser ernie-45-vl-thinking \ --tool-call-parser ernie-45-vl-thinking \ --mm-processor-kwargs '{"image_max_pixels": 12845056 }'

更重要的是,模型生态支持开发者进行微调(Fine-tuning)。

基于PaddlePaddle(飞桨)的训练工具套件ERNIEKit,为开发者提供了指令微调(SFT)和对齐训练(DPO)等场景的端到端解决方案。

指令微调允许开发者使用自己的数据,让模型更好地适应特定领域的任务。

例如,一个医疗领域的公司可以利用自己的医学影像数据对模型进行微调,使其成为一个专业的医疗影像分析助手。

ERNIEKit还支持LoRA这样的高效微调技术,开发者只需训练模型极小一部分的参数,就能达到接近全量参数微调的效果,极大地降低了模型定制化的门槛。

# 下载模型huggingface-cli download baidu/ERNIE-4.5-VL-28B-A3B-Thinking --local-dir baidu/ERNIE-4.5-VL-28B-A3B-Thinking# 使用LoRA进行指令微调erniekit train examples/configs/ERNIE-4.5-VL-28B-A3B-Thinking/sft/run_sft_lora_8k.yaml

模型的许可证也体现了其开放的姿态。

ERNIE 4.5模型依据Apache License 2.0协议发布,该协议允许在遵守条款的前提下将模型用于商业用途。

这为基于该模型进行创业和创新的开发者们扫清了后顾之忧,无疑将极大地促进相关应用生态的繁荣。

这些改进与开放的生态,共同构成了构建高级多模态智能体的核心基础,为开发者与研究人员提供了强大的工具支持,使其能够探索并构建新一代视觉-语言理解系统,推动多模态人工智能在复杂推理与应用场景中的边界持续拓展。

参考资料:

来源:算泥社区

相关推荐