如果o3图片推理很吸引你,那你一定要看看豆包大模型的新品

B站影视 内地电影 2025-04-18 22:07 1

摘要:豆包1.5·深度思考模型一共有两个版本,分别是大语言模型 Doubao-1.5-thinking-pro 和多模态版本 Doubao-1.5-thinking-pro|m,值得注意的是,它的多模态是一种原生的多模态能力,将视觉理解和语言推理融入到了一个模型中。

4 月 17 日,在 FORCE LINK AI 创新巡展·杭州站,火山引擎正式发布了豆包1.5·深度思考模型。

豆包1.5·深度思考模型一共有两个版本,分别是大语言模型 Doubao-1.5-thinking-pro 和多模态版本 Doubao-1.5-thinking-pro|m,值得注意的是,它的多模态是一种原生的多模态能力,将视觉理解和语言推理融入到了一个模型中。

在专业领域的推理任务比如数学、代码、科学等,Doubao-1.5-thinking-pro 都表现出色,基准测试达到或接近全球第一梯队水平;在非推理任务比如创意写作、人文知识阐述等,模型泛化能力也很强,适用的场景更加广泛和复杂。

以下是具体的跑分成绩:

在数学竞赛基准 AIME 2024 上获得了 86.7 分,与 o3-mini-high 的表现相当,并且显著优于 o1 和 DeepSeek R1;在竞赛编程基准 Codeforces 上获得了 55.0 分,优于 DeepSeek R1;在科学问答基准 GPQA 上获得了 77.3 分,接近 o3-mini-high 表现。

与此同时,多模态版本的视觉理解能力也很强大。视觉理解处理信息更高效,加上思维链推理的严谨有序,可以极大避免幻觉的影响,并使得视觉理解与知识的结合更加深入。为验证这一点,知危还对豆包1.5·深度思考模型的视觉理解能力特别进行了测评。

接下来,我们先介绍大语言模型版本的关键技术原理,再介绍多模态版本的视觉理解测评结果。

MoE 架构的豆包1.5·深度思考模型规模小,具有 20B 激活参数和 200B 总参数,推理速度更快,能够实现 20 毫秒极低延迟。

随着大模型的规模扩大,如今优化重点或者说基座大模型竞争点几乎卷到了较量 “ 一字之差 ” 的级别,豆包1.5·深度思考模型也确实打磨出了这等级别的细腻功力。

这种细腻性还体现在业务场景落地上,我们从豆包1.5·深度思考模型的实际测试效果就可以感受到。

在实际测试下,面对一个高考填报志愿的问题,豆包1.5·深度思考模型通过分析考生所在省份的招生流程、成绩计算方式、不同学校要求等信息,结合三位一体报考的特点,最终给出了三个梯队的报考结构,并提示考生以第二梯队院校为主力,搭配冲刺和保底选项,甚至以第二梯队为主给出了专业推荐和优势分析,可谓极致周全。

再给模型输入一份 32 页的 2024 财年英文公开财报,并让模型基于财报,分析全球不同区域的业绩表现差异,及背后与定价、产品组合、区域经济等方面的关联。可以看到模型能拆分理解用户的提问,解读英文报表,按全球各区域提炼回答问题的有效信息。模型对各区域业绩表现的驱动因素先做了初步总结,再进行更加深入的维度分析。比如一些区域的业绩增长与定价策略的贡献相关性高,而定价可能源于高通胀的影响。最后模型给出了详细的有效答案。

从这两个场景的测试可以看出豆包1.5·深度思考模型能够很好地理解用户的复杂需求,并在执行中严格遵循指令,其思考过程非常有序,能够逐级深入地分析问题,但最终答案又不跑偏,甚至能在用户未提及的方面,给予贴合实际需求的人性化的方案,展现了豆包1.5·深度思考模型在知识方面的硬实力,以及听话、严谨、有序、深入、用户导向等软实力的表现。

硬实力方面,ToB业务涉及专业领域,如法律、金融、医疗等,模型需要具备专业知识才能有效支持。豆包1.5·深度思考模型可以处理行业特定的问题,降低企业知识成本。软实力特质在ToB中尤为重要,因为企业项目落地链条长,客户需求多维度,还需遵守内部政策和法规。

介绍完豆包1.5·深度思考模型的技术原理和场景适用性,我们再实际考察一下视觉理解和深度思考如何相辅相成。

本次测评涉及基础层面的计数、定位、知识引入、多元素识别等能力维度,在更高阶层面,主要考察了在教育场景中的应用,比如生物、化学、地理等。

首先是基础层面的测评,我们测试一下豆包1.5·深度思考模型多模态版的计数能力。

输入下图并提问:图中有几个人?

豆包1.5·深度思考模型多模态版的输出结果是6个人,回答准确。在思维链中,它将每个人的具体特征都分析了出来,包括衣服、发型、肤色等,甚至识别出了谁是拍照的人。

上述测试已经有体现出多元素识别的能力了,再看看下方这个表情识别的例子。

输入下图并提问:总结图片内容。

在推理过程中,豆包1.5·深度思考模型多模态版能准确地将图像整体进行空间划分,强调关注“共同点和差异点”,比如一些紫色、蓝色、红色的对象有特别意义等。在生成结果中,基本上每一个表情豆包1.5·深度思考模型多模态版都解释的很到位,特别是最后一个表情( 思考/欲言又止 ),没有和左边的混淆( 困惑 ),就很细节了。

我们再测试一下定位的能力,在下方放满包包的架子上,让豆包1.5·深度思考模型多模态版找到 “ 第一层有几个紫色的包?”

输入图像:

豆包1.5·深度思考模型多模态版不仅找到了纯紫色的包,还找到了一个部分紫色的拼接包,后者说实话由于不是很明显或者太接近黑色,知危一开始都以为是胡说,结果还真是对的。

然后是测试豆包1.5·深度思考模型多模态版的知识引入能力,让它通过查看图中的食材种类来帮我们解决人生难题 “ 今晚吃什么?”

输入图像:

豆包1.5·深度思考模型多模态版认出了所有的食材种类,然后推导出主菜可以是汉堡或红烧肉,但同时做两道菜可能太腻,因此豆包1.5·深度思考模型多模态版分析出有两种组合,一种是汉堡加香辣炒五花肉,另一种是红烧肉加蔬菜汉堡,都考虑到了解腻的要求,非常贴心。

其实,这个例子稍微变化一下,还能充分体现出视觉理解结合深度思考的优势。

我们先关闭视觉理解,只输入下面的提示词:

取圆形平面载体,经热处理后置于工作表面覆盖液态催化剂于载体表面,确保均匀分布安置经高温处理的圆柱体主体于中央位置依序添加薄片状辅助元素、体积扩增层及色彩增强物施加第二种液态黏合剂于构筑物顶部放置次级圆形封闭元素,完成整体结构

豆包1.5·深度思考模型多模态版一开始将其理解为一种工业或手工场景。

但实际上,这些工序是汉堡制作过程的抽象。我们重启对话,把这些提示词和上面的食材图一起输入,豆包1.5·深度思考模型多模态版就认出来这是汉堡的制作过程。

可以看到,豆包1.5·深度思考模型多模态版在计数、定位、常识引入、多元素识别方面都有不错的表现,也展现了视觉理解和推理能力珠联璧合的奇效,这为更高阶的视觉推理打下基础。

下面,我们开始测试高阶视觉推理,先试试生物学方面的效果,直接让豆包1.5·深度思考模型多模态版总结下图内容。

输入图像:

豆包1.5·深度思考模型多模态版准确区分出这不是植物细胞而是动物细胞,将每一个细微结构都识别了出来,并用自己的知识解释了图中无法呈现的每一个部分的分子构成或功能。

豆包1.5·深度思考模型多模态版还进一步展现了纠错能力。其实,这张图是知危自己合成的,有少许 “ 陷阱 ”,它并没有呈现完整的结构,这时候再提问豆包1.5·深度思考模型多模态版 “ 还缺少了什么 ”,豆包1.5·深度思考模型多模态版立马反应过来,指出图中缺少了溶酶体、囊泡、过氧化物酶体等组成。

我们再看看豆包1.5·深度思考模型多模态版在化学方面的能力,先输入一个复杂的实验仪器。

输入图像如下,提示词为 “ 总结图片内容 ”。

豆包1.5·深度思考模型多模态版准确地识别出这是索氏提取器,并总结了它的主要作用是 “ 从固体样品中连续萃取目标化合物。”

接下来上难度,在原来的基础上做一些变化,并考验豆包1.5·深度思考模型多模态版的多图处理能力。我们重启一个对话,将上述的索氏提取器和下方的另一个实验装置一同输入,提问豆包1.5·深度思考模型多模态版:“ 我需要测定玉米胚芽的脂肪含量,应该选用哪个实验仪器?”

新输入的另一张图像:

豆包1.5·深度思考模型多模态版一眼就认出应该用原来的索氏提取器,并指出新的实验仪器可能是真空系统或气体分配装置。这是正确的,后者实际上是能提供真空条件或惰性气体条件的 Schlenk Line,用于操作对空气和湿气敏感的化合物。豆包1.5·深度思考模型多模态版还写明了具体如何测试玉米胚芽的脂肪含量。

考完了生物学和化学,最后是地理学考试,我们要让豆包1.5·深度思考模型多模态版来通过航拍图识别具体的地理位置。

输入图像:

豆包1.5·深度思考模型多模态版通过地貌特征判断可能是三角洲或冲积平原,通过地形类型判断可能是入海口或大型河流的中下游地区,通过河流走向定位到了更具体的鄱阳湖、洞庭湖,最后分析出有多个可能,包括 “ 洞庭湖平原北缘、鄱阳湖周边、湘江下游 ”。

接下来再让豆包1.5·深度思考模型多模态版分析“这三者哪个概率最大”,豆包1.5·深度思考模型多模态版立马通过水体形状、山脉走向等特征基本排除了洞庭湖和湘江下游,分析出最可能是 “ 鄱阳湖 ”。具体概率排序上,“ 鄱阳湖 ” 的概率最大,其次为 “ 洞庭湖 ”,最后是 “ 湘江下游 ”,由于湘江下游山地特征不明显,这也很合理。

没错,“ 鄱阳湖 ” 是正确答案。

测评结束!

豆包1.5·深度思考模型多模态版的视觉推理没有停留在基础层级,结合丰富的知识和强大的推理能力,能做更加复杂的任务。知识能让豆包1.5·深度思考模型多模态版在生物学考试中找到超越图像的细节,在化学考试中选用正确的实验仪器,也能让豆包1.5·深度思考模型多模态版在地理学考试中逐步锁定目标。

原生的 “ 视觉+推理 ” 能力,支持多步推理,图像和语言融合分析而不出错。这说明不仅是教育行业,豆包1.5·深度思考模型多模态版在处理复杂流程或需要多模态数据融合的场景中表现优异,如法律文档审核、保险理赔等。视觉结合推理还能为一些AI落地相对成熟的场景带来新优势,例如在智能客服中加入视觉分析,处理产品图像识别和故障排查,其它潜在场景还包括手机助手、旅游向导等。

综上,你可以看出豆包1.5·深度思考模型展现了 “ 细节为王 ” 的技术根基,和多模态方向的应用潜力,前者也是为后者打下基础,毕竟数据模态越多,涉及的计算量也就越多。

应用层面,豆包在多模态维度上的广度和深度也在不断增强。

豆包·文生图 3.0 重点优化了小字、长文本生成和视觉美感,并支持 2K 高清直出。

豆包·视觉理解模型升级,增强了视觉定位能力和视频理解能力。

与此同时,由于深度思考不受限于跟多模态的融合,它是一个很综合的探索过程,每一步都可能要重新整合多方面的数据输入,所以不仅仅是 “ 推理+视觉 ”,基于豆包1.5·深度思考模型行了定向训练的豆包 App 现在还能支持边搜边想,在搜索和思考之间自由切换,不需要人为设定工作流。

对于一个条件很苛刻的购物推荐问题:“ 一对夫妻带两个孩子去露营,温度低,有雨,希望把装备买齐,要考虑预算限制,还要兼顾便携性和安全性 ”。豆包 App 先是拆解了每个具体需求需要的注意事项,比如各个装备、预算、安全等方面的注意事项,规划需要的信息,然后经过了 3 轮搜索,终于给出了预算范围内,非常贴心细致,考虑了方方面面需求的答案。

火山引擎还在豆包大模型强大的模型矩阵上,推出了多款 AI Agent 工具和解决方案。在 OS Agent 领域支持客户基于工具套件自定制。除了典型的 Browser use、Computer Use,火山引擎还支持比较新颖的 Mobile Use,Mobile Use 可以通过简单指令让云手机使用指定 App 为用户完成特定任务,例如订购高铁票、机票等。通过将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在单一模型中,火山引擎还支持客户通过 UI-TARS 大模型打造通用智能体。

基于以上打磨,目的为了给企业更强更省的推理服务,火山引擎推出AI云原生·ServingKit推理套件,企业可基于此快速构建高性能、低成本的生产可用的推理服务。ServingKit 推理套件可在 2 分钟内完成 671B DeepSeek R1 下载和预热,13 秒完成推理引擎的加载。同时,为了降低推理过程中的时延、提高资源利用率,火山引擎 EIC 将 KV cache 命中率提高了10倍,在100% cache 命中场景下 TPS 吞吐量可提高至 5 倍以上;而通过对算子、AI 网关、VKE 编排调度的优化和升级,可以大幅度降低 GPU 消耗。

火山引擎通过构建 “ 模型矩阵+智能体生态+云原生底座 ” 一体的技术体系,为企业客户提供从 AI 能力构建到业务场景落地的全栈解决方案。这种端到端的 AI 工业化能力,使火山引擎在高复杂度、强合规、快迭代的 To B 产业场景中展现不可替代性。

如果只是简单粗暴地综合提供不同类型的产品,那只是缝合怪,但豆包1.5·深度思考模型乃至火山引擎的整体生态胜在通过融合方法持续优化了用户使用产品时的无感体验。

“ 综合 ” 只摸到了表象,“ 融合 ” 才触及了AI产品的本质。

来源:李大大饼一点号

相关推荐