字节豆包,年末炸场!视觉理解模型横空出世

B站影视 2024-12-26 18:26 1

摘要:能够识别人物、物体、建筑,动作、情绪、表情、位置、传统文化,甚至深谙人性…

一大早,上班开机

特大妹边啃包子边刷视频直播

突然被某大厂给惊掉了下巴

这时候,你是不是觉得

特大妹一脸没见过世面的样子

大模型看图,有啥了不起?

其实,这里面太有门道了

首先,我们来解释一个定义

业界把“看懂图”的大模型

到底有啥神奇呢?

特大妹拿字节跳动刚刚发布的

豆包·视觉理解模型

来举几个例子

先拖一张图进去

浅浅测测它的智商

认出星爷还是有点easy

我们上点儿难度

拿一个鬼都不知道是啥的玩意

让它看看

然而,光认得出,也没啥可吹的

要进一步上难度、考智商

看看逻辑推理能力怎么样

不行,再加点难度

特大妹挑了一个连题干都看不懂的题

「2024高考物理真题」

豆包有点东西

理性的考不倒

就加点“绕人”的东西

特大妹就不信拿捏不了它

到了这一步

特大妹不得不上点考验“人性”的东西了

给它投点“毒”

篇幅有限,就不挨个试了

反正特大妹是被震惊到了

豆包视觉理解模型,强到可怕

首先,它具备更强的内容识别能力

能够识别人物、物体、建筑,动作、情绪、表情、位置、传统文化,甚至深谙人性…

第二,它具备更强的理解推理能力

能根据图片信息

进行数学、逻辑、代码等推理

最终得出答案

第三,它具备更细腻的观察和描述能力

比如,给它两张相似图

人类肉眼辨别起来都费劲

它一眼看穿,细节捕捉达到像素级

从此,找不同游戏要退出历史舞台了

我感觉企业级视觉应用要变天了

过往15年视觉识别是TOB大热赛道

硬件卖摄像头,软件卖图像识别

而如今,视觉理解大模型加入

应用场景从“看见”到“理解”

这个深刻转变,将带来新一轮升级迭代

比如,监控视频图像理解

监控视频不再是简单地“找人”

而是能“懂”现场发生的事情

比如,环保监测图像理解

不再是简单地发现是否排放了

而是通过分析排放物的颜色、状态等

推断出具体排放的是啥东西

比如,质检图像理解,不再是简单判断产品是否有瑕疵,而是能指出哪个环节出现问题
比如,自动驾驶图像识别,不仅能看见障碍物,还能理解前方的交通状况,提前做出反应...

不止是视觉理解模型强到可怕

在12月18日

「火山引擎 FORCE原动力大会」上

全面升级的豆包大模型家族

更是个个能打,集体炸裂

接下来我给大家挑重点唠唠

豆包家族成员的那些新本领

01、豆包通用模型pro版升级

豆包通用模型

作为豆包大语言模型家族的“老大哥”

一直稳坐家族“扛把子”的位置

只因性能确实强悍

出门打榜稳居第一

12月19日,智源研究院发布了对国内外100余个开源与商业闭源大模型的综合及专项评测结果:
▎在「大语言模型评测能力榜单」中,豆包通用模型 Pro 在重点考察中文能力的主观评测中斩获第一。
▎在「FlagEval 大模型角斗场榜单」中,豆包通用模型 Pro 位列大语言模型第一梯队,综合评分排名第二,仅次于 OpenAI 的 o1-mini,成为得分最高的国产大模型。

大家都喜欢通过API调用它来扛活

调用量持续飙升

与七个月前首次发布时相比

增长了足足33倍

此次升级后

豆包Pro已能全面对齐GPT-4o

但价格仅为其1/8

这种超强性价比也体现在豆包其他成员

比如我们前面说的豆包视觉理解模型

在「多模态模型评测榜单」中

它在视觉语言模型中排名第二

仅次于 GPT-4o,是得分最高的国产大模型

但是每千tokens输入价格只有3厘钱

1块钱就能处理 284 张 720P 图片

超高性价比,名副其实

02、豆包·音乐模型升级

只需上传一张图片或几句话

就能生成一首歌,支持10多种曲风

此次升级,歌曲长度从1分钟飙到3分钟

意味着能生成一首完整的歌曲了

这对专业级用户来讲

搞音乐、电影、游戏、配音…

就是神级助攻

03、豆包·文生图模型升级

玩过图片生成模型的老司机都知道

让大模型写汉字

全是天书一般的乱码

这个难题被豆包克服了

升级后的豆包·文生图模型2.1

在业界首次实现

生成图片时可以生成精准的汉字

同时,还新增了“一句话P图”功能

一句话P图

指令:在地上画一个可爱的小猫

输出

独门绝技解读:“一键P图”是国内第一个实现了通用图像编辑的产品化模型,核心亮点是:不需要预先为特定任务训练模型,直接根据用户的需求来编辑图片,即「零样本编辑」,同时引入SeedEdit框架,不需要给模型加入新的参数,保持模型的轻量化,就能把一个原本用于生成图像的扩散模型转化为一个可以编辑图像的模型。

在图中生成汉字

指令:在图上写上几个字“我爱工作”

独门绝技解读:图中能写中文字→之前所有模型都无法精准写出精准的汉字。主要是结合了大语言模型(LLM)和文生图模型(DIT)的能力,生成过程兼具“语言理解”和“画面生成”的双重智能性。

我们看到,豆包持续加码大模型

迭代速度空前,降本力度空前

按豆包的话讲,只有更强的大模型

才能解决大模型进军行业的三大难题

为帮助客户破解这些难题

豆包推出了多维度支持方案

通过统一入口→火山引擎

实现对豆包全家族的统一调用

这次,火山引擎对三款重磅产品进行升级

火山方舟丨扣子丨 HiAgent

针对不同用户、不同场景

1、面对复杂的AI企业级应用

火山引擎提供更高级、更专业的

一站式大模型服务平台!

这就是,火山方舟

2023年 6月推出

这是一个强大的「模型即服务」平台

①、提供模型精调、推理、评测等一站式服务
②、提供多模型选择,支持客户灵活试用和快速对比
③、提供多样化的插件和AI原生应用开发服务
④、提供安全互信计算方案和基础设施

此次升级

火山方舟发布【大模型记忆方案】

推出2个用来提高AI“记忆力”的API

❶ prefix cache(前缀缓存)

❷ session cache(上下文缓存)

prefix cache把聊天的前缀指令

抄到小本本上,一翻就能用

session cache则负责记录一定周期内上下文聊天的重点

火山方舟还带来【AI搜推引擎】

覆盖文本、图像、音频和视频搜索

支持超大规模的吞吐量

并实现毫秒级的检索速度

2、无需编程技能,0代码搭建AI应用

这就是,扣子

升级后,扣子提供全新应用开发环境

支持GUI搭建界面

同时,扣子使用门槛进一步降低

即便毫无技术背景的人

也可以通过海量高质量AI应用模板

一键复制,开箱即用

另外,扣子还增强了多模态能力

用户基于扣子创建的智能体

具备强大的语音交互能力

实时语音,超低延迟

可以一键发布为小程序、H5、API等多种形态

3、更懂AI转型、更强安全保障

更灵活适配企业业务

构建企业级AI原生应用

这就是HiAgent

本次发布 HiAgent 1.5 版本

支持平台和知识库的本地化部署

最大限度保证企业数据安全和合规

100+个行业模板直接送到用户手里

瞬间搭建起企业级智能体

同时发布GraphRAG

打造的企业AI知识助手

这个助手能把信息从【能找到】

变成了【能找到+能理解+能整理】

HiAgent还有一项法宝

那就是「HiAgent生成式画布」

这是一个高智能可定制的工作界面

可自由拖拽各种素材文件进入画布

不需跳转,一站式完成全部编辑流程

并能完美实现多人协同

这么说吧

模型选豆包,训调推选火山方舟

Bot、Agent应用开发选扣子、HiAgent

驶向大模型行业深水区的小船

可以开足马力啦

不得不说,这届火山引擎FORCE大会

让我们看到了豆包的诚意和实力

效果不好?成本太贵?落地太难?

统统没关系

豆包大模型全家桶

更强模型、更低价格、更易落地

全方位保障企业级AI应用落地

来源:特大号

相关推荐