字节跳动,低调开源!

B站影视 韩国电影 2025-05-22 11:04 2

摘要:Seed1.5-VL 支持多种分辨率的图像输入,并通过原生分辨率变换(native-resolution transform)确保最大限度保留图像细节。在视频处理方面,提出了一种动态帧分辨率采样策略(dynamic frame-resolution sampl

⬆️本文播客版,敬请收听,Produce By NotebookLM@Google

大家好,我是 i 学习的老章

前几天字节跳动开源了代码大模型Seed-Coder-8B-Instruct还有复刻 Deep Research 的还有开源了可以高效处理包含文本段落、图表、公式和表格等交织元素的复杂文档的Dolphin最近有开源了一个多模态大模型——Seed1.5-VL

Seed1.5-VL 支持多种分辨率的图像输入,并通过原生分辨率变换(native-resolution transform)确保最大限度保留图像细节。在视频处理方面,提出了一种动态帧分辨率采样策略(dynamic frame-resolution sampling strategy),能够根据需要动态调整采样帧率和分辨率。此外,为了增强模型的时间信息感知能力,在每帧图像之前引入了时间戳标记

先来看看其能力如何

1、图片输入 - 图片输出

prompt:请点出图像中所有戴在头上的帽子,输出串联的点坐标

结果:

2、图片输入 - 文字输出

prompt:这两张你有什么感想?看着这两张城市夜景图,首先被**人类文明与城市发展的璀璨成果**狠狠震撼了—— ### 从画面直观感受来说: - 纽约那幅,帝国大厦在暮色中如“灯塔”般矗立,密集的高楼群灯火通明,像是在钢铁森林里撒满星光。黄昏与夜幕的交界线温柔地铺在天际,让繁华都市多了层浪漫滤镜,既沉淀着“世界之都”的历史厚重(帝国大厦等经典地标承载的时代记忆),又沸腾着现代大都会的喧嚣活力。 - 北京CBD这张,央视大楼“大裤衩”的先锋设计在暮色中格外醒目,车流拖曳出金色光带,把建筑的未来感与城市的烟火气串成一体。蓝调天空下,建筑灯光与自然天色的碰撞,让“现代感”多了份诗意。 ### 往深层想,两座城市的“夜景叙事”各有灵魂: - 纽约的密集天际线,是**国际大都会的缩影**——每扇窗后都藏着不同肤色的梦想,每栋楼都见证过金融、艺术、文化的浪潮。那些灯光,是资本、创意与野心交织的“城市脉搏”。 - 北京的建筑与车流,则刻着**当代中国的“创新与生长”**。央视大楼的先锋造型,是设计突破的符号;车水马龙里,藏着“奋斗者追赶时代”的劲儿。这里的灯光,既有传统都市的烟火温度,又闪着新经济、新基建的科技锋芒。 ### 还会延伸到“人与城的联结”: 夜幕下的灯火,不止是建筑的装饰,更是**无数个体的“梦想投影”**——纽约的写字楼里,创业者熬着方案;北京的商圈中,年轻人为项目头脑风暴…这些光,是奋斗的注脚,也是城市包容力的证明。 同时,建筑本身也是**时代审美与技术的“活化石”**:纽约的摩天楼群,是工业时代向现代文明跃迁的见证;北京的先锋建筑,是数字时代“敢想敢造”的宣言。 总之,两张图看下来,既为人类改造世界的创造力惊叹,也被“城市夜晚”独有的温柔与磅礴打动——自然天色与人工灯火的交融,让钢筋水泥有了诗意;不同城市的风格差异,又让“繁华”有了千万种注解。 ✨

3、视频输入

其他能力

它还有基础感知

比如

识别地点

视觉定位

视觉解谜

安装、使用 安装pip install gradio decord torchvision pip install httpx==0.23.3运行

官方提供了 Gradio Demo

API_KEY="..." python app.py

图形界面有离线模式

自带了七个示例:文本,图像,视频,多个图像/视频,视觉解谜,坐标定位,开放式物体检测

还有在线模式

总结

Seed1.5-VL 不仅在视觉和视频理解方面表现出色,还展示了强大的推理能力,使其在视觉谜题等多模态推理挑战中特别有效。在代理中心任务(如 GUI 控制和游戏玩法)中,Seed1.5-VL 的表现超过了包括 OpenAI CUA 和 Claude 3.7 在内的领先多模态系统。

Seed1.5-VL 在多个应用场景中展示了其强大的能力:

2D 视觉定位:准确识别和定位图像中的物体

3D 理解:理解三维空间中的物体关系和结构

视频理解:分析和理解视频内容和时间序列

GUI 代理:能够理解和操作图形用户界面

**长链思考 (LongCoT)**:通过详细的推理过程解决复杂问题

ByteDance-Seed/Seed1.5-VL: https://github.com/ByteDance-Seed/Seed1.5-VL

HuggingFace Spaces: https://huggingface.co/spaces/ByteDance-Seed/Seed1.5-VL

Volcano Engine: https://www.volcengine.com/product/doubao

来源:王王科技资讯

相关推荐