李飞飞World Labs世界模型面向所有人推出;ChatGPT升级5.1,更高情商; 百度文心5.0发布,2.4万亿原生全模态

B站影视 内地电影 2025-11-14 17:46 1

摘要:AI的下一个前沿阵地是空间智能,而强大的世界模型是实现其潜力的核心。World Labs的一个开创性的生成式多模态世界模型,现已向所有人开放。

Marble世界模型:从任何提示到完整3D世界的构建

AI的下一个前沿阵地是空间智能,而强大的世界模型是实现其潜力的核心。World Labs的一个开创性的生成式多模态世界模型,现已向所有人开放。

它能够从文本、图像、视频乃至粗略的3D布局中重建、生成和模拟三维世界,并允许人类与智能体与之互动。这种具备空间智能的世界模型,将在未来几年内深刻变革游戏、视觉特效(VFX)、设计、机器人等众多行业。

Marble的核心能力在于其大规模的多模态特性。

人类通过视觉、听觉、触觉和语言等多种感官来理解并构建对外部世界的心理模型。这些不同的信息表征相互协作、补充、强化,使我们能够对世界进行推理并采取行动。

世界模型也应遵循同样的逻辑。

它需要具备大规模的多模态处理能力,能够将任何可用的输入信号提升为一个完整的三维世界。当新的信息出现时,它还应该能够迭代地更新自己对世界的理解。

Marble正是朝着这一愿景迈出的坚实一步。

Marble提供了从简单到复杂的多种方式来开启一个世界的创造之旅,将创造的门槛降至前所未有的低点。

最直接的方式,是通过单张图片或一段简短的文字提示。

这是创造世界最简单、最快捷的途径。Marble能够生成各种场景类型和艺术风格的世界。无论是写实照片,还是充满想象力的绘画,都能成为构建一个完整3D空间的起点。

例如,输入一段描述:一个细节丰富、充满生活气息的霍比特人厨房,里面摆满了编织篮子和铜壶,沐浴在宁静淡蓝色的日光和柔和的环境阴影中,Marble就能将这幅画面从想象变为可供探索的3D场景。

这种从文本或图像到世界的能力,使得Marble能与其他AI工具无缝衔接。你可以用你最喜欢的图像生成模型创作图片,然后将其交给Marble,升维成一个完整的3D世界。

Marble支持多图像提示。

你可以为世界的不同部分提供不同的提示图像,Marble会将它们缝合在一起,形成一个统一的3D世界。这赋予了创作者前所未有的精确控制力。

在多图像提示的工作流中,创作者可以分别迭代输入视图,然后由Marble将它们提升为完整的3D世界,并添加视图之间的无缝过渡。

你不再需要一次性完美构思整个场景,而是可以像导演一样,分别设计好正面、背面和侧面的镜头,然后由Marble完成最终的剪辑和场景构建。

多图像提示同样适用于现实世界的场景重建。

只需提供几张从不同角度拍摄的真实地点照片,或一段简短的视频,Marble就能将它们融合,生成一个包含现实空间元素的3D世界。这为数字孪生、虚拟场景复刻等应用打开了新的大门。

对许多创作者而言,生成一个世界仅仅是创作旅程的开始。

看到一个生成的3D世界,往往会激发更多关于修改和完善它的想法。创造过程本身就是高度迭代的。

Marble内置了为AI原生设计的世界编辑工具。

编辑可以是微小和局部的,比如移除一个物体,或者修饰一小块区域。编辑也可以是颠覆性的,比如替换物体,改变整个视觉风格,或者重构世界的大部分结构。

想象一下,一个原本是餐厅的空间,通过一句编辑指令:把整个后墙变成一个舞台,并将桌子换成面向舞台的低矮长凳,就能立刻转变为一个表演场地。

这种编辑能力让同一个空间能够以无尽的方式被重新想象和利用。

为了追求对场景布局、物体尺寸和位置更精细的控制,Marble引入了一个名为Chisel的实验性编辑模式。

Chisel是一款AI原生的工具,用于直接在3D空间中雕刻Marble世界。它允许高级用户使用盒子或平面等粗糙的3D形状,或者导入现有的3D资产,来搭建世界的粗略结构。

在完成粗略的3D场景布局后,你可以添加文本提示来描述场景的视觉风格,或添加粗略布局中没有的额外元素。Marble会将这些输入结合起来,生成一个细节完备的3D世界。

Chisel的核心思想是解耦结构与风格。

粗略的3D场景决定了世界的结构,而文本提示则控制其整体风格。这两者可以任意组合,为世界生成增加了一个全新的控制维度。

例如,你可以先用简单的几何体搭建一个现代艺术博物馆的布局,然后通过文本提示:一个美丽的现代艺术博物馆,有木地板,充满了色彩斑斓的画作和曲线优美的雕塑,赋予其灵魂。

粗略的3D场景可简可繁。除了用基本模块搭建,你还可以导入现有的物体3D资产。这些物体会根据文本提示被重新设计风格,以融入整个3D世界,保持视觉上的统一和和谐。

通过改变文本提示,同一个 coarse 3D 场景结构可以幻化出风格迥异的3D世界。

更大的世界意味着更多的可能性。

Marble提供了两种方式来创建比以往任何时候都更宏大的世界:扩展与组合。

在一个世界生成后,Marble允许一键式扩展来使其变得更大。你可以选择世界的一个区域进行扩展,Marble会自动创造更多内容来填充该区域。

扩展不仅能让世界在物理空间上变大,还能提升细节。

世界中一些原本可能存在瑕疵或模糊的区域,在扩展后会变得清晰锐利。比如,桌子的背面或房间的远角,在初次生成时可能不如中心区域清晰,通过对该区域进行扩展,可以显著改善其细节质量。

除了扩展单个世界,你还可以通过Marble的组合器模式,将任意数量的世界组合在一起,构建极其广阔的空间。

这个过程完全由你掌控。你可以精确选择要组合哪些世界,以及它们之间的相对布局。这为构建遵循个人创意愿景的庞大世界提供了又一种强大途径,就像用乐高积木一样,将一个个独立完整的世界模块,拼接成一个前所未有的宏大叙事场景。

在用Marble创造出世界之后,你可以通过多种方式将其导出,融入下游的各种项目中。

高斯溅射(Gaussian splats)是Marble世界保真度最高的表示方法。它将3D场景表示为大量半透明粒子的集合。你可以使用World Labs集成了THREE.js的开源跨平台渲染器Spark,在浏览器中渲染高斯溅射图。

Marble世界也可以导出为三角网格(triangle meshes)。

Marble能生成两种类型的网格:一种是碰撞体网格(collider meshes),这是低精度网格,主要用于粗略的物理模拟;另一种是高质量网格(high-quality meshes),旨在尽可能匹配高斯溅射图的视觉保真度。

将世界导出为网格,使其能够与众多行业标准工具(如游戏引擎、三维建模软件)互操作。

你可以使用Marble将生成的世界渲染成视频,并进行像素级的精确相机控制,让每一个镜头都如你所想。

Marble还能增强导出的视频。

增强后的视频可以增加细节、移除瑕疵,并为场景添加动态元素,同时保持像素完美的相机控制,并严格遵循已生成的3D世界结构。

艺术家、工程师和设计师们已经在探索世界模型的未来。从电影制作、交互式世界到机器人模拟和治疗环境,这些项目展示了Marble如何将想象力转化为现实。

GPT-5.1:不止于智能,更在于温度

GPT-5.1正式发布,它不仅带来了自适应推理能力的飞跃,人们呼唤已久的温暖、个性化和高情商又回来了。

一个伟大的人工智能,不仅要聪明,还要让人乐于与之交谈。GPT-5.1正是在智力与沟通方式这两个维度上,实现了意义深远的改进。

这次升级并非一次彻底的版本迭代,命名为5.1也正体现了这一点。

此次更新推出了两个核心模型:GPT-5.1 Instant(即时)和 GPT-5.1 Thinking(思维),分别对前代进行了针对性的增强。

GPT-5.1 Instant是用户最常使用的模型。它的最大变化是默认的交互风格变得更温暖,更具对话感。

温暖,意味着交流不再是冰冷的指令与执行,而是更接近人与人之间的沟通。

它会减少生硬、机械的表达,用更自然、更亲切的语言回应。早期测试表明,它甚至会展现出一种有趣的俏皮感,同时又不失清晰和实用。

这种风格上的转变,旨在降低用户与AI交互时的心理门槛,让每一次对话都更轻松、更愉快。

除了风格,模型的硬实力也得到了夯实。它在遵循指令方面有了显著提升,能够更可靠地理解并回答用户提出的确切问题,减少答非所问或偏离主题的情况。

而最关键的突破,在于GPT-5.1 Instant首次获得了自适应推理的能力。

这意味着模型能够自主判断问题的复杂程度。面对简单直接的请求,它会快速响应;而面对更具挑战性的难题,它会决定在回答前投入更多的时间进行思考,从而给出更周全、更精准的答案。

这种动态的资源调配能力,让Instant模型摆脱了过去快但不深的刻板印象。

它在保持速度优势的同时,也具备了处理复杂问题的潜力。这一点在AIME 2025和Codeforces(一个编程竞赛平台)等高难度的数学与编程评估中得到了验证,其表现有了显著提升。

GPT-5.1 Thinking模型则是在专业与深度推理领域实现了效率与易用性的革命。

Thinking模型的核心升级在于,它能更精确地根据问题的难度动态调整其思考时间。

对于简单的问题,它会迅速给出答案,大幅缩短用户的等待时间。对于复杂的问题,它会投入更多的时间和计算资源进行深度思考,确保答案的彻底与周详。

在处理最简单的10%任务时,GPT-5.1 Thinking的输出量减少了57%,意味着响应速度可能提升近一倍。用户不再需要为一些简单查询而经历不必要的等待。

对于中等难度的任务,两代模型的投入基本持平。

而在处理最复杂的10%任务时,它的输出量增加了71%,思考时间也相应延长,几乎是原来的两倍。

这保证了在面对深度分析、复杂推理或创造性工作时,模型有足够的时间和空间去探索、构建和完善答案,而不是仓促给出一个肤浅的结果。

除了效率,Thinking模型的表达方式也变得更清晰、更平易近人。

它会有意识地减少使用行业术语和未定义的专业词汇,使得其回答更容易被非专业人士理解。这对于解释复杂的技术概念、进行知识普及或作为工作中的辅助工具,都极具价值。

同时,它的默认语气也同样被调校得更温暖、更具同理心。这确保了即便是最强大的推理模型,也能提供一种充满关怀和支持的交互体验。

模型本身的进化是基础,而让用户能够塑造自己的AI,则是这次更新的另一大亮点。

每个用户对聊天风格的偏好都不同,甚至在不同对话场景下,期望的语气也不一样。为了满足这种多样化的需求,GPT-5.1引入了更直观、更有效的个性化控制功能。

今年早些时候推出的语气预设选项得到了优化和扩展。原有的默认、友好、高效模式在更新后保留,并新增了三种风格:专业、坦率和古怪。

这些预设选项的设计,源于对用户如何自然引导模型行为的观察与学习,让用户可以快速选择一个感觉最对味的AI人格。

原有的愤世嫉俗和书呆子选项也依然保留在个性化设置的下拉菜单中。

更智能的是,当ChatGPT在对话中察觉到你倾向于某种特定的语气或风格时,它会主动提议为你更新这些偏好设置,用户无需离开对话界面去手动调整。所有这些偏好都可以随时修改或移除。

在设置中做的任何更改,无论是基本风格、语气还是自定义指令,都会立即在所有聊天中生效,包括正在进行的对话。

GPT-5.1 Instant和Thinking已经开始向付费用户推送,随后覆盖免费和未登录用户。企业版和教育版计划将获得一个为期7天的提前访问开关(默认关闭),之后GPT-5.1将成为唯一的默认模型。

对于开发者而言,GPT-5.1 Instant和Thinking都将在本周晚些时候登陆API。Instant模型将作为 gpt-5.1-chat-latest 添加,而Thinking模型将以 GPT-5.1 的名称发布,两者都将具备自适应推理功能。

旧的GPT-5模型(Instant和Thinking)将在付费用户的旧版模型下拉菜单中保留三个月。

GPT-5.1无疑在能力和实用性上都向前迈出了一大步。它不仅是一个更强大的工具,更是一个更懂你、更贴心的伙伴。

文心大模型5.0开启全模态AI新纪元

百度2025世界大会上,新一代文心大模型5.0正式发布:原生全模态统一建模。

它试图从源头上解决多模态信息融合的根本难题,持续推高我们对人工智能的想象极限。

百度创始人李彦宏指出,这种原生融合的设计,让文心5.0能够支持文本、图像、音频、视频等多种信息的联合输入与输出,实现了真正意义上的全模态统一理解与生成。

模型发布即同步上线文心yiyan.baidu.com和App,开发者和企业用户也可以在百度智能云千帆大模型平台调用其API服务。

文心5.0从训练的最开始,就将文本、图片、视频、音频等不同模态的数据,全部置于同一个巨大的熔炉中进行学习。

能够在最底层建立起不同模态间统一的语义表征。它能捕捉到模态间更深层次的语义关联,比如将一段激昂的音乐和一幅色彩鲜艳的画作在情感上关联起来。

背后是统一的自回归架构与超稀疏混合专家(MoE)模型结构。总参数达到了惊人的2.4万亿,位列业界已公开模型之首。

在实际的训练和推理过程中,每一次激活的参数比例低于3%。

这种超稀疏激活机制,依托百度飞桨(PaddlePaddle)深度学习框架的超大规模MoE模型训练能力,在保持模型强大性能的同时,大幅降低了训练与推理的成本,实现了性能与效率的精妙平衡。

从跑分成绩看,在40余项权威基准的综合评测中,文心5.0 Preview的语言与多模态理解能力,与Gemini-2.5-Pro、GPT-5-High等顶尖模型持平;其图像与视频生成能力,也足以和专注于这些领域的垂直模型相媲美,达到了全球领先水平。

官网视频生成暂未支持。

其早些时候发布的“文心 5.0 Preview 1022”版本,已经在LMArena上排名世界第二,国内第一。新版估计更强。

文心5.0的能力升级,不仅体现在基础的多模态理解与生成上,更体现在其强大的长程任务与智能体能力。

过去的AI模型,更多扮演着一个知识渊博的回答者角色。而未来的AI,必须成为一个能够自主规划、使用工具并完成复杂任务的行动者。

为了实现这一目标,文心5.0在训练阶段引入了大规模的工具环境,并合成了海量的长程任务轨迹数据。

这意味着,文心5.0学习的不仅仅是知识本身,更是如何做事的过程。

它通过观察在模拟环境中,如何通过一步步的工具调用、决策规划,最终完成一个复杂目标的全部轨迹,来学习自主推理与执行的能力。

结合基于思维链(Chain-of-Thought)和行动链(Chain-of-Action)的端到端多轮强化学习训练,文心5.0在需要自主规划和执行的任务中表现得更加出色。

它能够更准确地理解用户的复杂意图,自主拆解任务,选择并调用合适的工具(如搜索引擎、计算器、API接口),并根据执行结果动态调整下一步计划,最终完成任务。

百度首席技术官王海峰表示,文心5.0的原生全模态架构,既着眼于不同模态间的协同理解与生成,也兼顾了算力效率与智能体化,为下半场大模型技术的演进提供了切实可行的路径。

参考资料:

来源:算泥社区

相关推荐