2025智源大会 · 多模态论坛：认知革命、范式对抗与 AGI 关键一跃

摘要：从LumaAI创始人宋佳铭、Sand.AI联合创始人张拯，到腾讯、字节、智源研究院的模型负责人，多位当前全球范围内最活跃的视觉生成玩家将同场，共同面对一个问题：多模态大模型，还能带来什么“突破”？

2025年6月7日，第七届北京智源大会，将在中关村国家自主创新示范区展示中心举办“多模态模型论坛”。

这是本届大会最贴近技术与商业交汇处的一场子议程，也可能成为今年多模态方向最密集、最具对抗性的一次交锋。

从LumaAI创始人宋佳铭、Sand.AI联合创始人张拯，到腾讯、字节、智源研究院的模型负责人，多位当前全球范围内最活跃的视觉生成玩家将同场，共同面对一个问题：多模态大模型，还能带来什么“突破”？

过去五年，大模型的生成能力几乎将所有AI任务转化为“语言问题”：图像生成变成“图像是另一种语言”，语音识别也可以是“声音到文字的映射”。

但今年的多模态不同。

一方面，生成式AI从“做得出”进入“做得好”的新阶段；另一方面，产业界开始以“认知效率”而非“图文对齐”为标尺，评估多模态模型的商业价值。

这一波多模态模型的竞争，不再只是感知层面的融合，而是迈向真正的“建模世界”：让模型不仅能“理解输入”，还要能“理解人类的意图”。

这意味着，多模态模型正成为通往通用人工智能（AGI）路径上，不可绕开的关键拼图。

学术界期待在它身上复刻“大语言模型”的奇迹，产业界则期待用它带来新的商业驱动，创业者更视其为“尚未饱和的主战场”。

正因如此，这场论坛不会只是展示“已有成果”，而更像一次路径演练：不同范式、不同规模的多模态模型，如何走向生成、理解与落地之间的平衡。

9 位嘉宾，5 场主旨演讲，1 场圆桌讨论。

邀您在视觉-语言-动作三位一体的新范式里，共同定义一个赛道的下半场。

论坛议程

论坛主席

王井东，百度计算机视觉首席科学家王井东，百度计算机视觉首席科学家，加拿大工程院外籍院士，IEEE/IAPR 会士，ACM杰出会员。曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。代表工作包括高分辨率神经网络（HRNet）、基于transformer attention的图像语义分割网络OCRNet、以及基于近邻图的大规模最近邻搜索等。担任IEEE TPAMI、IJCV和ACM TOMM的编委会成员，（曾）担任过许多人工智能会议的领域主席，如 NerIPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等，担任ICCV 2025 程序委员会主席。

王鑫龙，智源研究院多模态大模型研究中心负责人王鑫龙，智源研究院多模态大模型研究中心负责人。本科毕业于同济大学，博士毕业于澳大利亚阿德莱德大学，师从沈春华教授。他的研究兴趣是计算机视觉和基础模型，近几年研究工作包括视觉感知（SOLO, SOLOv2），视觉表征 (DenseCL, EVA, EVA-CLIP)，视觉基础模型(Painter, SegGPT)，多模态基础模型(Emu, Emu2, Emu3)。入选Google PhD Fellowship、国家海外高层次青年人才，担任ICCV、ICLR、NeurIPS等会议领域主席。Broadening the scope of autoregressive models in vision and beyond

黎天鸿，MIT CSAIL Kaiming He组博士后研究员
黎天鸿博士是MIT CSAIL Kaiming He组的博士后研究员。他于MIT获得博士学位，导师为Dina Katabi教授，并在清华大学姚班获得学士学位。他近期的研究兴趣集中在表征学习、生成模型及二者之间的协同作用。长期来看，他致力于构建能够超越人类感知、深入理解并建模世界的智能视觉系统。他曾于2023年获得MathWorks奖学金，并担任过ICLR、ICML和ICCV等国际顶级会议的领域主席。腾讯混元多模态生成模型实践

芦清林丨腾讯混元多模态生成负责人

芦清林博士聚焦多模态视觉生成领域，负责混元文生图、文生视频、及应用模型研发。率先采用双流DIT架构，带领团队研发混元DiT基础模型、插件模型矩阵和基于驱动的视频生成模型等，覆盖人像、建筑、游戏等垂类场景，其成果广泛应用于腾讯广告、游戏、云、社交等数十个业务场景；同时持续向业界开源图/视频生成模型，推动社区发展。主题演讲

黄伟林，字节跳动Seed图像&视频生成负责人
黄伟林，现任字节跳动Seed图像&视频生成基础模型负责人，专注计算机视觉和深度学习相关的研究和应用。曾在牛津大学视觉几何组（VGG）和中国科学院从事研究工作，有深厚的学术积累和沉淀。工业界方面，曾负责超大规模商业视觉搜索系统，通过重构多模态搜索系统实现千亿级GMV增长。目前，带领团队构建行业领先的多模态生成模型（e.g.Seedream/SeedEdit/Seedance等)，并持续探索创新技术，积极推进模型商业化。从推理优先的角度启发新的预训练范式

宋佳铭，LumaAI创始人宋佳铭(Jiaming Song) 是美国视频生成领域创业公司Luma AI的首席科学家。在美国斯坦福大学读博期间，他开发了去噪扩散隐式模型（DDIM)，这是首个将扩散模型加速到50倍，同时还能够保持产生多样化、高保真样本能力的模型，这项研究代表了扩散模型和生成AI领域的一次重要进步。目前他的研究兴趣在多模态生成模型和算法上的突破。LLaDA：大语言模型新范式

李崇轩丨中国人民大学高瓴人工智能学院准聘副教授

李崇轩，中国人民大学高瓴人工智能学院准聘副教授，主要研究领域为生成模型，领导研发扩散语言模型LLaDA，部分成果部署于DALL·E2、Stable Diffusion、Vidu等行业领先模型。获ICLR杰出论文奖、吴文俊优秀青年奖、北京市科技新星、吴文俊人工智能自然科学一等奖等，主持国家自然基金重大研究计划培育项目等。担任 IEEE TPAMI 编委（AE）和 ICLR、NeurIPS等国际会议的领域主席（AC）。圆桌讨论嘉宾：

张拯丨Sand.AI联合创始人

黄伟林｜字节跳动Seed图像&视频生成负责人

李崇轩丨中国人民大学副教授

芦清林丨腾讯混元多模态生成负责人

张拯，Sand.AI联合创始人张拯，Sand.AI联合创始人，加入Sand.AI之前，曾在MSRA视觉计算组任职。他是Swin Transformer，SimMiM, RelationNetwork, SoftTeacher, 等工作的主要作者之一。其中Swin Transformer获得ICCV Best Paper(Marr Prize)。

李根，量子位联合创始人、总编辑李根，量子位联合创始人，现任总编辑，负责量子位、量子位智库和智能车参考的整体内容。2019年入选福布斯中国30Under30。本届大会采用线下与线上模式融合，报名通道已开启，欢迎扫码免费注册。由于线下席位有限，请尽早完成注册，组委会将根据注册次序审核，并在会前发送审核结果通知。公开环节将向注册用户全程线上直播。