摘要:从LumaAI创始人宋佳铭、Sand.AI联合创始人张拯,到腾讯、字节、智源研究院的模型负责人,多位当前全球范围内最活跃的视觉生成玩家将同场,共同面对一个问题:多模态大模型,还能带来什么“突破”?
2025年6月7日,第七届北京智源大会,将在中关村国家自主创新示范区展示中心举办“多模态模型论坛”。
这是本届大会最贴近技术与商业交汇处的一场子议程,也可能成为今年多模态方向最密集、最具对抗性的一次交锋。
从LumaAI创始人宋佳铭、Sand.AI联合创始人张拯,到腾讯、字节、智源研究院的模型负责人,多位当前全球范围内最活跃的视觉生成玩家将同场,共同面对一个问题:多模态大模型,还能带来什么“突破”?
过去五年,大模型的生成能力几乎将所有AI任务转化为“语言问题”:图像生成变成“图像是另一种语言”,语音识别也可以是“声音到文字的映射”。
但今年的多模态不同。
一方面,生成式AI从“做得出”进入“做得好”的新阶段;另一方面,产业界开始以“认知效率”而非“图文对齐”为标尺,评估多模态模型的商业价值。
这一波多模态模型的竞争,不再只是感知层面的融合,而是迈向真正的“建模世界”:让模型不仅能“理解输入”,还要能“理解人类的意图”。
这意味着,多模态模型正成为通往通用人工智能(AGI)路径上,不可绕开的关键拼图。
学术界期待在它身上复刻“大语言模型”的奇迹,产业界则期待用它带来新的商业驱动,创业者更视其为“尚未饱和的主战场”。
正因如此,这场论坛不会只是展示“已有成果”,而更像一次路径演练:不同范式、不同规模的多模态模型,如何走向生成、理解与落地之间的平衡。
9 位嘉宾,5 场主旨演讲,1 场圆桌讨论。
邀您在视觉-语言-动作三位一体的新范式里,共同定义一个赛道的下半场。
论坛议程论坛主席
黎天鸿博士是MIT CSAIL Kaiming He组的博士后研究员。他于MIT获得博士学位,导师为Dina Katabi教授,并在清华大学姚班获得学士学位。他近期的研究兴趣集中在表征学习、生成模型及二者之间的协同作用。长期来看,他致力于构建能够超越人类感知、深入理解并建模世界的智能视觉系统。他曾于2023年获得MathWorks奖学金,并担任过ICLR、ICML和ICCV等国际顶级会议的领域主席。腾讯混元多模态生成模型实践
芦清林丨腾讯混元多模态生成负责人
芦清林博士聚焦多模态视觉生成领域,负责混元文生图、文生视频、及应用模型研发。率先采用双流DIT架构,带领团队研发混元DiT基础模型、插件模型矩阵和基于驱动的视频生成模型等,覆盖人像、建筑、游戏等垂类场景,其成果广泛应用于腾讯广告、游戏、云、社交等数十个业务场景;同时持续向业界开源图/视频生成模型,推动社区发展。主题演讲
黄伟林,现任字节跳动Seed图像&视频生成基础模型负责人,专注计算机视觉和深度学习相关的研究和应用。曾在牛津大学视觉几何组(VGG)和中国科学院从事研究工作,有深厚的学术积累和沉淀。工业界方面,曾负责超大规模商业视觉搜索系统,通过重构多模态搜索系统实现千亿级GMV增长。目前,带领团队构建行业领先的多模态生成模型(e.g.Seedream/SeedEdit/Seedance等),并持续探索创新技术,积极推进模型商业化。从推理优先的角度启发新的预训练范式
李崇轩丨中国人民大学高瓴人工智能学院准聘副教授
李崇轩,中国人民大学高瓴人工智能学院准聘副教授,主要研究领域为生成模型,领导研发扩散语言模型LLaDA,部分成果部署于DALL·E2、Stable Diffusion、Vidu等行业领先模型。获ICLR杰出论文奖、吴文俊优秀青年奖、北京市科技新星、吴文俊人工智能自然科学一等奖等,主持国家自然基金重大研究计划培育项目等。担任 IEEE TPAMI 编委(AE)和 ICLR、NeurIPS等国际会议的领域主席(AC)。圆桌讨论嘉宾:
张 拯丨Sand.AI联合创始人
黄伟林|字节跳动Seed图像&视频生成负责人
李崇轩丨中国人民大学副教授
芦清林丨腾讯混元多模态生成负责人
来源:大数据文摘