2025智源大会 · 多模态论坛:认知革命、范式对抗与 AGI 关键一跃

B站影视 港台电影 2025-05-29 11:13 3

摘要:从LumaAI创始人宋佳铭、Sand.AI联合创始人张拯,到腾讯、字节、智源研究院的模型负责人,多位当前全球范围内最活跃的视觉生成玩家将同场,共同面对一个问题:多模态大模型,还能带来什么“突破”?

2025年6月7日,第七届北京智源大会,将在中关村国家自主创新示范区展示中心举办“多模态模型论坛”。

这是本届大会最贴近技术与商业交汇处的一场子议程,也可能成为今年多模态方向最密集、最具对抗性的一次交锋。

从LumaAI创始人宋佳铭、Sand.AI联合创始人张拯,到腾讯、字节、智源研究院的模型负责人,多位当前全球范围内最活跃的视觉生成玩家将同场,共同面对一个问题:多模态大模型,还能带来什么“突破”?

过去五年,大模型的生成能力几乎将所有AI任务转化为“语言问题”:图像生成变成“图像是另一种语言”,语音识别也可以是“声音到文字的映射”。

但今年的多模态不同。

一方面,生成式AI从“做得出”进入“做得好”的新阶段;另一方面,产业界开始以“认知效率”而非“图文对齐”为标尺,评估多模态模型的商业价值。

这一波多模态模型的竞争,不再只是感知层面的融合,而是迈向真正的“建模世界”:让模型不仅能“理解输入”,还要能“理解人类的意图”。

这意味着,多模态模型正成为通往通用人工智能(AGI)路径上,不可绕开的关键拼图。

学术界期待在它身上复刻“大语言模型”的奇迹,产业界则期待用它带来新的商业驱动,创业者更视其为“尚未饱和的主战场”。

正因如此,这场论坛不会只是展示“已有成果”,而更像一次路径演练:不同范式、不同规模的多模态模型,如何走向生成、理解与落地之间的平衡。

9 位嘉宾,5 场主旨演讲,1 场圆桌讨论。

邀您在视觉-语言-动作三位一体的新范式里,共同定义一个赛道的下半场。

论坛议程

论坛主席

王井东,百度计算机视觉首席科学家王井东,百度计算机视觉首席科学家,加拿大工程院外籍院士,IEEE/IAPR 会士,ACM杰出会员。曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。代表工作包括高分辨率神经网络(HRNet)、基于transformer attention的图像语义分割网络OCRNet、以及基于近邻图的大规模最近邻搜索等。担任IEEE TPAMI、IJCV和ACM TOMM的编委会成员,(曾)担任过许多人工智能会议的领域主席,如 NerIPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等,担任ICCV 2025 程序委员会主席。王鑫龙,智源研究院多模态大模型研究中心负责人王鑫龙,智源研究院多模态大模型研究中心负责人。本科毕业于同济大学,博士毕业于澳大利亚阿德莱德大学,师从沈春华教授。他的研究兴趣是计算机视觉和基础模型,近几年研究工作包括视觉感知 (SOLO, SOLOv2),视觉表征 (DenseCL, EVA, EVA-CLIP),视觉基础模型(Painter, SegGPT),多模态基础模型(Emu, Emu2, Emu3)。入选Google PhD Fellowship、国家海外高层次青年人才,担任ICCV、ICLR、NeurIPS等会议领域主席。Broadening the scope of autoregressive models in vision and beyond黎天鸿,MIT CSAIL Kaiming He组博士后研究员
黎天鸿博士是MIT CSAIL Kaiming He组的博士后研究员。他于MIT获得博士学位,导师为Dina Katabi教授,并在清华大学姚班获得学士学位。他近期的研究兴趣集中在表征学习、生成模型及二者之间的协同作用。长期来看,他致力于构建能够超越人类感知、深入理解并建模世界的智能视觉系统。他曾于2023年获得MathWorks奖学金,并担任过ICLR、ICML和ICCV等国际顶级会议的领域主席。腾讯混元多模态生成模型实践

芦清林丨腾讯混元多模态生成负责人


芦清林博士聚焦多模态视觉生成领域,负责混元文生图、文生视频、及应用模型研发。率先采用双流DIT架构,带领团队研发混元DiT基础模型、插件模型矩阵和基于驱动的视频生成模型等,覆盖人像、建筑、游戏等垂类场景,其成果广泛应用于腾讯广告、游戏、云、社交等数十个业务场景;同时持续向业界开源图/视频生成模型,推动社区发展。主题演讲黄伟林,字节跳动Seed图像&视频生成负责人
黄伟林,现任字节跳动Seed图像&视频生成基础模型负责人,专注计算机视觉和深度学习相关的研究和应用。曾在牛津大学视觉几何组(VGG)和中国科学院从事研究工作,有深厚的学术积累和沉淀。工业界方面,曾负责超大规模商业视觉搜索系统,通过重构多模态搜索系统实现千亿级GMV增长。目前,带领团队构建行业领先的多模态生成模型(e.g.Seedream/SeedEdit/Seedance等),并持续探索创新技术,积极推进模型商业化。从推理优先的角度启发新的预训练范式宋佳铭,LumaAI创始人宋佳铭(Jiaming Song) 是美国视频生成领域创业公司Luma AI的首席科学家。在美国斯坦福大学读博期间,他开发了去噪扩散隐式模型(DDIM),这是首个将扩散模型加速到50倍,同时还能够保持产生多样化、高保真样本能力的模型,这项研究代表了扩散模型和生成AI领域的一次重要进步。目前他的研究兴趣在多模态生成模型和算法上的突破。LLaDA:大语言模型新范式

李崇轩丨中国人民大学高瓴人工智能学院准聘副教授


李崇轩,中国人民大学高瓴人工智能学院准聘副教授,主要研究领域为生成模型,领导研发扩散语言模型LLaDA,部分成果部署于DALL·E2、Stable Diffusion、Vidu等行业领先模型。获ICLR杰出论文奖、吴文俊优秀青年奖、北京市科技新星、吴文俊人工智能自然科学一等奖等,主持国家自然基金重大研究计划培育项目等。担任 IEEE TPAMI 编委(AE)和 ICLR、NeurIPS等国际会议的领域主席(AC)。圆桌讨论嘉宾:

张 拯丨Sand.AI联合创始人

黄伟林|字节跳动Seed图像&视频生成负责人

李崇轩丨中国人民大学副教授

芦清林丨腾讯混元多模态生成负责人

张拯,Sand.AI联合创始人张拯,Sand.AI联合创始人,加入Sand.AI之前,曾在MSRA视觉计算组任职。他是Swin Transformer,SimMiM, RelationNetwork, SoftTeacher, 等工作的主要作者之一。其中Swin Transformer获得ICCV Best Paper(Marr Prize)。李根,量子位联合创始人、总编辑李根,量子位联合创始人,现任总编辑,负责量子位、量子位智库和智能车参考的整体内容。2019年入选福布斯中国30Under30。本届大会采用线下与线上模式融合,报名通道已开启,欢迎扫码免费注册。由于线下席位有限,请尽早完成注册,组委会将根据注册次序审核,并在会前发送审核结果通知。公开环节将向注册用户全程线上直播。大会合作、咨询、赞助欢迎联系:press@baai.ac.cn

来源:大数据文摘

相关推荐