重磅!3D生成大模型被推到了1536³分辨率
NTU的在读博士,研究方向为 3D 视觉和计算成像,之前发表论文在 T-PAMI,NeurIPS,ICML 等会议。
NTU的在读博士,研究方向为 3D 视觉和计算成像,之前发表论文在 T-PAMI,NeurIPS,ICML 等会议。
端到端模型:具身模型(如 ACT 和 DP)将视觉感知(Vision)与动作生成(Action)整合为单一神经网络,直接实现从多模态输入到连续动作的端到端映射。采用 CLIP 或 ViT 处理 RGB/Depth 图像,提取场景的语义特征,然后基于扩散策略模型
摘要在数字化与智能化转型的浪潮中,生成式模型凭借其在自然语言处理与计算机视觉领域的突破性应用,已崛起为新一代智能技术基础设施,并逐步成为推动飞行器技术智能化升级的核心驱动力。本文系统梳理了生成式模型赋能飞行器技术的研究进展。首先,从技术演进视角回顾了生成式模型
模型 transformer 飞行器 vae 流场 2025-05-25 13:21 6
BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
开年以来,从科技巨头到创业公司再到研究机构,都在发力 TTS 模型。2 月,字节跳动海外实验室推出一款轻量级 TTS 模型 MegaTTS3-Global;3 月,出门问问联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构,共同开源新一代