vae资讯_B站影视

重磅！3D生成大模型被推到了1536³分辨率

NTU的在读博士，研究方向为 3D 视觉和计算成像，之前发表论文在 T-PAMI，NeurIPS，ICML 等会议。

端到端模型：具身模型（如 ACT 和 DP）将视觉感知（Vision）与动作生成（Action）整合为单一神经网络，直接实现从多模态输入到连续动作的端到端映射。采用 CLIP 或 ViT 处理 RGB/Depth 图像，提取场景的语义特征，然后基于扩散策略模型

摘要在数字化与智能化转型的浪潮中，生成式模型凭借其在自然语言处理与计算机视觉领域的突破性应用，已崛起为新一代智能技术基础设施，并逐步成为推动飞行器技术智能化升级的核心驱动力。本文系统梳理了生成式模型赋能飞行器技术的研究进展。首先，从技术演进视角回顾了生成式模型

BLIP3-o是一个全开源统一多模态模型，结合自回归与扩散架构，采用「先理解后生成」策略，创新地使用CLIP特征与Flow Matching训练，显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先，也正拓展至图像编辑和视觉对话等多模态任务。

BLIP3-o是一个全开源统一多模态模型，结合自回归与扩散架构，采用「先理解后生成」策略，创新地使用CLIP特征与Flow Matching训练，显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先，也正拓展至图像编辑和视觉对话等多模态任务。

开年以来，从科技巨头到创业公司再到研究机构，都在发力 TTS 模型。2 月，字节跳动海外实验室推出一款轻量级 TTS 模型 MegaTTS3-Global；3 月，出门问问联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构，共同开源新一代