谢赛宁SFR等新作,统一多模态BLIP3-o登场!先理解后生成
BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。
开年以来,从科技巨头到创业公司再到研究机构,都在发力 TTS 模型。2 月,字节跳动海外实验室推出一款轻量级 TTS 模型 MegaTTS3-Global;3 月,出门问问联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构,共同开源新一代