统一自监督预训练!视觉模型权重无缝迁移下游任务
最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务,同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而,由于输入不匹配和 VAE 潜在空间的使用,将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。
最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务,同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而,由于输入不匹配和 VAE 潜在空间的使用,将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。
DiffRhythm是一款新型AI音乐生成模型,能在10秒内生成长达4分45秒的完整歌曲,包含人声和伴奏。它采用简单高效的全diffusion架构,仅需歌词和风格提示即可创作,还支持本地部署,最低只需8G显存。
音乐 显存 vae huggingface 8gb显存 2025-03-12 11:25 5
兰宇时,MMLab@NTU博士生,导师为 Chen Change Loy。本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。
iclr vae sota gaussiananything 2025-03-11 13:50 4
在人工智能的浪潮中,语言模型已经取得了令人瞩目的成就,但视觉智能,尤其是生成和模拟我们所看到的世界的视频生成技术,却远远落后。想象一下,如果每个人都能轻松生成高质量的视频内容,那将会是怎样的场景?由HPC-AI Tech研发团队开发的Open-Sora正是为此
据介绍,通义万相此次全面升级了模型整体性能,尤其是在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展,为 AI 的艺术创作打开了新的大门。
除了大家熟知的生成对抗网络(GAN)外,还有一些简单、强大且容易让人眼前一亮的技术。