这是大模型年终分享系列的第一篇,我们近期将陆续推出其他领域的项目合集,如视频生成、智能体(agent) 等。希望对大家有所帮助,也请大家多多批评指正。图像生成,作为由人工智能(AI)大模型驱动的 AIGC 应用方向,正在颠覆传统的内容创作和艺术设计,让人人都可以成为「绘画大师」——只需要一段简单的 prompt,加上一点点耐心,一个个天马行空的想法,就可以化为一幅幅栩栩如生的画作。在即将结束的 2024 年,「AI 图像生成」领域涌现出了众多优秀的研究成果,大大丰富了图像内容创作的生态,这些成果来自头部科技大厂、高校院所实验室和个人开发者,部分研究也已开源。在这篇总结文章中,我们专注于分享那些「研究类」AI 图像生成项目,我们挑选了 100 个项目中的 18 个分享给大家。(按照发布时间先后顺序,点击「阅读原文」查看完整版)1.InstantID:秒级零样本保真图像生成在个性化图像合成方面,诸如 Textual Inversion、DreamBooth 和 LoRA 等方法已经取得了重大进展。然而,这些方法的实际应用受到了高存储需求、漫长的微调过程以及需要多张参考图像的限制。相比之下,现有的基于 ID 嵌入的方法虽然只需一次前向推理,但也面临挑战:要么需要对大量模型参数进行广泛的微调,要么与社区预训练模型不兼容,要么无法保持高面部真实性。为了解决这些限制,来自 InstantX 和小红书的研究团队提出了一个基于扩散模型的解决方案 InstantID,其即插即用模块仅使用单张面部图像就巧妙地处理各种风格的图像个性化,同时确保高保真度。为了实现这一点,研究人员设计了一个 IdentityNet,通过强语义和弱空间条件的结合,将面部图像和地标图像与文本提示相结合,引导图像生成。为实现这一目标,他们提出了几种技术。首先,他们系统地检查了网络架构的设计选择,以减少模型参数和延迟,同时确保高质量的生成。其次,为了进一步提高生成质量,他们从一个更大的模型中采用了跨架构知识提炼,使用多层次方法指导他们的模型从头开始训练。第三,他们通过将对抗指导与知识提炼相结合,实现了几步生成。他们的模型 SnapGen 在移动设备上生成 1024x1024 px 图像的时间仅为 1.4 秒。在 ImageNet-1K 上,模型只需 372M 参数就能生成 256x256 px 的图像,FID 达到 2.06。在 T2I 基准(即 GenEval 和 DPG-Bench)上,他们的模型仅有 379M 个参数,以明显更小的规模(例如,比 SDXL 小 7 倍,比 IF-XL 小 14 倍)超越了拥有数十亿个参数的大模型。论文链接:https://arxiv.org/abs/2412.09619项目地址:https://snap-research.github.io/snapgen/整理:学术君如需转载或投稿,请直接在公众号内留言摘要:这是大模型年终分享系列的第一篇,我们近期将陆续推出其他领域的项目合集,如视频生成、智能体(agent) 等。希望对大家有所帮助,也请大家多多批评指正。图像生成,作为由人工智能(AI)大模型驱动的 AIGC 应用方向,正在颠覆传统的内容创作和艺术设计,让人人都可
来源:007王子
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!