风格迁移开源模型整理:加速艺术与技术创新的步伐

B站影视 2024-12-03 15:46 2

摘要:风格迁移(Style Transfer)任务就是将源图像(风格图像)的风格特征(如颜色、纹理、形状等)应用到目标图像(内容图像)上,从而生成一幅新的图像。在多个领域具有广泛的应用前景,如艺术创作、图像/视频编辑、视觉定位与广告设计等等。

风格迁移(Style Transfer)任务就是将源图像(风格图像)的风格特征(如颜色、纹理、形状等)应用到目标图像(内容图像)上,从而生成一幅新的图像。在多个领域具有广泛的应用前景,如艺术创作、图像/视频编辑、视觉定位与广告设计等等。

本文旨在整理这些相关的开源模型,以加速开发者的研究步伐,使他们能够便捷地获取所需的算法与数据资源。

StyleShot

StyleShot 是同济大学和上海 AI 实验室共同开源的一款风格迁移模型,用户只需上传一张图片,无需额外训练即可实现任意风格的迁移到给定的内容。例如 3D 风格的城镇、简笔风格的小狗、油画风格的小车,均能一键快速生成。

StyleShot 建立在 Stable Diffusion 的基础之上,其架构和关键组件包括风格感知编码器(Style-Aware Encoder)、内容融合编码器(Content-Fusion Encoder)以及风格平衡数据集 StyleGallery 的构建和去风格化(De-stylization)策略。

参考论文:StyleShot: A Snapshot on Any Style论文地址:https://arxiv.org/abs/2407.01414开源地址:https://github.com/open-mmlab/StyleShot

CSGO

CSGO 是 InstantX 团队联合南理工、北航以及北大共同开源的风格迁移模型,旨在提升图像生成技术,尤其是在内容和风格的结合方面。

支持:

内容图片+风格参考图片,合成该内容的风格图片风格参考图片+文字提示,合成文字内容的风格图片通过文字编辑图片中的指定对象

另外,构建的数据集 IMAGStyle 也成为了学术界研究和探索图像生成技术的重要资源,其中 210,000 个内容-风格-风格化图像三元组作为训练数据集,从网络上收集的 248 张内容图像,这些图像包含真实场景、素描场景、人脸和风格场景,以及 206 张不同场景的风格图像作为测试数据集。

参考论文:CSGO: Content-Style Composition in Text-to-Image Generation论文地址:https://arxiv.org/abs/2408.16766开源地址:https://github.com/instantX-research/CSGO

VToonify

VToonify 是南洋理工大学开源的高分辨率可控人像视频风格迁移模型,通过引入一种新的框架,解决了现有图像风格迁移方法在视频应用中的局限性,如固定帧大小、面部对齐要求、非面部细节缺失和时间不一致性等问题。

具体来说,VToonify 利用 StyleGAN 的中高分辨率层结合编码器提取的多尺度内容特征,生成高质量的艺术人像,同时更好地保留帧细节。全卷积 VToonify 框架,用于可控的高分辨率人像视频风格迁移,支持处理非对齐的人脸和不同大小的视频。

VToonify 兼容现有基于StyleGAN 的图像卡通化模型,可扩展为视频卡通化,并继承这些模型在颜色和强度上的灵活风格控制能力。基于 Toonify 和DualStyleGAN 骨架构建了 VToonify,并在数据和模型两个方面对骨架进行蒸馏,以实现基于集合和基于示例的人像视频风格迁移。


参考论文:VToonify: Controllable High-Resolution Portrait Video Style Transfer (SIGGRAPH Asia 2022)论文地址:https://arxiv.org/abs/2209.11224开源地址:https://github.com/williamyang1991/VToonify

DualStyleGAN

DualStyleGAN 是针对现有的人脸风格化方法无法在小规模数据上实现基于样例的高清人脸风格化的问题,在 StyleGAN 的基础上添加外部风格控制模块,构建的全新双路风格生成网络。

参考论文:Pastiche Master: Exemplar-Based High-Resolution Portrait Style Transfer (CVPR 2022)论文地址:https://arxiv.org/abs/2203.13248开源地址:https://github.com/williamyang1991/DualStyleGAN

FastPhotoStyle

FastPhotoStyle 是一项基于神经网络技术的图像风格迁移算法。旨在通过使用深度学习模型在给定的图片上应用特定的样式或主题,实现令人惊叹的视觉效果。

参考论文:A Closed-form Solution to Photorealistic Image Stylization (ECCV 2018)论文地址:https://arxiv.org/abs/1802.06474开源地址:https://github.com/NVIDIA/FastPhotoStyle

Deep Photo Style Transfer

Deep Photo Style Transfer 是康奈尔大学和 Adobe 联合开源的风格迁移模型,解决了图像迁移过程中的「畸变」问题。

具体来说,通过正则损失确保内容不失真,风格损失考虑语义匹配,防止风格溢出。总损失函数结合内容和风格损失,生成更加真实的迁移效果。

参考论文:Deep Photo Style Transfer论文地址:https://arxiv.org/abs/1703.07511开源地址:https://github.com/luanfujun/deep-photo-styletransfer

趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务,也是全球首个基于 GPU 算力池化云的服务。

趋动云的使命是连接算力·连接人:

📍通过连接全球算力,趋动云可以为用户提供便宜、好用的 AI 算力。

📍通过为AI算法开发全流程提供优化服务、构建全球开发者项目和数据社区,趋动云可以帮助AI开发者接入丰富的生态,快速实现最佳实践。

连接算力・连接人

注册即领
10元算力金

做新手任务
再得180元算力金

请注册后联系小助手,获取新手任务

来源:趋动云

相关推荐