腾讯混元又又又开源了,这次想复刻一个文生视频领域的Flux?

B站影视 2024-12-08 04:59 2

摘要:自OpenAI发布Sora演示视频以来,要做中国版Sora的声音从未停止过。在国内,大厂和创业公司都纷纷推出了自己的视频生成模型:快手的可灵、MiniMax的海螺、生数的Vidu以及智谱的CogVideoX等,都获得了许多开发者和用户的关注和使用。在这个竞争激

腾讯混元大模型又开源了,这次是文生视频模型。

自OpenAI发布Sora演示视频以来,要做中国版Sora的声音从未停止过。在国内,大厂和创业公司都纷纷推出了自己的视频生成模型:快手的可灵、MiniMax的海螺、生数的Vidu以及智谱的CogVideoX等,都获得了许多开发者和用户的关注和使用。在这个竞争激烈的赛道上,现在他们又多了一个选择:腾讯混元文生视频大模型(Hunyuan-Video),腾讯混元大模型在12月3日正式上线视频生成能力。

同样重要的是开源。Hunyuan-Video已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。此前,腾讯混元已开源了旗下文生文、文生图和3D生成大模型。据腾讯混元相关负责人介绍,后续还有图生视频模型、视频配音与配乐、驱动2D照片数字人技术的开源计划。

Hunyuan-video的参数量为130亿,官方放出的样片长这样:

HunYuan-Video的技术架构与创新特性

统一图像与视频生成架构

HunyuanVideo使用了基于Transformer的全注意力机制,用于视频生成。并能实现主体一致的多视角镜头切换。与“分离的时空注意力机制”分别关注视频中的空间特征和时间特征,相比之下,全注意力机制则更像一个纯视频模型。

它采用“双流到单流”的混合模型架构,能够在融合之前分别处理视频和文本的特征信息,从而实现更高效的多模态信息融合。

双流到单流模型是指机器学习中的一个框架,特别是在多模态数据处理的背景下,其中两股独立的数据流(如文本和图像)最初分别处理,然后合并成一股单一流进行进一步分析或生成。

MLLM Text Encoder MLLM

HunYuan-Video使用具有解码器结构的预训练多模态大型语言模型 (MLLM) 作为文本编码器。这一设计增强了图文对齐能力,并提升了模型处理复杂指令的能力。同时,它引入了一个双向特征优化器(bidirectional token refiner)来增强文本特征。

3D VAE压缩

HunYuan-Video引入了3D形状变分自编码器(VAE),将视频压缩到潜在空间,大幅减少后续处理所需的token数量。这使得模型能够在原始分辨率和帧率下进行训练,同时优化了性能和效率。使得视频生成模型在细节表现上,特别是小人脸、高速镜头等场景有明显提升。

提示重写模型

Hunyuan-Video还配备了一个提示优化模型(Prompt Rewrite Model),用于调整用户输入的提示词,使其更符合模型的偏好。该模型提供两种模式:普通模式侧重于理解用户意图,而大师模式则强化视觉质量,包括画面构图和光影效果等方面的表现。

指标与性能

在千题盲测的定量分析中,Hunyuan-Video与包括 Gne3 和 Luma 在内的前五名闭源模型进行了比较,在60多名专业评估人员评估后,HunyuanVideo 在综合指标上表现最好,特别是在运动质量方面表现较为突出。

运行Hunyuan-Video模型使用文本生成视频的推荐配置需要45GB的GPU内存。

要扛起开源文生视频的大旗?

腾讯混元多模态生成技术负责人凯撒在发布现场表示,文生视频领域目前存在“抽卡概率”的问题,普通用户大多处于尝鲜状态,且目前开源闭源“存在较大的GAP”,“这也是我们为什么开源”。

他多次提到Black Forest Labs旗下Flux的开源模式。Flux通过开源基础模型构建开发者生态,同时保留商业版本维持竞争力,已获得包括Andreessen Horowitz的知名投资机构的投资。

Flux通过开源策略与MidJourney竞争,依托其灵活的社区参与机制、强大的定制化能力以及对用户指令的高精度响应。相比MidJourney的闭源运营,Flux.1的开源特性吸引开发者共同优化模型。开源也让Flux.1更容易被个人和小型团队采用,从而扩大用户基数。这一模式结合强社区支持,为开源生态带来了长尾效应,挑战了MidJourney的市场主导地位。

“文生图的发展,社区给了很大的力量,很多优秀的底模出来之后学术界、很多人都可以玩起来,做插件、做优化,而不是几家闭门造车。”

例如,Hunyuan-video推荐配置至少需要45GB的GPU内存,这对于普通开发者而言门槛仍然偏高,但社区的力量不容小觑。另一个开源视频模型Mochi 1需要4个H100才能保证效率和输出效果,而发布之后,社区就开始尝试解决在显存更低的设备运行Mochi 1,并开发ComfyUI插件。大量开发者提供了经过优化的插件,如动漫风格视频转换工具和低显存支持模块,进一步降低了使用门槛。

Mochi已支持在ComfyUI中使用消费级GPU运行

当然,要让文生视频技术成熟,还需攻克一些客观难题。“高质量数据还是挺缺的。”

此外,训练视频生成模型绕不开的仍然是算力成本,例如,Meta的Movie Gen使用了多达6144个H100 GPU进行训练,成本高昂。

商业模式方面,Flux通过提供付费API和用于商业应用的闭源模型来构建的商业模式。参考Flux的做法,Hunyuan-Video未来也可以通过API等形式提供更高质量的服务。目前,Hunyuan-Video暂时没有商业化的动作,用户可以在腾讯元宝APP免费使用Hunyuan-Video的文生视频功能。

“我们先站出来,搞一个跟闭源水平差不多的模型,给大家用起来”,凯撒表示,“希望跟社区一起把我们的技术早日推向图像生成领域一样的状态”。

他同时表示从混元整体技术栈的逻辑出发,做视频模型是其必经之路,“最终就是只有一个Model”。

无论如何,在Meta发布Movie Gen后并未提及任何开源事宜的情况下,考虑到视频生成模型的训练成本和难度,Hunyuan-Video的出现无疑是开源社区希望看到的事情。

类比SD,文生视频现在处于类似SD1.5的状态,接下来就看Hunyuan-Video能否进化到下一个阶段了。

来源:硅星人

相关推荐