摘要:· Janus Pro的基础:Janus Pro并非全新模型,其基础为去年10月发布的Janus,1月28日发布了Janus-Pro和Janus-Flow。
DeepSeek•拆解:多模态大模型Janus-Pro
会议要点
1、DeepSeek及其多模态大模型Janus Pro的发展情况
· DeepSeek的快速增长:DeepSeek已超过ChatGPT,成为全球增速最快的AI应用,日活DAU在200到250万以上。
· Janus Pro的基础:Janus Pro并非全新模型,其基础为去年10月发布的Janus,1月28日发布了Janus-Pro和Janus-Flow。
· Janus模型的核心:将图片的理解和生成这两个任务的编码器进行解耦,使其分别由不同的编码器执行。
· Janus模型的训练过程:分为三个阶段,第一阶段训练模型的适配器(Adapter)和图像头(Image Head);第二阶段做统一的预训练;第三阶段做监督微调(SFT)。
· Janus Pro的版本及性能:DeepSeek Pro分为1B和7B两个版本,是同类参数量模型能力最好的,其性能优势源于使用了更多高质量的合成数据。
· Janus Pro的模型架构:两个不同的任务分别由两个不同的编码器来做,进行统一的自动回归的Transformer处理。
· Janus Pro中针对图片理解和生成的处理:图片理解使用基于Contrastive Language–Image PretrAIning(CLIP)的contrastive loss损失函数;图片生成使用另一个编码器。
2、Janus Pro的优化策略
· 延长训练:在ImageNet上让模型充分训练,利用好已有信息。
· 改进预训练:第一阶段训练adapter和head,第二阶段进行统一预训练,且使用长文本到图像数据进行训练。
· 调整数据比例:在监督微调SFT中,不断优化不同数据集的比例。
· 扩大训练数据集:在Janus已用的1.6亿个token样本数据基础上,增加了7200万的合成数据,同时在图片理解和生成任务中都增加了新的样本数据。
· 增加模型参数量:Janus Pro有1B和7B两个版本,分别为10亿和70亿参数,在词表大小和embeddng size上有所不同,7B版本的attention heads、layers和context window等也更大。增加模型参数后,7B版本的效果更好。
3、Janus Pro的训练成本及与其他模型的对比
· 训练成本:Janus Pro的训练在16到32个节点的集群上进行,每个节点配备8个NVIDIA的A100(40GB),15亿参数的模型用128张卡训练了七天,70亿参数的模型用256张卡训练了14天。
· 与其他模型对比:GPT-4用2.5万张A100训练90到100天,Llama 3.1用1.5万张H100,已公开数据中通用模型能用到的token数量在15到20T左右。
4、Janus Pro与其他视觉大模型的比较
· 与Imagen和Stable Diffusion的对比:Janus Pro的模型参数量与Imagen和Stable Diffusion等视觉大模型相比是OK的,但模型能力有待测试,各模型各有优势和差异。
5、对模型训练及AI产业的思考
· 模型瘦身的重要性:大模型到一定参数量后实际使用价值不大,成本过高,模型瘦身是后续大厂需要考虑的事情,需要对模型架构的各个环节进行更新升级改造。
· 对post-training的理解:post-training包括learning和search,learning是用数据抽离出一种模态,search是用计算抽离出推理,整个大模型的训练过程类似于人的一生,从pre-training到post-training的learning再到search。RL在提高模型能力方面有很大空间,是AI产业进展节奏中值得学习参考的部分。
· AI产业的影响及中国AI资产的重估:DeepSeek对AI产业链各个环节(算力、模型、应用终端)的影响将在未来1到2周内分别汇报,中国的很多AI资产在当前时间点值得被重估,但重估是中长期产业逻辑,需与短期节奏结合,美国的AI产业进展也值得跟踪学习。
来源:全产业链研究