胖·观察|Deepseek最新发布的多模态模型Janus-Pro究竟强在哪里?

B站影视 2025-01-28 10:14 1

摘要:言归正传,今天凌晨风头正盛的Deepseek再次放出“王炸”——多模态模型Janus-Pro发布,并给出了开源部署方法和研究论文,一时间再次抓住了公众眼球。那么这个Janus-Pro(中文译名可以是“吉娜婆”,哈哈)究竟给我们带来哪些惊喜呢?胖胖老师就借助De

今天是中国农历除夕,胖胖老师首先祝各位读者朋友金蛇纳福,新春快乐,感谢大家过去一年的支持与鼓励,新的一年也请多多关照。

言归正传,今天凌晨风头正盛的Deepseek再次放出“王炸”——多模态模型Janus-Pro发布,并给出了开源部署方法和研究论文,一时间再次抓住了公众眼球。那么这个Janus-Pro(中文译名可以是“吉娜婆”,哈哈)究竟给我们带来哪些惊喜呢?胖胖老师就借助Deepseek和豆包AI文献阅读给大家做个分析。

论文地址:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

根据官方提供的研究论文,Janus-pro 大模型在多模态理解和生成领域展现出显著特点与独特价值,它改进了 Janus,在训练策略、数据、模型规模上进行优化,提升了性能。

Janus-pro 大模型的特点架构设计解耦优势:采用与 Janus 相同的架构,解耦多模态理解和视觉生成的视觉编码。理解任务用 SigLIP 编码器提取图像语义特征,生成任务通过 VQ 分词器转换图像为离散 ID,经适配器处理后输入 LLM,这种设计有效缓解两个任务间的冲突,提高模型在不同模态任务中的表现。

优化训练策略:延长训练第一阶段,在 ImageNet 数据集充分训练,让模型在固定 LLM 参数时也能有效建模像素依赖。第二阶段舍弃 ImageNet 数据,直接用普通文生图数据训练,提高训练效率。还调整第三阶段不同类型数据集的数据比例,提升多模态理解性能 。

数据扩展丰富:多模态理解方面,增加约 9000 万样本,涵盖图像字幕、表格、图表和文档理解等多种数据集。视觉生成方面,引入 7200 万合成美学数据,使真实与合成数据比例达 1:1,提升生成图像的稳定性和美学质量。

模型规模扩大与性能提升:将模型从 15 亿参数扩展到 70 亿,实验发现大模型在多模态理解和视觉生成任务中损失收敛更快,展现出强大的可扩展性,提高了模型的整体性能。

Janus-pro 大模型的独特价值多模态理解能力领先:在多个多模态理解基准测试中表现出色,Janus-Pro-7B 在 MMBench 上得分达 79.2,超越 Janus、TokenFlow 等众多先进模型,能更好地处理多模态信息,理解图像与文本结合的复杂内容。

文本 - 图像生成能力卓越:在 GenEval 和 DPG-Bench 等视觉生成基准测试中,Janus-Pro-7B 分别取得 0.80 和 84.19 的高分,超越其他统一或仅用于生成的模型,具备优秀的指令跟随能力,能根据文本指令生成高质量、符合语义的图像。

推动多模态技术发展:其优化的训练策略、数据扩展和模型扩展方法为多模态模型的发展提供了新的思路和经验,开源的代码和模型方便研究人员进一步探索和改进,促进整个多模态领域的技术进步。

简而言之,其在7B数据训练量下,能够使用较低的算力就能实现主流商用多模态模型的使用效果,尤其是基于Deepseek底层大模型所提供的强大数理推理能力,使得其在数理学科的解题识别领域有着更好的使用体验,即便是个人用户也能利用家用计算机或者笔记本实现自行部署个性化学习模型的可能。(尽管这个可能也并不便宜,至少7B大模型需要不低于4090的GPU算力。)

图像理解与描述图像内容分析:能够准确理解图像中的各种元素,如识别图片中物体的类别、位置、属性以及它们之间的关系。在一张包含山水风景的图片中,它可以识别出山脉、河流、树木等物体,并描述出河流在山脉脚下流淌,树木分布在河岸两侧等场景信息。

图像描述生成:基于对图像的深入理解,为图像生成自然、准确且详细的文本描述。对于一幅展示城市街景的图片,Janus-Pro 可以生成 “在繁华的城市街道上,高楼大厦林立,街道上车水马龙,人们在人行道上匆匆行走,街边的商店琳琅满目” 这样的描述,使视障人士等群体也能通过文字感受到图像内容。

文本 - 图像生成创意设计辅助:在广告设计、游戏开发、影视制作等创意领域,设计师可以通过输入文本描述,让 Janus-Pro 生成相应的图像,为创意构思提供灵感和视觉参考。广告设计师想要设计一款新饮料的宣传海报,输入 “一杯冒着冷气的彩色果汁,周围有新鲜水果环绕”,模型就能生成大致符合描述的图像,帮助设计师快速确定设计方向。

个性化图像定制:满足用户个性化的图像需求。用户可以根据自己的喜好和想象,输入特定的文本指令,如 “一幅以星空为背景,有一只独角兽在飞翔的梦幻画面”,模型生成定制化图像,用于个人创作、社交媒体分享等场景。

视觉问答教育领域:在智能教育系统中,基于图像的学习资料,学生提出关于图像内容的问题,Janus-Pro 能够理解问题并结合图像信息给出准确答案。在地理课上,针对一幅世界地图的图像,学生提问 “澳大利亚在哪个半球”,模型可以快速给出正确回答,辅助教学和学生自主学习。

信息检索:在图像数据库检索场景中,用户通过输入关于图像特征的问题进行检索。在一个包含大量历史文物图片的数据库里,用户询问 “有没有唐朝时期,带有龙纹图案的陶瓷器具图片”,Janus-Pro 可理解问题并从数据库中筛选出符合条件的图片,提高信息检索的效率和准确性。

多模态对话系统智能客服:在电商、旅游等行业的客服场景中,客户可能会发送包含图片的咨询信息,Janus-Pro 可以同时理解文本和图像信息,提供更全面、准确的回复。客户发送一张手机故障的图片并描述 “手机屏幕出现条纹,该怎么办”,模型能够结合图像和文本判断故障原因并给出解决方案。

虚拟社交助手:在虚拟社交平台中,作为社交助手与用户进行多模态交互。用户分享一张旅行照片并表达感受,助手可以根据图像内容和用户文本,进行富有情感的回应,如 “这张照片拍得真美!看起来你在海边玩得很开心,那里的风景一定很棒”,提升社交交互体验。

来源:智慧教育胖胖老师

相关推荐