摘要:最近 AI 圈又炸锅了,Meta 在 2025 年 4 月 5 日正式发布了他们的新一代开源大模型——Llama 4!这次可不是小打小闹,meta 直接甩出了“多模态智能”的大招,让 Llama 4 不仅能“听懂”文字,还能“看懂”图片,甚至未来可能处理视频和
最近 AI 圈又炸锅了,Meta 在 2025 年 4 月 5 日正式发布了他们的新一代开源大模型——Llama 4!这次可不是小打小闹,meta 直接甩出了“多模态智能”的大招,让 Llama 4 不仅能“听懂”文字,还能“看懂”图片,甚至未来可能处理视频和语音,简直是 AI 界的“全能选手”。
Llama 4 家族初亮相:Scout 和 Maverick 抢先登场
这次 Meta 一口气推出了 Llama 4 的两个版本:Llama 4 Scout 和 Llama 4 Maverick,还有一个超重量级的 Llama 4 Behemoth 正在训练中,先给大家剧透一下。
Llama 4 Scout:别看它“身材小巧”,只有 17B(170 亿)活跃参数,但靠着 16 个专家(Mixture of Experts 架构,简称 MoE),它能轻松处理高达 1000 万 token 的超长上下文。啥意思?就是它能一次性“记住”超多内容,比如分析一本厚厚的书或者一大堆代码都不在话下。Meta 说,它的表现已经超过了 Google 的 Gemma 3,性价比超高!
特点: 高效实用派,对标同类是“世界最佳”多模态模型!性能超 Llama 3 全家,关键是单卡 H100 GPU 就能跑起来(Int4 量化后)。绝技: 拥有业界领先的 1000 万 token 上下文窗口!什么概念?大概能一口气读完几十本《哈利波特》还记得清清楚楚!在各种测试中,表现优于 Gemma 3, Gemini 2.0 Flash-Lite 和 Mistral 3.1。适合: 需要超长文本处理、代码分析,或者想在有限资源下玩转强大 AI 的开发者。Llama 4 Maverick:这家伙更猛,同样是 17B 活跃参数,但有 128个专家,总参数高达 402B(4020 亿)。在推理、编程和视觉任务上,它直接干翻了 OpenAI 的 GPT-4o,ELO 评分达到了惊人的 1417。别忘了,它的参数量还不到 DeepSeek V3 的一半,效率简直逆天!
特点: 同级别里的“性能怪兽”,直接硬刚 GPT-4o 和 Gemini 2.0 Flash,并且在推理和编码上能跟新的 DeepSeek v3 打平手,而活跃参数还不到人家一半!主打一个性价比之王!绝技: 多模态能力超强,图像理解精准,聊天版在权威的 LMArena 平台上 ELO 分数高达 1417!适合: 对性能要求高,需要精准图像理解、创意写作、复杂 AI 应用开发的场景。Llama 4 Behemoth:这个是大哥级别的存在,目前还在训练中,拥有 288B 活跃参数,总参数接近 2 万亿(2T)。Meta 透露,它在 STEM(科学、技术、工程、数学)领域的表现已经超过了 GPT-4.5 和 Claude Sonnet 3.7,未来可能会成为 Llama 家族的“幕后老师”,专门用来指导其他模型。
特点: 这位是 Llama 4 家族的“老大哥”和“导师”,是 Meta 迄今为止最强大的模型,目标是成为世界顶级智能的 LLM 之一。绝技: 在多个 STEM(科学、技术、工程、数学)基准测试中,表现优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro!虽然还在训练中,没完全放出来,但这实力已经让人瑟瑟发抖了。作用: 主要用来“教导” Scout 和 Maverick,提升它们的整体能力。多模态是啥?AI 的“五官”全开!
以前的 AI 模型大多只能处理文字,像个只会读书的书呆子。但 Llama 4 不一样,它是“多模态”的,简单说就是不仅能读文字,还能看图片,甚至以后还能听声音、看视频。Meta 这次用了一种叫“早期融合”的技术,把文字和图像能力直接“焊”进模型里,训练时用了超过 30 万亿 token 的数据(比 Llama 3 多了一倍还多),包括海量的文本、图片和视频帧。
举个例子,你扔给它一张照片,它不仅能告诉你照片里有什么,还能根据你的问题推理出更多信息。比如你问:“这张图里的菜谱咋做?”它就能直接给你分析步骤,简直是厨房小助手!这种能力对我们自媒体人来说太香了,写文章、做视频时可以用它快速生成灵感或者分析素材。
Llama 4 这次牛在哪?几大技术亮点速览!
天生就会“看图说话”(原生多模态): 不再是后期缝合怪,Llama 4 从设计之初就能同时理解文本和视觉信息(图像、视频帧),交互更自然流畅。“人多力量大”还省电(混合专家 MoE 架构): 这是 Llama 首次采用 MoE 架构。简单说,就是模型内部有很多“专家”,处理不同任务时只调用一小部分相关专家,这样既聪明(性能好)又省力(计算效率高、推理快)。Maverick 有 128 个专家呢!Llama 4 模型是meta首批使用混合专家 (MoE) 架构的模型。在 MoE 模型中,单个 token 仅激活总参数的一小部分。MoE 架构在训练和推理方面具有更高的计算效率,并且在给定固定训练 FLOP 预算的情况下,与密集模型相比,可提供更高的质量。 其MoE模型框架跟 DeepSeekMoE一致,都是使用了共享专家与路由专家路线。看到 DeepSeekMoE的路线使用到别人的模型上,是不是瞬间感觉自己强大了。Llama 4 Scout
小型模型 Llama 4 Scout 是一个通用模型,拥有 170 亿个活动参数、16 位专家和 1090 亿个总参数,可提供同类中一流的性能。Llama 4 Scout 将支持的上下文长度从 Llama 3 中的 128K 大幅增加到行业领先的 1000 万个标记。这开辟了一个无限可能的世界,包括多文档摘要、解析大量用户活动以执行个性化任务以及对庞大的代码库进行推理。
Llama 4 Scout 经过了预训练和后训练,上下文长度为 256K,这为基础模型提供了高级长度泛化能力。在诸如对文本进行“大海捞针”式检索以及对 1000 万个代码标记进行累积负对数似然 (NLL) 等任务中展示了令人信服的结果。
Llama 4 Maverick
作为通用 LLM,Llama 4 Maverick 包含 170 亿个活动参数、128 位专家和 4000 亿个总参数,与 Llama 3.3 70B 相比,它以更低的价格提供高品质。Llama 4 Maverick 是同类最佳的多模态模型,在编码、推理、多语言、长上下文和图像基准测试中超越了 GPT-4o 和 Gemini 2.0 等同类模型,并且在编码和推理方面可与规模大得多的 DeepSeek v3.1 相媲美。
使用交替的密集和混合专家 (MoE) 层来提高推理效率。MoE 层使用 128 位路由专家和一位共享专家。每个令牌都会发送给共享专家以及 128 位路由专家之一。因此,虽然所有参数都存储在内存中,但在为这些模型提供服务时,只有总参数的子集被激活。这通过降低模型服务成本和延迟来提高推理效率——Llama 4 Maverick 可以在单个 NVIDIA H100 DGX 主机上运行,以便于部署,也可以通过分布式推理实现最高效率。
Llama 4 模型采用原生多模态设计,结合早期融合,将文本和视觉标记无缝集成到统一的模型主干中。早期融合是向前迈出的重要一步,因为它能够使用大量未标记的文本、图像和视频数据联合预训练模型。meta 还改进了 Llama 4 中的视觉编码器。它基于 MetaCLIP,但与冻结的 Llama 模型一起单独训练,以便更好地使编码器适应 LLM。
开源精神不改,Meta 坚持开源
Meta 一直有个“癖好”——坚持开源。这次 Llama 4 Scout 和 Maverick 依然是开放权重模型,任何人都可以从 llama.com 或 Hugging Face 下载来玩,甚至还能通过 Meta AI 的产品(比如 WhatsApp、Messenger)直接体验。Meta 说:“我们相信开放能推动创新,造福所有人。”
现在即可试用
Meta 已经开放下载 Llama 4 Scout 和 Llama 4 Maverick 了!你可以去官网 llama.com 或者 Hugging Face 上下载使用。同时,Meta 自家的 AI 应用也开始逐步用上 Llama 4 了,赶紧去体验一下吧!
Meta 还预告了 4 月 29 日的 LlamaCon 大会,届时可能会有更多关于 Llama 4 家族和未来 AI 愿景的消息。
总而言之,Llama 4 的发布绝对是 AI 开源领域的一件大事! 它不仅在性能和功能上实现了巨大飞跃,更重要的是坚持了开放的理念。这无疑会加速整个 AI 生态的创新步伐。让我们拭目以待,看看社区开发者们会用 Llama 4 创造出那些令人惊叹的应用吧!
这次 Llama 4 的发布,不只是技术升级那么简单。OpenAI 有 GPT-4o,Google 有 Gemini,Anthropic 有 Claude,AI 战场早就白热化了。Meta 靠着开源和多模态这两张牌,明显想抢占更多地盘。尤其是 Llama 4 Behemoth 还在“憋大招”,对我来说,Llama 4 的出现意味着更多创作可能性。它不仅是个工具,更像是个“创意搭档”。你觉得呢?
meta/blog/llama-4-multimodal-intelligence/来源:人工智能研究所