摘要:自从 DeepSeek 把训练成本打下来之后,各个模型厂家现在不再堆参数进行模型的能力对比。而是转向了训练成本优化方面,且还要保证模型能力不减反增的效果。包括使用较少的模型参数,降低 GPU 使用数量,降低模型内存占用等等技术手段。这里可以查看DeepSeek
自从 DeepSeek 把训练成本打下来之后,各个模型厂家现在不再堆参数进行模型的能力对比。而是转向了训练成本优化方面,且还要保证模型能力不减反增的效果。包括使用较少的模型参数,降低 GPU 使用数量,降低模型内存占用等等技术手段。这里可以查看 DeepSeek 开源周发布的优化策略。
谷歌正式发布了全新一代 AI 模型 Gemma 3!这可不是简单的升级,而是用了 Gemini 2.0 同款技术打造的 最先进、最便携、最负责任的开放模型!啥意思?简单说,就是性能更强、体积更小、更安全!更重要的是,它能在各种设备上 飞速运行,从你的手机、笔记本到专业工作站,都能轻松驾驭!Gemma 3 有多种尺寸(1B、4B、12B 和 27B),可以根据特定的硬件和性能需求选择最佳模型。
Gemma 3 是多模态的!40 亿、120 亿和 270 亿个参数模型可以处理图像和文本,而 1B 版本只能处理文本。对于 1B 版本,输入上下文窗口长度已从 Gemma 2 的 8k 增加到32k ,对于其他所有版本,则增加到 128k。与其他 VLM(视觉语言模型)一样,Gemma 3 会根据用户输入生成文本,这些文本可能由文本组成,也可能由图像组成。
与 Gemma2 相比,虽然模型参数没有增加,但是上下文长度增加到了 128K,而且还是一个多模态的模型,不仅识别文本,还支持图片与视频内容的交互。更是支持了 140 种语言能力,简直不要太强大。
Gemma 3 性能特点?
性能怪兽,单卡 GPU 就能起飞! Gemma 3 在 LMArena 排行榜上直接超越了 Llama3、DeepSeek 等一众大佬!这意味着在单个 GPU 或 TPU 上,就能创建丝滑流畅的 AI 体验!140 种语言精通,走遍全球都不怕! 别再担心语言障碍!Gemma 3 开箱即用支持超过 35 种语言,预训练更是覆盖 140 多种语言!文能识图写诗,武能函数调用! 轻松搞定图片、文本、短视频分析,开启交互式智能新纪元!函数调用也安排上了,自动执行任务、构建智能 Agent,不在话下!海量信息轻松应对! 128k Token 上下文窗口,再复杂的任务,再多的信息,都能 hold 住!官方量化版本,性能加速! 体积更小,计算更快,精度还不变!简直是为移动端量身定制!一张图告诉你 Gemma 3 有多强:
看到了吗?Gemma 3 (27B) 在众多 AI 模型中脱颖而出!而且只需要一个 GPU,而其他模型可能需要多达 32 个!不仅如此,27B 参数的模型竟然超过了 671B 参数的 DeepSeek V3 模型,简直不要太好用。这么小参数量的模型,完全可以跑在自己电脑上面了。普通电脑配置也能跑大模型了。
Gemma3 性能在最优点
安全第一,谷歌这次玩真的!
谷歌深知开放模型需要谨慎的风控!Gemma 3 经历了严格的安全评估,包括数据管理、安全微调和基准评估。即使是增强的 STEM 性能也经过了特定评估,以确保滥用风险较低。
ShieldGemma 2:为图像应用保驾护航!
除了 Gemma 3,谷歌还推出了 ShieldGemma 2!这是一个基于 Gemma 3 构建的强大图像安全检查器,能够识别“危险内容、色情和暴力”!而且它是开源的,开发者可以根据需求进行定制!
Gemma 3 评估
在 LMSys Chatbot Arena 上,Gemma 3 27B IT 的 Elo 分数为1339,跻身前 10 个最佳模型之列,包括领先的封闭模型。Elo 与 o1-preview 相当,并且高于其他非思考开放模型。与表中的其他 LLM 一样,Gemma 3 仅处理文本输入即可获得此分数。
Gemma 3 已通过 MMLU-Pro(27B:67.5)、LiveCodeBench(27B:29.7)和 Bird-SQL(27B:54.4)等基准测试进行评估,与封闭式 Gemini 模型相比,其性能更具竞争力。GPQA Diamond(27B:42.4)和 MATH(27B:69.0)等测试凸显了其推理和数学技能,而 FACTS Grounding(27B:74.9)和 MMMU(27B:64.9)则展示了强大的事实准确性和多模态能力。然而,它在 SimpleQA(27B:10.0)的基本事实方面落后。与 Gemini 1.5 模型相比,Gemma 3 通常很接近,有时甚至更好,证明了其作为可访问、高性能选项的价值。
无缝集成,即刻上手!
Gemma 3 和 ShieldGemma 2 可以轻松集成到你现有的工作流程中!支持 hugging face Transformers、Ollama、JAX、Keras、PyTorch 等等!
#使用管道进行推理import torchfrom Transformers import pipelinepipe = pipeline( "image-text-to-text", model="google/gemma-3-4b-it", # "google/gemma-3-12b-it", "google/gemma-3-27b-it" device="cuda", torch_dtype=torch.bfloat16)messages = [{ "role": "user", "content": [ {"type": "image", "url": "candy.JPG"}, {"type": "text", "text": "What animal is on the candy?"}]}]output = pipe(text=messages, max_new_tokens=200)print(output[0]["generated_text"][-1]["content"])使用 Transformer 进行推理
Transformer集成有两个新的模型类:
Gemma3ForConditionalGeneration:适用于4B、12B和27B视觉语言模型。
Gemma3ForCausalLM:对于 1B 纯文本模型
import torchfrom transformers import AutoProcessor, Gemma3ForConditionalGenerationckpt = "google/gemma-3-4b-it"model = Gemma3ForConditionalGeneration.from_pretrained( ckpt, device_map="auto", torch_dtype=torch.bfloat16,)processor = AutoProcessor.from_pretrained(ckpt)messages = [{"role": "user", "content": [ {"type": "image", "url": "password.jpg"}, {"type": "text", "text": "What is the password?"}]}]inputs = processor.apply_chat_template( messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt").to(model.device)input_len = inputs["input_ids"].shape[-1]generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)generation = generation[0][input_len:]decoded = processor.decode(generation, skip_special_tokens=True)print(decoded)在线体验
Gemma 3 不仅可以使用代码进行执行,或者使用 ollama进行本地部署,若不想占用本地资源,也可以在线使用。可以直接在 hugging face 上面使用,当然也可以使用 Google studio 上面使用。
Gemmaverse 生态,无限可能!
谷歌还鼓励社区基于 Gemma 构建各种应用和工具,形成一个庞大的 Gemmaverse 生态! AI Singapore 的 SEA-LION v3 打破语言障碍,促进了东南亚地区的交流;INSAIT 的 BgGPT 是首个保加利亚语大型语言模型;Nexa AI 的 OmniAudio 展示了设备内置 AI 的潜力!
Gemma 3 的发布,标志着 AI 技术民主化的又一里程碑!它将强大的 AI 能力带到了每个人的指尖,让开发者能够创造出更多创新应用,改变我们的生活!不仅参数少,模型小,还可以在单个 GPU 上面运行,普通电脑也可以直接跑大模型了,而 DeepSeek 系列的模型需要 32 个 GPU,不是普通玩家玩的模型。
huggingface.co/blog/gemma3blog.google/technology/developers/gemma-3/来源:人工智能研究所