目前常见LLM的上下文长度

B站影视 韩国电影 2025-04-12 11:43 1

摘要:1 个英文字符 ≈ 0.3 个 token,1 个token大约为 4 个英文字符或 0.75 个英文文本单词。1 个中文字符 ≈ 0.6 个 token。

一般情况下模型中 token 和字数的换算比例大致如下:

1 个英文字符 ≈ 0.3 个 token,1 个token大约为 4 个英文字符或 0.75 个英文文本单词。1 个中文字符 ≈ 0.6 个 token。

为了让token长度有所感知,下面是一些知名图书和剧本的情况:

《哈利波特与魔法石》全文约 8W 英文单词 ,大致12K token《老人与海》(The Old Man and the Sea) by Ernest Hemingway: 这本小说的英文版大约有 27,000 个单词。token长度大约在 4W tokens 左右。莎士比亚的《哈姆雷特》(Hamlet): 英文剧本大约有 3W 个单词。token长度大约在 4W tokens 左右。

过去几年最初LLM的上下文token只是8K左右,年初主流在用的已经64K了,现在出来128K的都不好意思说,最近出来的1M的也不少,Llama更是达到10M了。

模型deepseek-chatdeepseek-reasoner上下文长度64K64K最大思维链长度-32K最大输出长度8K8K

我们以阿里云提供的为准:
https://bailian.console.aliyun.com/?tab=doc#/list/?type=model&url=/zh/model-studio/models

上下文长度最多支持 128K 个 token,最多可生成 8K 个 token。

DeepSeek-R1-Distill-Qwen-32B 这样的模型的Base Model是 Qwen2.5-32B, 上下文长度也一样。

基于 Qwen2.5 模型训练的 QwQ 推理模型。

上下文长度:128K
最大输入: 96K
最大思维链长度: 32K
最大回复长度: 8K

视觉推理模型,支持视觉输入及思维链输出

上下文长度:120K
最大输入: 96K 单图最大16384
最大思维链长度: 16K
最大回复长度: 8K

https://AI.google.dev/gemini-api/docs/long-context?hl=zh-cn

2025 年 2 月 更新
输入令牌限制: 1M
输出令牌限制: 8K

Gemma 3

https://huggingface.co/models?search=google/gemma

输入令牌限制: 4B、12B 和 27B 大小的总输入上下文为 128K 个 token,1B 大小的总输入上下文为 32K 个 token
输出令牌限制: 8K

LlamaLlama 4 Scout:共有1090亿参数,17B活跃参数,16个专家,1000万Token上下文窗口(约2000万字文本或20小时视频)Llama 4 Maverick:共有4000亿参数,17B活跃参数,128个专家,100万上下文

Grok 3 的上下文长度支持 100 万 token, 输出16K。

输入上下文长度: 128K
最大输出: 16K

o3-mini

近年来,大型语言模型(LLM)的上下文长度(context length)经历了显著增长:从最初的8K token,到年初主流的64K,再到如今128K已成为标配,部分模型甚至突破1M(如Llama 4 Scout的10M、Grok 3的1M)。

输入长度:主流模型(如DeepSeek-V3、Qwen2.5、Gemini 2.5 Pro)普遍支持64K–128K,部分(如Claude 3.7 Sonnet、Llama)达到百万级。

输出长度:多数限制在8K–16K,但谷歌Gemini 2.5 Pro支持64K输出,OpenAI的o3-mini甚至允许10W token输出。

LLM的上下文长度竞赛将持续升温,但技术重点可能从“单纯扩展数字”转向“高效利用长上下文”,同时结合多模态、推理能力,推动AI在复杂任务中的实用化落地。

百万级(1M+)上下文可能从“突破性”变为“标配”,尤其面向企业级长文档处理、视频分析等场景。当前输出长度(8K–16K)可能难以满足复杂任务(如长篇报告生成),未来或向64K–100K演进视觉模型、推理模型的发展必然会导致LLM增大上下文。超长上下文的计算成本仍是瓶颈,LLM厂商可能会优化计费策略,到时候垂直行业(法律、医疗)的长文本分析或成为主要应用场景。

来源:正正杂说

相关推荐