摘要:大家可能已经习惯了把长文档丢给Kimi分析总结,或者是打开豆包,让它搜索想了解的知识,又或者让ChatGPT用不同文风写文章。许多人暗暗惊叹过:为什么这玩意儿如此智能?
大家可能已经习惯了把长文档丢给Kimi分析总结,或者是打开豆包,让它搜索想了解的知识,又或者让ChatGPT用不同文风写文章。许多人暗暗惊叹过:为什么这玩意儿如此智能?
更令人惊讶的是,这些像人一样智能的产品,好像才出现了不过几年?
就在2018年,我们还在用“人工智障”调侃语音助手;而从2022年ChatGPT爆火开始,到了今天,大模型已经能帮人写代码、做高考题、甚至通过执业医师考试。从“听不懂人话”到“好像比我还聪明”,不过经历了不到十年。
这场智能演化来得如此迅速和猝不及防,不禁让人好奇:这段技术发展历史到底是什么样的?
今天我们就一起看看这段短短数年,却对人工智能发展至关重要的智能演化史。
在了解大模型发展历史之前,我们先简单了解一下什么是大模型。虽然可能大家已经使用过大模型,也习惯了ChatGPT、豆包像人类一样的回答,但“大模型”这三个字到底指什么,它和我们以前用过的Siri、小度有什么本质区别,很多人仍是一头雾水。
有经验的用户应该感受过,过去那些语音助手,像是背了几本问答手册在照本宣科,回答不上便是“对不起,我没听懂”。
而今天的大模型,不再是死记硬背,而是先把图书馆里能看的书全读一遍,学会了自己组织语言,学会判断人类的意图,也学会了人类世界的基本常识甚至专业知识。当你抛给它一个问题,它基于自己学到的知识,现场“边想边说”,生成一段从未出现过的全新回答。这就是生成式大模型的核心能力。
之所以能实现这一点,核心就是“大”:
参数多:动辄上百亿、上千亿个参数,堪比大脑神经突触的规模数据大:预训练阶段把公开网页、书籍、百科、代码等整个互联网文本“吃进去”,阅读量是人类一生的数百万倍算力大:需要成千上万块GPU组成超级计算机,训练与推理的耗电量巨大。比如ChatGPT每天用电量相当于1.7万个美国家庭的用电量而“大”带来的直接变化就是泛化:它不再局限于固定问答,能写诗、写代码、做算术、翻译、画图、推理,甚至模仿你的语气聊天。
可以说,小模型像背题,适用领域非常局限,而大模型像真正学会了思考,能处理更广泛和复杂的问题。通用性达到一定程度的大模型,就是通用人工智能AGI最浅显直白的含义。
理解这一点,我们再去看它的成长史,就能明白大模型的每一次技术突破,都是在让这颗“数字大脑”更大、更快、更会思考。
在大模型出现之前,人们是怎么处理对话任务的?
在Transformer和大模型提出之前,对于这种生成式任务的主流处理方法是循环神经网络RNN。这是一种能够记住历史信息的神经网络,适合处理语音、文本这种序列数据。
顾名思义,RNN是通过循环递归地更新一组隐藏状态,或者说“记忆”,把前面见过的信息记在神经元里,下一次再读入新词时,就把旧记忆和新词一起整合成新的状态。这样一来,理论上模型可以追踪任意长的上下文,就像人在听故事时,不断把新情节和前文对照理解。
针对机器翻译这种序列进序列出的任务,研究者把两个RNN结合起来,一只RNN做编码器,把任意长度的输入压缩成一个固定长度的上下文向量;再用另一只RNN做解码器,以上下文向量为初始状态,逐步生成输出序列,构建了Seq2Seq模型。这也是当时机器翻译、摘要、对话等NLP任务常用的方案。
但RNN有两大硬伤:记忆容量有限和无法并行训练。固定的状态大小意味着记忆容量有限,随着信息不断更新,容易出现之前的词被遗忘或者旧信息被放大的情况。
RNN的循环递归特性意味着当前的状态要等上一个时刻的状态生成了才能计算,因此多个时刻的状态无法并行。这导致训练速度慢,模型规模难以扩大。
2017年谷歌提出的Transformer彻底摆脱了RNN的这两个问题。
它提出了一个全新的思路:注意力机制。既然在固定大小的状态里记忆所有词很难,不如查询词与词之间的相关度,让模型在每一步都能直接看见整篇文章里任意位置的信息。就像人读文章时,眼睛可以来回扫视,随时把远处一句关键的话拉到眼前对照。
至此,AI的存储-查询范式发生了改变,不再要求把所有内容压缩进一个固定大小的向量,转而维护一组可增长的信息存储,并通过查询来动态地提取里面的信息。
与RNN相比,Transformer没有固定容量的记忆槽,只有一堆可学习的投影矩阵。只要算力足够,序列想多长就多长,旧信息不会被挤掉,新信息也不会被放大到爆炸。这就初步解决了长序列问题。
另一个关键突破是并行训练。虽然在生成时,Transformer仍然只能一个词一个词地往外蹦,但在训练时却是并行的。这首先基于注意力的基本特点:可以一次性地建立序列中任意两个位置之间的关联。其次,Transformer采用了一种名为教师强制的训练策略,绕开了RNN的严格前后依赖关系,让模型能在文章的各个位置同时开始训练。
这种真正的并行训练带来的是参数规模增长的可能。因为大规模的参数增长会带来难以接受的训练时长增长,像RNN这种无法并行训练的模型天然就难以扩大规模,而支持并行训练的模型可以通过堆算力资源的方式来提高训练速度。
并行训练还催生了一个重要范式:预训练-微调。在大规模无标注数据上训练模型,学习通用的能力,再针对具体任务略微调整模型。第一个过程就是前文所说的“阅读整个图书馆的书”,而第二个过程可以理解为针对某个具体的任务再额外阅读一些专业书籍。
在Transformer架构提出后,研究者分成两派,一派推崇仅保留编码器,专注于语言理解,代表模型就是BERT;另一派则是仅保留解码器,专注于生成任务,代表模型则是GPT。
除了去除解码器,BERT模型的核心创新在于双向上下文建模:通过掩码语言模型任务(也就是完形填空任务),BERT能同时利用单词的左右上下文信息,打破了以往模型只能单向读取文本的局限。
在2018年Google开源BERT后的短短几个月内,它就像一阵飓风席卷了整个自然语言处理界——从学术榜单到工业系统,几乎所有与文本相关的场景都在“BERT化”。Google在2019年宣布英文搜索全面上线BERT,覆盖10%的查询请求;中文搜索也在2020年跟进。
但BERT也有与生俱来的缺陷:生成能力缺失。作为纯编码器,BERT无法直接生成文本,只能用于理解任务。虽然双向建模能力让下游任务效果大幅提升,但也在参数量增加到一定程度后,性能提升趋于饱和。
与此同时,OpenAI选择了另一条路:仅保留Transformer的解码器,坚持单向语言建模,也就是类似RNN循环生成的自回归方式。自回归生成模型可以简单理解为“词语接龙”,模型不断把提示词和之前预测的所有词作为输入去预测下一个词。
2019年OpenAI发布GPT-2,验证了用大规模无监督的预训练模型去做有监督任务可行性,并且把参数量从前代的1.17亿提升到15亿。这是首次,人们发现通过大幅增加模型规模和训练数据量,能够大幅度提升模型性能,验证了“更大即更强”的技术路线。
当时GPT-2表现出了一种零样本生成的能力,即无需微调,仅凭提示词就可生成连贯的新闻、故事甚至代码。OpenAI甚至因担心其过于逼真而暂缓发布完整模型,引发了公众对“AI伪造文本”的恐慌。
从此,目前大模型领域最为人熟知的术语——提示词,开始进入人们视野。
2020年OpenAI发布GPT-3,在参数量上比GPT-2提升了百倍,达到了1750亿。如此大规模的参数,意味着大量的GPU算力和电力成本投资。是什么促使OpenAI的研究者如此有信心?
答案就是尺度定律。这个定律是一个通过实验总结出的经验公式,核心结论是:对于计算量、模型参数量和数据集大小,当不受其他两个因素制约时,模型性能与每个因素都呈现幂律关系。
这种可以预测的性能提升,可以理解为大模型的摩尔定律,它告诉我们把模型、数据、算力同步做大,性能就会按幂律稳定提升。从工程的意义上来说,Scaling Laws把人工智能的研发从“炼丹”变成了可以预测和规划的工程学。
参数量的提升给GPT-3带来了前所未有的能力提升,展现出了许多小型模型中未曾观测到的能力,例如上下文学习、多步骤任务分解等,这种现象被称为涌现。
虽然GPT-3引起了广泛的关注,但影响的主要还是NLP领域的研究者。而ChatGPT不一样,它的出现吸引了全世界的目光,直接开启了一个大模型时代的序幕。
关于ChatGPT为何成功的分析有很多,但所有分析都会提到一点:人类反馈强化学习RLHF。OpenAI研究人员发现,大语言模型在预训练和监督微调之后,其输出与人类真实偏好可能并不一致,会出现生成“幻觉”内容或无法遵循复杂指令。
RLHF通过引入一个由人类偏好训练出的奖励模型,用强化学习来优化大语言模型的生成策略,从而将模型的输出与人类对高质量回答的定义对齐。
经过强化学习训练的ChatGPT展现出了强大的逻辑推理能力,能够将复杂问题拆解为多个步骤,逐步推理并得出答案。它还能主动承认错误,虚心接受用户反馈,并据此优化自身的回答。
所有的研究者都相信,真正的通用智能不会被束缚在单一文本模态里,而是文本、图像、音频、视频的多模态大融合。
2023年发布的GPT-4率先把这一理念落地,完成了从“大型语言模型”到“大型多模态模型”的升级。它不仅能处理文本输入,还能理解和分析图像内容,实现了文本与视觉信息的深度融合。
在2025年8月初,OpenAI发布了GPT-5,官方定位是“与博士级专家对话”——它首次把“通用对话”“深度推理”与“工具调用”封装进一个统一的系统。
GPT-5在编程、通用对话、多模态等领域性能有了进一步提高,并且大幅度降低幻觉。数学推理方面,它在AIME 2025测试中达到94.6%的准确率;在多模态理解和医疗健康领域表现也显著提升。
从RNN到GPT,短短十余年,AI完成了一场从背题到思考的智能演进。这条技术演进路线中,Transformer摆脱了RNN的时序依赖关系,实现了并行训练;Bert放弃了Transformer的Decoder结构,专注于上下文理解;GPT则在追求生成式预训练的过程中,发现了尺度定律,在更大更强的道路上不断探索,最终创造出ChatGPT这样的里程碑式产品。
受限于篇幅,本文只是粗浅地介绍大模型的发展过程,这个领域的很多关键技术我们还没有提及,比如处理更多输入的长上下文技术,能够大幅度扩展参数的混合专家模型MoE技术,以及大家更感兴趣的应用层技术:检索增强生成RAG、智能体Agent、DeepResearch等等。
未来我们还将探讨大模型目前的局限性,适合或不适合用在哪些场景,以及如何与数据领域结合等问题。敬请期待!
来源:正正杂说