AI大模型技术解析-大模型背后的冷知识

摘要：想快速掌握大模型关键技术？本文从 AI 产品经理视角，深入浅出剖析 Agent、MCP 等术语，涵盖定义、原理、应用场景及相关概念关系，为你构建清晰知识体系，助你在大模型浪潮中把握技术核心，提升产品竞争力。

想快速掌握大模型关键技术？本文从 AI 产品经理视角，深入浅出剖析 Agent、MCP 等术语，涵盖定义、原理、应用场景及相关概念关系，为你构建清晰知识体系，助你在大模型浪潮中把握技术核心，提升产品竞争力。

在大模型快速演进的今天，我们每天都能听到各种新词横飞—Agent、SFT、MCP、RAG、LoRA……仿佛不懂这些术语，就跟不上AI时代的脚步。然而，这些词语背后不仅仅是技术，更代表了AI应用的逻辑结构、训练范式和演进方向。

作者从一名AI产品经理视角来带你们了解并知道这些内容是做什么的。

Agent

定义：国内也叫做（智能体）是一个可以自主感知、思考、决策并行动的软件“角色”或系统，它能根据外界输入自主完成任务。

先说结论：Agent 是一个具备目标导向、自主决策与实际执行能力的AI智能体，正是AI从“懂你说什么”到“能替你完成”的关键一跃。

通俗解释：你可以把 Agent 想象成你手机里的“聪明小助理”——比如 Siri、ChatGPT、或自动回复机器人，但更智能、更有主见。

1. Agent原理

下面用一个通俗易懂、生活化的方式，详细解释 Agent 是什么、它怎么工作的、背后是怎么分析用户需求的。

环境/用户 →【观察】→ 状态/记忆 →【推理/规划】→【行动/调用工具】→【获得反馈】→ 循环

一句话：Agent 是一个能“感知—思考—行动—再感知”的闭环系统。它在环境中接收信息（观察），根据目标与记忆做决策（推理/规划），调用工具执行动作（API/代码/机器人手臂等），再根据结果调整后续行为，直到完成任务或达到终止条件。

举个例子：

假设你跟它说：“我想订一张下周去北京的火车票。”

普通程序只能告诉你一些车次信息。

Agent 会自动：

明白你要“订票”这个意图；知道你的位置是“上海”，目的地是“北京”；查询你喜欢的出发时间和座位类型（软卧/高铁/二等座）；登录订票系统；自动帮你选好车次、填好乘客信息；提醒你付款，甚至自动完成。

这就好像它“帮你办事”，不需要你一步步教它。

2. Agent 的基本组成

Agent 不只是一个程序，而是由多个“脑子 + 手脚”组成的智能体：

3. Agent 是怎么“理解”你需求的？

背后靠的是大语言模型 + 多模态感知 + 推理引擎等AI技术，流程如下。

总结一句话：

Agent = 能理解人类语言 + 自主思考 + 自动办事的“数字小助手”。

它不只是聊天，而是“有大脑、能干活”的 AI 小工人，可以应用于自动客服、个人助理、数据分析、企业流程等各种场景。

与相关概念的关系：

与Chatbot的区别：Chatbot多为“问答/对话”，Agent以完成目标为中心，能主动拆解任务、调用工具与记忆、与环境交互并闭环。与RAG的关系：RAG是一种取数/补充上下文的技能。在Agent中，RAG常被当作一个工具：当缺知识或需查事实时调用检索再决策。与MCP/工具协议：像MCP这类“模型与工具/资源之间的协议与标准”，本质是让Agent以统一方式发现并调用外部能力（文件、数据库、工作流、API），降低集成成本、提升可移植性。与SFT（监督微调）：SFT可把“遵循指令、使用工具、写结构化调用”的能力固化进模型，使Agent更稳更听话；也可对特定域（客服、法务、运维）做专精。

4. Agent特征

自主性(Autonomy):智能体能够在没有人类直接、实时干预的情况下独立运行和做决策。它的行为是基于自身的经验和感知，而不仅仅是执行预设的指令。反应性(Reactivity):能够感知环境的变化并及时做出响应。例如，一个机器人在前进时，如果传感器检测到障碍物，它会立即停下或绕行。主动性(Proactiveness):不仅仅是被动地对环境做出反应，还能主动地、有目标地发起行动，以达成既定目标。例如，一个投资交易智能体可能会主动分析市场趋势，并在它认为合适的时机执行买卖操作，而不是等待指令。学习能力(Learning/Adaptability):这是智能体“智能”的核心体现。它能够从过去的经验中学习，不断调整和优化自己的行为策略，以在未来获得更好的性能。例如，一个下棋AI(如AlphaGo)通过数百万次的自我对弈来学习，不断提升棋艺。目标导向(Goal-driven):智能体的所有行为都是为了实现一个或多个预设的目标。例如，恒温器的目标是保持室内温度在一个特定范围。社交性(SocialAbility):在多智能体系统（Multi-AgentSystem）中，智能体能够通过某种通信语言与其他智能体进行交互、协作、协调或谈判，共同完成更复杂的任务MCP

1. MCP 是什么？——像安排外卖小哥送餐的详细步骤

✅ MCP 的特征：

MCP 就像你是一个外卖平台的调度员，你要让 AI（小哥）完成一项任务，比如送餐，你会怎么安排？

你不会只说一句“去送餐”，你得一步步告诉他：

先查订单：哪位顾客、什么地址、点了什么？去商家取餐：到哪个店、什么时间去拿？规划路线：怎么送最快？联系客户：临时找不到门牌号怎么办？送达并确认：顾客收货后拍照留底

这就是 MCP：把大任务分成多个小步骤，AI 按步骤完成，更准也更聪明。

2. API 是什么？——像你点了一单外卖

API 是 Application Programming Interface 的缩写，意为“应用程序编程接口”。

本质上是：

一个系统或服务暴露出来的 接口或通信协议，用于让其他程序调用其功能或数据。

你作为用户，只要点一点按钮：“我要点外卖” → 这个请求就发给外卖平台。

平台收到后，会自动调用后台：

派单给骑手通知商家做菜更新配送进度

你发的这个请求，就是 API：你调用了别人的服务，让对方帮你干活。

总结对比：像你管理外卖平台 vs 你自己点外卖

一句话总结：MCP 是 AI 干活时的“分步骤计划书”，API 是你去找别人帮忙的一张“请求单”。

MCP 是 Multi-Component Prompting 的缩写，中文叫“多组件提示工程”或“多模组件提示”。它是一种用于构建复杂任务链的提示工程框架，广泛用于 Agent 系统、RAG 系统或链式大模型执行环境中。

3. MCP 和 API 的区别

通俗理解：

MCP是你如何组织思路和任务让大模型聪明地一步步完成。API是你如何把这个模型的能力打包成服务供别人调用。Transformer

Transformer 是一种在自然语言处理和生成任务中广泛使用的神经网络架构，由 Google 于 2017 年提出。它彻底改变了机器学习对语言的建模方式，是 GPT、BERT 等主流模型的基础。

一句话总结：Transformer 是一种完全基于注意力机制的模型架构，可以并行处理序列数据，用于文本理解和生成任务。

1. Transformer 是什么？（通俗版）

Transformer 是一种人工智能的大脑结构，专门用来处理语言。比如：

让ChatGPT能看懂你的问题让翻译软件知道“你好吗”该翻成“Howareyou”让AI写小说、生成文章、做总结……

类比：Transformer 就像一个特别聪明的「翻译专家团队」

你可以把 Transformer 想象成一个团队，这个团队里每个成员负责理解一个词，但他们都会：

互相沟通（注意力机制）商量每个词之间的关系（谁更重要）一起得出结论（比如：整个句子的意思）

举个例子——假设你说：

“小明今天去学校”

这个句子进入 Transformer 后，它会像这样处理：

“小明”是谁？和“去”有关系。“今天”是时间词，要和“去”搭配。“学校”是目的地，和“去”关系最紧。

于是它会得出结论：这是一个人今天去了学校。

2. Transformer 有什么厉害的地方？

通俗记忆法：Transformer = “每个词都能开会的团队”

不像传统方法一个人拍板，Transformer 更像：

每个词都开会每个词都能说：“我觉得我和某个词关系很大！”最终得出最合理的理解结果

它是很多AI的核心引擎！

ChatGPT（聊天）Google翻译Midjourney（图像AI）Suno（AI音乐）BERT（搜索引擎理解你的问题）

背后其实都在用 Transformer！

2. 工作原理详解（逐层分析）

1）输入编码（Input Embedding + Position Encoding）

将词转换为向量（WordEmbedding）加上位置编码（因为Transformer不具备RNN的时序性，需显式添加位置信息）

2）Encoder 编码器部分

包含 N 个重复的子结构，每个子结构有：

a. 多头自注意力机制（Multi-Head Self-Attention）

每个单词都可以关注其他单词的表示。

多头机制能从多个角度建模关系。

b. 前馈神经网络（Feed Forward）

对每个位置单独应用一个小型的两层全连接网络。

增强非线性建模能力。

c. 残差连接 + LayerNorm

保持梯度稳定，增强训练效果。

3）Decoder 解码器部分

也包含 N 个子结构，与 Encoder 类似但多了一步：

a. 掩码自注意力（Masked Multi-Head Attention）

防止看到未来词，用于生成任务。

b. Encoder-Decoder Attention

解码器可以访问 Encoder 输出，建立翻译/问答的对齐关系。

Diffusion Model

1. 什么是 Diffusion Model（扩散模型）？

Diffusion Model（扩散模型） 是一种AI图像生成技术，现在很多爆火的AI图片（比如Midjourney、Stable Diffusion、DALL·E）背后用的都是它。

通俗讲，它像是“在画布上不断擦除噪声，逐渐显现图像细节的过程”。

你可以把它想象成这样的过程：

一个比喻：照片修复术

想象你有一张清晰的照片；你故意往照片上涂很多杂乱的噪声，照片被弄糊了；然后，你训练一个AI模型，去一步一步地把噪声“清除”掉，直到恢复出原始图像；

最神奇的是：只要告诉它一句话（比如“一个在火星上弹吉他的猫”），它可以从纯噪声开始，一步步还原出这张从未存在的照片。这就是扩散模型的魔力。

工作原理详解（通俗版）：

整个过程分为两个阶段：正向扩散（加噪声） 和 逆向扩散（去噪声）1.正向扩散（Forward Process）

从一张真实图片开始，不断加入随机噪声，最后变成一张“白噪声图”（像电视雪花那样）。

过程是有步骤的，比如1000步，每一步都让图像更模糊。

这个阶段其实不需要模型预测，是“已知”的过程。

2.逆向扩散（Reverse Process）

模型的目标是：学习怎么从噪声中一步步还原出图像。

它是通过训练数据学到的，比如看了很多猫的图，就知道“从噪声中恢复出一只猫”的方法。

每一步，模型会预测“这张图中，哪里是噪声，哪里是内容”，然后一点点清除噪声，直到生成完整图片。

2. 为什么它这么强？

多模态

多模态模型（Multimodal Model），通俗来讲就是一种“能看、能听、能说、能理解”的AI模型。下面我用非常简单的方式为你解释它的本质和工作方式。

1. 什么是“模态”？

在人工智能里，模态（modality）就是信息的类型或感官通道，比如：

图像、视频→视觉模态声音、语音→听觉模态文本、语言→语言模态传感器数据（GPS、雷达、热感等）→其他模态

所以，“多模态”就是同时处理多种信息源，而不是只理解文字。

2. 多模态模型是干嘛的？

它能同时理解和融合多种信息形式，就像一个人可以一边看图，一边听声音，还能用语言表达和思考。

举个最简单的例子：

你发给它一张图片，问它：“图中人在干嘛？”

多模态模型能看懂图片，还能读懂你的问题，并用语言回答。

如果是传统语言模型（如早期的GPT-3），它只会处理文字，看不懂图片。

3. 它是怎么工作的？（通俗流程）

1）感知阶段：

把图片转成“视觉特征”；把声音转成“语音特征”；

把文字变成“语言特征”。

2）理解阶段：

把不同模态的特征统一转化成一样的向量格式；这样模型就可以在同一个“脑子”里理解各种输入。

3）生成阶段：

根据指令或上下文，选择输出方式：

回答文字；生成图片；合成语音等。

4. 多模态模型能做什么？

代表性多模态模型有哪些？：

GPT-4o：OpenAI多模态模型，会看图、听音频、对话Gemini（Google）：文字、图片、音频、代码全能型Claude3（Anthropic）：支持长文本和图片理解文心一言、通义千问：国内大厂也在搞

总结一句话：多模态模型就像是拥有“眼睛、耳朵和嘴巴”的AI，比只能“读文字”的模型更像人类，能理解复杂场景，也更适合真实世界的任务。

SFT

SFT 是 “Supervised Fine-Tuning” 的缩写，中文一般翻译为 有监督微调。它是训练大语言模型（比如 GPT、LLaMA 等）中的一个重要步骤。下面我用通俗的方式详细解释一下。

一句话解释：SFT 就是“用人工标注的好样本来教 AI 怎么更聪明地回答问题”。

1. 为什么需要 SFT？

在训练语言模型的过程中，最开始它只是通过大量文本进行“无监督预训练”（比如看百科、论坛、新闻等），学会了“语言”的基本规则。

但这种模型可能会：

胡说八道回答不符合人类期望不太懂怎么礼貌表达不知道哪些回答是“对的”

这时就需要 SFT 来“纠正它的行为”！

2. SFT 是怎么做的？

SFT 过程就像老师带学生写作文一样，步骤如下：

准备一批高质量的“标准答案”

比如用户问题：“如何炒西红柿鸡蛋？”

答案：“先把鸡蛋打散炒熟盛出，再炒番茄，最后一起翻炒，加盐出锅。”

这些数据是人工标注、精选的好内容。

用这些问答对微调模型

把模型原来“模模糊糊”的知识，通过这些具体例子“拉正”。

这就像老师给你一堆范文，指导你如何答题。

模型学到更符合人类习惯的表达方式和结构

比如更礼貌、更有逻辑、不跑题、内容更实用。

预训练

1. 什么是模型预训练（Pretraining）？

一句话解释：就像我们上学要先打好基础知识一样，大模型在被真正用来解决具体任务前，也要先“上学”学点通用知识，这个阶段就叫“预训练”。

详细通俗解释：

把AI大模型想象成一个新员工，你想让他来写文章、写代码、回答问题、画图…… 但在他正式开始工作前，你总不能啥都不教就让他上岗吧？

所以，你会先给他安排一个“通识培训”：

给他看很多书籍、网页、百科全书，让他熟悉语言、常识、世界知识；让他学会分辨什么是语法正确的句子，什么是胡言乱语；教他如何“理解”一段话里说了啥。

这个通用培训阶段，就是“预训练”。

它的目标是让模型掌握语言规律、积累常识、形成通用的表达能力，为后续“专门任务”打下基础。

举个真实案例

模型名字：GPT

GPT就是通过预训练起家的。它的预训练方式是：

给它看互联网上的大量文本，比如维基百科、Reddit、书籍、新闻等；给它一个句子的一部分，例如“世界上最高的山是___”，让它猜出下一个词是“珠穆朗玛峰”。

它不断在这种“猜下一个词”的游戏中训练，逐步学会语言表达和世界常识。

👉 最终结果：它不仅能写句子，还能写文章、写代码、做翻译，甚至回答各种问题。

类比案例：教小孩学语言

你教小孩说话，不是一下子就让他去答题，而是：

多听别人说话（输入）；尝试模仿说话（输出）；不断纠正他错的表达（学习反馈）；

这就是“预训练”过程。

后面你才会让他去考语文（翻译）、数学（逻辑）、写作文（内容创作）这些“下游任务”。

总结一句话：模型预训练，就是AI在“上岗”前的大规模通识教育，教它语言规律和世界常识，为后续专门任务打基础。

质检和互检

质检 = 对模型输出结果进行“质量检查”，通常是由专人或者质检团队来做的。

举例说明：

假设你在做一个问答大模型，你让模型回答问题，比如：用户问：“月亮上有水吗？”

模型回答：“月亮上没有任何水或冰。”

这时候，质检员会检查这个回答是不是准确的、有没有语病、是否逻辑混乱或事实错误。

他们可能会从以下维度来打分或评判：

准确性（答得对不对）流畅性（语句是否通顺自然）逻辑性（有没有前后矛盾）敏感性（有没有涉及违规内容）是否“答非所问”

通常还会记录问题，反馈给模型训练团队或者数据标注团队。

1. 大模型中的“互检”是啥意思？

互检 = 数据标注员或评估员之间互相检查对方的标注或判断是否合理。

举个例子：

你和你的同事小李都在给模型“标注数据”或“评估模型回答”。

比如你俩都在看下面这个模型回答：

用户问：“狗能不能吃巧克力？” 模型回答：“可以适量吃一点。”

你觉得这个回答有误，打了“不合格”；但小李觉得“还行”，打了“合格”。

这时候你俩会互相检查对方的打分或评语是否合理，甚至提交给“第三人仲裁”，以保证数据标注一致、评估标准统一。

2. 总结对比（适用于大模型数据工作）

上下文长度

用大白话说：“上下文长度”就是模型一次能带在脑子里看的“聊天记录/材料”的容量。超出这个容量，最前面的内容会被“挤掉”，它就记不清了。

1）快速类比

像一块白板：你不断写字，写满后再写，最早的内容就被擦掉了。像购物车容量：能装这么多，再多就掉出来。

2）举例

你和模型聊项目，先说了目标、预算、时间，然后又连发一大段无关闲聊。如果总字数超过它的上下文长度，最早的“目标/预算/时间”可能被挤出，它后面答复就会忽略这些关键信息。

你丢一本很长的文档（比如几十页）让它总结：如果文档整体超过上下文长度，它只能看“放得下”的那一段，没看到的部分当然也就总结不到。

3）和“记忆/知识”不是一回事

上下文长度：一次对话里能带着看的临时输入上限。模型知识：训练时学到的长期知识（不会因为当前对话长短改变）。

4）怎么避免“被挤掉”

分段提问：长材料切块问，每块都让它先“摘要+要点”。重复关键约束：在新问题开头，再把核心要点复述一遍。滚动摘要：让它把前文压缩成要点清单，再继续讨论。用外部记忆（RAG/知识库）：把大材料放在外部，按需检索片段再喂给它。

一句话总结：上下文长度 = 模型一次能“随身携带”的内容上限；装不下的早期内容会被顶掉，所以长对话里要学会提炼与分段。

GPT-3.5 的上下文长度是 4，096 tokensGPT-4 是 8，192 到 32，768 tokensGPT-4o 是 128，000 tokens量化

首先需要理解什么是「量化」？

把模糊的、连续的、难度量的东西，变成可用数字表示的东西。一句话：从“感觉”到“数字”。

1. 在AI里的“量化”（模型量化）

把模型里原本用 高精度小数（比如 32 位浮点数）的参数，压缩成 更少的比特（如 8 位或 4 位整数）。目的：更省内存、更快推理，代价可能是精度略降。

比特数与可表示级数

8位（int8）→2⁸=256个等级4位（int4）→2⁴=16个等级

直观例子

假设一个 70 亿参数的模型：

16位（2字节）存：约14GB4位（0.5字节）存：约3.5GB体积直接缩小到四分之一左右，载入更快、显存压力小，但可能精度稍有损失。

小贴士：常见做法有训练后量化（PTQ）和量化感知训练（QAT）；后者在训练中考虑量化影响，精度通常更稳。

模型参数

什么是“模型参数”？

把AI模型想成一台有很多很多小旋钮的机器。每个小旋钮就是一个“参数”，都记着一个数字。训练=不停拧这些旋钮，让机器更会“做题”。训练好之后，这些旋钮固定住，用来回答问题/生成内容。

1. 单位是啥？

我们常用缩写来表示有多少个：

K=千（差不多一千个）M=百万（一百万个）B=十亿（一十亿个）

所以：

7B=70亿个小旋钮128B=1,280亿个小旋钮

为啥大家老说“参数越多越强”？

旋钮越多，机器能记住/表达的细节越多，通常更聪明；但同时也会更占内存、更慢、更费电。就像功能越多的家电更笨重一样。

2. 容易混淆的“B”

说模型规模时：B=十亿个参数（比如“7B模型”）说文件大小时：B=字节（Byte）（比如“128B文件”=128字节）看上下文判断就行。

一句话总结：

模型参数=模型里的小旋钮数量单位=个（用K/M/B表示数量级）128B模型=1,280亿个参数参数越多通常越强，但更占内存、跑得更慢LoRA

1. LoRA 是什么？

LoRA = Low-Rank Adaptation（低秩适配）。在 Stable Diffusion/SDXL 这类模型里，LoRA 就像给“会画画的机器人”装可插拔的小外挂：不改机器人的核心（底模），只加几块很小的“插件参数”，就能学会一个新风格/角色/产品外观。

它怎么做到的？

底模里有很多大矩阵（权重）。LoRA把“要学的新东西”压缩成两个小矩阵 A、B（秩 r 很小），只训练它们；用的时候把它们按一定强度“加回去”。结果：显存小、训练快、文件小（通常几MB～几十MB），还不破坏原模型。

2. 它改哪里？

在图像模型里（以 SD/SDXL 为例），LoRA最常插在：

U-Net的Attention层：学到新风格、新纹理、新特征最有效TextEncoder（如CLIP）：让提示词更贴近某风格或专有名词（VAE很少插）

什么时候用 LoRA？

学风格（赛博朋克、油画、水彩…）学专属角色/艺人/IP（同一脸型服饰）学产品外观（你的品牌手表/汽车/包）

一句话总结：LoRA = 给底模加“可拔插的小插件”。只训练很少参数，就能把通用模型快速变成“懂你那一味儿”的专属画师。

来源：人人都是产品经理

标签：模型 transformer agent 冷知识 mcp

本文地址：http://news.43b.com.cn/a/935695.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!