摘要:本文作为“AI产品经理转型三部曲”的技术篇开篇之作,将深入浅出地剖析大语言模型(LLM)和智能体(Agent)的核心概念、工作原理及其在实际应用中的关键要点。
本文作为“AI产品经理转型三部曲”的技术篇开篇之作,将深入浅出地剖析大语言模型(LLM)和智能体(Agent)的核心概念、工作原理及其在实际应用中的关键要点。
通过前面两篇AI认知文章,想必大家已经对AI有更深入的理解;
如果还没有看过,可以先前往阅读学习《AI产品经理转型三部曲—认知篇①直视AI,认识AI》;《AI产品经理转型三部曲-认知篇②结构AI本质》
今天将进入我们三部曲的第二部—技术篇;
我的初衷是帮助每一个希望转型、进入AI行业的伙伴;所以分享的内容会相对更细致;技术篇我尽量通过两篇文章,根据自己浅显的见解和经验,帮助大家理解AI技术的理论知识。
更深入的比如智能体实操内容,我会后面进行分享。
随着越来越多的AI智能体和大模型发布,非常多专业的术语进入眼帘,我知道很多同学是排斥的;我举个例子:
GPT-5大模型的参数量可能达到 52 万亿,其上下文窗口可能扩展至百万 token,可实现超长对话记忆与连贯性;GPT-5 还可能引入多模态学习能力,不仅可以理解和生成文本,还能处理图像、音频等多种形式的数据。
当阅读这段内容时候,是否会有很多疑问?以及如果有的同学已经在使用Dify或者Coze之类的低代码平台,发现大模型输出内容和预期偏差较大,原因是什么?
今天我分享的内容,主要会围绕LLM和Agent来展开。
一、 LLM(Large Language Model 大语言模型)大模型本质上是一个超级复杂的数学模型,它的 “大脑” 由数十亿甚至上千亿个参数组成。
这些模型通过分析互联网级别的海量文本(比如书籍、网页、聊天记录等),学会人类语言的规律:词语如何组合成句子,句子如何表达逻辑,不同语境下语义如何变化等。
我依稀记得在2年前,通过chatgpt输出一篇小说的时候,一字一句的展示在大屏幕上给我带来的震惊,我那时候在想,AI是在自己打字吗?
其实不然,大语言模型的输出过程本质上就是一场超级 “成语接龙”。就像我们玩成语接龙时,每个成语的首字要接前一个成语的尾字;
大语言模型在生成文本时,它每个新生成的词语都需要基于前文的语境来选择。
举个简单的例子:
当模型看到 “下雨天要带伞” 和 “下雨没带伞会淋湿” 这两句话,它会通过统计分析发现 “下雨” 和 “带伞” 之间存在强关联,从而理解雨天与伞具使用的逻辑关系。
比当前文是 “今天天气很好,我们决定去”,模型需要生成下一个词。这时模型重点关注 “天气很好” 和 “去”,从而联想到 “公园”” 爬山 ” 等合适的词语。
所以模型本身并不真正 “理解” 文字含义,它只是通过数学计算,将人类语言转化为可处理的数字信号,再根据这些信号预测下一个可能出现的词语。
接下来,我会以多个大模型关键指标维度,和大家分析其原理和作用。
1. 参数量(Number of Parameters)
在上一篇文章中有提到,大模型的本质是模仿人类的神经元结构;
所以我们可以把大语言模型的参数量想象成我们大脑里的“神经元”数量。
人类大概是860亿个神经元,黑猩猩大概330亿,猫是2.5亿,老鼠1亿;所以可以看出,神经元数量越多,认知、思维和行为能力就越强。
同理,大模型的参数越多,模型就越聪明,能记住更多东西、理解更复杂的语言。
可以把参数简单理解为模型的“可调节旋钮”,它决定了AI如何理解和生成信息。但是并不是参数越多越好,同时也需要更庞大的算力资源。
如果参数非常大,但是训练数据或计算资源不足,超大参数模型可能“过拟合”(过度学习,导致模型泛化能力下降。)。
2.算力(Computing Power)
可能会听说某个公司采购数千块电脑GPU,从而满足公司大模型的算力要求。
以GPT-3举例:
GPT-3(1750亿参数)的训练需要约 3.14×10²³次浮点运算(相当于数千块高端GPU连续工作数周)。
训练GPT-3级模型: 电费+硬件成本超1200万美元。
简而言之,算力就像汽车的“引擎功率”—引擎越强(算力越高),车跑得越快(AI训练和推理速度越快)。
3.向量(Model Vectors)
在数学中,向量是具有方向和大小的量,比如二维坐标系中的 (3,4) 就是一个向量。
而在大模型中,向量是将语言符号(词语、句子)转化为数字数组的工具,我们称之为 “词向量” 或 “句向量”。
想象一下,每个词语都被装进一个 对应分类的”盒子” 里,这个盒子里的每个数字都代表词语的一种特征;
以上图为例,比如 “Antelope” 和 “wildebeest” 的向量中,角马和羚羊都属于动物,他们的向量关系比较接近;
“Basketball”和“Soccer”的向量中,足球和篮球都属于运动类项目,他们的向量关系就比较接近。
通过这种方式,模型就能用数学方法计算词语之间的相似度。在大语言模型实际的转换过程中其实会更复杂;
比如当我们输入 “我喜欢踢足球” 这句话,模型会先将每个词转换成向量:”我”(1,0,3,…)、”喜欢”(2,5,1,…)、”打”(7,2,4,…)、”篮球”(9,6,8,…)。
然后将这些向量输入到复杂的神经网络中,通过层层计算,模型就能捕捉到词语之间的关系:”喜欢” 和 “打” 组合表示动作偏好,”篮球” 是 “打” 的对象。最终,这些向量经过处理后,会生成下一个词的预测向量。
当然,实际的向量转化是涉及非常复杂函数的,这里就不展开说明,大家理解对应原理就已足够。
4.切片(Slicing)
大家煮过西蓝花吗?我还挺拿手的。
但是西蓝花最大的问题在于它很大,无法一整颗放进锅;所以需要我需要将大颗西蓝花切成一块一块;
其次,我不太喜欢吃西蓝花的杆子,所以会吃饭的时候会特地挑不是杆子的部位吃。
在大语言模型中切片指在编程和数据处理中,也是需要做切这个动作的;
切片是一种编程语言特性(尤其在 Python、Go 等语言中非常突出),其核心价值在于提供了对序列局部数据的高效、非复制性(视图)访问和操作能力,极大地提升了代码的简洁性、表达力和处理大数据时的性能
我认为目前切片的考虑主要以下原因:
处理能力有限: 电脑内存(RAM)和处理器(CPU/GPU)一次性能处理的数据量是有限的。超大的数据(比如4K电影、海量文本)必须切成小块分批处理。关注局部: AI模型常常不需要一下子看整张图片或整篇文章。比如识别图片中的人脸,模型可能只需要关注人脸区域(切片)的像素;分析一句话的情感,可能只需要看关键词(切片)。并行加速: 现代GPU有成百上千个核心。如果把大数据切成许多小片,就可以让这些核心同时处理不同的切片,速度大大提升!那为什么需要切?能不能不切?
我认为也许在将来,随着算力飙升(GPU/TPU集群)、硬件革新(大内存服务器)、以及模型处理长序列能力的突破,在某些特定场景下,“理论上”确实可以减少对显式“切片”操作的依赖。这个就交给时间去验证吧!
5.注意力机制(Attention Mechanism)
1997 年,注意力机制首次在图像识别领域已被应用,但是真正是在 2017 年谷歌提出的 Transformer 架构中迎来革命性突破,成为大语言模型处理序列数据的标配技术。
大家还记不记得以前上学时候,做阅读理解的时候,如果逐字逐句看完文章,效率非常低,我们会找文章重点,从而快速做题。
比如看到 “下雨天,小明忘记带伞,结果全身都湿了”,
我们会自动关注 “忘记带伞” 和 “湿了” 之间的因果关系。注意力机制就是模仿人类这种选择性关注的能力而诞生的。
从技术本质看,注意力机制是一组复杂的数学运算组合,核心在于计算输入序列中元素间的 “注意力分数”。具体来说,当模型处理位置 X的词语时,通过以下三个维度去计算,所在位置Y该输出的内容。
Query(查询向量—提问题):Key(键向量—找线索)Value(值向量—拿答案)大家有没有发现,早期的 AI 回复很生硬,比如你说 “今天天气不错”,它可能回 “是的,天气很好!”然后就没下文了。
但现在的 AI 能流畅地接话:”是啊,这么好的天气适合去公园散步呢!”
这背后就是注意力机制在发挥作用。当 AI 生成 “去公园散步” 时,会回顾前面的 “天气不错”,确保内容连贯。就像我们讲故事时,会顺着 “今天生日”” 妈妈买了蛋糕 “”大家一起唱生日歌” 这样的逻辑线,AI 也学会了这种 “上下文接力”,让对话和文章更自然。
6.训练集(Training Data)
我们可以简单把训练集想象成模型成长的“书本”或“见过的世界”。
在机器学习和深度学习中,模型通过对训练集的学习,调整内部的参数(类似大脑的 “神经元连接强度”),从而获得对未知数据的预测或生成能力。
如果把大模型比作一个正在学习的学生,那么训练集就是它用来学习的 “课本”。
“课本” 里塞满了各种各样的知识、例子和问题,大模型通过反复 “阅读” 和 “理解” 这些内容,才能学会如何回答问题、生成文本、完成任务。
举个例子:
当我们想让大模型学会 “翻译中文到英文”,训练集里就会有很多 “中文句子 + 对应的英文翻译” 的例子,比如 “你好→Hello”“今天天气不错→The weather is nice today”。当我们想让大模型学会 “写新闻稿”,训练集里就会有大量真实的新闻文章,包含标题、正文结构、事件描述等内容。如果训练集里的例子足够多、足够准确,大模型就能 “记住” 正确的做法;
若训练集里有很多 “正确语法的句子”,大模型就不容易说出 “我吃饭了昨天” 这种语序错误的话;若训练集里包含不同文化、不同场景的内容,大模型就能避免偏见(比如不误解某些地区的习俗)说句题外话;不知道有没有听说过,身边有的人曾经从事过在网上接单打标的工作;比如选择图片里哪个是苹果、哪个是香蕉、哪个是汽车;
在机器学习发展早期,数据的确大部分由人工手动标注,以构建和积累机器学习模型的训练数据集,尽管耗时且成本高昂,但手动标注数据确实在准确率等方面具有优势。
不过现在的大模型已经开始使用无监督训练,不需要人工标注的标签来进行训练了。
7.微调(Fine-tuning)
上面说到训练集后,我们会发现大模型其实是博览群书的,但是大多数的大模型如果只是依靠预训练阶段的数据集,那他只能成为一名什么家常菜都能做的“厨师”;但是你想吃特别地道的粤菜,他可能就无法做好;
能不能给模型 “开小灶”,用少量专业数据训练它?就像给厨师看几个粤菜菜谱,他就能学中山乳鸽。于是,“微调” 技术诞生了 —— 在已经训练好的大型模型(预训练模型)基础上,用特定领域的数据再 “打磨” ,让模型更贴合实际需求。
更加专业角度来说,微调就是指在预训练模型的基础上,使用特定任务或领域的小规模数据,对模型的部分或全部参数进行优化,以提升模型在该任务上的性能。
我举几个实际的例子,让大家更好的能理解:
医院用医疗影像数据微调 AI,让它学会识别 X 光片里的肺部结节。律师事务所用法律条文和案例微调 AI,帮律师快速检索相似案件。保险行业的某些行业用语微调AI,帮助保险业快速对接潜在用户。8.提示工程(Prompt Engineering)
提示词其实很好理解,提示词的前提还是因为大模型可以理解人类的自然语言,那我们通过提示词就可以告诉AI我们需要什么,提供什么给我等信息;
但是为什么叫工程,因为在理解能力有限的前提下,
如何通过设计、优化输入给人工智能模型的文本提示,引导模型生成更准确、符合预期结果的技术与方法是非常值得大家学习的。网上有非常多的提示词技巧,大家可以多去搜索,我这里就不赘述了,简单来说好提示词 = 清晰目标 + 结构化框架 + 精准约束 + 明确输出标准。
好的提示词是可以提升模型对任务的理解和执行能力。设计高质量输入提示词,引导大模型生成更符合预期的结果,这就是为什么大家用的同样的大模型,有的人却可以创意无限,有的人却只能做到简单问答。
9.Token
Token是大模型中将文本分割处理的最小独立单元,它可以是单词、子词、字符或标点符号;
比如在一句话中“你好”,大模型将每个 Token 转换为对应的数字编码(如 “你” 对应 ID=1234;“好”对应6789。),这样计算机就能以数学方式处理语义。这就像人类学习外语时,需要将单词转化为母语理解,Token 就是语言与机器之间的 “翻译官”。
那token是按照每个汉字或者每个字符计算的吗?
我很喜欢拼乐高,所以我以乐高举例,大家可能会更加深动的理解:
在乐高里,可以看到包装上有写比如拼装需要200个零件,或者500个零件;但是这些零件都是一样的吗?
实际上,每个乐高零件的大小、长度都不一样,但是在统计和使用中,他们都会计算为单独的零件。
同理在大模型处理内容时候,为了更好的理解语义,会按照背后复杂的逻辑推理,将内容拆分成不同的token;
比如说:“我想吃苹果”
大模型会拆分为“我”“想”“吃”“苹果”;共4个token;
“我想买苹果手机”
如果按照上述分类,它会分为“我”“想”“买”“苹果”“手机”5个token?实际上大模型会根据算法,它通过统计字符对出现频率合并单元,并结合语义,类似将 “苹果手机” 拆成 “苹果”+”手机”,既理解局部含义又把握整体;然后通过上下文知道你想买的是手机品牌;
所以这时候大模型会拆分为“我”“想”“买”“苹果手机”;共4个token。
再结合上面所说的注意力机制,是不是更加好理解了;
Token 是人类语言与计算机数学世界的转换器。它将无形的语义转化为有形的数字序列,让模型能通过矩阵运算(如 Transformer 中的注意力机制)处理语言。
二、Agent从英文直译来看,Agent就是代理,代理什么?我们希望AI可以代理人类;
所以我认为Agent 的核心本质是希望让AI系统具备类似人类的 “自主性” 和 “环境交互能力”,帮助人类完成某些特定的工作和任务。
在当今社会,AI Agent是一种基于人工智能的自动化工具,能够自主决策、执行任务并与用户或环境进行交互。
我们回到Agent和LLM的关系来说;
AI Agent = LLM(大模型)+ Planning(规划) + Memory(记忆) + Tools(工具)
如果说LLM是大脑,
那Agent就是利用大脑和四肢,结合任务规划和工具调用,帮助用户完成复杂或重复性工作。
举个例子,比如用户询问 “如何用 Python 分析股市数据”,
Agent 会先调用某个股市软件的 API 获取实时数据,再生成 Python 代码执行分析,结合网络最新的企业财报,最后用自然语言解读结果。
1.Agent的工作原理
把Agent的技术能力解剖,可以分为四层;
输入:用户向Agent提出问题或任务需求。任务拆解:Agent根据LLM将复杂任务拆解成多个可执行的小任务。工具调用:根据任务需要,Agent可以使用外部工具,比如搜索引擎、计算器、API等。执行与反馈:完成任务后,Agent会将结果反馈给用户。场景:比如我们要写一篇万字论文。如果直接用chatGPT写作,我们大概率会不满意,愿意很简单:1. 字数不够。 2. 胡编乱造,缺少真实引用文献。
但是如果我们使用比如扣子空间这样的Agent会怎么做:
第一步:形成大纲,并且考虑清楚每一章节要编写的内容
第二步:使用搜索引擎搜索一些相关书信息进行阅读
第三步:使用搜索引擎搜索相关论文,夯实理论基础
第四步:针对每一个章节进行内容的编写
第五步:论文经过AI审阅,优化其中的段落和内容
最后:最终输出论文,可以是飞书,word,数据库、html等等
也就是说:AI Agent由如下几部分组成,我还是回到上述讲LLM的时候用的厨师的例子来说明每个模块的作用;
LLM(大模型):就像厨师的菜谱知识库,它阅读了海量的菜谱和资料,不仅知道各种菜的名字,还懂得如何烹饪它们。LLM提供了庞大的信息存储和处理能力,以理解和响应我们提出的各种问题。Planning(规划):厨师需要规划每道菜的做菜顺序。比如先备菜、洗菜、热油、下菜、根据用户的喜好,放各种调料,最后出锅。Memory(记忆):这类似于厨师的笔记本,记录了过去用户的偏好,以及每道菜的注意事项。记忆模块让Agent能记住以往的经验和已经完成的任务,确保不会重复错误。Tools(工具):就是厨师的用具,比如锅子、铲子和剪刀等等。Agent的工具模块,指的是它可以运用的各种软件和程序,帮助它执行复杂的任务。2.温度(Temperature):
“温度” 这个概念其实并非大模型的专属,它最早源于物理学中的热力学和统计学。
在统计力学里,温度描述的是微观粒子的热运动剧烈程度;
温度越高,粒子运动越剧烈,分布越分散;温度越低,粒子运动越平缓,分布越集中。大模型中温度是用于调整模型生成内容时概率分布的离散程度,本质是对模型输出随机性的量化调控。
我们可以把温度比为“模型的性格”或“思考时的随机性”。
当温度高时,模型像个“天马行空”的人,生成的内容更有创意,但也可能更不靠谱;当温度低时,模型像个“谨慎的人”,只会给出最安全、最保守的回答。所以当我们自己配置一个Agent时候,
如果需要生成严谨的技术文档时,低温度(如 0.2-0.5)能让模型紧扣专业术语,避免发散。
而在创作诗歌或创意文案时,较高温度(如 0.8-1.2)能让词汇组合突破常规,产生意想不到的比喻。
3.Top-K和Top-P;
在上面说注意力机制的时候,说到大语言模型通过概率分布预测下一个token;
但是那么多可能性,如何高效计算?
大概可以分为三类:
【贪心解码(总选最高分)】→ 大模型输出“今天天气很好很好很好…”——贪心搜索算法简单,主要考虑局部最优,并不一定会是全局最优解;比如在生成 “我喜欢吃苹” 时,贪心算法会直接补全 “果”,却忽略了 “苹” 可能对应 “苹果派”” 苹果汁 ” 等更丰富的表达;【随机采样(闭眼乱抓)】→ 大模型输出“企鹅驾驶航天飞机”——随机采样生成的内容逻辑性和效果均较低。【Top-k/p诞生】 → 平衡质量与多样性Top-k采样保留概率最高的k个token构成候选集,再按概率权重随机选择。
我打个直接的比方,Top-k 就像在餐厅点餐:k=1 时只能选菜单上最热门的菜,k=10 则是从推荐榜前 10 道菜中随机挑选。
这种机制既避免了完全随机的混乱,又打破了单一选择的局限。
Top-k 虽解决了贪心解码的局限性,但固定 k 值难以应对不同语境下的概率分布变化;
Top-P是选择累积概率达到一定阈值 P 的最小数量的词进行采样。例如,如果设定 Top-P = 0.9,那么会选择那些累积概率达到 90% 的词来进行采样。P 值越高,模型生成的内容越具有多样性;
说到这里,我相信很多人看的有点云里雾里;
所以我索性给大家做一个总结,方便未来大家在实际配置Agent时候可以运用到。
【温度】:
摘要:控制模型生成文本时的 随机性和多样性
T<1:模型更倾向于选择 最高概率的词,生成结果稳定、可预测。适用于:事实性问答、代码生成等需要精确性的任务。
T>1:模型会更均匀地探索 低概率词,增加输出的多样性。适用于:创意写作、故事生成等需要发散思维的任务。
【Top-K】:
调整K大小,可以控制生成内容的多样性和质量
K越大,内容生成的多样性越高;质量越低。
K越小,内容质量越高,多样性越差。
【Top-P】:
0代表完全按照概率分布去选择;
1代表完全按照频率分布去选择;
P越大,生成的内容会过于随机和无意义;
P越小,生成的内容过去单调和重复;
在工程实践的实际运用过程中,肯定是少不了反复、多次的调试的,找到概率平衡点是一个需要非常耐心的事情。
结语和预告:本章,我们从 LLM 的 “关键要素” 说到 Agent 的 “主要指标”;
作为AI 产品经理不再是需求的被动承接者,而是人机协同生态的架构师 —— 需要用技术敏感度预判模型边界。
下一章,我将从大模型的知识库、数据库角度继续分享,也谢谢大家的关注。
作者:Goodnight;工信部高级生成式AI应用师;专注用户研究、产品创新等领域
本文由 @Goodnight. 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
来源:人人都是产品经理