AI产品经理转型三部曲—技术篇①《LLM和Agent》

摘要：本文作为“AI产品经理转型三部曲”的技术篇开篇之作，将深入浅出地剖析大语言模型（LLM）和智能体（Agent）的核心概念、工作原理及其在实际应用中的关键要点。

本文作为“AI产品经理转型三部曲”的技术篇开篇之作，将深入浅出地剖析大语言模型（LLM）和智能体（Agent）的核心概念、工作原理及其在实际应用中的关键要点。

通过前面两篇AI认知文章，想必大家已经对AI有更深入的理解；

如果还没有看过，可以先前往阅读学习《AI产品经理转型三部曲—认知篇①直视AI，认识AI》；《AI产品经理转型三部曲-认知篇②结构AI本质》

今天将进入我们三部曲的第二部—技术篇；

我的初衷是帮助每一个希望转型、进入AI行业的伙伴；所以分享的内容会相对更细致；技术篇我尽量通过两篇文章，根据自己浅显的见解和经验，帮助大家理解AI技术的理论知识。

更深入的比如智能体实操内容，我会后面进行分享。

随着越来越多的AI智能体和大模型发布，非常多专业的术语进入眼帘，我知道很多同学是排斥的；我举个例子：

GPT-5大模型的参数量可能达到 52 万亿，其上下文窗口可能扩展至百万 token，可实现超长对话记忆与连贯性；GPT-5 还可能引入多模态学习能力，不仅可以理解和生成文本，还能处理图像、音频等多种形式的数据。

当阅读这段内容时候，是否会有很多疑问？以及如果有的同学已经在使用Dify或者Coze之类的低代码平台，发现大模型输出内容和预期偏差较大，原因是什么？

今天我分享的内容，主要会围绕LLM和Agent来展开。

一、 LLM（Large Language Model 大语言模型）

大模型本质上是一个超级复杂的数学模型，它的 “大脑” 由数十亿甚至上千亿个参数组成。

这些模型通过分析互联网级别的海量文本（比如书籍、网页、聊天记录等），学会人类语言的规律：词语如何组合成句子，句子如何表达逻辑，不同语境下语义如何变化等。

我依稀记得在2年前，通过chatgpt输出一篇小说的时候，一字一句的展示在大屏幕上给我带来的震惊，我那时候在想，AI是在自己打字吗？

其实不然，大语言模型的输出过程本质上就是一场超级 “成语接龙”。就像我们玩成语接龙时，每个成语的首字要接前一个成语的尾字；

大语言模型在生成文本时，它每个新生成的词语都需要基于前文的语境来选择。

举个简单的例子：

当模型看到 “下雨天要带伞” 和 “下雨没带伞会淋湿” 这两句话，它会通过统计分析发现 “下雨” 和 “带伞” 之间存在强关联，从而理解雨天与伞具使用的逻辑关系。

比当前文是 “今天天气很好，我们决定去”，模型需要生成下一个词。这时模型重点关注 “天气很好” 和 “去”，从而联想到 “公园”” 爬山 ” 等合适的词语。

所以模型本身并不真正 “理解” 文字含义，它只是通过数学计算，将人类语言转化为可处理的数字信号，再根据这些信号预测下一个可能出现的词语。

接下来，我会以多个大模型关键指标维度，和大家分析其原理和作用。

1. 参数量（Number of Parameters）

在上一篇文章中有提到，大模型的本质是模仿人类的神经元结构；

所以我们可以把大语言模型的参数量想象成我们大脑里的“神经元”数量。

人类大概是860亿个神经元，黑猩猩大概330亿，猫是2.5亿，老鼠1亿；所以可以看出，神经元数量越多，认知、思维和行为能力就越强。

同理，大模型的参数越多，模型就越聪明，能记住更多东西、理解更复杂的语言。

可以把参数简单理解为模型的“可调节旋钮”，它决定了AI如何理解和生成信息。但是并不是参数越多越好，同时也需要更庞大的算力资源。

如果参数非常大，但是训练数据或计算资源不足，超大参数模型可能“过拟合”（过度学习，导致模型泛化能力下降。）。

2.算力（Computing Power）

可能会听说某个公司采购数千块电脑GPU，从而满足公司大模型的算力要求。

以GPT-3举例：

GPT-3（1750亿参数）的训练需要约 3.14×10²³次浮点运算（相当于数千块高端GPU连续工作数周）。

训练GPT-3级模型： 电费+硬件成本超1200万美元。

简而言之，算力就像汽车的“引擎功率”—引擎越强（算力越高），车跑得越快（AI训练和推理速度越快）。

3.向量（Model Vectors）

在数学中，向量是具有方向和大小的量，比如二维坐标系中的 (3,4) 就是一个向量。

而在大模型中，向量是将语言符号（词语、句子）转化为数字数组的工具，我们称之为 “词向量” 或 “句向量”。

想象一下，每个词语都被装进一个对应分类的”盒子” 里，这个盒子里的每个数字都代表词语的一种特征；

以上图为例，比如 “Antelope” 和 “wildebeest” 的向量中，角马和羚羊都属于动物，他们的向量关系比较接近；

“Basketball”和“Soccer”的向量中，足球和篮球都属于运动类项目，他们的向量关系就比较接近。

通过这种方式，模型就能用数学方法计算词语之间的相似度。在大语言模型实际的转换过程中其实会更复杂；

比如当我们输入 “我喜欢踢足球” 这句话，模型会先将每个词转换成向量：”我”(1,0,3,…)、”喜欢”(2,5,1,…)、”打”(7,2,4,…)、”篮球”(9,6,8,…)。

然后将这些向量输入到复杂的神经网络中，通过层层计算，模型就能捕捉到词语之间的关系：”喜欢” 和 “打” 组合表示动作偏好，”篮球” 是 “打” 的对象。最终，这些向量经过处理后，会生成下一个词的预测向量。

当然，实际的向量转化是涉及非常复杂函数的，这里就不展开说明，大家理解对应原理就已足够。

4.切片（Slicing）

大家煮过西蓝花吗？我还挺拿手的。

但是西蓝花最大的问题在于它很大，无法一整颗放进锅；所以需要我需要将大颗西蓝花切成一块一块；

其次，我不太喜欢吃西蓝花的杆子，所以会吃饭的时候会特地挑不是杆子的部位吃。

在大语言模型中切片指在编程和数据处理中，也是需要做切这个动作的；

切片是一种编程语言特性（尤其在 Python、Go 等语言中非常突出），其核心价值在于提供了对序列局部数据的高效、非复制性（视图）访问和操作能力，极大地提升了代码的简洁性、表达力和处理大数据时的性能

我认为目前切片的考虑主要以下原因：

处理能力有限： 电脑内存（RAM）和处理器（CPU/GPU）一次性能处理的数据量是有限的。超大的数据（比如4K电影、海量文本）必须切成小块分批处理。关注局部： AI模型常常不需要一下子看整张图片或整篇文章。比如识别图片中的人脸，模型可能只需要关注人脸区域（切片）的像素；分析一句话的情感，可能只需要看关键词（切片）。并行加速： 现代GPU有成百上千个核心。如果把大数据切成许多小片，就可以让这些核心同时处理不同的切片，速度大大提升！

那为什么需要切？能不能不切？

我认为也许在将来，随着算力飙升（GPU/TPU集群）、硬件革新（大内存服务器）、以及模型处理长序列能力的突破，在某些特定场景下，“理论上”确实可以减少对显式“切片”操作的依赖。这个就交给时间去验证吧！

5.注意力机制（Attention Mechanism）

1997 年，注意力机制首次在图像识别领域已被应用，但是真正是在 2017 年谷歌提出的 Transformer 架构中迎来革命性突破，成为大语言模型处理序列数据的标配技术。

大家还记不记得以前上学时候，做阅读理解的时候，如果逐字逐句看完文章，效率非常低，我们会找文章重点，从而快速做题。

比如看到 “下雨天，小明忘记带伞，结果全身都湿了”，

我们会自动关注 “忘记带伞” 和 “湿了” 之间的因果关系。注意力机制就是模仿人类这种选择性关注的能力而诞生的。

从技术本质看，注意力机制是一组复杂的数学运算组合，核心在于计算输入序列中元素间的 “注意力分数”。具体来说，当模型处理位置 X的词语时，通过以下三个维度去计算，所在位置Y该输出的内容。

Query（查询向量—提问题）：Key（键向量—找线索）Value（值向量—拿答案）

大家有没有发现，早期的 AI 回复很生硬，比如你说 “今天天气不错”，它可能回 “是的，天气很好！”然后就没下文了。

但现在的 AI 能流畅地接话：”是啊，这么好的天气适合去公园散步呢！”

这背后就是注意力机制在发挥作用。当 AI 生成 “去公园散步” 时，会回顾前面的 “天气不错”，确保内容连贯。就像我们讲故事时，会顺着 “今天生日”” 妈妈买了蛋糕 “”大家一起唱生日歌” 这样的逻辑线，AI 也学会了这种 “上下文接力”，让对话和文章更自然。

6.训练集（Training Data）

我们可以简单把训练集想象成模型成长的“书本”或“见过的世界”。

在机器学习和深度学习中，模型通过对训练集的学习，调整内部的参数（类似大脑的 “神经元连接强度”），从而获得对未知数据的预测或生成能力。

如果把大模型比作一个正在学习的学生，那么训练集就是它用来学习的 “课本”。

“课本” 里塞满了各种各样的知识、例子和问题，大模型通过反复 “阅读” 和 “理解” 这些内容，才能学会如何回答问题、生成文本、完成任务。

举个例子：

当我们想让大模型学会 “翻译中文到英文”，训练集里就会有很多 “中文句子 + 对应的英文翻译” 的例子，比如 “你好→Hello”“今天天气不错→The weather is nice today”。当我们想让大模型学会 “写新闻稿”，训练集里就会有大量真实的新闻文章，包含标题、正文结构、事件描述等内容。

如果训练集里的例子足够多、足够准确，大模型就能 “记住” 正确的做法；

若训练集里有很多 “正确语法的句子”，大模型就不容易说出 “我吃饭了昨天” 这种语序错误的话；若训练集里包含不同文化、不同场景的内容，大模型就能避免偏见（比如不误解某些地区的习俗）

说句题外话；不知道有没有听说过，身边有的人曾经从事过在网上接单打标的工作；比如选择图片里哪个是苹果、哪个是香蕉、哪个是汽车；

在机器学习发展早期，数据的确大部分由人工手动标注，以构建和积累机器学习模型的训练数据集，尽管耗时且成本高昂，但手动标注数据确实在准确率等方面具有优势。

不过现在的大模型已经开始使用无监督训练，不需要人工标注的标签来进行训练了。

7.微调（Fine-tuning）

上面说到训练集后，我们会发现大模型其实是博览群书的，但是大多数的大模型如果只是依靠预训练阶段的数据集，那他只能成为一名什么家常菜都能做的“厨师”；但是你想吃特别地道的粤菜，他可能就无法做好；

能不能给模型 “开小灶”，用少量专业数据训练它？就像给厨师看几个粤菜菜谱，他就能学中山乳鸽。于是，“微调” 技术诞生了 —— 在已经训练好的大型模型（预训练模型）基础上，用特定领域的数据再 “打磨” ，让模型更贴合实际需求。

更加专业角度来说，微调就是指在预训练模型的基础上，使用特定任务或领域的小规模数据，对模型的部分或全部参数进行优化，以提升模型在该任务上的性能。

我举几个实际的例子，让大家更好的能理解：

医院用医疗影像数据微调 AI，让它学会识别 X 光片里的肺部结节。律师事务所用法律条文和案例微调 AI，帮律师快速检索相似案件。保险行业的某些行业用语微调AI，帮助保险业快速对接潜在用户。

8.提示工程（Prompt Engineering）

提示词其实很好理解，提示词的前提还是因为大模型可以理解人类的自然语言，那我们通过提示词就可以告诉AI我们需要什么，提供什么给我等信息；

但是为什么叫工程，因为在理解能力有限的前提下，

如何通过设计、优化输入给人工智能模型的文本提示，引导模型生成更准确、符合预期结果的技术与方法是非常值得大家学习的。网上有非常多的提示词技巧，大家可以多去搜索，我这里就不赘述了，简单来说好提示词 = 清晰目标 + 结构化框架 + 精准约束 + 明确输出标准。

好的提示词是可以提升模型对任务的理解和执行能力。设计高质量输入提示词，引导大模型生成更符合预期的结果，这就是为什么大家用的同样的大模型，有的人却可以创意无限，有的人却只能做到简单问答。

9.Token

Token是大模型中将文本分割处理的最小独立单元，它可以是单词、子词、字符或标点符号；

比如在一句话中“你好”，大模型将每个 Token 转换为对应的数字编码（如 “你” 对应 ID=1234；“好”对应6789。），这样计算机就能以数学方式处理语义。这就像人类学习外语时，需要将单词转化为母语理解，Token 就是语言与机器之间的 “翻译官”。

那token是按照每个汉字或者每个字符计算的吗？

我很喜欢拼乐高，所以我以乐高举例，大家可能会更加深动的理解：

在乐高里，可以看到包装上有写比如拼装需要200个零件，或者500个零件；但是这些零件都是一样的吗？

实际上，每个乐高零件的大小、长度都不一样，但是在统计和使用中，他们都会计算为单独的零件。

同理在大模型处理内容时候，为了更好的理解语义，会按照背后复杂的逻辑推理，将内容拆分成不同的token；

比如说：“我想吃苹果”

大模型会拆分为“我”“想”“吃”“苹果”；共4个token；

“我想买苹果手机”

如果按照上述分类，它会分为“我”“想”“买”“苹果”“手机”5个token？实际上大模型会根据算法，它通过统计字符对出现频率合并单元，并结合语义，类似将 “苹果手机” 拆成 “苹果”+”手机”，既理解局部含义又把握整体；然后通过上下文知道你想买的是手机品牌；

所以这时候大模型会拆分为“我”“想”“买”“苹果手机”；共4个token。

再结合上面所说的注意力机制，是不是更加好理解了；

Token 是人类语言与计算机数学世界的转换器。它将无形的语义转化为有形的数字序列，让模型能通过矩阵运算（如 Transformer 中的注意力机制）处理语言。

二、Agent

从英文直译来看，Agent就是代理，代理什么？我们希望AI可以代理人类；

所以我认为Agent 的核心本质是希望让AI系统具备类似人类的 “自主性” 和 “环境交互能力”，帮助人类完成某些特定的工作和任务。

在当今社会，AI Agent是一种基于人工智能的自动化工具，能够自主决策、执行任务并与用户或环境进行交互。

我们回到Agent和LLM的关系来说；

AI Agent = LLM（大模型）+ Planning（规划） + Memory（记忆） + Tools（工具）

如果说LLM是大脑，

那Agent就是利用大脑和四肢，结合任务规划和工具调用，帮助用户完成复杂或重复性工作。

举个例子，比如用户询问 “如何用 Python 分析股市数据”，

Agent 会先调用某个股市软件的 API 获取实时数据，再生成 Python 代码执行分析，结合网络最新的企业财报，最后用自然语言解读结果。

1.Agent的工作原理

把Agent的技术能力解剖，可以分为四层；

输入：用户向Agent提出问题或任务需求。任务拆解：Agent根据LLM将复杂任务拆解成多个可执行的小任务。工具调用：根据任务需要，Agent可以使用外部工具，比如搜索引擎、计算器、API等。执行与反馈：完成任务后，Agent会将结果反馈给用户。

场景：比如我们要写一篇万字论文。如果直接用chatGPT写作，我们大概率会不满意，愿意很简单：1. 字数不够。 2. 胡编乱造，缺少真实引用文献。

但是如果我们使用比如扣子空间这样的Agent会怎么做：

第一步：形成大纲，并且考虑清楚每一章节要编写的内容

第二步：使用搜索引擎搜索一些相关书信息进行阅读

第三步：使用搜索引擎搜索相关论文，夯实理论基础

第四步：针对每一个章节进行内容的编写

第五步：论文经过AI审阅，优化其中的段落和内容

最后：最终输出论文，可以是飞书，word，数据库、html等等

也就是说：AI Agent由如下几部分组成，我还是回到上述讲LLM的时候用的厨师的例子来说明每个模块的作用；

LLM（大模型）：就像厨师的菜谱知识库，它阅读了海量的菜谱和资料，不仅知道各种菜的名字，还懂得如何烹饪它们。LLM提供了庞大的信息存储和处理能力，以理解和响应我们提出的各种问题。Planning（规划）：厨师需要规划每道菜的做菜顺序。比如先备菜、洗菜、热油、下菜、根据用户的喜好，放各种调料，最后出锅。Memory（记忆）：这类似于厨师的笔记本，记录了过去用户的偏好，以及每道菜的注意事项。记忆模块让Agent能记住以往的经验和已经完成的任务，确保不会重复错误。Tools（工具）：就是厨师的用具，比如锅子、铲子和剪刀等等。Agent的工具模块，指的是它可以运用的各种软件和程序，帮助它执行复杂的任务。

2.温度（Temperature）：

“温度” 这个概念其实并非大模型的专属，它最早源于物理学中的热力学和统计学。

在统计力学里，温度描述的是微观粒子的热运动剧烈程度；

温度越高，粒子运动越剧烈，分布越分散；温度越低，粒子运动越平缓，分布越集中。

大模型中温度是用于调整模型生成内容时概率分布的离散程度，本质是对模型输出随机性的量化调控。

我们可以把温度比为“模型的性格”或“思考时的随机性”。

当温度高时，模型像个“天马行空”的人，生成的内容更有创意，但也可能更不靠谱；当温度低时，模型像个“谨慎的人”，只会给出最安全、最保守的回答。

所以当我们自己配置一个Agent时候，

如果需要生成严谨的技术文档时，低温度（如 0.2-0.5）能让模型紧扣专业术语，避免发散。

而在创作诗歌或创意文案时，较高温度（如 0.8-1.2）能让词汇组合突破常规，产生意想不到的比喻。

3.Top-K和Top-P;

在上面说注意力机制的时候，说到大语言模型通过概率分布预测下一个token；

但是那么多可能性，如何高效计算？

大概可以分为三类：

【贪心解码（总选最高分）】→ 大模型输出“今天天气很好很好很好…”——贪心搜索算法简单，主要考虑局部最优，并不一定会是全局最优解；比如在生成 “我喜欢吃苹” 时，贪心算法会直接补全 “果”，却忽略了 “苹” 可能对应 “苹果派”” 苹果汁 ” 等更丰富的表达；【随机采样（闭眼乱抓）】→ 大模型输出“企鹅驾驶航天飞机”——随机采样生成的内容逻辑性和效果均较低。【Top-k/p诞生】 → 平衡质量与多样性

Top-k采样保留概率最高的k个token构成候选集，再按概率权重随机选择。

我打个直接的比方，Top-k 就像在餐厅点餐：k=1 时只能选菜单上最热门的菜，k=10 则是从推荐榜前 10 道菜中随机挑选。

这种机制既避免了完全随机的混乱，又打破了单一选择的局限。

Top-k 虽解决了贪心解码的局限性，但固定 k 值难以应对不同语境下的概率分布变化；

Top-P是选择累积概率达到一定阈值 P 的最小数量的词进行采样。例如，如果设定 Top-P = 0.9，那么会选择那些累积概率达到 90% 的词来进行采样。P 值越高，模型生成的内容越具有多样性;

说到这里，我相信很多人看的有点云里雾里；

所以我索性给大家做一个总结，方便未来大家在实际配置Agent时候可以运用到。

【温度】：

摘要：控制模型生成文本时的随机性和多样性

T＜1：模型更倾向于选择最高概率的词，生成结果稳定、可预测。适用于：事实性问答、代码生成等需要精确性的任务。

T>1：模型会更均匀地探索低概率词，增加输出的多样性。适用于：创意写作、故事生成等需要发散思维的任务。

【Top-K】：

调整K大小，可以控制生成内容的多样性和质量

K越大，内容生成的多样性越高；质量越低。

K越小，内容质量越高，多样性越差。

【Top-P】：

0代表完全按照概率分布去选择；

1代表完全按照频率分布去选择；

P越大，生成的内容会过于随机和无意义；

P越小，生成的内容过去单调和重复；

在工程实践的实际运用过程中，肯定是少不了反复、多次的调试的，找到概率平衡点是一个需要非常耐心的事情。

结语和预告：

本章，我们从 LLM 的 “关键要素” 说到 Agent 的 “主要指标”；

作为AI 产品经理不再是需求的被动承接者，而是人机协同生态的架构师 —— 需要用技术敏感度预判模型边界。

下一章，我将从大模型的知识库、数据库角度继续分享，也谢谢大家的关注。

作者：Goodnight；工信部高级生成式AI应用师；专注用户研究、产品创新等领域

本文由 @Goodnight. 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

来源：人人都是产品经理

标签：技术 llm 产品经理向量 agent

本文地址：http://news.43b.com.cn/a/551912.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!