摘要:这几年,AI大模型的崛起几乎成了科技圈的年度大戏。它们像是一块块潜力无穷的“原石”,在不断被打磨,逐渐从“通用大脑”走向更加精细、实用的工具。而作为产品经理,如果光是知道模型算力堆得多高、参数多大,仍然会觉得“我有点跟不上节奏”。真正关键的问题是:我们如何利用
这几年,AI大模型的崛起几乎成了科技圈的年度大戏。它们像是一块块潜力无穷的“原石”,在不断被打磨,逐渐从“通用大脑”走向更加精细、实用的工具。而作为产品经理,如果光是知道模型算力堆得多高、参数多大,仍然会觉得“我有点跟不上节奏”。真正关键的问题是:我们如何利用大模型的进化工具箱,把它们变成可落地的产品?
想象一下,公司刚给你配了一位“天才实习生”——一个刚刚出厂的、未经任何定制的通用大模型(比如GPT-4)。他博古通今,能写诗、能写代码,知识储备堪比宇宙
但问题来了,他完全不了解我们公司的业务、不懂我们产品的调性,更不知道我们的用户喜欢什么样的沟通方式
作为他的“导师”和“产品经理”,你的任务就是让他快速成长,从一个“通才”变成能为我们产品创造价值的“专才”。而Prompt工程、SFT和RLHF,就是你手中最重要的三套“培训手册”
第一幕:Prompt Engineering —— 让模型乖乖听话的“魔法咒语”Prompt工程其实是最早被产品经理拥抱的一环。其原理并不复杂:通过巧妙设计输入提示,引导模型产出我们需要的结果。少样本示例、链式推理、甚至“角色扮演”都是常见手法;模型自始至终想要的都是“确定性”,如果prompt模棱两可,你得到的回复就如同抽卡一般,阴晴不定
没有用 Prompt 工程的提问
你问:
请帮我设计一个第一次表白剧本。
模型答:
你可以选择在公园散步的时候表白,也可以约对方吃饭时顺便说出心意,还可以写一封纸条递给他。具体形式要看你们的性格和关系,没有固定的剧本。
它从“你要表白”和“你一名导演,需要制作一份表白剧本”中选择了你要表白并进行输出,这就是“不确定性”
使用了 Prompt 工程的提问
你问:
你是一名擅长制造心动场景的恋爱导演,请帮我设计一个第一次表白剧本:场景要日常却有惊喜感,对白不要超过三句,要有细节镜头感,最后留一个反转小动作,让对方记忆深刻。
模型答:
场景:傍晚的书店咖啡角落,两人并肩坐在窗边。
对白:
– 你递给她一本书,说:“翻到最后一页看看。”
– 她看见夹着的便利贴,上面写着:“这本书很好看,但我更喜欢你。”
– 她抬头愣住,你正假装镇定地 sip 一口咖啡,眼神却悄悄期待。她轻轻合上书,把便利贴塞回你掌心,说了一句:“那以后要多陪我一起看书哦。”
我们没有给AI任何新的知识,我们只是通过角色扮演(Persona)、设定情境(Context)、明确任务(Task)和注入情感(Emotion),为它搭建了一个舞台,递上了一份量身定制的剧本,给予了模型想要的“确定性”
泡一杯Prompt速溶咖啡:快、巧,还差点回甘
办公室里常见的速溶咖啡。撕开一小袋粉末,倒进纸杯,加点热水,几秒钟之后,你就能得到一杯带着香气的咖啡,仿佛顿时精神焕发。Prompt 工程在 AI 模型里,就是这类“速效提神药”:不需要重构模型,只要换一种指令提问,就能立马喝到“答案咖啡”
冲泡时粉包里是什么味,就只能泡出什么味。同理,Prompt 工程不修改模型底层,你永远无法通过它把“通用模型”直接变成一个“专业心脏外科专家”
给PM的落地建议:永远从Prompt工程开始! 它是你探索AI能力的“侦察兵”。在立项任何复杂的AI功能前,先问自己:“这个问题,能不能通过一个极致的Prompt来解决?” 如果80%的需求能被满足,那就先上线,用真实的用户反馈来迭代你的“指令艺术”
第二幕:SFT ——模型的“技能连招肌肉记忆”还记得你第一次玩格斗游戏(比如《街霸》《拳皇》)的时候吗?
手里拿着手柄/键盘,屏幕上小人站得笔直,你疯狂连按,结果发现格斗家就是普攻挥拳,偶尔还背过身……本来想使出一个龙卷风波动拳,却把自己摁蹲下了
这种“我知道要放大招,但就是按不出来”的痛苦,就是预训练大模型的状态——知识很多、潜能很强,但在特定任务里,动作总是浮夸又不稳定
后来呢?你上网查了攻略,看到“前 ↓ 前 + 拳 = 波动拳”,你开始在练习模式里一遍遍试。前、下、前 + 拳… 最开始手忙脚乱,总是飞出个蹲踢。但练了几十遍之后,你根本不用思考,手指自己就能瞬间完成动作
SFT的原理也是这样,用大量高质量的指令—答案配对数据来训练,让模型学会在某一类任务上表现更稳定、更专业
举个例子,你想让AI变成一个懂法律的“小助手”,就需要准备大量真实的法律问答数据,然后人工进行微调。当用户提问时,它就能给出可靠的法律条款和判例支撑,而不是天马行空的胡乱发挥
从产品经理视角看,SFT是打开垂直场景的关键。无论是医疗问诊、金融大数据分析,还是企业内部知识管理,SFT都能让模型从“全能,但不专”变成“专注且稳定”但“稳定”的代价是高昂的,你得付出标注数据的收集成本,每次业务有变化,还要重新训练和部署。这不像Prompt那样“轻盈”,更像一台沉重但可靠的专业咖啡机
当速溶咖啡不再满足你的味蕾,你就该上 SFT 了
你为了让速溶咖啡尝起来像拿铁,不仅加了牛奶和糖,还写了一份长达三页的冲泡说明书,详细规定了水温必须是87.3度,搅拌必须顺时针转12圈半。你已经不是在喝咖啡,而是在做化学实验了
1.当你的Prompt长得像一篇“免责声明”
为了控制AI的输出,Prompt变得越来越长、越来越复杂。里面充满了各种规则、限制、格式要求和“你一定不要……”、“请务必……”这样的警告。为了修复一个场景的bad case,你又往里打上一个“补丁”,导致整个Prompt像一个巨大的、摇摇欲坠的积木塔
这种“超长Prompt”不仅维护成本极高(改一处而动全身),而且API调用费用和响应延迟也急剧上升。你其实是在用一种外部、临时、低效的方式,去对抗模型内部的自由天性
2.当“品牌调性”和“专业术语”总是差一点味道
无论你的Prompt写得多好,AI生成的文案总是有点“AI味儿”。它无法精准地把握你们品牌那种“在专业中带点小俏皮”的独特调性;在生成行业报告时,它使用的术语总是过于书面化,不够“圈内人”
通用大模型学习的是全人类的平均语言风格,它很难自然地模仿一个特定群体的“黑话”或一个特定品牌的“人设”。你可以通过Prompt让它“扮演”角色,但这种扮演就像一个蹩脚的演员,时常会出戏
3.当输出的“稳定性”比“创造性”更重要
你的AI功能需要稳定地输出特定格式的内容,比如JSON代码、医疗记录摘要、法律合同条款。但即使有Prompt严格约束,AI偶尔还是会“自由发挥”,导致输出格式错误,从而引发下游程序的Bug,或者产生严重的合规风险
给PM的落地建议:当你的AI产品需要从“万金油”变成“专家”时,启动SFT。在启动前,请务必评估你的数据资产。你是否有足够多、足够干净、高质量的标注数据?如果没有,那么数据准备的成本和周期,将是你作为PM必须管理的最大风险
第三幕:RLHF —— 授人以鱼,不如授人以“渔”SFT(有监督微调)是一场盛大而慷慨的“赠鱼”仪式。我们捕捞了成千上万最标准的“鱼”——也就是我们精心准备的、高质量的“问题-标准答案”对。我们把这些鱼一条条喂给AI,告诉它:“看,这就是鱼,记住它的样子、味道和纹理”
AI学得很快。它成了一位顶级的“鱼类鉴赏家”。你给它看任何一条鱼,它都能立刻告诉你这像不像我们之前给过它的那些标准样本。它能精准地复制、模仿,表现得像一个博学的渔业学者
但这恰恰是问题的所在。我们创造了一个完美的学者,却不是一个渔夫
当我们将它带到一条陌生的、奔腾不息的河流边,面对万千种可能的水流、天气和鱼群时,它茫然了。河里没有“标准答案”牌的鱼等着它。它知道什么是鱼,但它不知道如何在这片充满不确定性的水域里,亲手钓上一条“好”鱼
这就是SFT的局限,也是RLHF存在的根本意义。RLHF的核心思想,就是停止喂鱼,转而教AI学会“钓鱼”,学会钓“好鱼”
学习渔夫的“直觉”
老渔夫从一天的渔获中,拿出两条鱼,一条鲜活,一条稍次。他对学徒说:“你觉得哪条更好?” 学徒指了指。老渔夫点头或摇头
RLHF做的就是这件事。我们不再给AI唯一的“正确答案”,而是让它生成多个不同的回答(A, B, C, D),然后请人类来扮演“老渔夫”的角色。我们只问一个问题:“你更喜欢哪个?”
我们收集了成千上万次这样的人类偏好(Human Preferences)。AI在这个过程中,不是在记忆“哪条鱼是标准答案”,而是在观察和学习一种更底层的东西——老渔夫在做判断时,头脑中那套难以言喻的“标准”。是鱼眼的光泽?是鱼鳞的紧致度?还是那种只可意会的“生命力”?
通过学习海量的偏好数据,AI内部会慢慢构建起一个“虚拟渔夫”,一个奖励模型(Reward Model)。这个模型,就是AI心中对“渔夫直觉”的数学模拟。它本身不产出答案,但它能像老渔夫一样,看一眼任何一个答案,就能凭“直觉”判断出它有多好
在心中渔夫的指导下,独自垂钓
现在,学徒(AI)心中已经有了一位“虚拟渔夫”作为导师。他被独自留在河边,开始真正的实践
他每一次甩出鱼竿(生成一个回答),钓上来的“鱼”(回答内容),他都会先在心里请教那位虚拟渔夫
这个“独自尝试→内心评判→调整策略→再次尝试”的循环,就是强化学习(Reinforcement Learning)的过程
AI不再依赖外部的“标准答案鱼”,而是通过内部的“渔夫直觉”,在一个充满可能性的世界里进行主动的探索和自我修正。它的目标不再是“复制那条给定的鱼”,而是“最大化地获得内心导师的赞许”
从“鱼类学者”到“智慧渔夫”的蜕变
经过RLHF的洗礼,AI完成了根本性的蜕变
SFT的AI像一个知识渊博的学者,他能告诉你关于鱼的一切,但面对一条真正的河,他束手无策。他的知识是静态的、回顾性的RLHF的AI像一个智慧的渔夫,他可能说不出每条鱼的拉丁学名,但他站在河边,能读懂风、看懂水,并最终满载而归。他的智慧是动态的、生成性的更重要的是,这位“渔夫”还学会了渔的伦理。他知道什么样的鱼太小需要放生(无益的回答),什么样的水域有毒不能下杆(有害的话题),以及在收获和守护生态之间寻求平衡(在有帮助和无害之间找到最佳点)
“授人以鱼,不如授人以渔”。SFT给了AI丰富的知识存量,而RLHF则赋予了它创造知识增量的能力。这正是我们让AI从一个“无所不知的机器”,蜕变为一个“值得信赖的伙伴”的终极密码
给PM的落地建议:RLHF是AI产品的“精装修”和“价值观塑造”工程。 对于大多数初创公司和业务团队,它过于奢侈。通常是平台级、有巨大社会影响力的产品(如通用大模型本身)才会重度投入。在你的产品中,可以思考是否能用“用户点赞/点踩”这类轻量级反馈,去收集数据,为未来可能引入的RLHF做准备
作为 PM,我们常在“短期上线”和“长期打磨”之间跷跷板平衡。调教大模型也一样:不要一上来就追求 RLHF 这种顶配,不要觉得 prompt 很 low——有时候,写一句设计巧妙的提示词,可能就能省掉两个月的开发时间
毕竟,产品经理的终极技能,除了写需求,其实就是——用有限资源,创造出无限可能just do it man
本文由 @-273k 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Pexels,基于CC0协议
来源:人人都是产品经理