摘要:大家好,我是喜欢研究AI的一枚产品经理平时主要从事与AI、大模型、智能座舱等相关工作。在这里,我会持续跟大家分享AI相关的前沿技术、产品体验、个人心得等有营养有价值的信息另外,我还超爱自驾游~
大家好,我是喜欢研究AI的一枚产品经理
平时主要从事与AI、大模型、智能座舱等相关工作。在这里,我会持续跟大家分享AI相关的前沿技术、产品体验、个人心得等有营养有价值的信息
另外,我还超爱自驾游~
序
前天写了一篇文章→ 小红书AI战略深度解析 | 2027年,小红书将成为中国第一大移动搜索引擎!「链接」,这里面重点写了两件事儿:
从技术的角度,解析了小红书内部NoteLLM的工作原理。同时,我也追加了DeepSeep-COR对小红书NoteLLM进一步降本增效的说明。从产品的角度,讲述了小红书现在的AI现状,并推理和给出了一些小红书未来2年的AI发展路线,以及围绕着AI衍生出来的一些具体场景和具体功能。然后转发个身边一些小伙伴,很多人看完后表示看不太懂[我想静静]哈哈,因为我自己是技术出身,后转产品,而身边多是产品经理,可能技术上有一些盲点。所以,这一篇文章,我会进一步的,站在产品经理的角度,去解析和重述NoteLLM,用产品经理的视角,讲述NoteLLM是怎么工作的,以及它在具体的使用场景中,是如何赋能小红书App的。
这篇文章内容还是比较多,所以开始前,先列一下内容结构(注意这不是目录,是本文的核心内容,以及内容的讲述顺序):
✅ 问题导向:NoteLLM要解决什么问题✅ 传统方案痛点:BERT为什么不够、LLM为什么太贵✅ 核心创意:一箭双雕的多任务学习思想✅ 两个巧妙设计:GCL + CSFT如何相互强化✅ 具体应用:美妆推荐、美食推荐等真实场景解析✅ NoteLLM-2升级:多模态融合如何避免"文本压制图像"✅ PM必知5点:关键认知和避坑指南NoteLLM:产品经理友好版讲解
我尽量用产品经理能理解的语言解释NoteLLM的实现原理和产品价值,不涉及复杂数学,只讲产品逻辑。
背景问题
小红书的推荐系统需要做一件事:当一个用户看了笔记A后,系统要推荐给ta最相关的笔记B。
这个问题叫I2I推荐(Item-to-Item)。
传统方案的痛点
旧方案用什么? BERT模型
优点:成熟稳定,能提取文本特征缺点:理解能力不足,无法充分利用笔记中的丰富信息为什么BERT不够?
想象用户看了一篇"Chanel香奈儿包包推荐"的笔记。BERT只能理解文字"包包、奢侈品、推荐"这些关键词,但看不到图片中的色号、材质、搭配效果。
而这些视觉信息往往比文字更重要。所以BERT推荐的"相关笔记"可能风格完全不搭。
为什么不直接用大模型?
可能有人会说:"那就用LLM(大语言模型)吧,它比BERT强得多啊。"
没错!可问题是:
LLM的成本太高(训练、推理都贵)直接从LLM提取embedding效果不一定好(LLM不是为推荐任务设计的)需要大规模数据,小红书可能并不想投这么多成本NoteLLM的创意方案
核心思想:"用LLM做其他事情,顺便生成embedding。"
换个角度:生成hashtag/category 和 生成笔记embedding 的本质是一样的,都是把笔记信息压缩。
如果一个模型能学会"给笔记生成合适的hashtag",那这个过程中它必然深度理解了笔记的内容。而这种理解,就可以用来生成推荐用的embedding。
这就是NoteLLM的创意:一箭双雕。
核心概念:Note Compression Prompt(NCP)
想象你要把一个笔记的所有信息浓缩到一个特殊的字符上。
笔记原文:"小白鞋这个款百搭又舒适,我的Adidas Stan Smith已经穿了5年,无论搭配连衣裙还是阔腿裤都很协调。适合上班、约会、旅游。"NCP处理方式:{笔记标题} + {hashtags} + {category} + {完整内容} ↓ 通过LLM处理 ↓ 提取特殊token[EMB]的表征 ↓ 这个表征就是"笔记embedding"产品意义:这个embedding可以用来做什么?
找"相似笔记"(I2I推荐)找"风格搭配笔记"(个性化)找"时尚建议笔记"(垂直搜索)设计1:GCL - 用用户行为指导模型学习
问题:"什么样的两篇笔记应该被推到一起?"
传统方案:人工定义规则(太主观)
NoteLLM的方案:让用户行为说话
具体怎么做?
系统会记录:"哪些笔记经常被同一个用户看"。比如:
用户A看了"小白鞋推荐"后,经常看"Adidas搭配"用户B看了"Chanel包包"后,经常看"奢侈品护理"系统把这些共现关系作为"信号"告诉模型:
"老铁,经过我的长期观察和深度分析,这两篇笔记经常被一起看,你学着让它们的embedding更接近吧。"
模型学习的过程就是对比学习(Contrastive Learning):
正样本(应该接近): - "小白鞋推荐" vs "Adidas搭配" - 计算它们的embedding相似度 - 让相似度尽可能高负样本(应该远离): - "小白鞋推荐" vs "护肤攻略" - 计算它们的embedding相似度 - 让相似度尽可能低为什么这个设计聪明?
不需要人工标注"什么笔记相关"直接用真实用户行为作为真理模型学到的是推荐意义上的相似性,不是语义相似性("语义相似性"可能是"都是美食","推荐相似性"可能是"风格搭配"——两者不一样)
设计2:CSFT - 生成任务反哺embedding质量
问题:"仅用GCL好吗?"
答案:还不够。GCL只让embedding"满足用户行为",但可能理解得不够深。
举个例子:
Embedding A 和 Embedding B 相似度高 ✓(满足GCL要求)但它们表达的内容完全不同 ✗(没理解笔记真实含义)CSFT的想法:强制模型深度理解笔记
"既然你说两篇笔记相关,那你给我生成一下它们的hashtag吧。如果你理解不透彻,生成的hashtag会南辕北辙很奇怪。"
具体怎么做?
输入:一篇笔记 + 目标hashtag过程:LLM预测"下一个token应该是什么" (类似玩"填空游戏")输出:生成正确的hashtag例子:笔记:小白鞋这个款百搭又舒适...目标hashtag:#小白鞋 #穿搭 #日常 ↓ LLM预测 输出:#小白鞋 (√正确) #穿搭 (√正确) #日常 (√正确)为什么有效?
要生成正确的hashtag,LLM必须:
理解笔记讲的是什么("小白鞋搭配")抓住关键点("百搭"、"日常")转化为可搜索的标签这个过程中,LLM的内部表征(embedding)会被不断强化,变得"理解更深"。
两个设计的协同作用
为什么要同时做GCL和CSFT?
它们共享同一个LLM编码器!
GCL任务:笔记 → LLM编码 → embedding ↑ 这部分被强化CSFT任务:笔记 → LLM编码 → 预测token → 生成hashtag ↑ 这部分也被强化CSFT任务(图片右侧流):增强理解深度
方面说明输入笔记 + 目标hashtag/category处理LLM逐个预测下一个token(类似文本补全)学习如果预测正确,说明理解透彻损失函数Language Modeling Loss(语言建模损失)收益LLM被迫深度理解笔记,embedding质量提升总损失函数(关键设计)
总Loss = L_gcl + α × (L_gen / (1 + α))为什么这样设计?- L_gcl:对比学习任务的损失- L_gen:生成任务的损失- α:可调的权重系数- (1+α)在分母:确保权重不会无限放大实际应用:- 当α=1时,两个任务权重相等- 当α>1时,更重视生成任务- 当α指标数值含义Recall@100从BERT的0.xx提升到0.yy推荐的相关笔记找到率相似笔记排序质量+15-20%embedding的排序能力在线指标(用户层面)
指标变化含义点击率(CTR)+5-8%用户更愿意看推荐平均停留时间+10-15%用户看推荐内容更久互动率+8-12%用户更愿意点赞/评论用户行为:看了"极简穿搭"笔记
提取"极简穿搭"笔记的embedding找embedding相似的笔记推荐给用户GCL学到了"极简穿搭"和"小白鞋搭配"的关联(用户共见)CSFT强化了"极简风格"的理解embedding既理解风格,又理解搭配逻辑应用2:美食推荐场景
用户行为:看了"宁夏路日料推荐"
理解"日料""宁夏路"等特征找相似的本地美食笔记推荐其他"日料"或"宁夏路附近"的笔记同一个embedding既包含"美食类别"信息,又包含"地理位置"信息GCL和CSFT联合优化,信息更完整用户行为:经常看"Adidas穿搭"
NoteLLM做什么:
推荐"Adidas新款发布"推荐"运动风搭配"形成围绕品牌和风格的推荐闭环为什么有效:
embedding同时学到了"品牌特性"和"个人偏好"能更精准地预测用户需求为什么需要NoteLLM-2?
NoteLLM-1.0只处理文本,但小红书笔记天生是多模态的:
文字:"Adidas Stan Smith,百搭又舒适"但图片中有关键信息:实际色号、肤色是否匹配、搭配的其他单品NoteLLM-2的两个升级
升级1:mICL - 显式分离视觉和文本
问题:如果把图像简单地"拼接"到文本后,LLM会优先处理文本,忽视图像。
方案:在Prompt中显式标记
原来的Prompt:{笔记文字 + 图像token}NoteLLM-2的Prompt:[文本内容:{笔记文字}][视觉内容:{图像token}]请理解上述笔记的完整含义。产品意义:"告诉模型别忘了看图片!"
升级2:Late Fusion - 视觉信息单独处理
原理:不让图像进入LLM的"中间层"(那里文本会压制图像),而是在最后才融合。
传统方式(Early Fusion):图像 → LLM处理 → 输出(LLM可能忽视图像)NoteLLM-2(Late Fusion):图像 → 保留原始视觉特征(不进LLM) ↓ 与LLM的输出在最后融合 ↓ 结果:图像和文本都被充分利用产品意义:"给图像开辟专属通道,不被文本压制。"
效果提升
指标NoteLLM-1.0NoteLLM-2.0提升Recall@1000.72740.8025+2.5%短文本场景0.680.745+6.72%线上CTR基准+6.35%互动时长基准+8.08%
用户感受升级:
NoteLLM-1.0:"推荐的衣服风格不错"NoteLLM-2.0:"推荐的衣服风格好,色号也很搭我的肤色!"1. NoteLLM不是推荐算法,是特征表示
NoteLLM是一个"特征提取器",提取出的embedding可以用于推荐、搜索等多个场景。
产品含义:同一个embedding可以被多个系统使用。
这里多说一句,这种设计思路,在AI产品中,不仅仅是工程师们应该考虑的事儿,作为产品经理,在你的产品设计之初,就要有这种思路和概念!
2. 两个训练任务相互强化,不是独立的
GCL和CSFT同时进行,共享LLM编码器,相互增强。
产品含义:性能提升来自"协同作用",不是"简单叠加"。
3. GCL用的是用户行为,CSFT用的是标签
GCL的真理来源:用户共同行为(隐式反馈)CSFT的真理来源:人工标注的hashtag/category(显式标签)组合效果:既学到"用户喜欢什么",又学到"内容本质"产品含义:需要投入数据标注,但长期价值巨大。
解释一下,什么叫“真理来源”?
在训练任何模型时,都需要一个标尺来算损失(loss),告诉模型“这次学对了/学错了多少”。而这个标尺的来源,就叫“真理来源”(ground truth/source of truth)。
所以上面提到的”真理来源“,是机器学习里“监督信号/标准答案”的来源,也就是模型训练时用来评判“对不对”的依据。GCL用“用户怎么实际行为”的数据当监督信号;CSFT用“人或规则打的权威标签”当监督信号。前者偏“关系是否搭”,后者偏“内容是什么”。
1,一句话概述GCL和CSFT:GCL像“看大家实际常一起买/一起看的搭配清单”(最大程度发挥群众智慧);CSFT像“由品类MD制定的官方分类手册”(最具权威的参考标准)。两个一起用,既接地气又不失标准。
2,GCL的“真理来源”= 用户共同行为(隐式反馈)
含义:谁和谁“经常被同一批用户连续/共同消费”,就被视为“应当更接近”的正样本对;反之为负样本。
举例:用户在一次会话里先看“青浦护照换证流程”,紧接着看“青浦政务中心踩坑避雷”,这俩被判为“更应相似”的一对;与“猫咪绝育指南”的组合则更可能是负样本。
训练目标:让“正对”embedding距离更近、与“负对”更远,从而学到“推荐意义上的相关性”。
3,CSFT的“真理来源”= 人工标注的标签/类目(显式标签)
含义:由标注员或稳定规则体系给出的hashtag/category(如“护照/换证”“本地办事/青浦”),当作模型应当“生成/预测”的标准答案。
举例:笔记应被系统正确地打上“青浦/护照/换证”这类标签;模型生成正确越多,说明理解越到位。
训练目标:逼着模型“读懂内容要点并用标准词汇表达”,从而学到“语义/知识上的理解”。
GCL和CSFT一起用,既能让模型能力贴近业务场景,又能提高语义理解和可解释性。
4. 多模态升级(NoteLLM-2)的核心是"不让文本压制图像"
不是"把图像加进去就行"
而是"确保图像信息被充分利用"产品含义:技术的微妙之处决定了产品体验的差异。
5. 效果可调,通过α参数权衡"推荐逻辑"vs"内容理解"
α小:更重视推荐逻辑(embedding更"商用")α大:更重视内容理解(embedding更"语义")方案成本训练周期维护难度BERT微调低短低直接用LLM embedding高长高NoteLLM中中中效果权衡
方案推荐效果理解深度多场景适用BERT✓✓✓✓直接用LLM✓✓✓✓✓✓✓✓✓NoteLLM✓✓✓✓✓✓✓✓✓独特价值
小红书用NoteLLM而不是直接用LLM embedding的原因:
成本可控:不需要巨量计算资源效果最优:兼容推荐逻辑和内容理解可定制化:通过调整α权重适配不同业务可迁移:同一个embedding支持推荐、搜索、分类等多个应用问题: 小红书需要理解"什么笔记和什么笔记相关"NoteLLM的想法: 与其纠结embedding怎么生成, 不如让模型一边学"推荐任务", 一边学"内容理解任务", 两个任务相互增强。关键创新: ✓ GCL:用用户行为当"推荐逻辑"的老师 ✓ CSFT:用内容标签当"深度理解"的老师 ✓ 多任务学习:两个老师教同一个学生(LLM)最终成果: ✓ embedding既满足推荐需求,又有深度理解 ✓ 成本比直接用LLM低,效果不打折 ✓ 可推广到搜索、分类等多个应用场景Wow效果: 用户觉得"推荐太懂我了",创作者觉得"终于有好的展示机会了"多任务学习很强大:不同的目标可以相互协同隐式反馈很宝贵:用户行为本身就是最好的标签细节很重要:Late Fusion vs Early Fusion的区别可以产生2.5%的性能提升后续发展
NoteLLM-2预期下一版本会支持更多模态(视频、音频)和更复杂的推荐场景。
来源:ID2008912004
