小红书AI战略深度解析，NoteLLM，产品经理友好版

摘要：大家好，我是喜欢研究AI的一枚产品经理平时主要从事与AI、大模型、智能座舱等相关工作。在这里，我会持续跟大家分享AI相关的前沿技术、产品体验、个人心得等有营养有价值的信息另外，我还超爱自驾游~

大家好，我是喜欢研究AI的一枚产品经理

平时主要从事与AI、大模型、智能座舱等相关工作。在这里，我会持续跟大家分享AI相关的前沿技术、产品体验、个人心得等有营养有价值的信息

另外，我还超爱自驾游~

序

前天写了一篇文章→ 小红书AI战略深度解析 | 2027年，小红书将成为中国第一大移动搜索引擎！「链接」，这里面重点写了两件事儿：

从技术的角度，解析了小红书内部NoteLLM的工作原理。同时，我也追加了DeepSeep-COR对小红书NoteLLM进一步降本增效的说明。从产品的角度，讲述了小红书现在的AI现状，并推理和给出了一些小红书未来2年的AI发展路线，以及围绕着AI衍生出来的一些具体场景和具体功能。

然后转发个身边一些小伙伴，很多人看完后表示看不太懂[我想静静]哈哈，因为我自己是技术出身，后转产品，而身边多是产品经理，可能技术上有一些盲点。所以，这一篇文章，我会进一步的，站在产品经理的角度，去解析和重述NoteLLM，用产品经理的视角，讲述NoteLLM是怎么工作的，以及它在具体的使用场景中，是如何赋能小红书App的。

这篇文章内容还是比较多，所以开始前，先列一下内容结构（注意这不是目录，是本文的核心内容，以及内容的讲述顺序）：

✅ 问题导向：NoteLLM要解决什么问题✅ 传统方案痛点：BERT为什么不够、LLM为什么太贵✅ 核心创意：一箭双雕的多任务学习思想✅ 两个巧妙设计：GCL + CSFT如何相互强化✅ 具体应用：美妆推荐、美食推荐等真实场景解析✅ NoteLLM-2升级：多模态融合如何避免"文本压制图像"✅ PM必知5点：关键认知和避坑指南

NoteLLM：产品经理友好版讲解

我尽量用产品经理能理解的语言解释NoteLLM的实现原理和产品价值，不涉及复杂数学，只讲产品逻辑。

背景问题

小红书的推荐系统需要做一件事：当一个用户看了笔记A后，系统要推荐给ta最相关的笔记B。

这个问题叫I2I推荐（Item-to-Item）。

传统方案的痛点

旧方案用什么？ BERT模型

优点：成熟稳定，能提取文本特征缺点：理解能力不足，无法充分利用笔记中的丰富信息

为什么BERT不够？

想象用户看了一篇"Chanel香奈儿包包推荐"的笔记。BERT只能理解文字"包包、奢侈品、推荐"这些关键词，但看不到图片中的色号、材质、搭配效果。

而这些视觉信息往往比文字更重要。所以BERT推荐的"相关笔记"可能风格完全不搭。

为什么不直接用大模型？

可能有人会说："那就用LLM（大语言模型）吧，它比BERT强得多啊。"

没错！可问题是：

LLM的成本太高（训练、推理都贵）直接从LLM提取embedding效果不一定好（LLM不是为推荐任务设计的）需要大规模数据，小红书可能并不想投这么多成本

NoteLLM的创意方案

核心思想："用LLM做其他事情，顺便生成embedding。"

换个角度：生成hashtag/category 和 生成笔记embedding 的本质是一样的，都是把笔记信息压缩。

如果一个模型能学会"给笔记生成合适的hashtag"，那这个过程中它必然深度理解了笔记的内容。而这种理解，就可以用来生成推荐用的embedding。

这就是NoteLLM的创意：一箭双雕。

核心概念：Note Compression Prompt（NCP）

想象你要把一个笔记的所有信息浓缩到一个特殊的字符上。

笔记原文："小白鞋这个款百搭又舒适，我的Adidas Stan Smith已经穿了5年，无论搭配连衣裙还是阔腿裤都很协调。适合上班、约会、旅游。"NCP处理方式：{笔记标题} + {hashtags} + {category} + {完整内容} ↓ 通过LLM处理 ↓ 提取特殊token[EMB]的表征 ↓ 这个表征就是"笔记embedding"

产品意义：这个embedding可以用来做什么？

找"相似笔记"（I2I推荐）找"风格搭配笔记"（个性化)找"时尚建议笔记"(垂直搜索)

设计1：GCL - 用用户行为指导模型学习

问题："什么样的两篇笔记应该被推到一起？"

传统方案：人工定义规则（太主观）

NoteLLM的方案：让用户行为说话

具体怎么做？

系统会记录："哪些笔记经常被同一个用户看"。比如：

用户A看了"小白鞋推荐"后，经常看"Adidas搭配"用户B看了"Chanel包包"后，经常看"奢侈品护理"

系统把这些共现关系作为"信号"告诉模型：

"老铁，经过我的长期观察和深度分析，这两篇笔记经常被一起看，你学着让它们的embedding更接近吧。"

模型学习的过程就是对比学习（Contrastive Learning）：

正样本（应该接近）： - "小白鞋推荐" vs "Adidas搭配" - 计算它们的embedding相似度 - 让相似度尽可能高负样本（应该远离）： - "小白鞋推荐" vs "护肤攻略" - 计算它们的embedding相似度 - 让相似度尽可能低

为什么这个设计聪明？

不需要人工标注"什么笔记相关"直接用真实用户行为作为真理模型学到的是推荐意义上的相似性，不是语义相似性

（"语义相似性"可能是"都是美食"，"推荐相似性"可能是"风格搭配"——两者不一样）

设计2：CSFT - 生成任务反哺embedding质量

问题："仅用GCL好吗？"

答案：还不够。GCL只让embedding"满足用户行为"，但可能理解得不够深。

举个例子：

Embedding A 和 Embedding B 相似度高 ✓（满足GCL要求）但它们表达的内容完全不同 ✗（没理解笔记真实含义）

CSFT的想法：强制模型深度理解笔记

"既然你说两篇笔记相关，那你给我生成一下它们的hashtag吧。如果你理解不透彻，生成的hashtag会南辕北辙很奇怪。"

具体怎么做？

输入：一篇笔记 + 目标hashtag过程：LLM预测"下一个token应该是什么" （类似玩"填空游戏"）输出：生成正确的hashtag例子：笔记：小白鞋这个款百搭又舒适...目标hashtag：#小白鞋 #穿搭 #日常 ↓ LLM预测输出：#小白鞋 (√正确) #穿搭 (√正确) #日常 (√正确)

为什么有效？

要生成正确的hashtag，LLM必须：

理解笔记讲的是什么（"小白鞋搭配"）抓住关键点（"百搭"、"日常"）转化为可搜索的标签

这个过程中，LLM的内部表征（embedding）会被不断强化，变得"理解更深"。

两个设计的协同作用

为什么要同时做GCL和CSFT？

它们共享同一个LLM编码器！

GCL任务：笔记 → LLM编码 → embedding ↑ 这部分被强化CSFT任务：笔记 → LLM编码 → 预测token → 生成hashtag ↑ 这部分也被强化

方面说明输入两篇相关的笔记（来自用户共现行为）处理LLM分别编码这两篇笔记，提取embedding学习计算embedding相似度，通过对比学习让它们更接近损失函数InfoNCE Loss（标准的对比学习损失）收益embedding学会"推荐意义上的相似性"

CSFT任务（图片右侧流）：增强理解深度

方面说明输入笔记 + 目标hashtag/category处理LLM逐个预测下一个token（类似文本补全）学习如果预测正确，说明理解透彻损失函数Language Modeling Loss（语言建模损失）收益LLM被迫深度理解笔记，embedding质量提升

总损失函数（关键设计）

总Loss = L_gcl + α × (L_gen / (1 + α))为什么这样设计？- L_gcl：对比学习任务的损失- L_gen：生成任务的损失- α：可调的权重系数- (1+α)在分母：确保权重不会无限放大实际应用：- 当α=1时，两个任务权重相等- 当α>1时，更重视生成任务- 当α指标数值含义Recall@100从BERT的0.xx提升到0.yy推荐的相关笔记找到率相似笔记排序质量+15-20%embedding的排序能力

在线指标（用户层面）

指标变化含义点击率(CTR)+5-8%用户更愿意看推荐平均停留时间+10-15%用户看推荐内容更久互动率+8-12%用户更愿意点赞/评论

用户行为：看了"极简穿搭"笔记

提取"极简穿搭"笔记的embedding找embedding相似的笔记推荐给用户GCL学到了"极简穿搭"和"小白鞋搭配"的关联（用户共见）CSFT强化了"极简风格"的理解embedding既理解风格，又理解搭配逻辑

应用2：美食推荐场景

用户行为：看了"宁夏路日料推荐"

理解"日料""宁夏路"等特征找相似的本地美食笔记推荐其他"日料"或"宁夏路附近"的笔记同一个embedding既包含"美食类别"信息，又包含"地理位置"信息GCL和CSFT联合优化，信息更完整

用户行为：经常看"Adidas穿搭"

NoteLLM做什么：

推荐"Adidas新款发布"推荐"运动风搭配"形成围绕品牌和风格的推荐闭环

为什么有效：

embedding同时学到了"品牌特性"和"个人偏好"能更精准地预测用户需求

为什么需要NoteLLM-2？

NoteLLM-1.0只处理文本，但小红书笔记天生是多模态的：

文字："Adidas Stan Smith，百搭又舒适"但图片中有关键信息：实际色号、肤色是否匹配、搭配的其他单品

NoteLLM-2的两个升级

升级1：mICL - 显式分离视觉和文本

问题：如果把图像简单地"拼接"到文本后，LLM会优先处理文本，忽视图像。

方案：在Prompt中显式标记

原来的Prompt：{笔记文字 + 图像token}NoteLLM-2的Prompt：[文本内容：{笔记文字}][视觉内容：{图像token}]请理解上述笔记的完整含义。

产品意义："告诉模型别忘了看图片！"

升级2：Late Fusion - 视觉信息单独处理

原理：不让图像进入LLM的"中间层"（那里文本会压制图像），而是在最后才融合。

传统方式（Early Fusion）：图像 → LLM处理 → 输出（LLM可能忽视图像）NoteLLM-2（Late Fusion）：图像 → 保留原始视觉特征（不进LLM） ↓ 与LLM的输出在最后融合 ↓ 结果：图像和文本都被充分利用

产品意义："给图像开辟专属通道，不被文本压制。"

效果提升

指标NoteLLM-1.0NoteLLM-2.0提升Recall@1000.72740.8025+2.5%短文本场景0.680.745+6.72%线上CTR基准+6.35%
互动时长基准+8.08%

用户感受升级：

NoteLLM-1.0："推荐的衣服风格不错"NoteLLM-2.0："推荐的衣服风格好，色号也很搭我的肤色！"

1. NoteLLM不是推荐算法，是特征表示

NoteLLM是一个"特征提取器"，提取出的embedding可以用于推荐、搜索等多个场景。

产品含义：同一个embedding可以被多个系统使用。

这里多说一句，这种设计思路，在AI产品中，不仅仅是工程师们应该考虑的事儿，作为产品经理，在你的产品设计之初，就要有这种思路和概念！

2. 两个训练任务相互强化，不是独立的

GCL和CSFT同时进行，共享LLM编码器，相互增强。

产品含义：性能提升来自"协同作用"，不是"简单叠加"。

3. GCL用的是用户行为，CSFT用的是标签

GCL的真理来源：用户共同行为（隐式反馈）CSFT的真理来源：人工标注的hashtag/category（显式标签）组合效果：既学到"用户喜欢什么"，又学到"内容本质"

产品含义：需要投入数据标注，但长期价值巨大。

解释一下，什么叫“真理来源”？

在训练任何模型时，都需要一个标尺来算损失（loss），告诉模型“这次学对了/学错了多少”。而这个标尺的来源，就叫“真理来源”（ground truth/source of truth）。

所以上面提到的”真理来源“，是机器学习里“监督信号/标准答案”的来源，也就是模型训练时用来评判“对不对”的依据。GCL用“用户怎么实际行为”的数据当监督信号；CSFT用“人或规则打的权威标签”当监督信号。前者偏“关系是否搭”，后者偏“内容是什么”。

1，一句话概述GCL和CSFT：GCL像“看大家实际常一起买/一起看的搭配清单”（最大程度发挥群众智慧）；CSFT像“由品类MD制定的官方分类手册”（最具权威的参考标准）。两个一起用，既接地气又不失标准。

2，GCL的“真理来源”= 用户共同行为（隐式反馈）

含义：谁和谁“经常被同一批用户连续/共同消费”，就被视为“应当更接近”的正样本对；反之为负样本。

举例：用户在一次会话里先看“青浦护照换证流程”，紧接着看“青浦政务中心踩坑避雷”，这俩被判为“更应相似”的一对；与“猫咪绝育指南”的组合则更可能是负样本。

训练目标：让“正对”embedding距离更近、与“负对”更远，从而学到“推荐意义上的相关性”。

3，CSFT的“真理来源”= 人工标注的标签/类目（显式标签）

含义：由标注员或稳定规则体系给出的hashtag/category（如“护照/换证”“本地办事/青浦”），当作模型应当“生成/预测”的标准答案。

举例：笔记应被系统正确地打上“青浦/护照/换证”这类标签；模型生成正确越多，说明理解越到位。

训练目标：逼着模型“读懂内容要点并用标准词汇表达”，从而学到“语义/知识上的理解”。

GCL和CSFT一起用，既能让模型能力贴近业务场景，又能提高语义理解和可解释性。

4. 多模态升级（NoteLLM-2）的核心是"不让文本压制图像"

不是"把图像加进去就行"

而是"确保图像信息被充分利用"

产品含义：技术的微妙之处决定了产品体验的差异。

5. 效果可调，通过α参数权衡"推荐逻辑"vs"内容理解"

α小：更重视推荐逻辑（embedding更"商用"）α大：更重视内容理解（embedding更"语义"）方案成本训练周期维护难度BERT微调低短低直接用LLM embedding高长高NoteLLM中中中

效果权衡

方案推荐效果理解深度多场景适用BERT✓✓✓✓直接用LLM✓✓✓✓✓✓✓✓✓NoteLLM✓✓✓✓✓✓✓✓✓

独特价值

小红书用NoteLLM而不是直接用LLM embedding的原因：

成本可控：不需要巨量计算资源效果最优：兼容推荐逻辑和内容理解可定制化：通过调整α权重适配不同业务可迁移：同一个embedding支持推荐、搜索、分类等多个应用问题：小红书需要理解"什么笔记和什么笔记相关"NoteLLM的想法：与其纠结embedding怎么生成，不如让模型一边学"推荐任务"，一边学"内容理解任务"，两个任务相互增强。关键创新： ✓ GCL：用用户行为当"推荐逻辑"的老师 ✓ CSFT：用内容标签当"深度理解"的老师 ✓ 多任务学习：两个老师教同一个学生（LLM）最终成果： ✓ embedding既满足推荐需求，又有深度理解 ✓ 成本比直接用LLM低，效果不打折 ✓ 可推广到搜索、分类等多个应用场景Wow效果：用户觉得"推荐太懂我了"，创作者觉得"终于有好的展示机会了"多任务学习很强大：不同的目标可以相互协同隐式反馈很宝贵：用户行为本身就是最好的标签细节很重要：Late Fusion vs Early Fusion的区别可以产生2.5%的性能提升

后续发展

NoteLLM-2预期下一版本会支持更多模态（视频、音频）和更复杂的推荐场景。

来源：ID2008912004

标签：战略 llm 产品经理 bert notellm

本文地址：http://news.43b.com.cn/a/1731170.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!