Manus血泪教训：为什么上下文工程才是护城河

摘要：10年NLP（自然语言处理）经验的AI创业公司联创坦言：“对于创业公司，过早微调（Fine-tuning）模型是一个陷阱。”

Manus联创的“血泪”教训：为什么上下文工程，而非模型微调，才是护城河？

10年NLP（自然语言处理）经验的AI创业公司联创坦言：“对于创业公司，过早微调（Fine-tuning）模型是一个陷阱。”

这不是危言耸听。

Manus联合创始人兼首席科学家Peak最近与LangChain创始人交流中，分享了“血泪教训”：上一个产品，迭代速度被长达1-2周的模型训练周期活活拖死。

这次把赌注压在“上下文工程”（Context Engineering）上，团队短短几个月内，将产品重构了整整5次。

为什么如此笃定？

1. “微调”陷阱：被模型拖垮的“上一个”公司

创立Manus前，Peak已经在NLP领域摸爬滚打了10年。上一个创业项目和现在许多AI团队一样，选择“训练自有模型”的重度路线。

结果是灾难性的。

“产品创新速度完全被模型迭代速度给限制了。”Peak回忆道。

产品还没找到PMF（市场契合点）的阶段，他们却在花费大量时间“提升那些可能根本不重要的基准测试”。

一个单一的“训练-评估”周期，就需要1到2周。

当团队在焦急地等待模型时，市场窗口早已关闭。

但最大的“陷阱”还不是时间，而是“僵化”。

“微调模型时，通常会固定一个‘行动空间’（Action Space）。”

就像花重金打造一把精妙绝伦的“屠龙宝刀”。但如果第二天，巨头发布了（比如多模态MCP），市场不再需要“屠龙”，而是需要“飞天”，这把刀就成了一堆废铁。

“Manus设计曾被MCP的发布彻底改变。”Peak坦言，如果当时死磕微调，唯一的下场就是被市场活活抛弃。

2. 划清界限：AI应用层的真正边界

经历“痛苦”领悟后，Peak为Manus找到了清晰无比的战略边界。

“必须坚定地划清界限（Be firm about where you draw the line）。”

AI应用层创业的界限就是“上下文工程”。

这是目前应用和模型之间最清晰、最实用的边界。创业公司应该“尽可能久地”依赖通用大模型，而不是试图在模型层与巨头竞争。

巨头的护城河是“模型”，而应用层的护城河，就是“使用”模型的能力——即“上下文工程”。

那么，这个听起来高深的“上下文工程”到底是什么？

3. “上下文悖论”：Agent的阿喀琉斯之踵

2022年大家谈论“提示词工程”（Prompt Engineering），解决单次交互。

而2024年面临的是“上下文工程”（Context Engineering），解决Agent（智能体）的长序列、多轮工具调用。

LangChain创始人Lance指出“上下文悖论”：Agent要完成复杂任务，必须大量调用工具（典型任务约50次）来获取上下文。

但上下文越长，Agent性能就越差，成本也呈指数级上升。

更糟糕的是，即使100万Token上下文窗口，模型在处理到200K（约20万）时，性能就开始“腐烂”（Context Rot），出现重复、缓慢和质量下降。

“上下文腐烂”阈值大约128K到200K之间。

Agent又慢又笨，不是模型不行，是“上下文工程”没做好。

4. 破局：上下文工程的4大支柱

如何解决这个悖论？上下文工程常见方法

①.Context Offloading (上下文卸载)：将信息从核心的对话历史中移出，存放到外部系统（如文件系统），只在上下文中保留一个轻量级的引用②.Reducing Context (上下文精简)：通过总结或压缩来减少信息量，例如修剪旧的工具调用记录③.Retrieving Context (上下文检索)：在需要时，按需从外部系统将信息取回。实现方式包括基于索引的语义搜索，或更简单的基于文件系统的搜索工具（如 glob 和 grep）④.Context Isolation (上下文隔离)：通过将任务分解给多个子代理（sub-agents），每个子代理拥有自己独立的、更小的上下文窗口，从而实现关注点分离和上下文管理5.Caching Context (上下文缓存)：对上下文信息进行缓存，以提高效率（这一点在 Manus 的实践中被特别提及）

这些策略并非孤立存在，而是相互关联、协同工作，共同构成了现代 AI Agents 架构的基石

总结

LangChain Lance总结了业内顶尖团队（包括Manus）都在使用的4大工程支柱：