摘要:在人工智能迈入大语言模型(LLMs)主导的新阶段后,我们获得了许多惊艳的技术能力,丰富的语言理解、流畅的文本生成,以及令人信服的对话模拟。但当我们期待与AI维持一场“持久而个性化”的深度交流时,现实却给我们泼了一盆冷水——它们很“健忘”。
在人工智能迈入大语言模型(LLMs)主导的新阶段后,我们获得了许多惊艳的技术能力,丰富的语言理解、流畅的文本生成,以及令人信服的对话模拟。但当我们期待与AI维持一场“持久而个性化”的深度交流时,现实却给我们泼了一盆冷水——它们很“健忘”。
对“记忆力差”的大模型说不
尽管GPT类模型在推理和语言风格把控上令人钦佩,但它们的记忆方式仍停留在“即时记忆”阶段。由于依赖固定长度的上下文窗口,它们往往只能记住“最近”的内容。一旦对话变长、话题中断,甚至是换了会话窗口,先前的信息便如断线的风筝悄然飘走。于是AI忘记了你最爱的咖啡口味,也忘记你正在准备一场重要的面试。
这种“断裂记忆”的问题,不仅影响对话连贯性,更让个性化推荐、长期交互甚至情绪共鸣变得困难。在追求“拟人化交互”的道路上,记忆瓶颈成了挡在眼前的一道墙。
向操作系统借脑,MemoryOS 的设计灵感
正当技术社区为此烦恼时,来自北京邮电大学与腾讯AI Lab 的研究团队带来了一种颇具“工程思维”的解决方案:何不借鉴传统操作系统的内存管理机制,为AI打造一个“记忆管理操作系统”?
于是,MemoryOS 应运而生。这并不是为语言模型简单加上一块“额外记忆”,而是一整套如同电脑操作系统般严谨的框架:通过分层的存储结构(短期/中期/长期)、热度驱动的动态更新机制、语义感知的多级检索算法,MemoryOS 让AI学会“选择性记住”,并且“智能地忘记”。
它不仅延续了用户画像、偏好和历史交互,还能自主决定哪些信息应该进档、哪些内容值得遗忘。这让AI在面对跨天、跨话题、多轮的复杂对话时,依然能够保持语境连贯、风格统一乃至价值取向的一致性。
从结构到实效的全面创新
MemoryOS 不是纸上谈兵。它的架构细致划分为四大模块:记忆存储(Storage)、记忆更新(Updating)、记忆检索(Retrieval)、响应生成(Generation)。每一层都经过精心设计,确保了系统的可拓展性与工程落地性。
相较于已有如 TiM、A-Mem、MemGPT 等记忆增强方法,MemoryOS 的突出优势在于它的“系统整合性”与“记忆演化机制”:它不是把记忆模块当外挂工具,而是将记忆深度整合进整个交互流程,真正实现“AI代理记忆架构的内生化”。
实验验证也不负众望,在面向超长对话的 LoCoMo 基准测试中,MemoryOS 的表现领先于其他主流方法,在 F1 与 BLEU-1 指标上分别实现了 49.11% 与 46.18% 的性能提升;在用户记忆恢复、上下文连贯性和交互效率方面也表现出显著优势。
项目团队与开源使命
本项目由北京邮电大学与腾讯AI Lab 共同牵头,主力研究者包括Jiazheng Kang, Mingming Ji, Zhe Zhao, Ting Bai。团队汇集了高校在认知建模方面的理论积淀与工业界在大模型系统化实现方面的工程经验,可谓“智技合一”。
更重要的是,该项目已完全开源,代码托管于 GitHub:https://github.com/BAI-LAB/MemoryOS。这为后续学术探索、行业适配与跨领域创新提供了极大的开放性和可迁移性。
论文链接:
项目地址:https://github.com/BAI-LAB/MemoryOS
01 MemoryOS:AI记忆的中枢神经系统
MemoryOS 的核心思想像极了人类的大脑皮层分区,它将「记忆」这件事系统化拆解为四个环节:存储、更新、检索和生成,每一步都协调运作,形成一个可生长、可调度的“长期语义记忆体系”。
图1:MemoryOS的总体架构,包括内存存储、更新、检索和响应。
模块一:记忆存储 —— 分层是关键
MemoryOS 的存储机制采用了三层结构,像一座记忆梯田,层层进阶:
短期记忆(STM):记录最近会话中的每一次对话,单位是「对话页」,每一页都含有用户提问、AI答复、时间戳,以及自动生成的“上下文摘要”,保证对话语境的延续性。
中期记忆(MTM):仿照操作系统的段页式结构,将多页对话按“语义话题”打包成段(segment)。系统通过计算对话页与段落之间的语义相似度 Fscore(结合词向量余弦与关键词 Jaccard 相似度)来聚合相关对话,确保段内主题清晰、内容连贯。
长期个性记忆(LPM):这是AI自我意识的一部分,包含两大分支:
1)用户画像:不仅记录静态信息(如姓名、出生年),还动态维护知识库(User KB)和兴趣画像(User Traits),高达90 维度。
2)AI画像:包含系统设定角色(如“助理”或“顾问”)和互动演化的行为偏好(Agent Traits),形成一致的人设和行为风格。
这一层级结构不仅模仿了人类记忆的分层机制,也引入操作系统式“分段管理”理念,使AI能区分“即刻对话”、“常谈话题”与“长期偏好”。
AI的大脑不可能无限扩张,关键是如何聪明地“更新”它。
STM → MTM:采用先进先出(FIFO)队列逻辑。当STM满员,最早的对话页自动转移至MTM,这保证了短期记忆永远聚焦“当前话题”。
MTM → LPM:更为复杂。系统计算每个段的热度分数(Heat),由访问频次(Nvisit)、内容丰富度(Linteraction)、最近使用程度(Rrecency)共同决定。公式如下:
当段落热度高于设定阈值,说明它对用户具有持续价值,此时系统将其提取并更新进用户偏好(Traits)与知识库(KB)中。反之,低热度段则被优雅地“遗忘”或回收。
整个更新机制体现出 MemoryOS 对“动态演化”与“去冗余”的精准把控,不再是简单信息积累,而是一场认知有机体的成长。
模块三:记忆检索 —— 懂你所问,召你所需
要生成像样的对答,光有记忆还不够,如何高效调用才是核心。
STM 提供最近对话背景,直接使用;
MTM 则要经过“双阶段检索”:先从所有段中选出最相关的若干段(基于Fscore),再在段内挑选最相关的对话页。
LPM 检索用户画像中的语义匹配特征,尤其是动态特征和偏好,找到与当前问题最贴近的历史线索。
这种“按需分级调度”的机制,确保无论用户询问的是刚刚说过的事,还是上个月吃的披萨,系统都能在逻辑上和风格上无缝对接。
模块四:响应生成 —— 将“记忆+上下文”转化为对答之术
最终,这一切的记忆调用都汇聚于生成模块。系统将检索到的最近上下文(STM)、话题段落摘要(MTM)、用户和AI画像(LPM),一并融合进 LLM 的提示输入中,构造一个语义丰富、风格贴合的Prompt,引导模型生成输出。这正是 MemoryOS 的“交互魔法”所在。
它不仅能说出对的内容,更能以对的方式说出,让你感觉:这个AI,好像真的了解我。
02 实验评估与分析:让“记忆架构”直面真实世界
跨越短期交互,验证长期记忆的含金量
为了检验 MemoryOS 的真正实力,研究团队采用了两套极具代表性的对话数据集进行实验。
GVD(General Virtual Dialogue):模拟15 位虚拟用户在10 天内与AI进行多轮对话的过程,每天涵盖多个主题。这更像我们日常的“连续使用情境”,检验模型对日常信息的长期保留与更新能力。
LoCoMo Benchmark:被誉为“长对话记忆炼金炉”。每组对话平均长达300轮、包含近9,000个Token,专为检测LLMs在超长交互下的记忆保持力而设计。问题被细分为四类:单跳、 多跳、 时间性推理和开放式提问,极具挑战性。
在评估方式上,团队设置了多维指标。
GVD 使用记忆检索准确率(Acc)、回答正确率(Corr)、上下文连贯性(Cohe)三项打分;
LoCoMo 则采用标准的 F1和BLEU-1指标,衡量语义精确度与语言生成质量。
对比对象囊括了当前主流的增强记忆框架,包括存思维不存话的TiM;引入遗忘曲线的MemoryBank;模仿操作系统分页调度的MemGPT;构建图谱式知识网络的A-Mem。
可以说,这场测试既是一次全面竞技,也是一场记忆体系的“技术内战”。
性能对比:MemoryOS全线领先,“记忆力”堪称新标杆
实验结果毫不含糊地展现了 MemoryOS 的领先优势。
在 GVD 数据集上,MemoryOS 不仅在三个维度中全面夺冠,在 GPT-4o-mini 模型上达到了93.3%的检索准确率与91.2%的回答正确率,较最强对手 A-Mem 提高了 3.2% 和 5.4%。
更惊艳的是在 LoCoMo 这类“马拉松式对话”环境下,MemoryOS 在 GPT-4o-mini 上将 F1 指标提升了 49.11%,BLEU-1 增幅则达到46.18%,遥遥领先其他方法。在最具挑战的时间性问题与开放问题上,其表现甚至翻倍。
更换模型至 Qwen2.5-7B 后,MemoryOS 依旧展现出极强的普适性和稳定性,平均排名依旧领先。
这一成绩背后,是其三层记忆结构和动态热度调度机制所构建的系统性优势,它不仅记得住,更记得准、记得巧。
图2:GVD和LoCoMo基准数据集的消融研究。
消融实验,是谁撑起了这座“记忆大厦”?
研究团队非常“科学家范儿”地进行了“拆房子”测试——依次移除 MemoryOS 的关键模块,看系统性能如何衰减。
结论非常明确了,移除整个记忆系统,性能几乎“塌方”;中期记忆模块(MTM)影响最大,它相当于记忆系统的“聚焦器”,负责话题聚合与热度筛选;长期个性模块(LPM)也十分关键,对用户偏好追踪和一致性反馈至关重要;相对而言,对话链模块(Chain)的影响较弱,但仍对语境承接起到润滑作用。
通过这种消融方式,MemoryOS 用数据验证了自己的模块分工是“各司其职又协同高效”的设计。
超参数分析,记忆提取的“度”在哪里?
在 MemoryOS 中,检索多少内容是“刚刚好”的?
研发团队通过调整从 MTM 中召回的对话页数(top-k)进行测试。结果显示当 k 增加到 10 以内时,模型表现稳步上升;超过一定阈值后,召回的信息开始“泛滥”,语义噪音反而拉低了性能。
因此,系统最终设定 k=10,以实现性能与效率的最佳平衡。这也提醒我们——有效记忆,不等于记得越多越好,而是要精准适量。
图3 :超参数k(MTM中检索的页面)对LoCoMo基准的影响。
案例研究:从“我想吃汉堡”读出“你还想减肥”
如果说前面是数据的胜利,那最后这组对比案例,是情感的胜利。
在一个真实对话案例中,用户几周前说过:“我去了湿地公园,看到很多松鼠,还跑了两圈,为了减肥”。几周后,他突然冒出一句:“我想吃汉堡”。
默认 LLM 的回答是“你要不要试试鸡腿堡?”但搭载 MemoryOS 的模型先是给出推荐,然后补了一句意味深长的提醒:“别忘了你还想减肥哦”。
这种“人味儿”的关照,并不是技术炫技,而是MemoryOS在多个模块联动下实现的语境识别、用户画像识别与人格一致性的真实体现。
图4:展示引入我们的内存管理系统的积极影响的案例研究。左:默认LLM;右:使用MemoryOS。
03
MemoryOS 的技术成就:不是加点记忆,而是记忆重塑
与其说 MemoryOS 是一个“增强模块”,不如说它是为AI构建了一种类操作系统的全新意识秩序。不同于以往局部补丁式的增强策略,它从存储结构、更新策略、检索逻辑再到生成方式,构建了一套闭环体系,使AI真正具备“持续记忆”“动态适应”“个性演化”的能力。
这套系统的最大亮点在于其分层存储逻辑——短期记忆承接上下文,中期记忆聚焦话题热度,长期记忆维护个性与价值观。配合热度驱动的淘汰机制和语义分段检索,MemoryOS 完美解决了 LLM 在长对话中常见的“记不全、记不准、记不对”三大症状。
更关键的是,它让AI变得更像“一个人”——一个能记得你喜欢的口味、正在进行的目标,甚至会在你想吃汉堡时温柔提醒“别忘了你还想健身”的数字助理。
路虽远,行则将至,MemoryOS 的未来生长点
当然,MemoryOS 也并非完美无缺,它仍有许多可以继续深挖的优化空间。
比如说,多层记忆模块之间的信息流动可以更智能化:如何判断某段内容应被同步进多个层级?如何在MTM与LPM之间建立更细粒度的引用索引,而不是完全依赖热度淘汰?这些都涉及记忆路径的可解释性与调度策略的优化。
同时,在面对多模态内容(图像、视频)以及异构对话源(跨平台交互)的挑战时,MemoryOS 的结构还可进一步拓展为“通用记忆内核”,适配多任务、多通道场景。想象一下:未来的你与AI在浏览器、手机App、VR眼镜中并行对话,MemoryOS能否构建一个统一而弹性的“用户记忆图谱”?这无疑是下一站的蓝图。
从AI架构到未来智能生态,MemoryOS的跨界启示
这个项目的最大贡献,或许不仅仅在于解决了“记忆力”问题,更在于重新定义了 AI Agent 的架构范式。
以往,我们总是将Agent视作一个“行为体”——擅长对话、回答问题、辅助推理。但 MemoryOS 让我们意识到:没有记忆的Agent,始终只是反应器;而具备结构化记忆能力的Agent,才有可能形成思维流与长程目标,成为真正的智能体。
对于金融科技、科学研究、跨境合规与个性化服务等领域来说,这一记忆内核系统具有极大的实用价值。它不仅能提升用户交互的稳定性和连贯性,还为“长期策略一致性”“个性化风控与问答”“多轮法条记忆”等复杂需求提供了底层能力支撑。
而在更远的视角中,MemoryOS 向我们展示了一种“架构思维”的回归:在狂热探索AI算法之余,我们是否也应静下心来重新思考AI的“系统设计”?也许未来更强大的AI,不靠更多参数,而靠更聪明的调度器、更合理的资源管理——也就是更好的“AI操作系统”。(END)
参考资料:https://arxiv.org/pdf/2506.06326
来源:人工智能学家