小红书入局AI智能体开源DeepAgent,在计划什么更新?

B站影视 电影资讯 2025-10-28 15:19 1

摘要:传统的AI助手就像按照固定食谱做菜的厨师,只能严格按照既定步骤操作。如果食谱上没写,它就不知道该怎么办。而DeepAgent就像一个经验丰富的大厨,能根据实际情况灵活调整,甚至自己去找新的调料和工具。这项研究的突破性进展在于,DeepAgent能够在一个连续的

想象这样一个超级助手,不仅能帮你订机票、查资料、写代码,还能在遇到新问题时自己学会使用新工具,就像一个真正聪明的人类助手一样。

2025年10月24日,小红书和中国人民大学的研究团队开源DeepAgent系统,标志着小红书正式下场AI Agent赛道。

传统的AI助手就像按照固定食谱做菜的厨师,只能严格按照既定步骤操作。如果食谱上没写,它就不知道该怎么办。而DeepAgent就像一个经验丰富的大厨,能根据实际情况灵活调整,甚至自己去找新的调料和工具。这项研究的突破性进展在于,DeepAgent能够在一个连续的思考过程中,自主决定需要什么工具、主动去寻找和使用这些工具,还能管理自己的"记忆",避免被海量信息淹没。

研究团队在八个不同的测试场景中验证了DeepAgent的能力,这些场景涵盖了从使用上万个不同工具到完成复杂的购物、游戏等任务。实验结果显示,DeepAgent的表现大幅超越了现有的各种AI助手系统,特别是在需要动态发现和使用大量工具的开放场景中,优势更加明显。这项研究为打造更加通用、更加智能的AI助手迈出了重要一步,让我们距离拥有真正像人类一样工作的AI助手又近了一大步。

AI助手的困境:为什么现有方案像在走迷宫

要理解DeepAgent的创新,我们得先看看现在的AI助手有什么问题。假设你在一个巨大的图书馆里找书,现在的AI助手就像一个只会按照预定路线走的机器人。它会严格按照"先去A区查目录,再去B区找书架,然后去C区取书"这样的固定流程。这种方式在简单任务中还行,但遇到复杂情况就麻烦了。

比如说,你想组织一个电影节,需要在Vimeo上找纪录片、找电影圈的嘉宾、还要获取YouTube视频链接。传统的AI助手会这样工作:首先,它要你提前告诉它需要用哪些工具,就像你出门前必须把一天要用的所有东西都装进背包一样。然后它会一步步按照预设的计划执行:第一步搜索,第二步筛选,第三步整理结果。这个过程看起来很有条理,但问题是,真实世界的任务往往不会按照预想的那样发展。

就拿最常见的ReAct方法来说,它的工作方式是"思考-行动-观察"的循环。就像一个小学生做算术题,每做一步都要停下来想一想,然后再做下一步。这种方式在处理简单问题时还可以,但当任务变得复杂,需要调用很多不同工具、处理大量信息时,这种一步步的方式就显得笨拙了。更关键的是,这些传统方法缺乏全局视野,它们只关注当前这一步该做什么,却不能站在更高的角度思考整个任务应该如何完成。

另一个大问题是工具的使用。现在有些AI助手确实能使用工具,比如OpenAI的o1模型可以上网搜索、浏览网页、写代码。但这些工具都是事先定好的,就像给它配备了一个固定的工具箱。如果遇到新问题需要新工具,它就傻眼了。想象一下,如果你的私人助手只会用你给他的那几个工具,遇到新情况不懂得自己去找合适的工具来解决,这样的助手能有多大用处呢?

最后还有个致命问题:记忆管理。随着AI助手执行的任务越来越复杂,它需要记住的信息也越来越多。就像你读一本很长的侦探小说,如果不做笔记总结,到最后可能连前面的线索都忘光了。现有的AI助手在处理长时间、多步骤的任务时,要么被海量的历史信息拖慢速度,要么在信息堆积中迷失方向,找不到重点。这就像一个管家的办公桌上堆满了各种便签纸,最后连自己都搞不清哪些是重要的,哪些是可以扔掉的。

正是因为这些问题,研究团队才决定开发DeepAgent,让AI助手真正像人一样工作。

DeepAgent的魔法:在一次完整思考中搞定所有事

而且,DeepAgent始终保持着对整个任务的全局把控。它不会像传统助手那样只盯着眼前的一小步,而是始终记得最终目标是什么,已经完成了什么,还需要做什么。这种全局视角让它能够做出更明智的决策,避免在细枝末节上浪费时间。就像一个优秀的项目经理,他清楚地知道项目的最终交付物是什么,当前进度如何,接下来应该把精力放在哪里,而不会在不重要的小事上纠缠不清。

记忆管理的智慧:像大脑一样整理信息

如果说自主思考和工具发现是DeepAgent的两大法宝,那么智能的记忆管理就是它的第三个秘密武器。这个问题在长期任务中特别重要。想象你在侦破一个复杂的案件,随着调查深入,线索越来越多,如果不做好笔记和整理,很快就会被信息淹没。

训练数据也很讲究。研究团队收集了四大类任务数据:一类是通用工具使用,教它如何使用各种各样的工具;一类是真实环境交互,比如玩游戏、网购等,教它如何与环境互动;一类是深度研究任务,教它如何上网搜索信息、浏览网页;还有一类是数学推理,教它如何用代码解决数学问题。这种多样化的训练让DeepAgent成为一个全能型选手,而不是只擅长某一类任务的专才。

真实考验:八大战场的全面验证

说得再好听,最终还是要看实际表现。研究团队把DeepAgent放到了八个不同的测试场景中,这些场景有的考验工具使用能力,有的考验在复杂环境中完成任务的能力,全方位检验DeepAgent是否真的像宣传的那样厉害。

第一组测试是通用工具使用场景。这里包括ToolBench这个巨无霸数据集,里面有超过一万六千个真实世界的API工具,测试AI能否在海量工具中找到合适的并正确使用。还有API-Bank,包含七十多个API和七百多个测试用例,考察AI的规划能力、工具检索能力和调用能力。另外还有TMDB电影数据库和Spotify音乐播放器的模拟场景,看AI能否像真人一样操作这些应用。最后是ToolHop,这是一个需要连续调用三到七个不同工具才能完成的多跳推理任务。

在这些通用工具测试中,DeepAgent的表现相当抢眼。在最难的场景中,当需要AI自己去大量工具中检索需要的工具时(不是事先告诉它用哪些),DeepAgent的成功率达到了百分之六十四,而传统的ReAct方法最好也就百分之五十五。在Spotify和TMDB这些实际应用场景中,DeepAgent的成功率都超过了百分之五十,而基准方法大多只有百分之二十到三十。

来源:码客人生一点号

相关推荐