开源破局！UserBench+UserRL打造全球首个「以人为本」AI生态

摘要：你说“行程很紧”，它可能给你推一堆中转航班；你说“想找个安静的餐厅”，它直接甩来十家，压根不问你预算或口味。

现在的AI在代码、数学上确实挺给力，工具用得也溜，但跟人打交道时总差点意思。

你说“行程很紧”，它可能给你推一堆中转航班；你说“想找个安静的餐厅”，它直接甩来十家，压根不问你预算或口味。

说白了，这些AI会“解题”，却不懂“知人”，这就是当下智能体的最大症结。

不过最近UIUC和Salesforce的团队搞出了两个东西，UserBench和UserRL，倒是把“懂人”这事儿从口号变成了能落地的技术，今天就跟大家唠唠这俩到底咋让AI学会“以人为本”的。

以前测AI能力，大多是让它做一套固定题目，答对得分就行。

但UserBench不一样，它直接模拟真实的人际交互场景，专门揪AI“不懂人”的毛病。

它抓了三个核心问题，这三个问题怕是咱们平时跟人打交道时最常遇到的。

第一个是“模糊性”，就是你没把需求说全，AI得主动问。

比如你说“想订个酒店”，没说住几天、要不要早餐，AI要是直接给推荐，那肯定不对。

第二个是“渐进性”，需求是聊出来的，不是一开始就定死的。

比如你先说去北京玩，聊着聊着才说要带老人，这时候AI得能跟上你的思路调整推荐。

第三个是“间接性”，得能猜你话里的潜台词，就像你说“不想太折腾”，其实是在说“要直飞、少走路”。

为了把这三个问题测明白，UserBench选了旅行规划当测试场景，涵盖交通、酒店这些常用需求。

而且它给AI挖的坑还不少，数据库返回的结果分三种：对的、错的、还有没用的噪声信息。

比如你明确说“带宠物”，它可能混进去几个“禁止宠物入内”的酒店，看AI能不能筛出来。

这种测试才像真跟人打交道，毕竟现实里没人会把需求列成清单给你，AI要是连这关都过不了，谈何“懂人”？

测出来的结果也挺有意思，不少平时看着很厉害的AI，短板一下就露出来了。

比如让AI只能给一次答案，得分能掉不少，说明它平时靠多试几次蒙对的，真要做抉择就慌了。

还有个点我觉得特真实，AI用工具搜信息的能力都还行，但跟人对话澄清需求的本事就差远了。

搞不清用户到底要啥，光会搜有啥用？这也说明，AI要“懂人”，不是光堆算力就行，得在交互上下功夫。

光测出问题不行啊，知道AI不懂人，还得教它怎么懂。

这时候UserRL就登场了，它把UserBench的“检测仪”变成了“教练”，专门训练AI在交互里学聪明。

UserRL的思路很简单，既然UserBench能模拟真实交互，那就在这个基础上搭个训练环境，让AI在里面反复练，练对了给奖励，练错了就调整。

它还特意设计了八种不同的场景，覆盖的面特别广。

比如有的场景练怎么挖用户偏好，像帮人规划旅行时，怎么问出“带不带老人”“预算多少”这些关键信息；有的场景练怎么说服人，比如劝用户选性价比更高的方案，还不能让人反感；甚至还有“海龟汤”这种需要推理的场景，练AI怎么一步步猜中用户的想法。

最关键的是，UserRL不只看AI最后答没答对，更看重中间的过程。

本来想，AI只要最后给对结果就行，后来发现完全不是这么回事。

比如帮人订酒店，AI先问清“带不带宠物”，再去搜，比直接搜一堆然后让用户自己挑靠谱多了。

所以UserRL专门设计了两层奖励，不光看整个过程的总得分，每一步对话、每一次搜索做得好，也给奖励。

这样AI就知道，不是光等最后答对就行，中间“问对问题”更重要。

训练效果也挺明显，经过UserRL练过的AI，在跟人交互的场景里表现好了不少，甚至在有些任务上超过了那些闭源的大模型。

而且有个点我觉得很实用，训练前先给AI做个小规模的监督微调，效果能好很多，避免AI一开始就走歪路。

还有个小发现，用不同的模型模拟用户来训练，AI的进步也不一样，不过就算用开源的模型当“陪练”，效果也不差，这对很多开发者来说太友好了，不用依赖昂贵的模型也能练AI。

现在UserBench和UserRL都开源了，不少领域已经开始用它们来优化AI。

比如医疗里，AI可以先跟病人聊，理清病情细节再给医生参考；教育里，AI帮学生改作文时，能先问清学生的想法，再给建议，不是直接替学生写。

这才是“以人为本”的AI该有的样子，不是替人干活，是帮人把事办得更顺，懂人的需求，也尊重人的想法。

说到底，AI从“知题”到“知人”，不是一步到位的事，但UserBench和UserRL给了一条明确的路。

它们没搞那些虚的，而是把“懂人”拆成了可测试、可训练的步骤。

未来的AI，要是都能像这样在交互里学聪明，能问对问题、懂人需求，那才真的能成为人的好伙伴。

这大概就是“以人为本”的真正意义，AI不是要变得比人厉害，而是要变得更懂人，更能帮到人。

来源：围炉夜话

标签：开源生态 userrl userbench 开源破局

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!