摘要:你说“行程很紧”,它可能给你推一堆中转航班;你说“想找个安静的餐厅”,它直接甩来十家,压根不问你预算或口味。
现在的AI在代码、数学上确实挺给力,工具用得也溜,但跟人打交道时总差点意思。
你说“行程很紧”,它可能给你推一堆中转航班;你说“想找个安静的餐厅”,它直接甩来十家,压根不问你预算或口味。
说白了,这些AI会“解题”,却不懂“知人”,这就是当下智能体的最大症结。
不过最近UIUC和Salesforce的团队搞出了两个东西,UserBench和UserRL,倒是把“懂人”这事儿从口号变成了能落地的技术,今天就跟大家唠唠这俩到底咋让AI学会“以人为本”的。
以前测AI能力,大多是让它做一套固定题目,答对得分就行。
但UserBench不一样,它直接模拟真实的人际交互场景,专门揪AI“不懂人”的毛病。
它抓了三个核心问题,这三个问题怕是咱们平时跟人打交道时最常遇到的。
第一个是“模糊性”,就是你没把需求说全,AI得主动问。
比如你说“想订个酒店”,没说住几天、要不要早餐,AI要是直接给推荐,那肯定不对。
第二个是“渐进性”,需求是聊出来的,不是一开始就定死的。
比如你先说去北京玩,聊着聊着才说要带老人,这时候AI得能跟上你的思路调整推荐。
第三个是“间接性”,得能猜你话里的潜台词,就像你说“不想太折腾”,其实是在说“要直飞、少走路”。
为了把这三个问题测明白,UserBench选了旅行规划当测试场景,涵盖交通、酒店这些常用需求。
而且它给AI挖的坑还不少,数据库返回的结果分三种:对的、错的、还有没用的噪声信息。
比如你明确说“带宠物”,它可能混进去几个“禁止宠物入内”的酒店,看AI能不能筛出来。
这种测试才像真跟人打交道,毕竟现实里没人会把需求列成清单给你,AI要是连这关都过不了,谈何“懂人”?
测出来的结果也挺有意思,不少平时看着很厉害的AI,短板一下就露出来了。
比如让AI只能给一次答案,得分能掉不少,说明它平时靠多试几次蒙对的,真要做抉择就慌了。
还有个点我觉得特真实,AI用工具搜信息的能力都还行,但跟人对话澄清需求的本事就差远了。
搞不清用户到底要啥,光会搜有啥用?这也说明,AI要“懂人”,不是光堆算力就行,得在交互上下功夫。
光测出问题不行啊,知道AI不懂人,还得教它怎么懂。
这时候UserRL就登场了,它把UserBench的“检测仪”变成了“教练”,专门训练AI在交互里学聪明。
UserRL的思路很简单,既然UserBench能模拟真实交互,那就在这个基础上搭个训练环境,让AI在里面反复练,练对了给奖励,练错了就调整。
它还特意设计了八种不同的场景,覆盖的面特别广。
比如有的场景练怎么挖用户偏好,像帮人规划旅行时,怎么问出“带不带老人”“预算多少”这些关键信息;有的场景练怎么说服人,比如劝用户选性价比更高的方案,还不能让人反感;甚至还有“海龟汤”这种需要推理的场景,练AI怎么一步步猜中用户的想法。
最关键的是,UserRL不只看AI最后答没答对,更看重中间的过程。
本来想,AI只要最后给对结果就行,后来发现完全不是这么回事。
比如帮人订酒店,AI先问清“带不带宠物”,再去搜,比直接搜一堆然后让用户自己挑靠谱多了。
所以UserRL专门设计了两层奖励,不光看整个过程的总得分,每一步对话、每一次搜索做得好,也给奖励。
这样AI就知道,不是光等最后答对就行,中间“问对问题”更重要。
训练效果也挺明显,经过UserRL练过的AI,在跟人交互的场景里表现好了不少,甚至在有些任务上超过了那些闭源的大模型。
而且有个点我觉得很实用,训练前先给AI做个小规模的监督微调,效果能好很多,避免AI一开始就走歪路。
还有个小发现,用不同的模型模拟用户来训练,AI的进步也不一样,不过就算用开源的模型当“陪练”,效果也不差,这对很多开发者来说太友好了,不用依赖昂贵的模型也能练AI。
现在UserBench和UserRL都开源了,不少领域已经开始用它们来优化AI。
比如医疗里,AI可以先跟病人聊,理清病情细节再给医生参考;教育里,AI帮学生改作文时,能先问清学生的想法,再给建议,不是直接替学生写。
这才是“以人为本”的AI该有的样子,不是替人干活,是帮人把事办得更顺,懂人的需求,也尊重人的想法。
说到底,AI从“知题”到“知人”,不是一步到位的事,但UserBench和UserRL给了一条明确的路。
它们没搞那些虚的,而是把“懂人”拆成了可测试、可训练的步骤。
未来的AI,要是都能像这样在交互里学聪明,能问对问题、懂人需求,那才真的能成为人的好伙伴。
这大概就是“以人为本”的真正意义,AI不是要变得比人厉害,而是要变得更懂人,更能帮到人。
来源:围炉夜话