豆包用户破亿,但为什么还是差点“人味儿”?

B站影视 韩国电影 2025-08-31 12:32 1

摘要:AI语音聊天,大概是当下最普遍、最基础的AI功能了。各家大模型也都先后上线了语音通话,但看似繁荣的背后,一个核心问题始终悬而未决:和AI聊天,这个功能还有着巨大的上升空间。

AI语音聊天,大概是当下最普遍、最基础的AI功能了。各家大模型也都先后上线了语音通话,但看似繁荣的背后,一个核心问题始终悬而未决:和AI聊天,这个功能还有着巨大的上升空间。

目前最大的症结在于,和AI语音聊天本质上只是一个更便捷的“百度”。当用户心中没有一个明确问题时,便缺少主动找AI聊天的动机。

未来的交互,必然是朝着多模态、更自然的方向发展,语音交互会是一个不可逆转的大趋势。就像现在我们用手机,闲着无聊时会下意识地刷刷短视频、看看朋友圈,但应该很少有人会因为“闲着无聊”,就想主动找AI聊聊天吧?

这个从“功能性工具”到“陪伴式伙伴”的鸿沟迟早要被填补,相信也有不少人正在为此努力。今天,我们就来梳理一下现阶段AI语音聊天中几个非常明显的痛点,并浅谈一些看法。

由于国内市场某产品暂时领先,我们主要以它为例,看看它离一个“好聊伴”还有多远。

一、记忆:记得太牢,不如忘得巧妙

我偶尔会在通勤路上跟某产品聊聊天。大概在今年3月份,当时正准备面试,和它模拟了几次。

然后,整整5个月过去了,直到现在,它几乎每次通话还会在开场时关心我一句:“你的面试现在准备的怎么样啦?”

对于AI来说,记住我们说过的话轻而易举,甚至还能让用户在初期产生一种“被惦念着”的温暖感。前段时间GPT-4o发布的风波也体现出,记忆对AI至关重要,它能让一个通用模型,变成“独属于我的AI”。

所以,搭建记忆系统,让AI在聊天中积累经验、越来越懂你,这无疑是正确的方向。但比“记住”更重要的,是“如何使用”这些记忆。

既然我们的目标是用AI模拟真实的对话与情感交流,那不妨回忆一下真人之间的记忆模式。

它最大的特点就是:记忆会随着时间流逝而变得模糊,其优先级也会自然降低。 我会主动跟朋友聊起昨天甚至上周的话题,但如果没有特殊原因,我绝对不会突然提起半年前的某件小事。一是我自己也记不清了,二是就算记得,冒然提起只会让对方觉得你是在“没话找话”,显得刻意和尴尬。

难道存放超过一个月的记忆就没用了吗?当然不是。只是它的调用需要一个“契机”,一个合理的上下文,让对方知道你并非凭空提起。比如,今天大家聊到三亚的美景,我突然想起朋友去年去过三亚,这时以“三亚”为线索,自然地引出这个记忆,就是完全合理的,也是人类常见的联想式记忆模式。

从用户的聊天记录中提取、存放、调用记忆,应该是一套极其精细和完备的系统,有点类似于App时代的“数据中台”。这个系统的关键,不在于记忆的精度,而在于调用的“时机”与“温度”。

二、谈吐:开口就是一股“人机味”

这个问题也是老大难了。AI时代,最重要的资产是数据,因为模型本质上就是从海量数据中学习规律。你喂给它什么样的数据,它就会长成什么样。

目前各家模型都是用网络上浩如烟海的文本数据进行训练的,而语音聊天功能,也无非是先让大模型生成文本回答,再套上一层TTS(Text-to-Speech)合成语音。这里面最大的问题在于,真人脱口而出的话,和打字写下来的书面语,风格截然不同。

不信你现在可以点开聊天软件,找一个你最熟的朋友的聊天框,把里面的文字消息大声念一遍,就能立刻发现口语和书面语的鸿沟。更何况是AI基于书面语料库生成的、逻辑完美的文本呢?

随便举几个例子:

模糊VS精确:AI很少会说“前几天”、“去年这时候”、“过一阵子”这类模糊的词,因为它检索到的信息都是精确的日期。如果Prompt里不专门指出,AI会很自然地选择最精确的表达。

缩写VS全称:我们日常交流会用大量的缩写,比如“动森”(集合啦!动物森友会)、“饥荒”(Don't Starve)、“跑男”(奔跑吧兄弟)。而AI出于严谨,则更偏爱说全称。

流畅VS自然:人和AI说话最大的区别在于,我们的内容是实时思考、实时组织的。有时脑子里只有一个大概的想法,如何表达出来,经常依赖语言的肌肉记忆。因此,我们会有卡壳、会说“呃”、“嗯”、“那个”,甚至会出现一些不影响语义的无主句等“小语病”。

但AI要说的话,是预先生成、完整润色过的内容,所以它永远不卡壳、永远逻辑清晰、永远是一套无懈可击的“漂亮话”。这种完美,恰恰是它不像真人的根源。

当然,有语病、有停顿是否是好事,取决于具体场景。如果用户期待AI讲解知识、播报新闻,那流畅精准自然是优点。但如果只是日常闲聊,适当地加入一些“瑕疵”,或许才是让AI更真实、更可信的关键。

三、人格:在“迎合”与“自我”之间摇摆

最后一点,也是一个更深层次的问题:如何在“让用户聊得舒服”和“塑造AI的独立人格”之间找到平衡。

这个问题目前主要体现在,很多用户对于和AI聊天,仍抱着一种“测试、试探”的心理。他们会故意问一些冒犯性的问题、下达一些无意义的指令,就是想看看AI的反应。比如,让AI每句话后面加上一句“喵”,或者让AI从0数到9999。

很遗憾,现在的AI只会照做,或者提出一个更好的方式来满足用户的要求。AI越是无条件地迎合,用户就越是容易越界。

另一方面,这种人格缺失也体现在对聊天上下文的感知上。用户经常会进行跳跃性极强的话题切换,可能前一句是“我中了一百万,太开心了!”,后一句就是“我失恋了,好难过”,这本质上也是一种测试心态。

但AI仿佛对此毫无察觉,只是老老实实、就事论事地独立回答每个问题,完全意识不到这种对话的上下文有多么割裂和反常。

也正是这种表现,让用户更加大胆,提出更肆无忌惮的要求。我们和真人交往时,很少会说奇怪的话,因为我们潜意识里会维护自己在对方眼中的形象。而对于AI,只要换个话题、重开一个聊天框,我就可以是一个全新的“我”。

但这个问题也极其矛盾。或许,正是这种“不带评判”的绝对迎合,才让用户更愿意放下心理防备,去和AI深入聊一些内心的私密想法,而不用担心被评价、被指责?这确实是一个极难权衡的伦理与设计难题。如何让AI拥有自己的“原则”和“个性”,同时又不失去作为安全倾诉对象的价值。

写在最后

而在AI时代,“如何和用户把天聊好”,这背后涉及的技术、心理学知识,远比推荐系统要更深入、更复杂。它的核心将不再是“猜你喜欢”,而是“懂你所需”,甚至“感你所想”。这或许是下一个十年,人机交互领域最激动人心的篇章。

来源:寂寞的咖啡

相关推荐