豆包用户破亿，但为什么还是差点“人味儿”？

摘要：AI语音聊天，大概是当下最普遍、最基础的AI功能了。各家大模型也都先后上线了语音通话，但看似繁荣的背后，一个核心问题始终悬而未决：和AI聊天，这个功能还有着巨大的上升空间。

AI语音聊天，大概是当下最普遍、最基础的AI功能了。各家大模型也都先后上线了语音通话，但看似繁荣的背后，一个核心问题始终悬而未决：和AI聊天，这个功能还有着巨大的上升空间。

目前最大的症结在于，和AI语音聊天本质上只是一个更便捷的“百度”。当用户心中没有一个明确问题时，便缺少主动找AI聊天的动机。

未来的交互，必然是朝着多模态、更自然的方向发展，语音交互会是一个不可逆转的大趋势。就像现在我们用手机，闲着无聊时会下意识地刷刷短视频、看看朋友圈，但应该很少有人会因为“闲着无聊”，就想主动找AI聊聊天吧？

这个从“功能性工具”到“陪伴式伙伴”的鸿沟迟早要被填补，相信也有不少人正在为此努力。今天，我们就来梳理一下现阶段AI语音聊天中几个非常明显的痛点，并浅谈一些看法。

由于国内市场某产品暂时领先，我们主要以它为例，看看它离一个“好聊伴”还有多远。

一、记忆：记得太牢，不如忘得巧妙

我偶尔会在通勤路上跟某产品聊聊天。大概在今年3月份，当时正准备面试，和它模拟了几次。

然后，整整5个月过去了，直到现在，它几乎每次通话还会在开场时关心我一句：“你的面试现在准备的怎么样啦？”

对于AI来说，记住我们说过的话轻而易举，甚至还能让用户在初期产生一种“被惦念着”的温暖感。前段时间GPT-4o发布的风波也体现出，记忆对AI至关重要，它能让一个通用模型，变成“独属于我的AI”。

所以，搭建记忆系统，让AI在聊天中积累经验、越来越懂你，这无疑是正确的方向。但比“记住”更重要的，是“如何使用”这些记忆。

既然我们的目标是用AI模拟真实的对话与情感交流，那不妨回忆一下真人之间的记忆模式。

它最大的特点就是：记忆会随着时间流逝而变得模糊，其优先级也会自然降低。我会主动跟朋友聊起昨天甚至上周的话题，但如果没有特殊原因，我绝对不会突然提起半年前的某件小事。一是我自己也记不清了，二是就算记得，冒然提起只会让对方觉得你是在“没话找话”，显得刻意和尴尬。

难道存放超过一个月的记忆就没用了吗？当然不是。只是它的调用需要一个“契机”，一个合理的上下文，让对方知道你并非凭空提起。比如，今天大家聊到三亚的美景，我突然想起朋友去年去过三亚，这时以“三亚”为线索，自然地引出这个记忆，就是完全合理的，也是人类常见的联想式记忆模式。

从用户的聊天记录中提取、存放、调用记忆，应该是一套极其精细和完备的系统，有点类似于App时代的“数据中台”。这个系统的关键，不在于记忆的精度，而在于调用的“时机”与“温度”。

二、谈吐：开口就是一股“人机味”

这个问题也是老大难了。AI时代，最重要的资产是数据，因为模型本质上就是从海量数据中学习规律。你喂给它什么样的数据，它就会长成什么样。

目前各家模型都是用网络上浩如烟海的文本数据进行训练的，而语音聊天功能，也无非是先让大模型生成文本回答，再套上一层TTS（Text-to-Speech）合成语音。这里面最大的问题在于，真人脱口而出的话，和打字写下来的书面语，风格截然不同。

不信你现在可以点开聊天软件，找一个你最熟的朋友的聊天框，把里面的文字消息大声念一遍，就能立刻发现口语和书面语的鸿沟。更何况是AI基于书面语料库生成的、逻辑完美的文本呢？

随便举几个例子：

模糊VS精确：AI很少会说“前几天”、“去年这时候”、“过一阵子”这类模糊的词，因为它检索到的信息都是精确的日期。如果Prompt里不专门指出，AI会很自然地选择最精确的表达。

缩写VS全称：我们日常交流会用大量的缩写，比如“动森”（集合啦！动物森友会）、“饥荒”（Don't Starve）、“跑男”（奔跑吧兄弟）。而AI出于严谨，则更偏爱说全称。

流畅VS自然：人和AI说话最大的区别在于，我们的内容是实时思考、实时组织的。有时脑子里只有一个大概的想法，如何表达出来，经常依赖语言的肌肉记忆。因此，我们会有卡壳、会说“呃”、“嗯”、“那个”，甚至会出现一些不影响语义的无主句等“小语病”。

但AI要说的话，是预先生成、完整润色过的内容，所以它永远不卡壳、永远逻辑清晰、永远是一套无懈可击的“漂亮话”。这种完美，恰恰是它不像真人的根源。

当然，有语病、有停顿是否是好事，取决于具体场景。如果用户期待AI讲解知识、播报新闻，那流畅精准自然是优点。但如果只是日常闲聊，适当地加入一些“瑕疵”，或许才是让AI更真实、更可信的关键。

三、人格：在“迎合”与“自我”之间摇摆

最后一点，也是一个更深层次的问题：如何在“让用户聊得舒服”和“塑造AI的独立人格”之间找到平衡。

这个问题目前主要体现在，很多用户对于和AI聊天，仍抱着一种“测试、试探”的心理。他们会故意问一些冒犯性的问题、下达一些无意义的指令，就是想看看AI的反应。比如，让AI每句话后面加上一句“喵”，或者让AI从0数到9999。

很遗憾，现在的AI只会照做，或者提出一个更好的方式来满足用户的要求。AI越是无条件地迎合，用户就越是容易越界。

另一方面，这种人格缺失也体现在对聊天上下文的感知上。用户经常会进行跳跃性极强的话题切换，可能前一句是“我中了一百万，太开心了！”，后一句就是“我失恋了，好难过”，这本质上也是一种测试心态。

但AI仿佛对此毫无察觉，只是老老实实、就事论事地独立回答每个问题，完全意识不到这种对话的上下文有多么割裂和反常。

也正是这种表现，让用户更加大胆，提出更肆无忌惮的要求。我们和真人交往时，很少会说奇怪的话，因为我们潜意识里会维护自己在对方眼中的形象。而对于AI，只要换个话题、重开一个聊天框，我就可以是一个全新的“我”。

但这个问题也极其矛盾。或许，正是这种“不带评判”的绝对迎合，才让用户更愿意放下心理防备，去和AI深入聊一些内心的私密想法，而不用担心被评价、被指责？这确实是一个极难权衡的伦理与设计难题。如何让AI拥有自己的“原则”和“个性”，同时又不失去作为安全倾诉对象的价值。

写在最后

而在AI时代，“如何和用户把天聊好”，这背后涉及的技术、心理学知识，远比推荐系统要更深入、更复杂。它的核心将不再是“猜你喜欢”，而是“懂你所需”，甚至“感你所想”。这或许是下一个十年，人机交互领域最激动人心的篇章。

来源：寂寞的咖啡

标签：模型语音豆包三亚书面语

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!