摘要:不同于之前“回答我”系列那种抽象展示,今天的AI视频更聪明,它学会了“街访”。
但凡你最近刷过任何一个视频平台,都很难绕过各种AI生成视频。
不同于之前“回答我”系列那种抽象展示,今天的AI视频更聪明,它学会了“街访”。
AI生成的主持人追着历史人物、卡通形象甚至动物聊天,表情自然,动作也很流畅。
网友惊叹:“AI生成的画面已经真的可怕。”
这几周,Sora2生成的AI短视频在社交平台上疯狂刷屏。
但看多了你就会发现一个共同点,他们讲中文的语气很奇怪。
视频中AI生成的主持人,都带着一种莫名的“跨国会议腔”。
视频中的人有一种“AI专属口音”。
“奶奶”被读成了“lailai”,一句“你好吗”变成了“ni ha ma”。
如同前几年AI不会数手指的笑谈。
如今的AI视频,同样在输出一种地域模糊的四不像方言。
为什么AI已经能造梦,却还是讲不好普通话?
其实,AI有口音并不算新鲜事。
早在2024年,《财富》杂志就在自己官网上推出了AI配音功能,结果网页朗读的中文语音就是“河南普通话”。
图/外研社微信公众号
当时,AI口音就曾引发过一波网友讨论。
后来,随着AI语音的普及,类似情况在语音导航、AI客服、数字人主播中也屡见不鲜:
某导航APP更新AI语音包后,被用户吐槽“有一种迷惑的口音,像是结合了广西各地方言。”
某短视频AI配音语音库,语句尾音拖得像自创的粤语。
有人用AI生成播客,网友听完评价:“像东北阿姨在学播音腔。”
声音的真假越来越模糊,以至于有观众怀疑:电视剧、短剧里演员的声音,是不是也被AI“复刻”了?
想理解这种“AI口音”,得先承认一个事实:
很多社交媒体上流行的AI工具,本身并不是在中文世界里长大的。
Sora和它的“竞品们”大多在英语环境中训练。
而他们的“中文能力”,其实是事后补课的产物。
这些模型训练语料,大部分来自商业语料库,而这些库中“标准普通话”资源极度集中在少数地区或特定说话人。
例如,有研究发现部分中文TTS(文本转语音)训练集确实使用了来自中原地区的发音数据,使机器“普通话”带出微妙的方言味。
AI并不知道什么是“标准”,它只知道:谁的数据多,就学谁的口音。
从算法角度看,它不过是在模仿出现频率最高的发音模式。
于是就有了“AI口音”,即算法学习后“平均中国人”的发音方式。
你听起来不对,却又说不清哪里不对。
更奇妙的是,当AI尝试“多方言融合”时,就出现了“方言缝合怪”.
有人在B站测试AI说上海话,结果成了“粤语声调+苏州语气+普通话词序”。
而一些AI说四川话时,却输出了“日语+西南官话”的怪异混搭。
中文的难,不在声母韵母,而在一种“语感”。
AI能识别拼音,却听不懂“言外之意”。
能掌握语法,却很难进一步理解“气口”和“留白”。
中文的博大精深,恰恰就在于含糊。
简单一句“行啊”,可能意味着“好啊”“可以”“不行”“你自己看着办”——四种情绪,全靠语气区分。
于是,我们听到的AI配音就像“语言的壳”:节奏怪异、语调僵硬、情绪缺席。
它在说话,但没在“沟通”。
另一方面,中文本身就很复杂。
地大物博的另一面就是语言的多样性。
从“沿海的软”到“高原的硬”,到“北方人的直爽”“南方人的轻声”。
方言的多样,让中文自带巨大的“口音宇宙”。
机器可以学习标准,却学不来“弹性”。
而正是这种弹性,让语言有了地方特色。
过去一年,我们见证了AI生成的“假人”越来越逼真,他们会眨眼、能微笑、爱唱歌、不知疲倦地带货。
可一开口,说出那句带着AI口音和蹩脚停顿的“大家好”。
你我就会立刻出戏,意识到:它不是“人”。
人类说话,从来不是“技术动作”,而是直接的情绪反应。
每个人用自己的语气说一句“你吃了吗”,表达都可能完全不同。
AI的语音模型能在技术上实现“完美拟真”,但在心理上永远缺乏一种灵动:
它不知道什么时候该留白、什么时候要“嗯”一声表示共情。
某种程度上,语言也许是AI拟人化的最后一道门槛。
AI擅长造梦,却还没学会语言背后的惊讶和追问。
也许人类语言的“迟钝”“犹豫”“转折”,也是一种很难被复制的智能。
撰文:杨一凡
校对:柳宝庆
本文由硬壳INK出品,欢迎大家在朋友圈分享
每周一、三、五更新
未经许可,禁止转载复制使用
来源:每日旅游新闻一点号